基于统计的机器翻译

1. 中英文平行语料预处理
中文处理
数据泛化，解决数据稀疏问题
数字 $number
日期 $date
时间 $time
网址等 $literal
专有名词处理：如“东北大学信息学院”建议拆分为“东北大学”、“信息学院”，有助于抽取出更多翻译规则

英文
大小写
句尾结束符与最后单词用空格分开
数据泛化处理

其他
全角 > 半角
中英文同一类型泛化名最好一致，如时间
可crf或语言模型高性能中文分词
英文句尾与Mr.Smith区分
泛化结果一致性检验，如一方含$number另一方也应含$number
双语预处理工具，NiuPlan/NiuTrans.YourData.html

2. 词对齐
挑战：ambiguity, 一词多义；不同语言的句子构成结构
直译弊端：单个词很多ifelse费时
工具：GIZA++
（源-目标,目标-源，结果不同，
需合并 -> 1.双向对齐；2.邻居单向对齐且未与任何词双向对齐）

the Noisy Channel Model(噪声信道模型)