02-NLP-04基于统计的翻译系统-01预处理

基于统计的机器翻译：mosesdecoder作为比对翻译效果的baseline，如果不如这个的效果，就说明测试系统效果不算好。

首先看看一共需要以下三个模型：

语言模型：用来评估这句话的通畅程度。

1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。

2、翻译模型：实质是基于短语的（不是基于单词的翻译）

3、平行语料：只要中英文两个文件中行是相同的，那他们就是相互对应的中英文

4、在大量的平行语料中学习出该怎样去完成。可能会对词进行一些表示，例如word2vec等将文字表示为计算机能读懂的向量。然后做后续的映射。

5、基于统计的机器翻译就是做大量运算之后得到一个统计表：中文对应英文某表达的概率（可能有很多对应，但是每种对应方式会有不同大小的概率值）

6、对于数字、日期、时间、网址等这类不需要翻译（翻译前后都是一模一样的数字），无需为他们在统计表中记录下来，因此可以提前将所有苏子都转化为$number标记好，然后在训练时就直接原封不动的保留下来即可，不必放入统计表中计算映射关系。

这类均可以通过自行定义泛化名进行原文替换。同时，泛化可以很好地解决数据稀疏的问题（因为所给的这些量只会有很少的次数对应，有可能所有个文档中就出现一次）

因此，可以对所有你认为有必要且能规整为一个固定模式的量都进行这样的泛化处理。

7、提前将训练数据做好分词（可以利用jieba等）对整个文件做好分词。如果不做这些预处理，会有很多冗余的信息量，会浪费很多内存。