译文质量评价

问题的提出：

　　机器翻译的研究必然伴随着翻译质量评价，质量评价是研究翻译领域不可或缺的反馈环节。评价译文质量的应用需求十分广泛，

不仅机器翻译系统需要评测和对比，在译文的出版编辑、语言翻译教学等领域也需要对译文的质量进行评价。译文质量评价是一个

主观性较强的问题，评分的高低实质上是对评价者而言译文的可接受程度。同一个译文，不同的评价者或同一个评价者多次翻译的

结果可能并不完全一致。

　　面对海量译文，人工评价显得越来越力不从心。尤其是在机器翻译快速发展的今天，需要快速发现译文中的错误、调节翻译系

统中的参数、评价系统性能、进行不同系统的比较等，使得质量自动评价的研究也成为热点。2010年，ACL首次将翻译评价标准和

机器翻译、系统综合一起列为统计机器翻译的三大研讨问题。

翻译评价研究分类：

　　（1）根据研究对象的不同来分类

　　（2）根据评价方式的不同来分类

　　（3）根据实现的方法不同来分类

　　在基于以上三点的情况下有从有无参考译文、评价粒度及对语言知识的依赖程度等进一步细分。

根据译文的来源：

人类译文：

　　人类译文的自动评价更多的模拟专家评价的思想。人类译文自动评价的方式包括评分和诊断两类，实现评价是通常有加分法和减

分法两种：

　　　　加分法是通过累计正确的得分点的分数来对译文进行打分

　　　　减分法是基于译文中的错误从满分值中做减法。

　　大多数质量评价基于错误分类方案进行，即根据错误数及错误的严重程度实行减分。而错误分为两类，大错和小错。大错是指译文

基本成分的错，错误将导致语义混乱。小错是指使用了不恰当或不正确的表达方式或语法。当然，评价译文质量的高低常常还有一个人

们对错误的容忍度的问题，因此关于错误体系的构建成为核心研究问题，例如美国翻译家协会ATA将错误划分为22种类型，不同类型的

错由不同类型的分值。

　　对于学习者译文评价的研究也在开展，研究以加分法为主，首先需要有专家参与确定译文的评分点，然后通过统计评分点的出现情

况并综合其他特征，如译文的形式特征、译文和原文的对其特征等进行回归分析，从而得到译文的评分。

机器译文的评价方法：

　　机器译文自动评价的研究今年来如雨后春笋般出现，大致分为以下三类：诊断性评价、评分和排序。

诊断性评价：

　　诊断性评价今年来开展的工作最少，一种方法为人工将测试句中的重要语言测试点挑出来并分类，然后在机器译文中自动检测这些

测试点是否被正确翻译出来，从而评价译文质量。测试点分为词语、成语、词法、基本语法、中级语法和高级语法六类分别设定对质量

影响的权重然后利用加分法进行评分。另一种方法提出的用于 “ 863 ” 机器翻译评测的WoodPecker，对检测点实现了自动提取，减少了

对人工的依赖。

评分：

　　评分是最多的自动评价方式。评价机器译文时，根据有无参考译文又分为两种研究。有参考译文的评价是通过将待评价译文和参考

译文作比较，根据相似程度评分，这种研究居多。而不需要参考译文的评分也称为译文质量估计。根据译文的特征将译文质量简单分为

“ 好 ” 或 “ 坏 ” ，或者区分人类译文和非人类译文。质量估计被用来做二分类问题。

　　有参考译文：

　　　依赖参考译文的评价，参考译文就是标准答案，与参考译文越相似，译文质量越高，这个假设是评价算法的基本思想。而待求译

文和参考译文之间相似度的计算的方法多种多样，这些方法根据语言粒度可以分为词汇层面的相似和句子或语篇层面的相似，根据对语

言知识的依赖程度又可以分为非语言、轻语言和重语言。

　　非语言的方法通常不需要语言层面的分析来计算相似，常见的有四种：

　　　　　　　　（1）基于编辑距离的方法如WER、PER、TER等。

　　　　　　　　（2）基于准确率的方法如BLUE、NIST、SIA等。

　　　　　　　　（3）基于召回率的方法如ROUGE等。

　　　　　　　　（4）基于综合指标的方法如GTM、PORT等。

　　轻语言的方法需要利用一些语言信息进行质量评价，如词性POS、同义词典等。著名的算法有METEOR、METEOR-NEXT等

　　重语言的相似求解方法则对译文进行较多的语法或语义层面的分析，从句法结构、重述、近义、文本蕴含等语言方面计算待评价译

文和参考译文的相似度。

排序法：

　　排序法适用于对一组译文进行评价，根据质量高低排序。

评价排序的优点有三：

　　（1）人工评测是，排序比打分更容易

　　（2）人工排序的评价的一致性比打分一致性更高。

　　（3）更适用于系统之间的比较。

　　可以将BLEU得分、依存关系匹配、困惑度融合到SVM学习方法中，根据SVM的得分对一组机器译文的优劣进行排序。影响译文

质量的因素是多方面的，常见的包括译文的流利度和充分性或可理解性等。