自动文档摘要技术简介

　　自动摘要生成技术，尤其是多文档摘要的研究目前来说一直深受关注。从定义上来说，多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。从应用上来说，一方面，在互联网上使用搜索引擎时候，搜索同一主题的文档往往会返回成千上万的网页，如果将这些网页形成一个统一的、精炼的、能够反映主要信息的摘要必然具有重要的意义。另一方面，对于互联网上某一新闻单位针对同一事件的报道会很多，如果能从这些相关性很强的报道中提炼出一个覆盖性强、形式简洁的摘要也同样具有重要意义。这两个就是自动摘要典型的应用。

　　对于单文档而言，一般就基于信息抽取方法。而对于多文档，同一主题中的不同文档之间难免存在信息交叠和差异，因此，我们要避免信息冗余的同时，反映出不同文档之间的信息差异，这是多文档的首要目标。

　　对于单文档，输出的句子一般都是按照文中出现的顺序排列即可，而对于多文档，大多采用时间顺序，即先出现的文档，其中抽取的句子便排在前面。但是不管是单文档还是多文档，都必须面对三个关键问题：（1）文档冗余信息的识别和处理；（2）重要信息的识别；（3）生成文摘如何保证连贯性。

　　对于第一个问题，一种方法是，计算句子相似度做聚类识别公共信息；另一种做法是采用候选法，计算候选文段和已选文段之间的相似度。对于第二个问题，常用方法还是信息论的一些东西：抽取法和信息融合法。抽取法的基本思路就是选出每个聚类中有代表性的句子，默认代表整个类的主要信息；信息融合的目的是生成一个简介、通顺并能反映这些句子之间共同信息的句子之间的共同信息句子。为了保证抽取的句子的连贯性，需要排列句子的先后顺序。这主要是针对多文档的。目前有两种方法：一种是时间排序法，就是按照文档的生成时间排序；另一种是扩张排序算法是将有一定内容相关性的主题放在一起来降低不流畅性。

　　吴晓峰认为，目前摘录型的摘要生成方法仍然是主流，理解型还存在诸多问题。摘录型的主要思路是从文章中提取特征，这个特征的基本单位是句子。