Python 文本摘要

下面将在文本分析领域处理一个稍微不同的问题。世界在科技、贸易、商业和媒体方面迅速发展。昔日我们等待包纸到家,从而了解更新世界各种活动信息的日子已经过去。现在有了互联网和各种形式的社交媒体,已用它们以保持日常事件信息的及时更新,并于外界以及亲戚朋友保持联系。通过短信和状态,像 Facebook 和 Twitter 这样的社交媒体网站开辟了完全不同的信息分享和应用维度。人类的注意力往往比较短暂,这导致我们在应用或阅读大文本文档和文章时会感到厌倦无聊。因此,产生了文本摘要(text summarization)技术,从而使它们仍然保留其主要内容或主题,并可以向消费者和客户展示这些摘要信息。这类似于电梯销售(elevator pitch),执行摘要可以描述过程、产品、服务或业务,同时它可以在乘坐电梯所需时间内保留其核心的真要主题和价值观。

假设你有一整条文本文档语料库,其范围从句子到段落,你的任务是尝试从中获得有意义的简介。乍一看,似乎很难,甚至不知道如何处理这些文件,更不用说对数据使用一些分析或机器学习技术。

好的方法是使用一些专门针对文本摘要的信息提取的无监督学习方法。以下是可以对文本文档进行的一些操作:

  • 提取文档中的关键影响短语。
  • 提取文档中存在的各种不同的概念或主题。
  • 总结文件,以提供保留着整个语料库重要部分的要点。
 
原文地址:https://www.cnblogs.com/dalton/p/11353957.html