TextRank算法原理及应用示例

       TextRank算法是一种文本排序算法,算法由谷歌的网页重要性排序算法PageRank算法改进而来。TextRank算法能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。二者的区别在于:PageRank算法根据网页之间的链接关系构造网络,而TextRank算法根据词之间的共现关系构造网络;PageRank算法构造的网络中的边是有向无权边,而TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下,其中Wji用于表示两个节点之间的边连接具有不同的重要程度

(WS(V_{i})=(1-d)+d*sum_{v_{j}in In(V_{i})}frac{w_{ji}}{sum_{v_{k}in Out(V_{j})}w_{jk}}WS(V_{j}))

 

      本文将介绍TextRank算法的基本原理,并给出Python中TextRank算法的中文文本实现模块textrank4zh的使用实例。

原文地址:https://www.cnblogs.com/nwnu-daizh/p/13254037.html