文本摘要

整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用

再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码

其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习

  1). text-rank基于的pagerank:

  这个通俗易懂  https://www.letiantian.me/2014-06-10-pagerank/

  这个从矩阵层面讲解 https://zhuanlan.zhihu.com/p/32276862

              https://hunglish.github.io/2018/05/31/20180531TextRank%E6%8F%90%E5%8F%96%E5%85%B3%E9%94%AE%E8%AF%8D%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/

  2).tf-idf:一个单词在这篇文章中出现的次数很多的时候,这个词语更加重要;但如果它在所有文章中出现的次数都很多,那么它就显得不那么重要

         https://zhuanlan.zhihu.com/p/60839697

  3). java实现TDIDF,TextRank

https://wulc.me/2016/05/28/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95%E7%9A%84%E7%A0%94%E7%A9%B6/

其他相关知识

Hanlp :  https://github.com/hankcs/HanLP#14-%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96

 Hanlp的word2vec  https://github.com/hankcs/HanLP/wiki/word2vec

4.文本聚类,然后取簇中心的词做主语

https://www.jianshu.com/p/695eb0fd3745

7.N-gram模型(主要看第二部分,句子分词)

https://blog.csdn.net/baimafujinji/article/details/51281816

原文地址:https://www.cnblogs.com/heyboom/p/10755439.html