文本摘要

文本摘要

整个的复习思路可以是先从github了解jieba,知道jieba分词，词性标注和关键字提取的使用

再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码

其中，关键字提取的算法，TF-IDF，Text-Rank算法的讲解，可以从以下文章复习

　　1）. text-rank基于的pagerank:

　　这个通俗易懂　　https://www.letiantian.me/2014-06-10-pagerank/

　　这个从矩阵层面讲解 https://zhuanlan.zhihu.com/p/32276862

　　　　　　　　 https://hunglish.github.io/2018/05/31/20180531TextRank%E6%8F%90%E5%8F%96%E5%85%B3%E9%94%AE%E8%AF%8D%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/

　　2）.tf-idf:一个单词在这篇文章中出现的次数很多的时候，这个词语更加重要；但如果它在所有文章中出现的次数都很多，那么它就显得不那么重要

https://zhuanlan.zhihu.com/p/60839697

　　3）. java实现TDIDF，TextRank

https://wulc.me/2016/05/28/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95%E7%9A%84%E7%A0%94%E7%A9%B6/

其他相关知识

Hanlp : https://github.com/hankcs/HanLP#14-%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96

Hanlp的word2vec https://github.com/hankcs/HanLP/wiki/word2vec

4.文本聚类，然后取簇中心的词做主语

https://www.jianshu.com/p/695eb0fd3745

7.N-gram模型（主要看第二部分，句子分词）

https://blog.csdn.net/baimafujinji/article/details/51281816

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/heyboom/p/10755439.html