信息领域热词分类分析02

1）项目名称：信息化领域热词分类分析及解释

2）功能设计：

数据采集：要求从定期自动从网络中爬取信息领域的相关热

词；

数据清洗：对热词信息进行数据清洗，并采用自动分类技术

生成信息领域热词目录，；

热词解释：针对每个热词名词自动添加中文解释（参照百度

百科或维基百科）；

热词引用：并对近期引用热词的文章或新闻进行标记，生成

超链接目录，用户可以点击访问；

数据可视化展示：

① 用字符云或热词图进行可视化展示；

② 用关系图标识热词之间的紧密程度。6) 数据报告：可将所有热词目录和名词解释生成 WORD 版报告

形式导出。

今天对爬取到的新闻进行了分词操作，使用jieba进行分词：

对于jieba的使用，首先需要导入这个包。

一般使用import之后没有的包会提示你导入，当然也可以自己手动导入：

点击+号，查询jieba即可。

说说jieba的使用，jieba有三种运行模式。

精确模式、全模式、搜索引擎模式。

精确模式，试图将句子精确的分开，适用于文本分析。

全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词。

精确模式：jieba.cut(值，cut_all=False);

全模式：jieba.cut(值，cut_all=True);

搜索引擎模式：jieba.cut_for_search(值)

使用jieba.cut();默认情况下是精确模式。

import jieba
import pandas as pd
import re
from collections import Counter

if __name__ == '__main__':
    filehandle = open("Hotword.txt", "r", encoding='utf-8');
    file=open("final_hotword2.txt","w",encoding='utf-8');
    filepaixu = open("final_hotword.txt","w",encoding='utf-8');
    mystr = filehandle.read()
    seg_list = jieba.cut(mystr)  # 默认是精确模式
    print(seg_list)
    # all_words = cut_words.split()
    # print(all_words)
    stopwords = {}.fromkeys([line.rstrip() for line in open(r'final.txt', encoding='UTF-8')])
    c = Counter()
    for x in seg_list:
        if x not in stopwords:
            if len(x) > 1 and x != '
' and x != 'quot':
                c[x] += 1

    print('
词频统计结果：')
    for (k, v) in c.most_common(100):  # 输出词频最高的前两个词
        print("%s:%d" % (k, v))
        file.write(k+'
')
        filepaixu.write(k+":"+str(v)+'
')

    # print(mystr)
    filehandle.close();
    file.close()
    filepaixu()
    # seg2 = jieba.cut("好好学学python，有用。", cut_all=False)
    # print("精确模式（也是默认模式）：", ' '.join(seg2))

今天就到这里，明天继续学习。

作者：哦心有

出处：https://www.cnblogs.com/haobox/

本文版权归作者和博客园共有，欢迎转载，但必须给出原文链接，并保留此段声明，否则保留追究法律责任的权利。