Python词云(词频统计,掩膜显示)

Python2.7 anaconda。安装Wordcloud,网上有许多下载路径,说一下掩模,就是在这个膜的区域才会有东西,当然这个与实际的掩模还有一定区别,这个词频显示是把所有统计的词,显示在这个掩模图片的非白色区域。

 (接下来就不用看着网上那些小软件很羡慕,其实代码就十行左右,你也可以)

from os import path
from scipy.misc import imread
import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

# 获取当前文件路径
# __file__ 为当前文件, 在ide中运行此行会报错,可改为
# d = path.dirname('.')
d = path.dirname(__file__)

# 
text = open(path.join(d, 't.txt')).read()

# 设置背景图片,也就是掩膜图像,在非白色部分我们的统计好的词频会显示在这里
alice_coloring = imread(path.join(d, "b.jpg"))

wc = WordCloud(background_color="white", #背景颜色
#max_words=2000,# 词云显示的最大词数 mask=alice_coloring,#设置背景图片 stopwords=STOPWORDS.add("said"), max_font_size=60, #字体最大值 random_state=50) #上述函数设计了词云格式 # 生成词云, 可以用generate输入全部文本(中文不好分词),也可以我们计算好词频后使用generate_from_frequencies函数 wc.generate(text) #文本词频统计函数,本函数自动统计词的个数,以字典形式内部存储,在显示的时候词频大的,字体也大 # 从背景图片生成颜色值 image_colors = ImageColorGenerator(alice_coloring) # 以下代码显示图片 plt.figure() # recolor wordcloud and show # we could also give color_func=image_colors directly in the constructor plt.imshow(wc.recolor(color_func=image_colors)) plt.axis("off") # 绘制背景图片为颜色的图片



  示例图像,文本分词是直接用的英文(网上随便粘贴一篇英文文章),它是以空格进行分词的。如果是中文也可以用网上推荐的分词器,或者你是做数据分析的,当然就知道怎么分词了。

bra................嘿嘿嘿

图片背景色为白色,分清图片背景,和掩模,和掩模背景色(函数默认的是白色区域)

 词频分析,数据分析挖掘。

以后再PPT中也可以用啦!!!!!!!!!!!!!!!!!

原文地址:https://www.cnblogs.com/8335IT/p/6567974.html