Python3 装逼神器---词云（wordcloud）

词云（Word Cloud）是对文本中出现频率较高的词语给予视觉化展示的图形, 是一种常见的文本挖掘的方法。

实例：

依赖包：

　　# pip3 install wordcloud jieba matplotlib imageio

wordcloud 模块介绍：

class  wordcloud.WordCloud(
　　font_path=None, #(string)字体OTF or TTF路径，需要展现什么字体就把该字体路径+后缀名写上，如：font_path = '黑体.ttf'
　　width=400,#(int)输出画布的宽度，默认400像素
　　height=200,(int) #输出画布的宽度，默认200像素
　　margin=2, #(int)画布边缘留白的空隙，默认留白空间是2像素
　　ranks_only=None, 
　　prefer_horizontal=0.9, #(float)词语水平方向排版出现的频率，默认 0.9 ,所以词语垂直方向排版出现频率为 0.1 
　　mask=None, #(nd-array or None) 是否使用mask（蒙板），默认不使用。若使用mask，则需提供一个二值化的mask（即只有0和1的黑白色mask），此时参数width和height会被忽略，单词会出现在mask非白色（#FFFFFF）的位置上。
　　scale=1, #(float)在字段width和height乘以的倍数，最终呈现的画布尺寸以这个结果。默认是1，此方法适合需要呈现大尺寸的画布
　　color_func=None,#(callable)生成新颜色的函数，默认为空。如果为空，则使用 self.color_func
　　max_words=200, #(int)单词最多显示数量，默认200个
　　min_font_size=4,  #(int)单词最小尺寸，默认4像素
　　stopwords=None,#(set of strings or None)设置需要屏蔽展示的词，如果为空，则使用内置的STOPWORDS。若使用generate_from_frequencies生成方式，则会忽略此参数
　　random_state=None, #(int or None)为每个单词返回一个PIL颜色
　　background_color='black', #(string)输出画布背景颜色，默认黑色
　　max_font_size=None, #(int)单词最大尺寸，默认不限制
　　font_step=1,#(int)字体步长,默认1。如果步长大于1，会加快运算但是可能导致结果出现较大的误差（这块确实不知道啥意思）
　　mode='RGB', #(string) 颜色显示模式，默认”RGB”。当参数为“RGBA”并且background_color是None时，背景色为透明
　　relative_scaling='auto', #(float)词频和字体大小的关联性（倍数）。默认是auto，即为0.5。若为0，只考虑单词的排列顺序；若为1，则单词展现的大小和出现的频率一致；若两者都考虑则可以设置为auto。若参数repeat=True，则此项为0
　　regexp=None, #(string or None (optional))把文本切片的通用方法。若为空，则使用正则匹配r"w[w']；若使用generate_from_frequencies生成方式，则忽略此参数
　　collocations=True,#(bool) 是否包含两个单词的搭配性，默认包含。若使用generate_from_frequencies生成方式，则忽略此参数
　　colormap=None, #(string or matplotlib colormap)给每个单词随机分配颜色或者使用Matplotlib调色板，默认颜色是”viridis”即翠绿色。若使用了参数color_func，则忽略此项
　　normalize_plurals=True, #(bool)是否去掉单词末尾的‘s’，默认去掉。若为真，并且单词以‘s’结尾（若以‘ss’结尾则不符合此规则），‘s’会被去除并且去除后的单词出现的频率会被统计。若使用generate_from_frequencies生成方式，则忽略此参数
　　contour_width=0, #(float)mask轮廓线宽。若mask不为空且此项值大于0，就绘制出mask轮廓 (default=0)
　　contour_color='black', #(color value) Mask轮廓颜色，默认黑色
　　repeat=False #（bool）单词是否重复展示，默认不重复
)

程序代码：

import jieba     #jieba分词
import matplotlib.pyplot as plt   #绘制图形
from imageio import imread  #处理图像
from wordcloud import WordCloud,ImageColorGenerator  #词云

#文本获取，利用jieba分词获取文本中的词
file=open('input.txt',encoding='UTF-8').read()   #注意在指定路径中导入文本文件
word=' '.join(jieba.cut_for_search(file))

#词云背景图像获取
image=imread('test.jpg')    # 解析该图片，注意在路径中导入图片

#词云设置
wc=WordCloud(
    mode='RGBA',    #设置透明底色
    background_color=None,
    mask=image,   #词云形状设置为背景图像
    max_words=100,   #显示的词的最大个数
    #font_path="C:\Windows\Fonts\STFANGSO.ttf",   #设置字体，否则中文可能会出现乱码
    scale=3  #扩大三倍
)

#生成词云
image_colors = ImageColorGenerator(image)  # 基于背景颜色设置字体色彩
wc.generate(word)   #根据文本生成词云

#显示
plt.imshow(wc)  #显示词云图
plt.axis("off")  #关闭坐标轴
plt.show()    #显示窗口
wc.to_file('test.png')   # 保存图片

IT运维开发路上的点点滴滴。。。