词云wordcloud的实现

TOC

什么是云词

词云,也称为文本云或标签云。在词云图片制作中,一般我们规定特定文本词在文本数据源中出现的次数越多,说明该词越重要,其在词云中所占区域也就越大。词云可以利用常见的几何图形,或者其他不规则的图片素材形状来作为界限。词云不仅可以应用在企业数据分析上,还可以应用到媒体营销或者平面设计当中。
大概长这样:

快速实现

要实现词云,首先肯定是要获取词组和权重,然后再根据数据进行可视化的展示。

分词

手动输入比较麻烦,一般根据句子进行分词,然后按照词语出现的次数计算权重。
这里推荐用【讯飞关键词提取API】,有免费的额度,类似的云平台基本上都有这类API。
https://www.xfyun.cn/doc/nlp/keyword-extraction/API.html
如果不想用云API,也可以用开源分词库,这里推荐jieba
https://github.com/fxsjy/jieba

可视化

直接用轮子:
https://github.com/timdream/wordcloud2.js

如果是基于echart,可以以扩展形式引入:
https://github.com/ecomfe/echarts-wordcloud

实现原理

这里主要分析wordcloud2.js的源码,简要说明。
假设我们要将一个不带旋转的词放入canvas中,如下图所示:

注:canvas坐标系Y轴是向下的。
1、canvas其实被切成了许多小方块(如例图所示),默认方块大小为16px,不小于4px,方格越大,间距越大。
2、初始化grid = [];用来判断方块中能否放置元素。
3、getTextInfo方法中,创建了一个新的fcanvas,通过measureText测量出词组宽度,为了防止文字被切,实际的fcanvas是大于测量的宽度的,如例图中黄色方框与绿色方框的关系。
fctx.fillText(word, fillTextOffsetX * mu, (fillTextOffsetY + fontSize * 0.5) * mu);
注意:这里为什么fillTextOffsetY要加上fontSize?
默认情况下fillText的字体是左下角在坐标点的,所以需要加上fontSize使其满足canvas坐标系。例如:

var c=document.getElementById("myCanvas");
var ctx=c.getContext("2d");


ctx.font="20px Georgia";
ctx.fillText("Hello World!",50,50);


ctx.fillRect(50,50,20,20)


可以看到文字是整个高出了方块的。
4、fcanvas填充完文字之后,通过getImageData获取图片像素信息,然后循环遍历每隔格子的每个像素,判断像素alpha是否有值,有则判断文字bounds边界(例图绿色方框),继续循环下一个格子。
其中,bounds的值为【小y,大x,大y,小x】,通过这4个值,就可以得出边界坐标和宽高。
左上:【小x,小y】
右上:【大x,小y】
左下:【小x,大y】
右下:【大x,大y】
宽:大x-小x
高:大y-小y
注意:imageData[((gy * g + y) * width + (gx * g + x)) * 4 + 3]

getImageData() 方法返回 ImageData 对象,该对象拷贝了画布指定矩形的像素数据。
对于 ImageData 对象中的每个像素,都存在着四方面的信息,即 RGBA 值:
R - 红色 (0-255)
G - 绿色 (0-255)
B - 蓝色 (0-255)
A - alpha 通道 (0-255; 0 是透明的,255 是完全可见的)
color/alpha 以数组形式存在,并存储于 ImageData 对象的 data 属性中。

这里乘以4是因为每个像素占4个下标,加3是为了获取alpha值。
5、从中心点位置到半径范围内遍历,结合计算出的文字信息判断格子是否被占用,没被占用则填充文字,更新格子的值,直到放不下或放完为止。

红色部分即为被“占领”的方格。
6、图案遮罩如何实现的?
我们可以通过上传图片,实现图片遮罩,白色部分将会被忽略,文字将被填充到黑色部分。


还记得grid[]吗?其实我们在上传图片之后,通过getImageData获取图片数据,将白色的部分都标记成了已被占用的状态,所以后续的遍历,只会找到黑色的部分进行填充。

原文地址:https://www.cnblogs.com/leestar54/p/13303468.html