word2vec

word2vec的学习
python的几个扩展工具：
1. numpy
2. scipy
3. gensim

如何对新闻的关键词进行聚类？比如说，给你一个关键词“苍井空”，你怎么把“女优”，“写真集”等关联性极高的关键词找到？

想法1：用新闻ID向量表示某个关键词，如：苍井空（新闻ID1,新闻ID2,…）

可行性：新闻数较小时，可以用kmeans等方法进行聚类；但新闻数高达10万时，每个关键词则需要10万维的向量表示，计算难度太大。

解决方法：google的一个开源工具“word2vec”,可通过输入一个词的集合，计算出词与词之间的距离，通过距离进行聚类。