深度学习 —— 使用 gensim 实现 word2vec

深度学习 —— 使用 gensim 实现 word2vec

在自然语言处理领域中，将单词（words）或词语（phases）映射到向量空间（vector space）中可以很容易就得到单词之间的相似度，因为向量空间中两个向量的相似度很容易求得，比如余弦相似度。

1. word2vec

word2vec：

一种无监督深度学习方法，
顾名思义，其能实现从 words （来源于一个很大的文本语料库）到 vector 转化，称之为 word embeddings（词嵌入）。
与词袋模型（BOW，Bag of words）所不同的是，它给出的是 continuous distributed representations of words，也即是对单词的连续型分布式表示；（BOW，显然属于离散型）
主要通过以下两种方式实现：
- Skip-gram：从目标字词推测原始语句，在大型语料中表现更好；
- CBOW：continuous bag of words，从原始词句推测出目标字词，适用于小型数据；

google 团队研发出的此算法的主要特色（卖点）在于，Our model can answer the query “give me a word like king, like woman, but unlike man” with “queen“.

king-man+woman=queen

2. 使用 gensim 实现 word2vec

Deep learning with word2vec and gensim

references

Google Code Archive：word2vec

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/mtcnn/p/9421397.html