word2vec 代码解读

1 导入的库

from gensim.models import Word2Vec

2 参数说明

word2vec = Word2Vec(walk_sequences, size=128, window=10, min_count=0, sg=1, hs=1, workers=4)

  • walk_sequences
    list 里面是 list
    walk_sequences = [['first', 'sentence'], ['second', 'sentence','is']]
  • min_count=0 min_count,频数阈值,大于等于0的保留
  • sg=1 默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
  • hs=1 0 则negative sampling会被使用 1 则 采用hierarchica·softmax技巧。
  • workers参数控制训练的并行数

3 文件结构

4 文件解释

*.pyx文件是python的c扩展文件,代码要符合cython的规范

  • pyx文件还仅仅是源代码文件,要想被python调用、要想运行,并且再进一步转成.pyd文件
原文地址:https://www.cnblogs.com/JCcodeblgos/p/10194021.html