训练中文词向量

  1. 首先是下载中文维基数据 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
  2. 下载提取工具https://github.com/attardi/wikiextractor
  3. 运行python WikiExtractor.py -b 5000M -o extracted zhwiki-latest-pages-articles.xml.bz2
  4. 安装繁体转简体工具 sudo apt-get install opencc
  5. 在extracted子目录下执行繁体转简体 opencc -i wiki_00 -o zhwiki.text -c t2s.json
  6. 利用jieba分好词
  7. 下载word2vec工具 https://github.com/dav/word2vec
  8. 编译word2vec工具,进入到word2vec 目录下 运行命令 make,再运行命令 cd scripts && ./demo-word.sh
  9. 词向量训练 进入bin 文件夹下面,输入 ./word2vec -train 输入语料 -output 输出文件路径 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15,等待片刻即可
原文地址:https://www.cnblogs.com/crackpotisback/p/8370898.html