word2vec训练&IC分词(待)

参考http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C

1、下周中文wiki资料zhwiki-latest-pages-articles.xml.bz2，1.5G左右

2、用 process_wiki.py处理XML压缩文件，将其转换为text文件，执行：python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

在windows上直接运行process_wiki.py可能会报'UnicodeEncodeError: 'gbk' codec can't encode character 'xf6''错误，解决方案：
在所有的 output = open(outp, 'w', encoding='utf-8') 里加上encoding='utf-8' 。

原因：网页及python的编码都是utf-8，在写进txt时Windows默认转码成gbk，遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。

http://blog.csdn.net/vito21/article/details/53490435

3、繁体字转化位简体字，利用java的ChineseUtils架包完成

https://github.com/luhuiguo/chinese-utils

4、分词，使用java版的IC分词，产出文件 wiki.zh.jian.splitword.text

待补充，晚上分词工程

5、word2vec训练： python train_word2vec_model.py wiki.zh.jian.splitword.text wiki.zh.text.model wiki.zh.text.vector