论文笔记

7.21

d中英文维基百科语料上的Word2Vec实验
- 　　注意参考文献
  - 　Deep Learning实战之word2vec（已下载参考文献中）

7.20

wechat :利用Python实现wiki中文语料的word2vec聚类
- 　　算法】word2vec与doc2vec模型
- 　自然语言处理资源和Python自然语言处理工具总结
  - 　　6 FudanNLP
    FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。FudanNLP及其包含数据集使用LGPL3.0许可证。主要功能包括：
    - 信息检索：文本分类，新闻聚类。
    - 中文处理：中文分词，词性标注，实体名识别，关键词抽取，依存句法分析，时间短语识别。
    - 结构化学习：在线学习，层次分类，聚类，精确推理。
    工具采用Java编写，提供了API的访问调用方式。下载安装包后解压后，内容如下图所示：
- 　　NLP之Word2Vec模型和Doc2Vec模型
- 文本主题发现（一）-- 数据预处理
  - 　　公众号后台回复关键字即可学习
    
    回复 R                  R语言快速入门及数据挖掘
    回复 Kaggle案例  Kaggle十大案例精讲（连载中）
    回复文本挖掘   手把手教你做文本挖掘
-

7.19

中文文本聚类
一篇文章转化为单个文件
- 　　文本关键词提取搜狗微信
- - 　利用Python实现wiki中文语料的word2vec模型构建
  - python-中文文本关键词提取

7.9

7.6

python 3解决 unicode error问题

#参考资料：https://blog.csdn.net/wang7807564/article/details/78164855/
#打开文件 读取时使用二进制 rb，解码再用 gbk
with open("idiom corpus/corpus_焕然一新.txt",'rb') as f:
    for line in f:
        line = f.readline()
        print(line.decode('gbk'))

7.5

文本聚类教程 https://blog.csdn.net/xiaoxik/article/details/78742308
文本聚类教程http://www.cnblogs.com/onlytiancai/archive/2008/05/10/1191557.html

7.4

北京语言大学硕士研究生课程
根据国内外重点高校NLP相关课程的推荐读物进行筛选。如检索“自然语言处理+高引用聚类文献”可检索出文本挖掘课程：弗吉尼亚大学文本挖掘课程
综述分类、聚类和信息提取算法在文本挖掘领域内的应用对应 google 搜索clustering text mining 最高引用文献
- 　　Larsen, Bjornar, and Chinatsu Aone. "Fast and effective text mining using linear-time document clustering." Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1999.
NLP 网站专知
自然语言处理中常见的10个任务简介及其资源

基于非平行语料的双语词典构建张檬刘洋孙茂松

　　参考文献：

　　Dictionary-based techniques for cross-language information retrieval.

google 计算机在词典编纂中的作用

http://ling.cass.cn/xzfc/xzfc_xzft/201804/t20180425_4213449.html
章宜华教授谈外向型汉语学习词典编研工作
- “学习词典”是20世纪上半叶为海外英语教学而编纂的词典，译自英语的“learner’s dictionary”，即面向非母语学习者的专门性语文词典。为母语学习者编纂的辞书则称为“school dictionary”或“students’ dictionary”（学生词典）。英国的学习词典很发达，以牛津词典和朗文词典为代表的英语词典几乎占领了我国英语学习词典的整个市场。

goole idom exemplification classification extraction'

英文写作的例证和分类 ppt