【371】Twitter 分类相关

Bag-of-words model:就是将句子打散成单词的集合。

N-gram model:同上,只是按照 n 进行顺序组合。

参考:机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器

  • 留言板侮辱与非侮辱的分类举例

参考:利用机器学习算法进行特朗普twitter的主题分析

  • 数据获取:Twitter API、tweepy
  • 数据清洗:NLTK whitespaceTokenizer、转成小写字母、删除无用部分
  • 无监督学习:PCA(主成分分析)、LSI(隐性语义索引)、LDA(隐含迪克特雷分析)
  • Word Embedding(词向量):word2vec

 参考:Twitter是怎么做情感分析的?长文解读!

  • 词干提取算法:Stemming、词形还原、否定处理

原文地址:https://www.cnblogs.com/alex-bn-lee/p/10364838.html