Web数据挖掘 第十一章 观点挖掘和情感分析的读书笔记

对一条评论的分析可以这样建模:

E 表示实体,可能是一个事件或者被评论的产品

A 表示实体的某个方面,比如 屏幕是手机的一个方面

表达式 对E 或 A的描述

观点持有人

发表时间

一条文本评论往往可以通过上述5个元素来描述。


分类算法:

针对某个词,判断该词表达的情感是正面的还是负面的:通过预先设置一个表达肯定语态的典型词和一个表达否定语态的典型词,然后计算该词 与这两个典型词的 统计相关性(PMI),然后比较 两个PMI 的大小或者比值来判断这个词语的情感是正面的还是负面的。见书344页。

针对句子,判断该句表达的情感是正面的还是负面的或发掘其中的观点:根据词性等信息套用上面的模型找出句子的各个元素,利用预设数据判断句子的情感或发掘其中的观点。预设的数据一般是某个表达式,当句子中的表达式跟预设的表达式匹配时就能判断语态了。同时可以利用连词来识别预设数据不包括的表达式,并不停地扩充预设数据,详见书356页。

原文地址:https://www.cnblogs.com/rav009/p/5131114.html