NLP学习笔记07---专家系统、机器学习、朴素贝叶斯、评估的标准(精确率、召回率)

1.学习的两种主流方式

专家系统基于概率的系统最根本的区别就是:数据量的不同

数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。

2.专家系统介绍

专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理

3.机器学习入门介绍

(1)定义

(2)机器学习的分类

两大流派:<1>有监督的(Supervised Learning,即我们有一些训练数据,通过训练数据去构建一个模型)、无监督的(unsupervised Learning)  <2>生成模型(generative model)、判别模型(discriminative)

<1>有监督学习

以情感分析为例,下图解释的有监督训练的模型

首先,给定一个语料库(即训练数据),该语料库包含文本(x)及其情感倾向判断结果(y),通过训练语料库,得到函数f,用来进行判别用户新的输入的情感倾向

下面是经典的有监督的算法:

<2>无监督学习

所给的训练数据只包含x,不含有y

常用的无监督学习的算法

<3>生成模型(generative model)和判别模型(discriminative model)

生成模型通过已经训练好的模型,可以用来生成图片、音乐、文本等,例如生成模型会学习猫、狗的特征,再利用学到的特征去判断用户输入的是猫或狗的概率P。

(3)模型的构建

<1>一般流程

特征工程耗时非常大,也是模型最重要的部分。

<2>端到端的模型(end to end learning)

<3>模型构建时的数据划分

为了更好的构建模型,一般将数据分为训练数据和测试数据。

4.朴素贝叶斯(Naive Bayes)

(1)问题引出

具体案例1如下:

下图计算了购买在垃圾邮件和正常邮件里出现的概率。

判断新邮件是否是垃圾邮件:

下图中,利用贝叶斯定理对第一个不等式进行转化

P(正常)为先验概率(可以根据样本直接获得)

上图中,P(正常)=24/(24+12)=2/3

具体案例2:

下图是朴素贝叶斯的具体应用案例。

在计算P(点击/垃圾)时,应用了平滑add-one smoothing

 5.评估的方法

应用案例:

accuracy=3/6=0.5

precision=3/5=0.6

recall=3/4=0.75

原文地址:https://www.cnblogs.com/luckyplj/p/12767554.html