斯坦福公开课5：生成学习

北京理工大学计算机专业2016级硕士在读，方向：Machine Learning，NLP，DM

2017/3/21 9:08:46

本讲大纲：

1.生成学习算法（Generative learning algorithm）
2.高斯判别分析（GDA，Gaussian Discriminant Analysis）
3.朴素贝叶斯（Naive Bayes）
4.拉普拉斯平滑（Laplace smoothing）

生成学习

判别学习算法（discriminative learning algorithm）:直接学习p(y|x)（比如说logistic回归）或者说是从输入直接映射到{0,1}.

生成学习算法（generative learning algorithm）:对p(x|y)和p(y)进行建模。（p(y)不是很重要）

简单的来说，判别学习算法的模型是通过一条分隔线把两种类别区分开，而生成学习算法是对两种可能的结果分别进行建模，然后分别和输入进行比对，计算出相应的概率。

比如说良性肿瘤和恶性肿瘤的问题，对良性肿瘤建立model1（y=0），对恶性肿瘤建立model2（y=1），p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率.

根据贝叶斯公式（Bayes rule）推导出y在给定x的概率为：这里写图片描述

另见《生成学习与判别学习的区别》一文

高斯判别分析

GDA是要学习的第一个生成学习算法.

GDA的两个假设：

假设输入特征x∈Rⁿ，并且是连续值;

p(x|y)是多维正态分布（multivariate normal distribution）;

1、多维正态分布

若x服从多维正态分布（也叫多维高斯分布），均值向量（mean vector）这里写图片描述

，协方差矩阵（convariance matrix）这里写图片描述

，写成x~

, 其概率密度函数为：
这里写图片描述

表示行列式（determinant）.

均值：这里写图片描述
协方差Cov(Z)== = ∑

高斯分布的一些例子：
这里写图片描述
左图均值为零（2*1的零向量），协方差矩阵为单位矩阵I（2*2）（成为标准正态分布）.
中图协方差矩阵为0.6I，
右图协方差矩阵为2I

这里写图片描述
均值为0，方差分别为：

可见增加矩阵对角元素的值，即变量间增加相关性，高斯曲面会沿z1=z2（两个水平轴）方向趋于扁平。其水平面投影图如下：

即增加∑对角线的元素，图形会沿45°角，偏转成一个椭圆形状。

若∑对角线元素为负，图形如下：

∑分别为：

不同μ的图形如下：

μ分别为：

μ决定分布曲线中心的位置。

2、高斯判别分析模型
这里写图片描述
写出概率分布：

模型的参数为φ，μ0，μ1，∑，对数似然性为：（生成学习考虑的是joint likelihood 联合似然，判别学习算法考虑conditional likelihood）
这里写图片描述

求出最大似然估计为：（详细推导见http://www.cnblogs.com/jcchen1987/p/4424436.html Σ的答案有误）

这里写图片描述

φ：训练样本中标签为1的样本所占的比例

μ0：分母为标签为0的样本数，分子是对标签为0的样本的x(i)求和，结合起来就是对对标签为0的样本的x(i)求均值，与高斯分布参数μ为均值的意义相符

μ1：与μ0同理，标签改为1

结果如图所示：

Predict：

预测结果应该是给定x的情况下最可能的y，等式左边的运算符argmax表示计算p(y|x)最大时的y值，预测公式如下：

因为p(x)独立于y，所以可以忽略p(x)。

如果p(y)为均匀分布，即每种类型的概率都相同，那么也可以忽略p(y)，要求的就是使p(x|y)最大的那个y。不过这种情况并不常见。

3、GDA和logistic回归的联系

P(y=1|x)看作x的函数，则有：

其中θ是φ，∑，μ₁，μ₂的函数，这正是logistic回归的形式。

4、使用生成学习算法的优缺点

推论1：

x|y 服从高斯分布 => p(y=1|x)是logistic函数

该推论在反方向不成立。

推论2：

x|y=1 ~ Poisson(λ1)，x|y=0 ~ Poisson(λ0) => p(y=1|x)是logistic函数

x|y=1 ~ Poisson(λ1)表示x|y=1服从参数为λ1泊松分布

推论3：

x|y=1 ~ ExpFamily(η1)，x|y=0 ~ ExpFamily (η0) => p(y=1|x)是logistic函数

推论2的推广，即x|y的分布属于指数分布族，均可推出结论。显示了logistic回归在建模假设选择方面的鲁棒性。

优点：

推论1反方向不成立，因为x|y服从高斯分布这个假设更强，GDA模型做出了一个更强的假设，所以，若x|y服从或近似服从高斯分布，那么GDA会比logistic回归更好，因为它利用了更多关于数据的信息，即算法知道数据服从高斯分布。

缺点：

如果不确定x|y的分布情况，那么判别算法logistic回归性能更好。例如，预先假设数据服从高斯分布，但是实际上数据服从泊松分布，根据推论2，logistic回归仍能获得不错的效果。
生成学习算法比判决学习算法需要更少的数据。如GDA的假设较强，所以用较少的数据能拟合出不错的模型。而logistic回归的假设较弱，对模型的假设更为健壮，拟合数据需要更多的样本。

朴素贝叶斯

学习的第二个生成模型方法

引例：垃圾邮件分类

实现一个垃圾邮件分类器，以邮件输入流作为输入，确定邮件是否为垃圾邮件。输出y为{0,1}，1为垃圾邮件，0为非垃圾邮件。

首先，要将邮件文本表示为一个输入向量x，设已知一个含有n个词的字典，那么向量x的第i个元素{0,1}表示字典中的第i个词是否出现在邮件中，x示例如下：

要对p(x|y)建模，x是一个n维的{0,1}向量，假设n=50000，那么x有2^50000种可能的值，一种方法是用多项式分布进行建模（伯努利分布对01建模，多项式分布对k个结果建模），这样就需要2^50000-1个参数，可见参数过多，下面介绍朴素贝叶斯的方法。

假设xi在给定y的时候是条件独立的，则x在给定y下的概率可简化为：（第二个=用到了朴素贝叶斯假设）假设虽然有缺陷，但是实际效果很好。

模型参数包括：

Φi|y=1 = p(xi=1|y=1)

Φi|y=0 = p(xi=1|y=0)

Φy = p(y=1)

联合似然性：

求得参数结果：

Φi|y=1的分子为标记为1的邮件中出现词j的邮件数目和，分母为垃圾邮件数，总体意义就是训练集中出现词j的垃圾邮件在垃圾邮件中的比例。

Φi|y=0就是出现词j的非垃圾邮件在非垃圾邮件中的比例。

Φy就是垃圾邮件在所有邮件中的比例。

求出上述参数，就知道了p(x|y)和p(y)，用伯努利分布对p(y)建模，用上式中p(xi|y)的乘积对p(x|y)建模，通过贝叶斯公式就可求得p(y|x)

可以得到：

这里写图片描述

朴素贝叶斯的问题：
假设在一封邮件中出现了一个以前邮件从来没有出现的词，在词典的位置是35000，那么得出的最大似然估计为：

也即使说，在训练样本的垃圾邮件和非垃圾邮件中都没有见过的词，模型认为这个词在任何一封邮件出现的概率为0.
假设说这封邮件是垃圾邮件的概率比较高，那么

模型失灵.

在统计上来说，在你有限的训练集中没有见过就认为概率是0是不科学的.

Laplace平滑

根据极大似然估计，p(y=1) = #”1”s / (#”0”s + #”1”s)，即y为1的概率是样本中1的数目在所有样本中的比例。Laplace平滑就是将分子分母的每一项都加1,，即：

p(y=1) = (#”1”s+1) / (#”0”s+1 + #”1”s+1)

Generally：若y取k中可能的值

对于朴素贝叶斯，得到的结果为：

代码实践

GDA代码实例

训练数据：鸢尾花数据

# -*- coding: utf-8 -*-
from __future__ import division
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
def GDA( X, y ):
    m , m0 , m1 = len(y) , len(y[y==0]) , len(y[y==1])
    phi = m0 / m
    u0 = np.sum( X[y==0] , axis=0 ) / m0
    u1 = np.sum( X[y==1] , axis=0 ) / m1
    sigma = np.zeros( (len(X[0]),len(X[0]) ) ) 
    for x , y in zip( X , y ):
        if y == 0:
            sigma += np.dot( np.transpose([x - u0]) , (x - u0).reshape(1,2) )
        else:
            sigma += np.dot( np.transpose([x - u1]) , (x - u1).reshape(1,2) )
    sigma /= m  
    return ( phi , u0 , u1 , sigma )
def predict( x , phi , u0 , u1 , sigma ):
    inv = np.linalg.inv(sigma) 
    y_hat = []
    for case in x:
        p0 = np.dot( np.dot((case - u0) , inv ) , (case - u0).T ) * (1 - phi)
        p1 = np.dot( np.dot((case - u1) , inv ) , (case - u1).T ) * phi
        y_hat.append( 0 if p0 < p1 else 1 )
    return np.array(y_hat)
    
df = np.loadtxt(r'C:UsersLoveDMRDesktop8.iris.data', delimiter=',' , converters = { 4: lambda t : {'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2}[t] } );
df = df[df[:,4] != 2]  # 为了方便学习 ，只关心二分类问题
#手工特征选择 2个（方便可视化  0-3）
feature = ( 0 , 1 )
C1 = df[df[:,4] == 0]
C2 = df[df[:,4] == 1]
X , y = np.split(df,(4,), axis=1)
X = X[:,feature[0]:feature[1]+1]  # 只取两个特征
y = y[:,0]
phi , u0 , u1 , sigma = GDA( X, y )
# 特征分布情况
plt.figure()
x1_min , x1_max = X[:,0].min() , X[:,0].max()
x2_min , x2_max = X[:,1].min() , X[:,1].max()
t1 = np.linspace(x1_min,x1_max , 500)
t2 = np.linspace(x2_min,x2_max , 500)
x1 , x2 = np.meshgrid( t1 , t2 )
x_test = np.stack((x1.flat,x2.flat),axis=1)
y_hat = predict( x_test , phi , u0 , u1 , sigma )
y_hat = y_hat.reshape(x1.shape)
cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080'])
plt.pcolormesh(x1,x2,y_hat,cmap=cm_light)
plt.plot(C1[:,feature[0]],C1[:,feature[1]] , 'bv')
plt.plot(C2[:,feature[0]],C2[:,feature[1]],'g*')
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.tight_layout()
plt.show()

特征：花萼宽度+花萼长度（左图） | 花瓣宽度+花瓣长度（右图）

补充：协方差计算公式与意义

http://blog.csdn.net/beechina/article/details/51074750

补充：样本方差公式中为什么要除以（n-1）而不是n呢?

样本方差与样本均值，都是随机变量，都有自己的分布，也都可能有自己的期望与方差。取分母n-1，可使样本方差的期望等于总体方差，即这种定义的样本方差是总体方差的无偏估计。简单理解，因为算方差用到了均值，所以自由度就少了1，自然就是除以(n-1)了。
再不能理解的话，形象一点，对于样本方差来说，假如从总体中只取一个样本，即n=1，那么样本方差公式的分子分母都为0，方差完全不确定。这个好理解，因为样本方差是用来估计总体中个体之间的变化大小，只拿到一个个体，当然完全看不出变化大小。反之，如果公式的分母不是n-1而是n，计算出的方差就是0——这是不合理的，因为不能只看到一个个体就断定总体的个体之间变化大小为0。

知乎 https://www.zhihu.com/question/20099757

补充：贝叶斯网络