《机器学习》第二次作业——第四章学习记录和心得


4.1 线性判据基本概念

  1. 判别模型
    给定训练样本{(x_n)},直接在输入空间内估计后验概率P((C_i)|x)。
    优势:快速直接、省去了耗时的高维观测似然概率估计。
  2. 线性判据
    定义:

    模型和公式

    决策边界:

4.2 线性判据学习概述

1.学习和识别过程
学习参数:w(w_0)
识别过程:
由于解不唯一,所以要在解域中寻找最优解。
2. 目标函数
目标函数是如何实现有效决策的核心思想
3.目标函数求解

4.优化:加入约束条件,提高泛化能力

4.3 并行感知机算法

1.概念
根据标记过的训练样本{((x_n),(t_n))},学习模型参数w(w_0)
2.预处理

但是满足a的解不止一个,所以要从解域中找出最优解。
所以目标函数是针对被分类错误的样本,其输出值取反求和
3.使用梯度下降法迭代更新参数。

4.4 串行感知机算法

1.概念
大体和并行感知机相同,区别在于并行感知机的数据是一起给出的,而串行感知机的数据是一个一个串行给出的。另外,并行感觉机是在计算完所有样本后对错误分类的样本的输出值进行求和,最后更新参数;而串行感知机是在当前错误样本的输出值出来之后就对参数进行更新。
2.感知机的收敛性
如果训练样本是线性可分的,感知机算法理论上收敛于一个解。然后通过梯度下降法中步长的选择确定最优解。
3.提高感知机的泛化能力
当样本位于决策边界边缘时,对该样本的决策有很大的不确定性。

4.5 Fisher线性判据

  1. 原理:把原空间各点x投影到新的一维空间y,y=(w^T)x+(w_0).

  2. 目标函数
    确定一个y使得二类投影有效分开,也就是说使得两类重叠部分少,样本内离散程度小。

  3. 训练过程

    4.决策边界

4.6 支持向量机基本概念

1.设计思想
给定一组训练样本,使得两个类中,与决策边界最近的训练样本到决策边界之间的间隔最大。
2.目标函数
间隔定义

总间隔:(d_+)+(d_-) = (frac{f(x+)+f(x_)}{||w||})=(frac{2}{||w||})
目标函数

4.7 拉格朗日乘数法

1.等式约束优化求解

2.不等式约束优化求解
1)极值点落在可行域

2)极值点落在可行域边界


3)综合两种情况

4.8 拉格朗日对偶问题


1.对偶函数

2.对偶函数的凹凸性

4.9 支持向量机学习算法

1.求解


2.决策过程

4.10 软间隔支持向量机

克服因噪音或离群点造成的过拟合现象,在求间隔时引入松弛变量。
1.目标函数

2.求解

3.决策过程

4.11 线性判据多类分类

使用线性判据实现多类分类途径
1.实现思路

2.思路一:One-to-all策略


问题:混淆区域

3.思路二:线性机

问题:拒绝区域

4.思路三:One-to-one策略

问题:会出现拒绝选项,即样本不属于任何类的情况。
采用max函数避免。
5.总结
使用线性判据进行多类分类,本质上是利用多个线性模型组合而成的一个非线性分类器,因此,决策边界不再是由单个超平面决定,而是由多个超平面组合共同切割特征空间。

4.12 线性回归

1.模型表达


2.目标函数:使用均方误差

使用梯度下降法求解

或使用最小二乘法直接求解

4.13 逻辑回归的概念

1.MAP分类器
如果两个类别数据分布的协方差矩阵相同,则MAP分类器的决策边界是一个超平面及线性。MAP分类器等同于一个线性判据,可以在线性和非线性之间切换,为我们的信息模型改进成非线性模型提供了思路。
2.Logit变换
对于二类分类,MAP分类器通过比较后验概率的大小来决策。
那么是否可以通过比较两个后验概率的比例来做决策呢?

在每类数据是高斯分布且协方差矩阵相同的情况下,x类属于(C_1)类的后验概率与属于(C_2)类的后验概率之间的对数比率就是线性模型f(x)的输出,即后验概率对数比率=线性判据输出。

在每类数据是高斯分布且协方差矩阵相同的情况下,由于Logit变换丰同裕线性判据的输出,所以此情况下Logit(z)是线性的。
3.Sigmoid函数

Sigmoid函数是连接线性模型和后验概率的桥梁,线性模型+Sigmoid函数=后验概率
4.逻辑回归

逻辑回归与神经元

5.总结
逻辑回归本身是一个非线性模型。
逻辑回归用于分类:仍然只能处理两个类别线性可分的情况。但是,sigmoid函数输出了后验概率,使得逻辑回归成为一个非线性模型。因此,逻辑回归比线性模型向前迈进了一一步。
逻辑回归用于拟合:可以拟合有限的非线性曲线。

4.14 逻辑回归的学习

1.给定训练样本,学习参数w和(w_0).

2.设计目标函数
极大似然估计

目标函数


3.优化目标函数
梯度下降法
对参数w和(w_0)分别求偏导,根据下图更新参数。

梯度消失问题

过拟合问题

4.15 Softmax判据的概念

1.多类情况的后验概率
任意一个类的后验概率
K个线性模型和每个类对应的后验概率建立起了联系。
2.Softmax函数

判据:K个线性判据+Softmax函数
决策过程:给定测试样本x,经由线性模型和softmax函数计算K个类对应的后验概率,x属于最大后验概率对应的类别。
适用范围:分类(每个类和剩余类之间是线性可分的。)回归(可以拟合指数函数形式的非线性曲线。)
3.总结

4.16 Softmax判据的学习



1.目标函数

2.求解——极大似然估计

3.优化——梯度下降法

4.17 核支持向量机

1.思想

核函数:在低维X空间的一个非线性函数,包含向量映射和点积功能,即作为X空间两个向量的度量,来表达映射到高维空间的向量之间的点积。
2.Kernel SVM决策

3.求解
类似于SVM

4.核函数
Mercer条件:只要是半正定对称函数,都可以用作核函数。
常见核函数:
1)多项式核函数

2)高斯核函数

原文地址:https://www.cnblogs.com/sjhk/p/14815551.html