机器学习 | 吴恩达斯坦福课程笔记整理之（一）线性回归

机器学习 | 吴恩达斯坦福课程笔记整理之（一）线性回归

本系列为吴恩达斯坦福CS229机器学习课程笔记整理，以下为笔记目录：

　　（一）线性回归

　　（二）逻辑回归

　　（三）神经网络

　　（四）算法分析与优化

　　（五）支持向量机

　　（六）K-Means

　　（七）特征降维

　　（八）异常检测

　　（九）推荐系统

　　（十）大规模机器学习

第一章线性回归

一、ML引言

学习行为，定制服务
监督学习和非监督学习
了解应用学习算法的实用建议

1.3 监督学习

基本思想：数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测。
连续变量-回归，离散变量-分类；

1.4 非监督学习

无标签
聚类算法
从数据中找到某种结构

二、回归问题

步骤：积累知识（training set）-> 学习（learning algorithm）->预测（对应关系）

三、线性回归与梯度下降

预测

特征，特征向量，输出向量，假设hypothesis（预测函数）

而称为回归方程，θ 为回归系数

误差评估

评估各个真实值 y(i) 与预测值 hθ(x(i)) 之间的差异 -> 最小均方（Least Mean Square）

也称为代价函数（Cost function）

批量梯度下降BGD

学习效果不好时，纠正学习策略

目标：反复调节 θ 使得预测 J(θ) 足够小 -> 梯度下降（Gradient Descent）

沿着梯度方向，接近最小值。

对于一个样本容量为 m 的训练集，我们定义 θ 的调优过程为：重复直到收敛（Repeat until convergence），该过程为基于最小均方（LMS）的批量梯度下降法（Batch Gradient Descent）

但是每调节一个θj ，都要历一遍样本集，如果样本的体积m很大，开销巨大

随机梯度下降（Stochastic Gradient Descent, SGD）：样本量巨大时，迅速获得最优解

四、正规方程

为求得 J(θ) 的最小值，通过正规方程来最小化 J(θ) ：

摆脱了学习率的束缚，但只适合于低维向量

五、特征缩放

将各个特征量化到统一的区间，两种量化方式：

1）Standardization

又称为 Z-score normalization，量化后的特征将服从标准正态分布：

其中, μ, δ 分别为对应特征 xi 的均值和标准差。量化后的特征将分布在 [−1,1] 区间。

2）Min-Max Scaling

又称为 normalization

量化后的特征将分布在 [0,1] 区间。

六、多项式回归

方程中添加高阶项，提高拟合效果

七、欠拟合和过拟合

欠拟合（underfitting）：拟合程度不高，数据距离拟合曲线较远。
过拟合（overfitting）：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律。

为了解决欠拟合和过拟合问题，引入了局部加权线性回归（Locally Weight Regression）。

在 LWR 中，我们对一个输入 x 进行预测时，赋予了 x 周围点不同的权值，距离 x 越近，权重越高。整个学习过程中误差将会取决于 x 周围的误差，而不是整体的误差，这也就是局部一词的由来。

通常， w(i) 服从高斯分布，在 x 周围呈指数型衰减：

其中， τ 值越小，则靠近

参考：https://yoyoyohamapi.gitbooks.io/mit-ml/content/

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/geo-will/p/10306685.html