机器学习 | 吴恩达斯坦福课程笔记整理之(一)线性回归

本系列为吴恩达斯坦福CS229机器学习课程笔记整理,以下为笔记目录:

  (一)线性回归

  (二)逻辑回归

  (三)神经网络

  (四)算法分析与优化

  (五)支持向量机

  (六)K-Means

  (七)特征降维

  (八)异常检测

  (九)推荐系统

  (十)大规模机器学习

第一章 线性回归

一、ML引言

  • 学习行为,定制服务
  • 监督学习和非监督学习
  • 了解应用学习算法的实用建议
1.3 监督学习
  • 基本思想:数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测。
  • 连续变量-回归,离散变量-分类;
1.4 非监督学习
  • 无标签
  • 聚类算法
  • 从数据中找到某种结构

二、回归问题

  • 步骤:积累知识(training set)-> 学习(learning algorithm)->预测(对应关系)

三、线性回归与梯度下降

  • 预测
特征,特征向量,输出向量,假设hypothesis(预测函数)
          
而称为回归方程,θ 为回归系数
  • 误差评估
评估各个真实值 y(i) 与预测值 hθ(x(i)) 之间的差异  -> 最小均方(Least Mean Square)
           
也称为代价函数(Cost function)
  • 批量梯度下降BGD
学习效果不好时,纠正学习策略
目标:反复调节 θ 使得预测 J(θ) 足够小  -> 梯度下降(Gradient Descent)
         
沿着梯度方向,接近最小值。
 
对于一个样本容量为 m 的训练集,我们定义 θ 的调优过程为:重复直到收敛(Repeat until convergence),该过程为基于最小均方(LMS)的批量梯度下降法(Batch Gradient Descent)
但是每调节一个θj ,都要历一遍样本集,如果样本的体积m很大,开销巨大
  • 随机梯度下降(Stochastic Gradient Descent, SGD):样本量巨大时,迅速获得最优解
        

四、正规方程

为求得 J(θ) 的最小值,通过正规方程来最小化 J(θ) :
摆脱了学习率的束缚,但只适合于低维向量
        

五、特征缩放

将各个特征量化到统一的区间,两种量化方式:
1)Standardization
又称为 Z-score normalization,量化后的特征将服从标准正态分布:
           
其中, μ, δ 分别为对应特征 xi 的均值和标准差。量化后的特征将分布在 [−1,1] 区间。
 
2)Min-Max Scaling
又称为 normalization
          
量化后的特征将分布在 [0,1] 区间。

六、多项式回归

方程中添加高阶项,提高拟合效果

七、欠拟合和过拟合

  • 欠拟合(underfitting):拟合程度不高,数据距离拟合曲线较远。
  • 过拟合(overfitting):过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律。
为了解决欠拟合和过拟合问题,引入了局部加权线性回归(Locally Weight Regression)。
 
在 LWR 中,我们对一个输入 x 进行预测时,赋予了 x 周围点不同的权值,距离 x 越近,权重越高。整个学习过程中误差将会取决于 x 周围的误差,而不是整体的误差,这也就是局部一词的由来。
通常, w(i) 服从高斯分布,在 x 周围呈指数型衰减:
其中, τ 值越小,则靠近
 
 
原文地址:https://www.cnblogs.com/geo-will/p/10306685.html