几天学习了机器学习十讲的第二讲——回归,首先从大一学的线性代数开始讲起,显示简单复习了线性代数的知识点:
介绍完逆矩阵,老师提出了疑问,什么是回归:
但是听到一半我有些疑问,老师举的例子就是身高的例子,但是现实是后代的身高往往比父母都要高,哈哈,我把他归根于营养好。
上图用图显示了回归模型预测的实例图,自变量X 因变量Y,Y=f(x)。
典型的回归模型:
优化目的:使均方误差变的最小。之后给出了一元线性回归方程的求解方式,为了方便以后找结论我也直接截图放这里了:
简单的一元说完了,我们来看看多元线性回归,它就不再是一维的线性了,它升级到了体的层面:
多元线性回归用矩阵表示:
求解:
视频提到,奇异问题是因为对角线两边会有重复数据(没听太懂,线代有点忘了嘿嘿)还是什么的,总之,遇到问题,就要解决问题,下面是决绝问题的三种方式:正则化、主成分回归、偏最小二乘回归。
从上图我们能看到,第一个图拟合的不好,数据和回归出来的线性方程有很大偏差,图像走向明显不是线性,第二个图拟合的不错,数据在函数附近而第三个图中的数据几乎全部分布在曲线上,这就形成了过度拟合的问题,就会造成对测试集拟合效果很好,预测效果很差,因此我们要解决过度拟合问题,提出了正则化的概念:
关于岭回归:
PS:实现的时候对单位矩阵的右下角的最后一项为0
另一种方式LASSO:
对系数进行压缩和选择
由图可以看出,LASSO的最优点只有四个,而岭回归的在任意一点都能很好地契合。
正规划分析:
最后给出了回归垄断的几种方式
其中决定系数:R²取值为0~1,越接近于1效果越好,反之则越差。之后讲了一个例子,在例子中有很多Python的方法,Python中算相关性的函数 corr(),相关性取值0~1,数值越大相关性越大。还有很多函数,比如划分训练集,比如构建回归模型等等,就不一一列举了。