回归与LR_七月算法4月机器学习班第5次课程笔记

2016/5/7 星期六 22:46

	desc
I can do 曲线回归了	即使用岭回归或者 lasso 回归它的思路就是使用了次方很高的的方法而不是同时具有：W 正则化项的约束曲线拟合，即多项式回归
特征离散化	把原本连续的值切段。分布在一段的连续值，认为是同一个特征值。
线性回归之所以好	考虑的不是高维度，二十多个因子而对于 X^2 可以视为 feature map，即也是一种因素即：new 特征啊所以高维度的曲线拟合，多项式回归也可以看做是线性回归
关于过拟合的高方差解释	高次方的系数越大，波动越大，所以说是高方差即：如果分类的曲线很多边边角角，那么：一般是过拟合了，高方差导致的波动大因为只有高次方才能引起这些波动，所以使用正则化以后，消除这些高次方，从而使得曲线光滑曲线的光滑来源于正则化
为什么说LR 的结果是概率	之所以说 log 以后就是概率是因为从 softmax 讲，它是 e指数族吉布斯回归
one VS rest的缺点	要单独很多分类器
feature map 一个角度	This transformation projects the input data into a space where it becomes linearly separable. 用空间的角度解说如果想用圆进行切分边界，那么你的核函数部分，即：曲线拟合部分就要是一个圆的方程 # 寒小阳对于这个图的解释，里面是一个圆的方程，如果点落在圆内，那么 h(x)值比较小，经过非线性以后就归到零类，如果大的话，那么就归到1类启发：即如果大致边界是这样的：那么你也要用一个这个曲线的方程带入到 sigmoid 函数当中才能进行 0-1区分啊
CTR	input：就是一堆特征（比如商家出的钱作为feature），监督tag：就是这个广告点了还是没点模型的输出就是点击概率 CTR 当中不提相似度，而是这些广告的feature，然后看在各个情况下，点没点就知道各个因素的权重了输出结果按照概率值排序 CTR 是隐形的搜素引擎，即没有用户的query 但是仍然能get 到 usr 的info，这个作为 input 然后找相关的广告，排序取前面的作为 res CTR 和推荐系统类似：如果推荐系统，肯定是用户最容易点的，说明最相关基于内容的推荐系统也是一个基于相似度的
回归	神经网络也可以回归，回归神经网络
why scaling	scaling 是幅度变化，而不是归一化比如预测房价，如果一个是 bedroom 个数，一个是面积那么你的因子图会是这样子，即圆形会很扁，这样不利于优化，甚至是精度不准
工业化应用	工业化的数据都在集群上，以HDFS 跑，而不是本地存储所以此时 spark 的mllib 就有用了
这下看懂了两个图	为什么 NG 要讲这个图其实就是说用一个曲线拟合作为kernel，就可以做线性不可分的分类了这个等值线是 cost，当然越小越好，所以一旦 meet 了约束，就可以停止膨胀了
使用LR 的tech 数据量大	1. 采样再 LR 2. 分布式上 spark mllib 3. 将特征离散化为 0-1，这样虽然训练数据量没有变，特征向量还变长了，但是因为 0-1 操作，使得计算速度变快 4. 连续值的特征，最好 scaling一样，使得因子图不是特别的细长，而是圆形，这样利于优化的速度，这个也是可以加速训练的
使用LR 的tech 样本倾斜	1. 修改 loss function，给样本量少的一方，加大分类错误后的损失值 # 理解这个需要理解 LR 损失函数中的每一项，都是表示这个类下分错了的贡献 2. 上采样，图像：比如图像镜像旋转，倒置等等也可以作为同类样本
使用LR 的tech 关于特征的聚类	提前，将一些特征先 hash，比如 uuid？？？？？？？？？？？？？
LR的好，处	1. 概率形式输出，不仅仅是 0-1 tag 类别，能直接概率性的回答问题 2. 概率输出可以直接 point-wise 的O(n) 复杂度的排序 3. 每个因子的系数权重可以get到，能说出每个因子的哪个重要，利于汇报 4. 快，尤其是使用 0-1 的特征向量 # 能不能直接换成 bool 类型的特征向量呢？ note：其实一直想要一个model，这个model 可以反映各个因素的权重，哪个是主要权重你以为有 SVM 也是有 weight 具体是什么的输出。即本质还是个线性回归，就是这个参数不好调，需要SGD 但是对于分类的话，线性拟合不好操作，所以才有了 sigmoid 这个操作使得回归适合于分类。一个观点：如果模型简单而有效，那么这个是好的模型，因为出了问题能直接操作，人为操作，这个是工业界喜欢的，但是 NN 就不能这么做
LR 的进一步理解	· 不要用做差 \|\|y-tag\|\|2的损失函数，因为拆开后事很多的凸函数，所以组合起来不够平滑是这样的： · feature map 做非线性操作可以做曲线分类，线性不可分的分类