回归模型应用案例（Regression Cases）

线性回归模型（Linear Regression Model）

如(y=f(x)=wcdot x+b)

(y)是输出；

(hat y)是真实值/标签（label）
(w)是权重（weight）；
(b)是偏置（bias）；
(x)是输入（input），也可叫做特征（feature）

数据集中一般包含多个object，每个object一般包含多个component。此时，上标是object的索引，下标是component的索引。
损失函数（Loss Function）

如果不考虑模型的好坏，衡量一个函数的好坏，其实是衡量模型参数的好坏。

以线性模型为例，就是衡量参数(w)和(b)的好坏。如(L(f)=L(w,b)=sum_{n=1}^{10}(hat y-(b+wcdot x^n))^2)，把所有样本误差的平方和作为损失函数
- 输入
  
  一个函数
- 输出
  
  多么地不好（how bad it is）。损失函数值越大，则这个函数越差、与数据集中内容越不相符。

梯度下降可以优化损失函数的值，使其尽量小，即可找到最好（在数据集上拟合效果最好）的模型参数。

现在假设模型(f)中只有一个参数(w)，则损失函数为(L(f)=L(w))，梯度下降算法如下（若模型有多个参数，按相同方法更新各参数）

初始化参数

随机选取一个(w^0)（(w^0)并不一定是随机选取），令(w=w^0)。
计算梯度

(frac{dL(f)}{dw}|_{w=w^0})

如果小于0，此时(w)增大则(L(f))会减小；如果大于0，此时(w)减小则(L(w))会减小。

如果模型有多个参数，则计算损失函数在各个参数方向上的偏导数。
更新模型参数

(w^1=w^0-lrfrac{dL(f)}{dw}|_{w=w^0})

(w)的变化量取决于梯度和学习率（Learning Rate）的大小：梯度绝对值或学习率越大，则(w)变化量越大。

如果模型有多个参数，则用上一步计算出的偏导数对应更新各参数。
重复第2步和第3步

经过多次参数更新/迭代（iteration），可以使损失函数的值达到局部最小（即局部最优，Local Optimal），但不一定是全局最优。

Github（github.com）：@chouxianyu

Github Pages（github.io）：@臭咸鱼

知乎（zhihu.com）：@臭咸鱼

博客园（cnblogs.com）：@臭咸鱼

B站（bilibili.com）：@绝版臭咸鱼

转载请注明出处，欢迎讨论和交流!