机器学习入门（五）之----线性回归（概率解释）

这里大家可能已经发现了，到目前为止，我们没有提到通常课本里所说的什么乱七八糟的正态分布啦，误差项啦，这其实是属于线性回归的概率解释。现在我们就来看一看线性回归的概率模型解释。

线性回归的概率解释

我们讲线性回归时用到了均方误差损失，但没有提到为什么损失函数要具有均方误差的形式。概率解释就给你其中一个理由。

下面我们假设输入变量和输出变量之间通过以下方程相关联，

[egin{equation} y^{(i)}= heta^{T} x^{(i)}+epsilon^{(i)} end{equation} ]

其中，误差项(epsilon^{(i)}) 表示没有被模型考虑到的特征，比如说，除了房子面积之外，是否学区房等其他我们没有考虑到的可能影响房价的因素，以及还表示一些随机噪声。
我们进一步假设各个误差项之间是独立同分布（independently and identically distributed，i.i.d.）于(mathcal{N}(0, sigma)) 。具体的，这个误差项的密度函数为，

[egin{equation} pleft(epsilon^{(i)} ight)=frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(epsilon^{(i)} ight)^{2}}{2 sigma^{2}} ight) end{equation} ]

这也就意味着，

[pleft(y^{(i)}|x^{(i)}; heta ight)=frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T}x^{(i)} ight)^{2}}{2 sigma^{2}} ight) ]

我们这里(pleft(y^{(i)}|x^{(i)}; heta ight)) 之所以用分号，是因为(epsilon^{(i)}) 是参数，我们这里没有把参数当成随机变量。也可以直接将输出的分布记为$y^{(i)}|x{(i)}; hetasim mathcal{N}(0, sigma) $ 。
给定数据设计矩阵(X) （design matrix）和参数( heta) 之后。所有输出的概率可以记为(pleft(vec{y}|X; heta ight)) 。这时，我们通常把它看作是(pleft(vec{y}|X; heta ight)) 的函数。当我们想要把它明确看成参数( heta) 的函数时，通常用另一个符号表示，

[L( heta)=L( heta;X,vec{y})=pleft(vec{y}|X; heta ight) ]

这叫做数据的似然函数（likelihood function）。
进一步，我们有，

[egin{equation} egin{aligned} L( heta) &=prod_{i=1}^{m} pleft(y^{(i)} | x^{(i)} ; heta ight) \ &=prod_{i=1}^{m} frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) end{aligned} end{equation} ]

第一个等式是由于各个误差项之间的独立性。
现在若问在给定数据(X) 与(vec{y}) 下，哪个参数才是最好的呢？一个自然的想法是：在哪个参数下，数据(X) 与(vec{y}) 更有可能出现，则这个参数就是最好的，也就是把最大化似然函数(L( heta)) 的那个参数看成是最好的。注意我们这里把参数看成是变的。
给了将输入数据(X) 与(vec{y}) 联系起来的概率模型，不仅可以最大化(L( heta)) ，事实上，可以最大化任何一个关于(L( heta)) 的增函数。因此我们一般最大化对数似然函数 （log likelihood function），也就是，

[egin{aligned} ell( heta) &=log L( heta) \ &=log prod_{i=1}^{m} frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) \ &=sum_{i=1}^{m} log frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) \ &=m log frac{1}{sqrt{2 pi} sigma}-frac{1}{sigma^{2}} cdot frac{1}{2} sum_{i=1}^{m}left(y^{(i)}- heta^{T} x^{(i)} ight)^{2} end{aligned} ]

从最后一个等式可以看到最大化对数似然函数，正是最大化负的平方误差函数损失函数（忽略系数与没影响的常数）。完美解释了之前为什么要用平方误差函数：它对应于最大似然参数估计。

注意，概率模型的假设，对于最小化均方误差函数却不是必须的。就算没有这个解释，也存在其他解释来证明最小均方误差损失函数的合理性。还注意到假设中模型的方差对最后估计的参数没有影响。这点我们以后在指数分布族和一般线性模型中还会再讲。
总结一下，在相应概率模型假设下，前面的最小化均方误差过程就对应于寻找参数的最大似然估计。

放松一下。