机器学习入门(五)之----线性回归(概率解释)

这里大家可能已经发现了,到目前为止,我们没有提到通常课本里所说的什么乱七八糟的正态分布啦,误差项啦,这其实是属于线性回归的概率解释。现在我们就来看一看线性回归的概率模型解释。

img

线性回归的概率解释

我们讲线性回归时用到了均方误差损失,但没有提到为什么损失函数要具有均方误差的形式。概率解释就给你其中一个理由。

下面我们假设输入变量和输出变量之间通过以下方程相关联,

[egin{equation} y^{(i)}= heta^{T} x^{(i)}+epsilon^{(i)} end{equation} ]

其中,误差项(epsilon^{(i)}) 表示没有被模型考虑到的特征,比如说,除了房子面积之外,是否学区房等其他我们没有考虑到的可能影响房价的因素,以及还表示一些随机噪声。
我们进一步假设各个误差项之间是独立同分布(independently and identically distributed,i.i.d.)于(mathcal{N}(0, sigma)) 。具体的,这个误差项的密度函数为,

[egin{equation} pleft(epsilon^{(i)} ight)=frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(epsilon^{(i)} ight)^{2}}{2 sigma^{2}} ight) end{equation} ]

这也就意味着,

[pleft(y^{(i)}|x^{(i)}; heta ight)=frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T}x^{(i)} ight)^{2}}{2 sigma^{2}} ight) ]

我们这里(pleft(y^{(i)}|x^{(i)}; heta ight)) 之所以用分号,是因为(epsilon^{(i)}) 是参数,我们这里没有把参数当成随机变量。也可以直接将输出的分布记为$y{(i)}|x{(i)}; hetasim mathcal{N}(0, sigma) $ 。
给定数据设计矩阵(X) (design matrix)和参数( heta) 之后。所有输出的概率可以记为(pleft(vec{y}|X; heta ight)) 。这时,我们通常把它看作是(pleft(vec{y}|X; heta ight)) 的函数。当我们想要把它明确看成参数( heta) 的函数时,通常用另一个符号表示,

[L( heta)=L( heta;X,vec{y})=pleft(vec{y}|X; heta ight) ]

这叫做数据的似然函数(likelihood function)。
进一步,我们有,

[egin{equation} egin{aligned} L( heta) &=prod_{i=1}^{m} pleft(y^{(i)} | x^{(i)} ; heta ight) \ &=prod_{i=1}^{m} frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) end{aligned} end{equation} ]

第一个等式是由于各个误差项之间的独立性。
现在若问在给定数据(X)(vec{y}) 下,哪个参数才是最好的呢? 一个自然的想法是:在哪个参数下,数据(X)(vec{y}) 更有可能出现,则这个参数就是最好的,也就是把最大化似然函数(L( heta)) 的那个参数看成是最好的。注意我们这里把参数看成是变的。
给了将输入数据(X)(vec{y}) 联系起来的概率模型,不仅可以最大化(L( heta)) ,事实上,可以最大化任何一个关于(L( heta)) 的增函数。因此我们一般最大化对数似然函数 (log likelihood function),也就是,

[egin{aligned} ell( heta) &=log L( heta) \ &=log prod_{i=1}^{m} frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) \ &=sum_{i=1}^{m} log frac{1}{sqrt{2 pi} sigma} exp left(-frac{left(y^{(i)}- heta^{T} x^{(i)} ight)^{2}}{2 sigma^{2}} ight) \ &=m log frac{1}{sqrt{2 pi} sigma}-frac{1}{sigma^{2}} cdot frac{1}{2} sum_{i=1}^{m}left(y^{(i)}- heta^{T} x^{(i)} ight)^{2} end{aligned} ]

从最后一个等式可以看到最大化对数似然函数,正是最大化负的平方误差函数损失函数(忽略系数与没影响的常数)。完美解释了之前为什么要用平方误差函数:它对应于最大似然参数估计。

注意,概率模型的假设,对于最小化均方误差函数却不是必须的。就算没有这个解释,也存在其他解释来证明最小均方误差损失函数的合理性。还注意到假设中模型的方差对最后估计的参数没有影响。这点我们以后在指数分布族和一般线性模型中还会再讲。
总结一下,在相应概率模型假设下,前面的最小化均方误差过程就对应于寻找参数的最大似然估计

img

放松一下。

原文地址:https://www.cnblogs.com/qizhien/p/11574433.html