最大似然估计(MLE)与最小二乘估计(LSE)的区别

最大似然估计与最小二乘估计的区别

标签(空格分隔): 概率论与数理统计


最小二乘估计

对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。

设Q表示平方误差,(Y_{i})表示估计值,(hat{Y}_{i})表示观测值,即(Q = sum_{i=1}^{n}(Y_{i} - hat{Y}_{i})^{2})

最大似然估计

对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。

显然,最大似然估计需要已知这个概率分布函数,一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计与最小二乘估计是等价的,也就是估计的结果是相同的。
最大似然估计原理:

  1. 当给定样本(x_{1}, x_{2}, ... ,x_{n})时,定义似然函数为(L( heta) = f(x_{1}, x_{2}, ... ,x_{n}; heta));
  2. (L( heta))看做是( heta)的函数,最大似然估计就是用使(L( heta))达到最大值的(hat{ heta})去估计( heta),这时称(hat{ heta})( heta)的最大似然估计;

MLE的步骤:

  1. 由总体分布导出样本的联合概率函数(或联合密度);
  2. 把样本联合概率函数的自变量看成是已知常数,而把( heta)看做是自变量,得到似然函数(L( heta));
  3. 求似然函数的最大值(常常取对数,然后求驻点);
  4. 用样本值带入得到参数的最大似然估计。

例题

设一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?

LSE

设使用LSE估计,出现人头的概率为( heta), 则出现字的概率为(1 - heta)
已知观测量为:(观测到的)出现人头的概率为(frac{1}{100}), (观测到的)出现字的概率为(frac{99}{100}),则由最小二乘估计:
(Q( heta) = argmin_{ heta}sum_{1}^{100}( heta - hat{ heta})^{2} \ = argmin_{ heta} {(frac{1}{100} - heta)^{2} + [frac{99}{100} - (1- heta)]^{2} * 99})
(frac{partial{Q( heta)}}{partial{ heta}} = 0),解得( heta = frac{1}{100});

ML

设使用ML估计,所以x服从伯努利分布,(x sim B(朝上, heta)),
则概率密度函数为:

[P(x| heta) = egin{cases} heta, & ext{if x 人头朝上} \ 1 - heta, & ext{if x 字朝上} end{cases} ]

则连续100次试验的似然函数为:
(P(x_{1}, x_{2},..x_{100}| heta) = C_{100}^{1} heta^{1} * (1 - heta)^{99} = 100 * heta^{1} * (1 - heta)^{99})
最大化似然函数,则( heta)至少为驻点,对似然函数取对数并求偏导:
(ln P(x_{1}, x_{2},..x_{100}| heta) = ln 100 + ln heta + 99ln (1 - heta))
( heta)求偏导为0,得到:
(frac{partialln P(x_{1}, x_{2},..x_{100}| heta)}{partial heta} = frac{1}{ heta} - frac{99}{1 - heta} = 0), 解得( heta = frac{1}{100}.)

两者虽然得到的估计值是一样的,但是原理完全不同,要对他们的推导过程非常清楚。

原文地址:https://www.cnblogs.com/little-YTMM/p/5700226.html