数据挖掘实践（7）：基础理论（七）数学基础（七）概率（三）参数估计（一）

1、正态分布（⾼斯分布）

1.1 什么是正态分布

　　若随机变量X服从⼀个数学期望为μ、⽅差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

　　期望：反映随机变量平均取值的⼤⼩。

　　　　设P(x) 是⼀个离散概率分布，⾃变量的取值范围为

。其期望被定义为：

　　　　设P(x) 是⼀个连续概率密度函数，其期望为：

　　　　⼤数定律规定，随着重复次数接近⽆穷⼤，数值的算术平均值⼏乎肯定地收敛于期望值。

　　⽅差：随机变量及其均值之间的偏离程度。

1.2 正态曲线

　　正态曲线呈钟型，两头低，中间⾼，左右对称因其曲线呈钟形，因此⼈们⼜经常称之为钟形曲线。

1.3 概率密度函数

import numpy as np
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
def demo1():
 mu ,sigma = 0, 1
 sampleNo = 1000000
 np.random.seed(0)
 s = np.random.normal(mu, sigma, sampleNo)
 plt.hist(s, bins=100, density=True)
 plt.show()
demo1()

import numpy as np
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
from scipy.stats import norm
def demo2():
 mu, sigma , num_bins = 0, 1, 50
 x = mu + sigma * np.random.randn(1000000)
 # 正态分布的数据
 n, bins, patches = plt.hist(x, num_bins, density=True, facecolor = 'blue',
alpha = 0.5)
 # 拟合曲线
 plt.plot(bins,(norm.pdf(bins, mu, sigma)))
 plt.xlabel('Expectation')
 plt.ylabel('Probability')
 plt.title('histogram of normal distribution: $mu = 0$, $sigma=1$')
 plt.subplots_adjust(left = 0.15)
 plt.show()
demo2()

#-*-coding:utf-8-*-
"""
python绘制标准正态分布曲线
"""
# ==============================================================
import numpy as np
import math
import matplotlib.pyplot as plt
def gd(x, mu=0, sigma=1):
 """根据公式，由⾃变量x计算因变量的值
 Argument:
 x: array
 输⼊数据（⾃变量）
 mu: float
 均值
 sigma: float
 ⽅差
 """
 left = 1 / (np.sqrt(2 * math.pi) * np.sqrt(sigma))
 right = np.exp(-(x - mu)**2 / (2 * sigma))
 return left * right
if __name__ == '__main__':
 # ⾃变量
 x = np.arange(-4, 5, 0.1)
 # 因变量（不同均值或⽅差）
 y_1 = gd(x, 0, 0.2)
 y_2 = gd(x, 0, 1.0)
 y_3 = gd(x, 0, 5.0)
 y_4 = gd(x, -2, 0.5)
 # 绘图
 plt.plot(x, y_1, color='green')
 plt.plot(x, y_2, color='blue')
 plt.plot(x, y_3, color='yellow')
 plt.plot(x, y_4, color='red')
 # 设置坐标系
 plt.xlim(-5.0, 5.0)
 plt.ylim(-0.2, 1)
 ax = plt.gca()
 ax.spines['right'].set_color('none')
 ax.spines['top'].set_color('none')
 ax.xaxis.set_ticks_position('bottom')
 ax.spines['bottom'].set_position(('data', 0))
 ax.yaxis.set_ticks_position('left')
 ax.spines['left'].set_position(('data', 0))
 plt.legend(labels=['$mu = 0, sigma^2=0.2$', '$mu = 0, sigma^2=1.0$',
'$mu = 0, sigma^2=5.0$', '$mu = -2, sigma^2=0.5$'])
 plt.show()

3、最⼤似然

3.1 似然函数

　　给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：

　　　　　　　　L(θ|x)=P(X=x|θ)。

　　似然，就是可能性的意思。例如体重为20kg的哈⼠奇的可能性是多少，就称为体重为20kg的哈⼠奇的似然是多少。

3.2 极⼤似然估计

　　简单的说：极⼤似然估计就是利⽤已知的样本结果，反推最有可能（最⼤概率）导致这样结果的参数值。

根据科学，我们得到两个条件：

　　1.动物的体重是符合正态分布的。

　　2.我们“请”来了所有的⽹红哈⼠奇，得到了500只哈⼠奇的体重信息。

问：如何⽤这500只哈⼠奇去推测哈⼠奇的体重分布？

3.3 为什么要⽤极⼤似然估计

　　当我们使⽤机器学习解决具体现实问题时，我们是⽆法确切知道具体的数据分布情况的。例如我们现在想知道橘猫的体重分布，显然，我们是⽆法⼀只只去测的。这种情况在机器学习中⾮常普遍，那我们可不可以⽤部分已知数据去预测整体的分布呢？极⼤似然估计就是⼀个解决这类问题的⽅法。但是，这并不是绝对准确的，只能说实际情况最有可能接近这种猜测的分布。

3.4 使⽤极⼤似然估计⽅法的两个条件

　　1.我们假定数据服从某种已知的特定数据分布型。

　　2.我们已经得到了⼀定的数据集。