概率密度估计笔记—

主要解决在样本的分布没有足够的先验，也就是说我们不仅不知道分布的参数，连是什么类型的分布都不知道，这种情况下显然不能用参数估计的方法。这里从简单直观的方法——直方图法入手，引出KNN和Parzen窗两种方法。

直方图密度估计：出发点是分布函数，假设在某一个很小很小的超立方体V中是均匀分布，那么有

我们就可以得到关于概率密度函数p(x)的估计了。

但是要有几个苛刻的条件

通俗的说就是，在样本数量n不断增加趋于无穷大时，要让小舱体积v尽可能小，同时小舱内有充分多的样本k，但是每个小舱内的样本数又必须是总体样本数中很小的一部分。所以小舱的选择会对估计的效果产生直接影响，那么下面就给出两种选择小舱方法。

KNN:

基本做法：固定局部区域K，体积V进行变化。

需要人为调定一个参数 ,代表的是在总样本数量是N 的情况下我们要使得每个框中落入的样本个数。

一般选取.

Parzen窗：

基本做法：固定局部区域体积V,k变化。

要给出一个窗函数：这里以方窗函数为例（通常也可以有高斯窗，可能更有普遍意义）

那么以点x为中心，体积为的局部区域内的样本个数为

这个式子就表示了与x的距离为的样本点会被冠以权重1，然后计入中，距离超过就冠以权重0计入。

由得到

其中被称为是核函数，通常会有高斯核，方窗核，超球核，指数分布核（抑制噪声的效果更好一点。从分布密度的形状可以看出这一点）。他们要满足概率密度的要求（非负，积分为1）。

h被称为带宽，带宽越大越平滑，带宽越小越容易接近样本值也就越容易产生过拟合。

当样本量不足时要适当加大带宽以减少噪声。