分位数Quantiles

什么是分位数？

随机变量的分布与分位数概念

显然，分位数是用来定位的，表示某个样本在整个样本空间中的位置信息。

通过CDF(累积分布函数)可以很好地理解分位数的概念。CDF是一个单调递增的函数，F(q) = F(x<=q) 。CDF曲线中横轴是随机变量的取值，竖轴是小于某个取值的概率。

由于CDF单调递增，因此一定存在一个逆函数F^-1。F^-1以小于某个取值的概率为输入，以对应的随机变量的取值为输出。

如果已知P(X<=x_alpha) = alpha = F(X_alpha) ，则通过CDF的逆F^-1可直接求出对应的X_alpha的取值X_alpha=F^-1(alpha)，X_alpha即为F的alpha分位点。

以下是一个均值=10，标准差=0.5的正态分布概率密度曲线的例子，x=9.020的垂线与该分布的概率密度曲线和X轴所围成的左侧区域面积=0.025，

该面积表示在随机变量X的总体分布中，有2.5%的值小于9.020，也就是说在总体分布中，随机变量X的取值小于9.020的概率为2.5%。

同样，x=10.98的垂线与该分布的概率密度曲线和X轴所围成的右侧区域面积=0.025，该面积表示在随机变量X的总体分布中，有2.5%的值大于10.98，

也就是说在总体分布中，随机变量X的取值大于10.98的概率为2.5%（也即是随机变量X的取值小于10.98的概率为97.5%）。

在这个分布中，x=9.020的值被称为X的2.5%分位数（即：X_2.5%=9.020），x=10.98的值被称为X的97.5%分位数（X_97.5%=10.98）。

随机变量X有95%（即：97.5% - 2.5%=95%）的取值落在9.020至10.98之间。每个分位数都是随机变量所有可能取值中的某个值。

按照定义，若某个值Xp被称为随机变量X的p分位数，则随机变量X的取值小于Xp的概率为p。

以下是该正态分布对应的累积概率分布曲线，该曲线的纵轴表示的是累积概率，比如：x=9.020对应的累积概率为2.5%（即：随机变量X的取值小于x=9.020的概率为2.5%）,

x=10对应的累积概率为50%（即：随机变量X的取值小于x=10的概率为50%）, x=10.98对应的累积概率为97.5%（即：随机变量X的取值小于x=10.98的概率为97.5%）。

分位数的概念很重要，我们在研究过程能力时，通常将被研究过程的特性的99.865%分位数与0.135%分位数的差值

（即：被研究过程的特性其中间99.73%的区间范围）定义为过程变异（Process Variation）的宽度。建立SPC控制图，

如：均值极差（Xbar-R）控制图时，也是分别以样本均值和样本极差的0.135%分位数和99.865%分位数作为下控制限（LCL）和上控制限（UCL）。

对于服从正态分布的过程的特性X，其0.135%分位数X_0.135%=μ-3σ，99.865%分位数X_99.865%=μ+ 3σ，因此，过程变异的宽度=6σ。

对于服从任意分布的随机变量，过程变异的宽度= X_99.865% - X_0.135%。以下是任意分布时的概率密度分布曲线的例子。

随机变量取值X=x_i时的概率P(X=x_i）=△xf(x)，因为△x趋于0，因此在连续分布中，随机变量取值X=x_i的概率P(X=x_i）趋于0。