R概率分布函数使用小结

记要

今天在计算分类模型自行区间时，用到了R中正太分布的qnorm函数，这里做简单记要，作为备忘。

R中自带了很多概率分布的函数，如正太分布，二次分布，卡放分布，t分布等，这些分布的函数都有一个共性，每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布，有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下：

d Density的缩写，表示密度函数。举个例子，标准正太分布x=0对应的值可以用dnorm(0)计算
p Probability的缩写，表示概率函数。举个例子，标准正太分布从负无穷大到0的概率，可以用pnorm(0)计算
q Quantile的缩写，表示分位函数。举个例子，如果知道标准正太分布从负无穷大到x的概率是0.9678，想要知道这个x的值，可以通过qnorm(0.9678)计算。
r Random的缩写，表示随机函数。用于随机生成符合正太分布的数值，举个例子，如果想随机生成10个符合标准正太分布的函数，可以用rnorm(10)来获得。

在R命令行中输出“?pnorm”，可以了解更多详细情况。

心得体会

最近在学习数据挖掘中的一些分类模型，由于才入门不久，以前总认为概率在数据挖掘在没多大用处，直到昨天才知道原来挖掘模型的精度评估和比较可以建立在统计学分析框架上。比如评估一个分类模型，计算其准确度的自行区间就是通过二项分布近似到正太分布计算。再比如，评估两个模型是否有差异，这个通过假设检验和卡放分布验证。

参考：《数据挖掘导论》 Pang-Ning Tan 4.6节