统计基础知识

凭借记忆和百度复习一下以前学的，不断更

20181115更新

分布左右偏不能使用x均值估计

箱线图-> max，min，中位数，上下四分位数

画图的时候，要标记时间，地点，内容，标题，和编号五个要素

1类错误是弃真，有问题结果认为没问题

2类错误是没问题认为有问题

列联表分时适用于分类变量的推断，卡方检验

统计量是样本的函数，样本不同，计算的统计量也不同

抽样：选一个好样本，现在有种蓄水池抽样方法

实验对照组，需要随机产生，剔除其他影响

P值是当原假设为真时样本观察的结果

几何平均数是用来衡量平均增长率

自由度，独立变量的个数，也是二次型的秩

样本方差分布于总体分布，（n-1）S2/o2~x2(n-1)

2个西格玛可以保证95%的置信区间

无偏性：统计量抽样分布的期望等于总体参数

有效性：对于同一个无偏统计量，方差越小越好

一致性：n增加时，越准确

————————————————————————————————————————————

1：统计学三大分布，呵呵，没有正态，F，T，卡方分布

F分布（F检验）用来检验方差齐性，可用直方图和p-p图来检验（spss/R），如果方差随自变量x变大而变大，说明方差不齐，各个样本的数据可能不是来自一个整体，

比如汽车拥有量，大城市的样本多，小城市样本少，人口对于模型的影响较大，因此要做一个修正。。或者改用非参数检验

关于正态性检验，先可以画个直方图，样本量大于50看SW检验，样本量小于50看KS检验

T分布：自由度ν越小，t分布曲线越低平；自由度ν越大，t分布曲线越接近标准正态分布（u分布）曲线。t分布其实是由正态分布和卡方分布共同推导而来的，它的思路是样本的均值服从正态分布，而实际方差不能仅仅简单等同于样本中计算来的方差，要等同于一个服从卡方分布的方差，最后推导出了t分布。t分布中也有自由度的概念，往往取样本数减去1为自由度v。

卡方分布：若干个随机变量的平方和服从卡方分布，用来检验随机变量是否服从其给定的概率的，服从某种分布的。貌似在列联表里有用到。

T检测：应用于小样本的情况。中心极限定理告诉我们随着样本的容量变大，样本的均值将成正态分布，而当样本较小的时候分布则更接近t分布。

协方差：表示X, Y 相互关系的数字特征，cov(X, Y) = E(X-EX)(Y-EY)，当 cov(X, Y)>0时，表明 X与Y 正相关；当 cov(X, Y)<0时，表明X与Y负相关；当 cov(X, Y)=0时，表明X与Y不相关。

相关系数：X、Y的协方差除以X的标准差和Y的标准差（相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差）

变异系数：将离散程度标准化，等于均值除以方差

大数定律：当N很大，样本均值约等于期望

中心极限定律：不管什么分布，独立随机变量的均值分布趋近于正态分布

正态分布的再生性：随机变量X1，X2，相互独立，服从正态分布，则，Y=X1+X2 服从正态分布

泊松分布：一段时间内或者一定空间内事件的发生次数的对应概率。