统计学的一些知识

用大概一周时间看完了网易云课堂里的可汗学院的统计学课程，感觉可汗讲的还是非常容易理解的，解开了我许多之前只会套公式却不知道为什么的疑惑。

考虑集中趋势的方式：平均数，中位数，众数，中程数（midrange）：(最大+最小)/2

箱线图：先找到一组数据的中位数，再找前一半和后一半的中位数，得到四个部分，中间两部分是box，头尾是whisker

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

伯努利试验（Bernoulli experiment）是在同样的条件下重复地、相互独立地进行的一种随机试验，其特点是该随机试验只有两种可能结果：发生或者不发生。我们假设该项试验独立重复地进行了n次，那么就称这一系列重复独立的随机试验为n重伯努利试验，或称为伯努利概型。单个伯努利试验是没有多大意义的，然而，当我们反复进行伯努利试验，去观察这些试验有多少是成功的，多少是失败的，事情就变得有意义了，这些累计记录包含了很多潜在的非常有用的信息。

数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。本质是总体无穷时的总体均值

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。

在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。样本数量足够多时，样本均值趋近于总体均值，或者说随机变量的期望值

大数定律：对独立同分布的随机变量取样，当样本容量逐渐增大，趋向于无穷，样本均值也无限趋近于总体的均值，即样本期望收敛于真实的期望

中心极限定理：对任意具有确定均值和方差的随机变量，不管其分布如何，取其中n个变量作为一次取样，当取样次数趋向无穷时，取样的均值会近似于正态分布规律，均值与随机变量均值相同，标准差为随机变量的标准差除以根号n，n越大越接近于正态分布

95%置信区间是对总体均值的一个估计，意思是计算出来的估计区间有95%的机会将总体均值包含在其中，要注意总体均值是确定的，只是未知，因此不能说95%置信区间是这个区间有95%的概率将总体均值包含在里面

根据最小平方误差SE（y值与拟合y值之差）做线性回归得到的拟合线将通过（x均值，y均值）这一点和（x平方的均值除以x均值，xy均值除以x均值）

协方差：COV(X,Y)=E[(X-E[X])*(Y-E[Y])]，展开化简后可推导出回归线的斜率等于COV(X,Y)/COV(X,X)=COV(X,Y)/VAR(X)

方差分析是用于两个及两个以上样本均数差别的显著性检验，可以判断是组间差异还是组内差异对总差异的影响大，假设有n组数据，每组m个数据，SST是总差异（每个数据与样本总体均值之差的平方和），自由度nm-1，SSW是组内差异（每个数据与各组均值之差的平方和），自由度n(m-1)，SSB是组间差异（每组数据均值与样本总体均值之差的平方和），自由度n-1

卡方分布是一定数量的随机变量的平方和，皮尔逊卡方检验就是检验样本是否符合给定的分布，即检验实际频数和理论频数是否较为接近，检验统计量为X^2=∑{（实际频数-理论频数的）^2/理论频数}，它近似服从自由度为V =组格数－估计参数个数－1 的卡方分布

F统计量=组间差异除以组间自由度/组内差异除以组内自由度=(SSB/(n-1))/(SSW/n(m-1))，是两个卡方分布之比

相关性和因果性：相关性是指A和B有可能一同发生，但并不能确定是哪个的出现造成了另一个的出现，因果性是指A导致B，做研究时要注意区分这两者的区别

归纳推理（inductive reasoning）是寻找规律或趋势，然后推广，但并不能确定趋势是否会继续，只是假设它会继续。演绎推理（deductive reasoning）是从一些数据或事实出发，演绎得到其它正确的事实，是肯定正确的

皮尔逊相关系数：协方差与两个变量标准差之积的比。所有的假设检验都是要分析显著性的，拿相关系数来说，我们虽然求得了相关系数值，但是这个相关系数有没有统计学意义呢？换句话说，我们看到的这个相关系数是确实存在呢？还是说只是抽样误差导致的？显著性检验就是要解决这个问题的，如果显著，则表明相关的确存在，不是抽样误差导致的。检验相关系数时，双侧或单侧检验的结果小于指定α值，则可以认为此相关系数通过显著性检验，可认为是可信的，即原假设为两者不相关，变量间相关系数为0，若原假设正确，出现此情况的概率小于α，则拒绝原假设，认为两者相关

通常只限定犯第一类错误的最大概率α，不考虑犯第二类错误的概率β。这样的假设检验又称为显著性检验，概率α称为显著性水平。显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对我们对总体所做的假设做检验

---------------- 坚持每天学习一点点