笔记 《面向数据科学家的实用统计学》

《一、探索性数据分析》

【1.3 位置估计】

平均值:所有数的总和除以个数

加权平均值:所有数的加权和除以权值和

中位数:使得数据集有一半的数位于该值之上和之下

加权中位数:使得数据集有一半的权重之和位于该值 之上和之下

切尾均值:去除最大和最小的若干值后的平均值

离群值:与大部分数差异较大的值

【1.4 变异性估计】

偏差:位置的观测值和估计值的差距

方差:n个数据距离均值的偏差的平方和,再除以n-1

标准差:方差的平方根

平均绝对偏差:数据距离均值的绝对值的平均数

中位数绝对偏差:数据距离均值的绝对值的中位数

极差:最大数和最小数的差距

百分位数:P%的数小于该数,100-P%的数大于该数

【1.5 探索数据分布】

箱线图:箱顶为75百分位数,箱底25百分位数,箱中线为50百分位数

直方图:将极差等分,根据间隔内出现频次绘图

密度图:基于直方图的平滑表示,基于某种核密度估计

【1.6 探索分类数据和二元数据】

众数:数据中出现次数最多的数或类别

期望值:如果类别与一个数据关联,可以根据类别出现的概率计算一个平均值

条形图:表示各个类别出现的频数

饼状图:条形图的另一种表示

【1.7 相关性】

相关系数:衡量两个变量的相关性,介于-1到1之间

皮尔逊相关系数:两个变量的对应值的偏差乘积和除以两变量的方差,再除以n-1

相关矩阵:多个变量两两相关系数构成的矩阵

散点图:用x轴表示一个变量的值,用y轴表示另一个变量的值

【1.8 探索两个及以上的变量】

列联表:对两个或两个以上变量进行联结计数的表格

六边形图、等势图、热力图:密度图的多维扩展

小提琴图:箱线图的扩展

 《二、数据和抽样分布》

【2.1 随机抽样和样本偏差】

总体:一个大型数据集,或者一个假想大型数据集

样本:总体的子集

随机采样:从总体中随机选取元素到样本

分层采用:对总体分层,在每层中进行随机采样

简单随机采样:不分层的情况下随机采样

样本偏差:样本对总体做出了错误的解释

【2.2 选择偏差】

选择偏差:以可导致误导性和短暂性结论的方式,有选择性的采样

数据窥探:为了得到感兴趣的结果,在大量数据中反复查找

大规模搜索效应:反复数据建模或搜索导致的数据偏差或不可复现性结论

趋均值回归:对同一变量进行连续测量,在极端测量值后,往往会出现更趋向于中心值的观测值

【2.3 统计量的抽样分布】

样本统计量:样本中一些数据的度量值

数据分布:一个值在数据集中的频数分布

抽样分布:一个样本统计量在不同样本中的频数分布

中心极限定理:无论数据分布如何,当样本量足够大时,抽样分布趋向于正态分布

标准误差:不同样本间的偏差

【2.4 自助法】

Bootstrap:有放回的采样

Bagging:Bootstrap Aggregating,多次有放回的采样,改善模型预测性能

【2.5 置信区间】

置信区间:自助法是一种通用的衡量方法,可以帮助判断样本量大小是否合适

【2.6 正态分布】

标准化:数据减去均值除以标准差

z分数:单个数据点标准化的结果

标准正态分布:均值为0,标准差为1的正态分布

QQ图:将数据标准化,y轴为数据的z分数,x轴为数据排序后对应标准正态分布的分位数,如果数据基本分布在对角线,则说明基本符合正态分布

【2.7 长尾分布】

尾:一个频数分布的狭长部分

偏斜:分布的一个尾部大于另一个尾部

长尾分布:数据趋向于均值时,近似于正态分布,但趋向于极值时,频数远大于正态分布

【2.8 学生t分布】

【2.9 二项分布】

二项分布:多次重复同一结果为1或0的实验,结果为1的次数的分布

【2.10 泊松分布及其相关分布】

泊松分布:已知单位时间内平均发生次数,一段时间内发生次数的分布

指数分布:已知单位时间内平均发生次数,相邻两次发生的时间间隔的分布

《三、统计实验与显著性检验》

【3.1 A/B测试】

实验组:执行特定处理的一组对象

对照组:执行标准处理或不执行处理的一组对象

随机化:随机地分配实验对象以进行处理的过程

检验统计量:用于检验处理效果的度量

【3.2 假设检验】

零假设:完全归因于偶然性的假设

备择假设:与零假设相反,希望证实的假设

单向检验:在假设检验中,只从一个方向上计数偶然性结果

双向检验:在假设检验中,从正反两个方向上计数偶然性结果

【3.3 重抽样】

置换检验:将多组样本组合在一起,随机重新采样分组,统计组间差异分布,判断统计显著性

【3.4 统计显著性和p值】

p值:在模型中加入零假设,观测结果比随机模型生成结果更极端的概率

a值:p值的门限

【3.5 t检验】

t统计量:通过样本均值、方差、样本数等得到的归一化的检验统计量,可以查表得到p值

【3.6 多重检验】

第一类错误:将随机产生的结果判定为统计显著,按照概率,如果从足够多的的视角去观察数据,总可以发现具有统计显著性的结果,犯错误

错误发现率:在多重检验中,犯第一类错误的比率,增加交叉验证可以降低得到虚假显著性结论的风险,如果没有已标记的验证集,则应意识到对数据的查询和操作越多,越可能得到虚假显著性结论

【3.7 自由度】

自由度:对统计检验意义不大,因为数据规模一般很大,但对于回归问题可能会产生多重共线性,要考虑自由度

【3.8 方差分析】

多项检验:多项实验中,如果两两对比,则很容易造成虚假显著性,可以对所有组数据合并再反复抽取,计算组间均值的方差,得到均值方差的分布,与观测各组均值方差做对比

【3.9 卡方检验】

皮尔逊残差:分组统计数据与合并所有组后的统计数据(零假设得出的期望)的差,除以后者的开方

卡方检验:对所有组数据合并再反复抽取,计算皮尔逊残差的平方和,得到皮尔逊残差平方和分布,与观测各组皮尔逊残差平方和做对比

费舍尔精确检验:数据量较小时通过精确计算每种交叉情况的概率得到p值

 【3.10 多臂老虎 机算法】

多臂老虎 机:以某种概率选择当前最优分组,其余机会选择探索所有分组以得到统计数据,发现最优分组

【3.11 检验效能和样本规模】

效果规模:在统计检验中,期望能检测到的效果的最小差距

检验效能:给定样本规模,检测到给定效果规模的概率,可以通过假设样本数据,给定样本数,然后置换假设检验得到

原文地址:https://www.cnblogs.com/jhc888007/p/11624220.html