笔记《面向数据科学家的实用统计学》

《一、探索性数据分析》

【1.3 位置估计】

平均值：所有数的总和除以个数

加权平均值：所有数的加权和除以权值和

中位数：使得数据集有一半的数位于该值之上和之下

加权中位数：使得数据集有一半的权重之和位于该值之上和之下

切尾均值：去除最大和最小的若干值后的平均值

离群值：与大部分数差异较大的值

【1.4 变异性估计】

偏差：位置的观测值和估计值的差距

方差：n个数据距离均值的偏差的平方和，再除以n-1

标准差：方差的平方根

平均绝对偏差：数据距离均值的绝对值的平均数

中位数绝对偏差：数据距离均值的绝对值的中位数

极差：最大数和最小数的差距

百分位数：P%的数小于该数，100-P%的数大于该数

【1.5 探索数据分布】

箱线图：箱顶为75百分位数，箱底25百分位数，箱中线为50百分位数

直方图：将极差等分，根据间隔内出现频次绘图

密度图：基于直方图的平滑表示，基于某种核密度估计

【1.6 探索分类数据和二元数据】

众数：数据中出现次数最多的数或类别

期望值：如果类别与一个数据关联，可以根据类别出现的概率计算一个平均值

条形图：表示各个类别出现的频数

饼状图：条形图的另一种表示

【1.7 相关性】

相关系数：衡量两个变量的相关性，介于-1到1之间

皮尔逊相关系数：两个变量的对应值的偏差乘积和除以两变量的方差，再除以n-1

相关矩阵：多个变量两两相关系数构成的矩阵

散点图：用x轴表示一个变量的值，用y轴表示另一个变量的值

【1.8 探索两个及以上的变量】

列联表：对两个或两个以上变量进行联结计数的表格

六边形图、等势图、热力图：密度图的多维扩展

小提琴图：箱线图的扩展

《二、数据和抽样分布》

【2.1 随机抽样和样本偏差】

总体：一个大型数据集，或者一个假想大型数据集

样本：总体的子集

随机采样：从总体中随机选取元素到样本

分层采用：对总体分层，在每层中进行随机采样

简单随机采样：不分层的情况下随机采样

样本偏差：样本对总体做出了错误的解释

【2.2 选择偏差】

选择偏差：以可导致误导性和短暂性结论的方式，有选择性的采样

数据窥探：为了得到感兴趣的结果，在大量数据中反复查找

大规模搜索效应：反复数据建模或搜索导致的数据偏差或不可复现性结论

趋均值回归：对同一变量进行连续测量，在极端测量值后，往往会出现更趋向于中心值的观测值

【2.3 统计量的抽样分布】

样本统计量：样本中一些数据的度量值

数据分布：一个值在数据集中的频数分布

抽样分布：一个样本统计量在不同样本中的频数分布

中心极限定理：无论数据分布如何，当样本量足够大时，抽样分布趋向于正态分布

标准误差：不同样本间的偏差

【2.4 自助法】

Bootstrap：有放回的采样

Bagging：Bootstrap Aggregating，多次有放回的采样，改善模型预测性能

【2.5 置信区间】

置信区间：自助法是一种通用的衡量方法，可以帮助判断样本量大小是否合适

【2.6 正态分布】

标准化：数据减去均值除以标准差

z分数：单个数据点标准化的结果

标准正态分布：均值为0，标准差为1的正态分布

QQ图：将数据标准化，y轴为数据的z分数，x轴为数据排序后对应标准正态分布的分位数，如果数据基本分布在对角线，则说明基本符合正态分布

【2.7 长尾分布】

尾：一个频数分布的狭长部分

偏斜：分布的一个尾部大于另一个尾部

长尾分布：数据趋向于均值时，近似于正态分布，但趋向于极值时，频数远大于正态分布

【2.8 学生t分布】

【2.9 二项分布】

二项分布：多次重复同一结果为1或0的实验，结果为1的次数的分布

【2.10 泊松分布及其相关分布】

泊松分布：已知单位时间内平均发生次数，一段时间内发生次数的分布

指数分布：已知单位时间内平均发生次数，相邻两次发生的时间间隔的分布

《三、统计实验与显著性检验》

【3.1 A/B测试】

实验组：执行特定处理的一组对象

对照组：执行标准处理或不执行处理的一组对象

随机化：随机地分配实验对象以进行处理的过程

检验统计量：用于检验处理效果的度量

【3.2 假设检验】

零假设：完全归因于偶然性的假设

备择假设：与零假设相反，希望证实的假设

单向检验：在假设检验中，只从一个方向上计数偶然性结果

双向检验：在假设检验中，从正反两个方向上计数偶然性结果

【3.3 重抽样】

置换检验：将多组样本组合在一起，随机重新采样分组，统计组间差异分布，判断统计显著性

【3.4 统计显著性和p值】

p值：在模型中加入零假设，观测结果比随机模型生成结果更极端的概率

a值：p值的门限

【3.5 t检验】

t统计量：通过样本均值、方差、样本数等得到的归一化的检验统计量，可以查表得到p值

【3.6 多重检验】

第一类错误：将随机产生的结果判定为统计显著，按照概率，如果从足够多的的视角去观察数据，总可以发现具有统计显著性的结果，犯错误

错误发现率：在多重检验中，犯第一类错误的比率，增加交叉验证可以降低得到虚假显著性结论的风险，如果没有已标记的验证集，则应意识到对数据的查询和操作越多，越可能得到虚假显著性结论

【3.7 自由度】

自由度：对统计检验意义不大，因为数据规模一般很大，但对于回归问题可能会产生多重共线性，要考虑自由度

【3.8 方差分析】

多项检验：多项实验中，如果两两对比，则很容易造成虚假显著性，可以对所有组数据合并再反复抽取，计算组间均值的方差，得到均值方差的分布，与观测各组均值方差做对比

【3.9 卡方检验】

皮尔逊残差：分组统计数据与合并所有组后的统计数据（零假设得出的期望）的差，除以后者的开方

卡方检验：对所有组数据合并再反复抽取，计算皮尔逊残差的平方和，得到皮尔逊残差平方和分布，与观测各组皮尔逊残差平方和做对比

费舍尔精确检验：数据量较小时通过精确计算每种交叉情况的概率得到p值

【3.10 多臂老虎机算法】

多臂老虎机：以某种概率选择当前最优分组，其余机会选择探索所有分组以得到统计数据，发现最优分组

【3.11 检验效能和样本规模】

效果规模：在统计检验中，期望能检测到的效果的最小差距

检验效能：给定样本规模，检测到给定效果规模的概率，可以通过假设样本数据，给定样本数，然后置换假设检验得到

笔记 《面向数据科学家的实用统计学》

笔记《面向数据科学家的实用统计学》