极简统计学--要点总结

第二章总结：
从频数的分布进行平均值的计算
平均值=组值X相对频数的合计

直方图中平均值的意义
将直方图看作挑担人偶玩具时平衡的支点

平均值的性质
其一数据在平均值的周边分布
其二多次出现的数据对平均值的影响力大
其三直方图呈左右对对称情况下，其对称轴的占即平均值

算术平均数据：相加再除以个数，公式=(x+y)/2
几何平均数：相乘再开方
均方根值：是将各个数据进行平方再相加除以个数，最后进行开方
调和平均数：1/(1/2x+1/2y)，应用场景：来回路程平均时速。

挑担人偶玩具的支点是“算术平均数”的理由
数据只有两种数字X和Y，X的频数为a个，y的频数为b个；m是平衡支点；
从杠杆原理可得(m-x)*a=(y-m)*b
m=(a/(a+b))*x*(b/(a+b))*y

ma-xa=yb-mb
ma+mb=yb+xa
m(a+b)=
m=(xa+yb)/(a+b)
m=xa/(a+b)+yb/(a+b)

第三总结：
平均值=（数据的合计）/(数据数);
偏差=（数据的数值）-（平均值）
方差=[(偏差的平方)的合计]/(数据数)
标准差=方差的根值
从频数分布表进行方差和标准差的计算
方差=（组值-平均值）的平方*相对频数的合计
标准差=方差的根值

标准差的意义
平均值是从数据的分布中取出的代表的数；
因此，可以认为数据以平均值为基点，在其左右扩散；
评价这种扩散、分散的是标准差；
标准差将数据平均值的离散方式进行平均化。此时，无论向大的方面离散还是小的方面离散，都以正数进行评价，进行避免相互抵消的平均。

第四章总结：
1、判断数据的特殊性，以S.D.为基准；
2、只距离平均值1个S.D.左右的数据可以被称为普通的数据，距平均值超过2个S.D.的数据可以被称为特殊的数据；
3、想要知道有几个S.D.，可以用[(数据）-(平均值)]/(S.D.)来计算；
4.1、数据组X的全部数据加上定值a得新数据组Y，数据Y的平均值是数据X的平均值加上a，数据Y的方差和S.D.与数据X的相比不变；
4.2、数据组X的全部数据乘以定值k得到亲数据组Y，数据Y的平均值是数据X的平均值乘以k，数据Y的方差是K的平方位数，S.D.是k倍；
5、将数据进行[(数据)-(平均值)]/(S.D.)的加工，所得数据的平均值为0，S.D.为1。

第5章总结
1、在股票交易中，不仅是收益率的平均值，S.D.也很重要。
2、购入股票时，有收益率会从平均值下降1个S.D.左右的思想准备会比较好。
3、购入购票时，不用过多考虑收益率从收益率平均值下降2个S.D.左右的情况。
4、股票的收益率的S.D.的术语，叫作波动率；

第6章总结
金融商品X的夏普比率按照如下方法计算
X的夏普比率=(X的回报-国债的收益率）/X的风险；
夏普比率是个分数，分子是对回报的评价，分母是对风险的评价；
1、投资基本上是对高风险、高回报的商品，还是低风险、低回报的商品的选择。这种商品的差异，是性质的差异，并不意味着优劣。
2、可以说，在同样的平均收益率之下，S.D.小的是优良的金融商品，而在同样的S.D.之下，平均收益率大的是优良的金融商品。
3、就此意义上来说，金融商品优劣的评价基准是夏普比率（SPM).
SPM越大，金融商品就越是优良；

第7章总结
1、正态分布是自然办和人类社会中最常见的分布。比如，在身高数据和掷硬币正面出现枚数的数据中就很常见。
2、标准正态分面，平均值=0,S.D.=1.
3、关于标准正态分布，（+1）~（-1）范围的数据（距平均值1个S.D.范围以内的数据）的相对频数为0.6828（70%弱）
（+2）~（-2）范围的数据（距平均值2个S.D.范围以内的数据）的相对频数为0.9544（95%强）
4、一般正太分布的数据，由σ×(标准正态分布的数据)+μ可得。其中平均值=μ S.D.=σ;
5、平均值为μ S.D.为σ的正态分布回到标准正态分布的算式为：z=(x-μ)÷σ;
6、关于平均值为μ、S.D.为σ的正态分布，
(μ+1×σ)~(μ-1×σ)范围的数据（距平均值1个S.D.以内范围的数据）的相对频数为0.6826（70%弱）
(μ+2×σ)~(μ-2×σ)范围的数据（距平均值2个S.D.以内范围的数据）的相对频数为0.9544（75%强）

第8章总结
1、标准正态分布的95%预测命中区间是-1.96以上+1.96以下
2、平均值为平均值为μ、S.D.为σ的正态分布预测命中区间是(μ-1.96σ)以上(μ+1.96σ)以下。
3、数据X是平均值为μ、S.D.为σ的一般正态分布数据时，计算z=(X-μ)÷σ;
4、数据X是平均值为μ、S.D.为σ的正态分布时，95%预测命中区间为解不等式-1.96≤(X-μ)÷σ≤1.96所得的范围；

第9章总结
有关正态分布（或者近似正态分布）的母群体的总体参数为某数值的假设检验，可这样进行：
其总体参数的母群体是正态分布，平均值为μ、S.D.为σ时，如果观测到的数据X的不等式-1.96≤(X-μ)÷σ≤1.96
成立，假设不被舍弃（接受）;
不成立，假设被舍弃;

第10章总结
1、区间估计是这样一种估计方法：它针对母群休的总体参数（参数），在假定其总体参数的情况下，只集合了现实观测到的数据在观测数据的95%预测命中区间的总体参数。根据区间估计确定的总体参数的范围叫作95%置信区间

2、由区间估计求得的区间，是对所有的总体参数进行上一章中的检验操作，不舍弃而保留的集合。

3、关于正态母如何已知标准差σ，对未知的平均值μ进行区间估计的方法。
使用观测到的数据X，解关于μ的一元一次不等式-1.96≤(X-μ)÷σ≤1.96
得出*≤μ≤*的形式即可

4、95%置信区间是这样一种区间，它由各种各样的观测值用相同方法进行区间估计，其中95%包含正确的总体参数。

第11章总结
1、无限母群体中，各数据以无限个数存在，其“观测的容易性”各不相同。
2、随机抽样法的假设，是“进行足够多次数的观测做成直方图，再现母群体分布”的假设。
3、母群体的平均值μ叫作总体均值，以下的方法进行计算
μ=数据的数值×相对频数的和（=数据的数据×池子大小的和）

第12章总结
1、表示母如何数据分散程度的统计量是总体标准差；
2、总体标准差由以下步骤可求
偏差=（数据的数值）-（总体平均值μ）
总体方差σ2=[(偏差的平方)×(池子的大小)]的合计
总本标准差σ=总全方差σ2的平方根

第13章总结
1、观测到的数据，可以在一定程度上认为接近总体均值
2、观测复数的数据，它的平均值叫作样本均值，记作X
3、观测复数的数据取值均值，比1个数据更接近总体均值。观测数据越增加，样本均值走近总体均值的可能性越高
4、大数法则，从1个母群体中，观测N个数据取其样本均值。此时，N越大，样本均值为接近总体均值的数据μ的可能性越高。

第14章总结
1、正态母群体的样本均值的性质
正态母群体的总体均值为μ，总体标准差为σ，观测到的n个数据X的样本均值x（将它们的集合作为别的母群体时）的分布仍为正态分布。x的分布的平均值仍为μ,但标准差为σ/（n的平分根），与母群体相比缩小为N的平方根之一。
2、正态母群体的样本均值的95%预测命中区间
对于总体均值为μ,总体标准差为σ的正态分布数据的N个样本均值x来说，95%的预测命中区间为：(μ-1.96(σ/n的方根))以上(μ+1.96(σ/n的方根))以下。
3、正态母群体的样本均值的95%预测命中区间：不等式表示
对于总体均值为μ，总体标准差为σ的正态母群体数据的N个样本均值x来说，95%预测命中区间为由-1.96≤(x-μ)/(σ/n的方根)≤+1.96
解得的范围。

第15章总结
1、正态母如何中已知总体标准差为σ(总体方差为σ2）时，为了从n个样本估计总体均值μ，可以计算样本均值x，保留（不舍弃）满足-1.96≤(x-μ)/(σ/n的方根)≤+1.96的μ即可。
2、此时，μ的95%置信区间为：x-1.96(σ/n的方根)≤μ≤x+1.96(σ/n的方根)

第16章总结
1、观测数据（样本）中计算的方差叫作样本方差
2、计算样本方差s2的步骤如下：
1）首先计算样本均值
2）其次从各样本中减去样本均值，作偏差
3）将各偏差进行平方再合计，除以样本数
公式写作：
（样本方差s2)=[(偏差1)的平方+(偏差2)的平方+...+(偏差n)的平方]/n
3、自由度n的卡方分布的V
对于标准正态母如何中n个样本x1、x2...xn，将它们平方再合计
V=X1的平方+x2的平方+...+xn的平方
得到统计量V呈自由度n的卡方分布
4、卡方分布的V，只出现0以上的值。另外，距0近的数值的相对频数大，距0远的数值的相对频数急剧减小。

第17章总结
1、由一般正态母如何作卡方分布V的方法
从总体均值μ，总体标准差σ的正态母群体中观测n个样本x1、x2...xn计算
V=((x1-μ)/σ)的平方+((x2-μ)/σ)的平方+...+((xn-μ)/σ)的平方求V，得统计量V是自由度n的卡方分布。
2、从已知总体均值μ的正态母群体中的n个数据估计总体方差σ2的95%置信区间，可按照以下步骤。
1）由n个数据使用1的方法计算V。V是（数字/σ2)的形式。
2）从图中可求自由度n的卡方分布的95%预测命中区间为a以上b以下的形式。
3）解不等式a<=数字/σ2<=b，求σ2

第18章总结
1、新统计量W如下定义
W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
2、样本方差和W的关系式
1）样本方差s2=W*(总体方差σ2)÷n
2）W=(样本方差s2)×(数据数n)÷(总体方差σ2)
3、由一般正态母群体作卡方分布的方法
从总体均值为μ、总体标准差为σ的正态母如何中观测n个样本x1、x2...xn作
W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
得W是呈自由度(n-1)卡方分布的统计量
4、由一般正态母群体的样本方差作卡方分布W的方法
从总体均值为μ，总体标准差为σ的正态母群体观测n个样本计算得样本方差s2时，作
W=(样本方差s2)X(数据数n)÷(总体方差σ2)
得W是呈自由度(n-1)卡方分布的统计量

总体均值对未知的正态母群体的总体方差进行区间估计的方法
1）首先从n个观测数据计算样本均值x。其次使用它作偏差，将其平方和除以n，计算亲本方差s2
2）样本方差s2乘以n再除以总体方差σ2作统计量W
3）确认自由度(n-1)的95%预测命中区间
4）保留能使W进入步骤3区间的σ2，舍掉不能的，求总体方差σ2的95%置信区间。

第20章总结
1、由总体均值μ和样本得统计量T的计算
设总体均值为μ的正态母群体中n个样本的样本均值x，样本标准差为s，计算得T=(x-μ)(n-1)的方根÷s
=(样本均值-总体均值)÷(样本标准差)X自由度的根方
服从自由度(n-1)的t分布

2、t分布是清楚相对频数分布。虽然与正态分布几乎是同样的形状，但与正态分布相比，t分布是更缓和的山形。好顶端略低，山脚略高。

第21章总结
1、T=(样本均值-总体均值)÷(样本标准差)X(n-1)的方根是服从自由度为n-1的t分布
2、利用t分布估计正态母群体的总体均值的方法：
1）从所得的n个样本计算样本均值x和样本标准差s
2）使用样本均值x样本标准差s和想要估计的总体均值μ，按照如下计算服从自由度n-1的t分布的统计量T
T=(x-μ)÷s×(n-1)的根方
3）在图21-1查自由度n-1的95%预测命中区间，作-α≤T≤+α这样的预测区间
4）解-α≤(x-μ)(n-1)的方根÷s≤+α中μ,即为95%置信区间。