极简统计学--要点总结

第二章总结:
从频数的分布进行平均值的计算
平均值=组值X相对频数的合计

直方图中平均值的意义
将直方图看作挑担人偶玩具时平衡的支点

平均值的性质
其一 数据在平均值的周边分布
其二 多次出现的数据对平均值的影响力大
其三 直方图呈左右对对称情况下,其对称轴的占即平均值

算术平均数据:相加再除以个数,公式=(x+y)/2
几何平均数:相乘再开方
均方根值:是将各个数据进行平方再相加除以个数,最后进行开方
调和平均数:1/(1/2x+1/2y),应用场景:来回路程平均时速。

挑担人偶玩具的支点是“算术平均数”的理由
数据只有两种数字X和Y,X的频数为a个,y的频数为b个;m是平衡支点;
从杠杆原理可得(m-x)*a=(y-m)*b
m=(a/(a+b))*x*(b/(a+b))*y

ma-xa=yb-mb
ma+mb=yb+xa
m(a+b)=
m=(xa+yb)/(a+b)
m=xa/(a+b)+yb/(a+b)

第三总结:
平均值=(数据的合计)/(数据数);
偏差=(数据的数值)-(平均值)
方差=[(偏差的平方)的合计]/(数据数)
标准差=方差的根值
从频数分布表进行方差和标准差的计算
方差=(组值-平均值)的平方*相对频数的合计
标准差=方差的根值

标准差的意义
平均值是从数据的分布中取出的代表的数;
因此,可以认为数据以平均值为基点,在其左右扩散;
评价这种扩散、分散的是标准差;
标准差将数据平均值的离散方式进行平均化。此时,无论向大的方面离散还是小的方面离散,都以正数进行评价,进行避免相互抵消的平均。

第四章总结:
1、判断数据的特殊性,以S.D.为基准;
2、只距离平均值1个S.D.左右的数据可以被称为普通的数据,距平均值超过2个S.D.的数据可以被称为特殊的数据;
3、想要知道有几个S.D.,可以用[(数据)-(平均值)]/(S.D.)来计算;
4.1、数据组X的全部数据加上定值a得新数据组Y,数据Y的平均值是数据X的平均值加上a,数据Y的方差和S.D.与数据X的相比不变;
4.2、数据组X的全部数据乘以定值k得到亲数据组Y,数据Y的平均值是数据X的平均值乘以k,数据Y的方差是K的平方位数,S.D.是k倍;
5、将数据进行[(数据)-(平均值)]/(S.D.)的加工,所得数据的平均值为0,S.D.为1。

第5章总结
1、在股票交易中,不仅是收益率的平均值,S.D.也很重要。
2、购入股票时,有收益率会从平均值下降1个S.D.左右的思想准备会比较好。
3、购入购票时,不用过多考虑收益率从收益率平均值下降2个S.D.左右的情况。
4、股票的收益率的S.D.的术语,叫作波动率;

第6章总结
金融商品X的夏普比率按照如下方法计算
X的夏普比率=(X的回报-国债的收益率)/X的风险;
夏普比率是个分数,分子是对回报的评价,分母是对风险的评价;
1、投资基本上是对高风险、高回报的商品,还是低风险、低回报的商品的选择。这种商品的差异,是性质的差异,并不意味着优劣。
2、可以说,在同样的平均收益率之下,S.D.小的是优良的金融商品,而在同样的S.D.之下,平均收益率大的是优良的金融商品。
3、就此意义上来说,金融商品优劣的评价基准是夏普比率(SPM).
SPM越大,金融商品就越是优良;

第7章总结
1、正态分布是自然办和人类社会中最常见的分布。比如,在身高数据和掷硬币正面出现枚数的数据中就很常见。
2、标准正态分面,平均值=0,S.D.=1.
3、关于标准正态分布,(+1)~(-1)范围的数据(距平均值1个S.D.范围以内的数据)的相对频数为0.6828(70%弱)
(+2)~(-2)范围的数据(距平均值2个S.D.范围以内的数据)的相对频数为0.9544(95%强)
4、一般正太分布的数据,由σ×(标准正态分布的数据)+μ可得。其中平均值=μ S.D.=σ;
5、平均值为μ S.D.为σ的正态分布回到标准正态分布的算式为:z=(x-μ)÷σ;
6、关于平均值为μ、S.D.为σ的正态分布,
(μ+1×σ)~(μ-1×σ)范围的数据(距平均值1个S.D.以内范围的数据)的相对频数为0.6826(70%弱)
(μ+2×σ)~(μ-2×σ)范围的数据(距平均值2个S.D.以内范围的数据)的相对频数为0.9544(75%强)

第8章总结
1、标准正态分布的95%预测命中区间是-1.96以上+1.96以下
2、平均值为平均值为μ、S.D.为σ的正态分布预测命中区间是(μ-1.96σ)以上(μ+1.96σ)以下。
3、数据X是平均值为μ、S.D.为σ的一般正态分布数据时,计算z=(X-μ)÷σ;
4、数据X是平均值为μ、S.D.为σ的正态分布时,95%预测命中区间为解不等式-1.96≤(X-μ)÷σ≤1.96所得的范围;

第9章总结
有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可这样进行:
其总体参数的母群体是正态分布,平均值为μ、S.D.为σ时,如果观测到的数据X的不等式-1.96≤(X-μ)÷σ≤1.96
成立,假设不被舍弃(接受);
不成立,假设被舍弃;

第10章总结
1、区间估计是这样一种估计方法:它针对母群休的总体参数(参数),在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据的95%预测命中区间的总体参数。根据区间估计确定的总体参数的范围叫作95%置信区间

2、由区间估计求得的区间,是对所有的总体参数进行上一章中的检验操作,不舍弃而保留的集合。

3、关于正态母如何已知标准差σ,对未知的平均值μ进行区间估计的方法。
使用观测到的数据X,解关于μ的一元一次不等式-1.96≤(X-μ)÷σ≤1.96
得出*≤μ≤*的形式即可

4、95%置信区间是这样一种区间,它由各种各样的观测值用相同方法进行区间估计,其中95%包含正确的总体参数。

第11章总结
1、无限母群体中,各数据以无限个数存在,其“观测的容易性”各不相同。
2、随机抽样法的假设,是“进行足够多次数的观测做成直方图,再现母群体分布”的假设。
3、母群体的平均值μ叫作总体均值,以下的方法进行计算
μ=数据的数值×相对频数的和(=数据的数据×池子大小的和)

第12章总结
1、表示母如何数据分散程度的统计量是总体标准差;
2、总体标准差由以下步骤可求
偏差=(数据的数值)-(总体平均值μ)
总体方差σ2=[(偏差的平方)×(池子的大小)]的合计
总本标准差σ=总全方差σ2的平方根

第13章总结
1、观测到的数据,可以在一定程度上认为接近总体均值
2、观测复数的数据,它的平均值叫作样本均值,记作X
3、观测复数的数据取值均值,比1个数据更接近总体均值。观测数据越增加,样本均值走近总体均值的可能性越高
4、大数法则,从1个母群体中,观测N个数据取其样本均值。此时,N越大,样本均值为接近总体均值的数据μ的可能性越高。

第14章总结
1、正态母群体的样本均值的性质
正态母群体的总体均值为μ,总体标准差为σ,观测到的n个数据X的样本均值x(将它们的集合作为别的母群体时)的分布仍为正态分布。x的分布的平均值仍为μ,但标准差为σ/(n的平分根),与母群体相比缩小为N的平方根之一。
2、正态母群体的样本均值的95%预测命中区间
对于总体均值为μ,总体标准差为σ的正态分布数据的N个样本均值x来说,95%的预测命中区间为:(μ-1.96(σ/n的方根))以上(μ+1.96(σ/n的方根))以下。
3、正态母群体的样本均值的95%预测命中区间:不等式表示
对于总体均值为μ,总体标准差为σ的正态母群体数据的N个样本均值x来说,95%预测命中区间为由-1.96≤(x-μ)/(σ/n的方根)≤+1.96
解得的范围。

第15章总结
1、正态母如何中已知总体标准差为σ(总体方差为σ2)时,为了从n个样本估计总体均值μ,可以计算样本均值x,保留(不舍弃)满足-1.96≤(x-μ)/(σ/n的方根)≤+1.96的μ即可。
2、此时,μ的95%置信区间为:x-1.96(σ/n的方根)≤μ≤x+1.96(σ/n的方根)

第16章总结
1、观测数据(样本)中计算的方差叫作样本方差
2、计算样本方差s2的步骤如下:
1)首先计算样本均值
2)其次从各样本中减去样本均值,作偏差
3)将各偏差进行平方再合计,除以样本数
公式写作:
(样本方差s2)=[(偏差1)的平方+(偏差2)的平方+...+(偏差n)的平方]/n
3、自由度n的卡方分布的V
对于标准正态母如何中n个样本x1、x2...xn,将它们平方再合计
V=X1的平方+x2的平方+...+xn的平方
得到统计量V呈自由度n的卡方分布
4、卡方分布的V,只出现0以上的值。另外,距0近的数值的相对频数大,距0远的数值的相对频数急剧减小。

第17章总结
1、由一般正态母如何作卡方分布V的方法
从总体均值μ,总体标准差σ的正态母群体中观测n个样本x1、x2...xn计算
V=((x1-μ)/σ)的平方+((x2-μ)/σ)的平方+...+((xn-μ)/σ)的平方求V,得统计量V是自由度n的卡方分布。
2、从已知总体均值μ的正态母群体中的n个数据估计总体方差σ2的95%置信区间,可按照以下步骤。
1)由n个数据使用1的方法计算V。V是(数字/σ2)的形式。
2)从图中可求自由度n的卡方分布的95%预测命中区间为a以上b以下的形式。
3)解不等式a<=数字/σ2<=b,求σ2

第18章总结
1、新统计量W如下定义
W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
2、样本方差和W的关系式
1)样本方差s2=W*(总体方差σ2)÷n
2)W=(样本方差s2)×(数据数n)÷(总体方差σ2)
3、由一般正态母群体作卡方分布的方法
从总体均值为μ、总体标准差为σ的正态母如何中观测n个样本x1、x2...xn作
W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
得W是呈自由度(n-1)卡方分布的统计量
4、由一般正态母群体的样本方差作卡方分布W的方法
从总体均值为μ,总体标准差为σ的正态母群体观测n个样本计算得样本方差s2时,作
W=(样本方差s2)X(数据数n)÷(总体方差σ2)
得W是呈自由度(n-1)卡方分布的统计量

总体均值对未知的正态母群体的总体方差进行区间估计的方法
1)首先从n个观测数据计算样本均值x。其次使用它作偏差,将其平方和除以n,计算亲本方差s2
2)样本方差s2乘以n再除以总体方差σ2作统计量W
3)确认自由度(n-1)的95%预测命中区间
4)保留能使W进入步骤3区间的σ2,舍掉不能的,求总体方差σ2的95%置信区间。

第20章 总结
1、由总体均值μ和样本得统计量T的计算
设总体均值为μ的正态母群体中n个样本的样本均值x,样本标准差为s,计算得T=(x-μ)(n-1)的方根÷s
=(样本均值-总体均值)÷(样本标准差)X自由度的根方
服从自由度(n-1)的t分布

2、t分布是清楚相对频数分布。虽然与正态分布几乎是同样的形状,但与正态分布相比,t分布是更缓和的山形。好顶端略低,山脚略高。

第21章总结
1、T=(样本均值-总体均值)÷(样本标准差)X(n-1)的方根是服从自由度为n-1的t分布
2、利用t分布估计正态母群体的总体均值的方法:
1)从所得的n个样本计算样本均值x和样本标准差s
2)使用样本均值x样本标准差s和想要估计的总体均值μ,按照如下计算服从自由度n-1的t分布的统计量T
T=(x-μ)÷s×(n-1)的根方
3)在图21-1查自由度n-1的95%预测命中区间,作-α≤T≤+α这样的预测区间
4)解-α≤(x-μ)(n-1)的方根÷s≤+α中μ,即为95%置信区间。

原文地址:https://www.cnblogs.com/wdkshy/p/9928938.html