《漫画统计学》

2019-02-25

15:01:10

前言

各章原则上由下列部分构成:

漫画部分

补充漫画部分的解说

例题和解答

总整理

读者即使仅阅读漫画部分,也可逐渐了解统计学概念。如果再阅读其他部分,则可增加知识掌握的深度。

"统计学可真是有趣而实用呀!"若各位在读完本书后能有这样的感受,我将荣幸之至

序章:令人激动的统计学

第一章:确认数据种类

1.分类数据和数值数据

哈密瓜学园物语调查问卷

分为不可测量数据可测量数据

不可测量的数据称为“分类数据"

可测量的数据称为”数值数据"

2.分类数据注意事项举例

"哈密学的感觉"是“不可测量数据的原因:因为它的数值数据之间并非相等间隔。

3.实务中”非常有趣“-”非常无趣"的运用

然而,实际的消费者问卷调查中,数值数据并不少见。

例题和解答

总整理

数据可分为:分类数据和数值数据

”非常有趣~非常无趣“等,在理论上为分类数据。然而,在实务上,却经常将其视为数值数据。

第二章:掌握数据整体的形态(数值数据篇)

1.次数分布表和直方图

组,组中值(组的平均值),次数,相对次数(百分比形式)

次数分布表和直方图,就是为了让人能够直观地掌握全体数据的形态,而设计出来的。

2.平均数

3.中位数

4.标准差

A和B两队平均值相等,A队队员的得分散落在高点和低点,但B队全体队员的分数都相当接近。像这样为了表现“离散程度”所使用概念的就是“标准差”

大致上来说,就是表示一组数据“平均离散程度”的指标。标准差最小值为0,而数据的“离散程度”越大,标准差的值就越大。

标准差的算式是:方差开平方(方差中的分母为n),但也有人认为是:(方差中的分母是n-1)方差开平方

其实求总体的标准差就是用n的公式,求样本的标准差就用后面的公式

但一般而言,求总体的是很困难的,所以大部分都是使用分母为n-1的公式

 5.次数分布表的组距

组距该设为多少,完全依照分析者本身的判断

你可能会说:以主观设定的组距而做成的次数分布表并没有说服力,无法在他人面前公开,难道就没有按数学原理制定组距的方法吗?

方法是有的:可以用史特吉斯公式来求解(详细见书中)

但是用科学的数学原理制成的次数分布表可能还是不会让人理解,因此,这个方法是否恰当,需重新思考。

因此,以分析者可以接受的组距来处理即可

6.推断统计学和描述统计学

 在序章中,有这样一段解说:“所谓的统计学,即为从样本的信息推测总体状况的学问。”其实这段解说并不恰当。

统计学可分为推断统计学和描述统计学两类。序章所说的是前者。那么,后者的描述统计学到底是什么呢?也就是借由整理资料,尽可能简单明了地显示出整体状况为目的的统计学。即,将对象集合视为一个总体的统计学。

描述统计学的解说可能由于过于抽象而让人难以理解。再举个例子说明:刚才山本求除了琉衣队得分的平均数和标准差。他求出此两者的目的,并非为了推测总体的状况。以琉衣队为样本的总体,究竟是怎样的总体是不知道的!简而言之,山本之所以求出平均数和标准差,仅仅是为了简洁地表示琉衣队的状况。这样的统计学即为描述统计学

总整理

利用“直觉”掌握整体数据的“氛围”的方法有:次数分布表及直方图

设定次数分布表的组距可采用史特吉斯公式

用数学原理掌握全体资料“氛围”(集中趋势)的方法有:算术平均值,中位数和标准差

当存在过大或过小的数据时,中位数较平均数更能正确地掌握数据状态

标准差为表示数据“离散程度”的指标

第三章:掌握数据整体的状态(分类数据篇)

对分类数据做次数分布表

总整理

做出“次数分布表”为掌握数据整体状态的方法之一

第四章:标准计分和离差

1.标准化和标准计分

因为各个成绩的价值可能不同,仅通过标准差和平均值来评价单科成绩的价值和不同科目的分数的价值是不行的。

这就需要标准化

以距离平均数的远近状况及资料的“离散程度”作为基础,将分数的价值转换成易于讨论的数据!

标准化后的数据,称为“标准计分

标准计分的公式是:(每一数据)-(平均数)/标准差=标准计分

2.标准计分的特征

标准化后,求出标准计分具有某些特征:

1.无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1

2.无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1

所以通过算出标准计分,那么历史的是0.88,生物的是1.09。因此,哪一个73分较有价值,我想应该可以很明显地看出了吧!

3.离差

离差是应用标准计分所得的数值,它的公式是:离差=标准计分*10+50

离差的特征是:
1.无论作为变量的满分为几分,其离差的平均数势必为50,而其标准差势必为10.

2.无论作为变量的单位是什么,其离差的平均数势必为50,而其标准差势必为10.

4.关于离差的解释

既然两班的平均数和标准差并不相同,那么两人的离差值并无可比性

在欲求出离差之际,所使用的平均数与标准差一定不同,因此无法就两者得出的离差做比较

关于离差的解释,相当有深度!

总整理:

标准化即为,以距离平均数的远近程度及数据的“离散程度”(标准差)为基础,将数据的价值转换为易于探讨的数值。

若执行标准化,则可比较:

满分不同的变量

单位不同的变量

标准化后的数据称为标准计分

求离差值必须应用到标准计分

第五章:求机率

1.机率密度函数

直方图中,将距离缩小至极限后,所得之曲线的公式在统计学上称为“机率密度函数”

2.正态分布

公式(看书吧):有标准差和平均值哦

这个机率密度函数的图形,具备以下特征:

以平均值为中心呈左右对称

收到平均值和标准差的影响

则统计学上,以“x服从平均值为xx,标准差为XX的正态分布"来表述

3.标准正态分布

公式(看书吧):其中标准差为1,平均值为0

在统计学上,不会以”x服从平均值为0,标准差为1的正态分布“来表述,而是会以”x服从标准正态分布“来表述

 标准正态分布表,对照此表可以看出面积是多大

所有的标准正态分布的机率密度函数的图形和横轴所围成的面积都是1

正态分布的图形和横轴围成的面积,其比例和机率是相同的。

不仅限于标准正态分布,无论是哪种机率密度函数,面积=比例=机率的关系都是成立的。

4.卡方分布

公式(看书吧):包含自由度的概念

在统计学上,用”x服从自由度为xx的卡方分布"来表示

自由度和斜率一样,都是会影响图形形状的数值。

所以只要自由度的值有所改变,图形的形状也会随之改变。

 就像标准正态分布有标准正态分布表一样,卡方分布也有卡方分布表

所谓的卡方分布表就是记录了对应这个部分的机率(=面积=比例)P的横轴刻度卡方值的表

标准正态分布表为记录对应横轴刻度的机率的表

卡方分布表是记录对应机率的横轴刻度的表

5.t分布

公式(看书吧):其中包含自由度

在统计学上以x服从自由度为xx的t分布来表示

6.F分布

公式(看书吧):其中包含第一自由度和第二自由度

在统计学上以x服从自由度为xx第二自由度为xx的F分布来表述

7.XX分布和Excel

 如果不使用标准正态分布表及卡方分布表来计算机率及横轴的刻度,在电脑尚未普及时,这些计算对个人而言是相当浩大的工程。

现今已经不太使用分布表了。因为利用EXCEL的函数计算功能,便可轻松地求出分布表中的值,不仅如此,比起分布表,EXCEL还可以求出更多种类的值

表5.1 与xx分布相关的函数

总整理

代表性的机率密度函数,可举出与下列对应者:
正态分布 标准正态分布 卡方分布 t分布 F分布

机率密度函数的图形和横轴所围成的面积为1

机率密度函数的图形和横轴所围成的面积,可视为比例与机率相同

若利用xx分布表 或Excel函数,可求出

对应横轴刻度的机率

对应机率的横轴刻度

第六章:双变量的相关分析        2019-02-28   21:40:49

由于公式较多,见书吧       

总整理:

相关系数为表示数值数据和数值数据的关联程度之指标

相关比为表示数值数据和分类数据的关联程度之指标

克莱姆相关系数(也可以称作克莱姆关联系数或克莱姆V)为表示分类数据和分类数据的相关程度之指标

相关系数,相关比,克莱姆相关系数的特征如下表:

见书

相关系数,相关比和克莱姆相关系数中,在统计学上,并无“其值若在XX以上时,则两变量的关联性较强”的标准

第七章:深入理解独立性检验

1.什么是检验

所谓的”检验“指的是,从样本的资料推测分析者对于总体所设立是否正确的分析方法!

”检验“这个名词,应该称为”统计的假说检验“

检验有很多种类:
独立性检验:推测总体中,”性别“和”希望的表白方式“的克莱姆相关系数的值是否为0

相关比检验:推测总体中,”喜欢的服装品牌“和”年龄“的相关比的值是否为0

无相关检验:推测总体中,”1个月使用的化妆品费用“和”1个月使用的置装费“的相关系数的值是否为0

总体平均数差检验:
总体比例差检验:

”检验“的种类虽然有许多种,但分析的程序却是一样的。

”检验“的程序

1.定义总体

2.建立虚无假说(零假设)和对立假说(备择假设)

3.选择要进行的”检验“种类

4.决定置信水平

5.从样本资料求出检验统计量的值

6.调查步骤5所求的检验统计量值,是否在拒绝域中。

7.若步骤6的检验统计量在拒绝域中,则结论为”对立假说正确“反正,则结论为:”无法判定虚无假说为错误“

2.独立性检验

所谓的”独立性检验“指的是,推测”总体的克莱姆相关系数的值究竟是否为0“的分析方法

换句话说,就是推测”交叉资料表中两变量是否相关“的分析方法。

独立性检验也可称为”卡方检验“

皮尔森卡方统计量(在求克莱姆系数时用到)和卡方分布(一种像正态分布的机率密度函数)的关系:

若作为总体的”居住在日本的全体高中生“中,克莱姆相关系数为0,则”实验中的皮尔森卡方统计量“服从自由度为2的卡方分布

例题:

总体”居住在日本的全体高中生“中,”性别“和”希望的表白方式“的克莱姆相关系数的值是否大于0,也就是”性别“和”希望的表白方式“是否有关联,请利用独立性检验来预测。此外,我们将置信水平(待后解释)设为0.05

思考

 因此,若总体”居住在日本的全体高中生“的克莱姆相关系数的值为0,则由随机抽出的300人的资料所求出的X的平方若为5.9915以上的机率,则能在103页的卡方分布表中清楚得知,其值为0.05

本例题的X的平方在132页就已计算完毕,其值为8.0091(因为>5.9915,所以它的机率小于0.05,所以拒绝零假设(全体高中生表白与男女无关))。怎么会这样呢?虽然是由随机抽出300人的资料所求出的值,看起来似乎还是太高了吧!若以132页的评论为基础来思考,总体”居住在日本的全体高中生“的克莱姆相关系数的值大于0的想法,是不是就很自然呢?

不仅限于这个例题(还有数据分析视频中的验证性数据分析中的淑女品茶案例),在说明独立性检验时,我会以:

1.暂且解释为”总体的克莱姆相关系数的值为0“

2.由样本的资料求出X平方(卡方值)。

3.若X平方(卡方值)过大(>5.9915,因为此时P为0.05,当>5.9915时,P的值会越来越小,这就能证明零假设是错误的),则结论为”总体的克莱姆相关系数的值大于0(此时是相关的,因为如果等于0,就认为是无关)。

这样的流程进行说明,请先记下来。

置信区间一般设为0.05或0.01,采取何者则完全取决于分析者的判断

解答过程:

 1.定义总体:总体=居住在日本的全体高中生

无论是何种“检验”,若没有清楚地定义总体,则易陷于“奇怪!我当初到底想推测什么”的状况中。陷于这种状况的分析者并不在少数。请各位务必特别注意这一点。

2.建立虚无假说和对立假说

虚无假说为:总体的克莱姆相关系数的值为0=“性别”和“希望的表白方式”不相关。

对立假说为:总体的克莱姆相关系数的值大于0=“性别”和“希望的表白方式”相关

(关于虚无假说和对立假说,随后将进行讲解)

3.选择进行的“检验”种类:

进行独立性检验

解说:本例题原先就设定为进行独立性检验。因此本例当然不需要步骤3.实际上进行“检验”之际,分析者必须选择符合分析目的的“检验”

4.决定置信水平

设定置信水平为0.05

解说:本例题原先就设定置信水平为0.05,因此,本例题也不需要步骤4.实际上进行:“检验”之际,分析者必须自己决定置信水平。如同先前所述,置信水平一般会设为0.05或0.01.

5.从样本资料求出检验统计量的值

我想做的是独立性检验,因此检验统计量为皮尔森的卡方统计量X平方。本例题中的X平方的值已经在132页计算过,X平方=8.0091

解说:所谓的检验统计量,是指将样本资料转换成一个值的公式

依照所进行“检验”的种类不同,检验统计量也会有所不同。独立性检验的情况如同上述。采用X平方,而无相关检验的情况,则采取别的检验统计量。

6.调查步骤5所求出的检验统计量值,是否在拒绝域中:

检验统计量=8.0091,由于置信水平为0.05(关于如何设定为0.05的需要大量的数学知识,本书不讨论),因此,拒绝域根据103页的卡方分布表得知,其值为“5.9915以上。

解说:拒绝域依置信水平不同而变化,如果本例题中置信水平不是0.05而是0.01,则拒绝域根据103页的卡方分布表所示,其值为9.2104以上。

7.若步骤6的检验统计量值在拒绝域之中,则结论为”对立假说正确“反之,则结论为”无法判定虚无假说为错误。

检验统计量的值在拒绝域中,因此对立假说为正确。

解说:检验统计量即使在拒绝域中,单以“检验”并无法给出“对立假说”绝对正确。

但是,只能作虚无假说存在正确的机率,其值最大为置信水平的结果

即使P值小于置信水平,以”检验“并无法做出”对立假说绝对正确的结论。只能做出虽然想说对立假说绝对正确,但是只能作虚无假说存在正确的机率为(P值*100)%的结论

检验统计量的值如果不在拒绝域中,似乎可说“虚无假设是正确的呀”可惜的是,并不能这么说,只能说“无法判断虚无假设为错误”而已

因此,当然不可做出“总体的克莱姆相关系数的值大于0"的结论,然而,却不能断言”总体的克莱姆相关系数为0“(因为我们一开始就假设克莱姆系数为0)

3.虚无假设和对立假说

4.P值和”检验“的顺序

为”检验“下结论时的根据有:

1.检验统计量是否在拒绝域中

2.P值是否小于置信水平

在电脑普及之前,要算出P值可是相当大的工程,现在由于使用EXCEL就可求出P值,所以采用2的情况越来越多

5.独立性检验和齐性检验

6.检验的结论表现

总整理:

所谓“检验”指的是,由样本数据来推测分析者针对总体所建立的假说是否正确的分析方法

检验的正确名称为统计的假说检验

检验统计量是将样本数据转换为1个数值的公式。

置信水平一般都设为0.05或0.01

拒绝域为对应置信水平的范围

独立性检验为推测"总体的克莱姆相关系数的值是否为0“的分析方法。也可说是推测”交叉资料表中的两变量是否有关联“的分析方法。

若总体的克莱姆相关系数的值为0,则皮尔森卡方统计量X平方为遵守自由度为2的卡方分布。

虚无假说若为真,独立性检验的P值为求出大于或等于本次所求出的皮尔森卡方统计量X平方的机率

在检验中,下结论的根据有2种:

1.检验统计量是否在拒绝域中

2.P值是否小于置信水平

附录:运用EXCEL计算

原文地址:https://www.cnblogs.com/JasonPeng1/p/10430962.html