变量的相关性和统计案例

前言

变量的相关性

  • ㈠变量间的关系

常见变量之间的关系有两类:一类是函数关系,比如(y=ax+b),是确定性关系;

另一类是相关关系,比如(hat{y}=hat{b}x+hat{a}),是非确定性关系;

  • ㈡正相关和负相关

角度一:从形上判断,利用散点图,读图能力;

角度二:从数上计算,利用回归直线的斜率(hat{b})判断,或利用相关系数(r)判断;

关于(r)的知识,当(r>0)正相关,当(r<0)负相关;当(|r|leq 1)(|r|)越接近1,相关程度越强,当(|r|leq 1)(|r|)越接近0,相关程度越弱。

在实践中,常认为当(|r|leq 0.25)时,认为相关程度很弱,当(|r|ge 0.75)时,认为相关程度很强;

(|r|=1)时,相关关系变为函数关系,所有的样本点都在某一条直线上。

回归方程与回归分析

  • ㈠ 最小二乘法

  • ㈡ 回归方程

(hat{y}=hat{b}x+hat{a}),其中(hat{b})(hat{a})称为回归系数,其值通过给定的公式计算;(x)称为解释变量,(hat{y})称为预报变量。

  • ㈢回归分析

定义:对具有相关关系的两个变量进行统计分析的一种常用方法。

样本点中心((ar{x},ar{y}))一定在回归直线上,但是样本点不一定在回归直线上,比如说法“至少有一个样本点在回归直线上”是错误的。

  • 相关参数:相关系数

残差平方和,相关指数(R^2),超纲。

独立性检验

  • ㈠分类变量

  • (2 imes 2)列联表

  • ㈢独立性检验

难点解释

  • ㈠ 线性回归系数(hat{b})的推导过程和解释

推导过程

  • ㈡ 独立性检验中的表格的解读:

表格的解读

  • ㈢对统计得到的大数据的预处理

大数据的预处理

运算技巧

  • 相关性检验的(K^2)的计算中,先化简,后计算。

比如(K^2=cfrac{105 imes(10 imes30-20 imes45)^2}{55 imes 50 imes30 imes75})

(=cfrac{21 imes(300-900)^2}{11 imes 50 imes30 imes75})

(=cfrac{21 imes600 imes600}{11 imes 50 imes30 imes75})

(=cfrac{21 imes12 imes20}{11 imes 1 imes 1 imes75})

(=cfrac{7 imes12 imes20}{11 imes 1 imes 1 imes25})

(=cfrac{7 imes12 imes4}{11 imes 1 imes 1 imes5})

(=cfrac{336}{55}=6.11)

再比如(K^2=cfrac{1200 imes(500 imes280-200 imes220)^2}{700 imes 500 imes720 imes480}) [注意:若能提取公因数200,平方运算就简单多了]

(=cfrac{1200 imes(200 imes 25 imes28-200 imes220)^2}{700 imes 500 imes720 imes480})

(=cfrac{1200 imes 200^2 imes (700-220)^2}{700 imes 500 imes720 imes480})

(=cfrac{1200 imes 200 imes 200 imes 480 imes 480}{700 imes 500 imes720 imes480})

(=cfrac{1200 imes 200 imes 200 imes 480}{700 imes 500 imes720})

(=cfrac{1200 imes 2 imes 2 imes 48}{7 imes 5 imes72})

(=cfrac{1200 imes 2 imes 2 imes 2}{7 imes 5 imes3})

(=cfrac{400 imes 2 imes 2 imes 2}{7 imes 5})

(=cfrac{80 imes 2 imes 2 imes 2}{7})

(=cfrac{640}{7})

  • 近似计算的要求和题目中已知数据的精确度保持一致。

典例剖析

例1【对统计大数据的预处理】【2019高三理科数学第二次月考第18题】某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:

月份(x) 2011 2012 2013 2014 2015
储蓄存款(y)(千亿元) 5 6 7 8 10

为便于计算,将上表做一处理,令(t=x-2010)(z=y-5),得到下表2:

时间代号(t) 1 2 3 4 5
(z) 0 1 2 3 5

附可能用到的公式:线性回归直线为(widehat{y}=widehat{b}x+widehat{a})

(widehat{b}=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sumlimits_{i=1}^n{(x_i-ar{x})^2}}=cfrac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}})

(widehat{a}=ar{y}-widehat{b}cdotar{x}).

(1)求(z)关于(t)的线性回归方程。

分析:需要先注意(z ightarrow y;;)(t ightarrow x;;),然后将所给的公式翻译为关于(z)(t)的公式,这涉及到数学素养,公式的正向迁移。

由表格可知,(ar{t}=3)(ar{z}=2.2)(sumlimits_{i=1}^5{t_iz_i}=45)(sumlimits_{i=1}^5{t_i^2}=55)

(widehat{b}=cfrac{sumlimits_{i=1}^n{t_iz_i-ncdotar{t}cdotar{z}}}{sumlimits_{i=1}^n{t_i^2-ncdotar{t}^2}})

(=cfrac{45-5 imes 3 imes 2.2}{55-5 imes 9}=1.2)

(widehat{a}=ar{z}-widehat{b}cdotar{t}=2.2-3 imes 1.2=-1.4)

(hat{z}=1.2t-1.4)

(2)通过(1)中的方程,求出(y)关于(x)的线性回归方程。

分析:将(t=x-2010)(z=y-5)代入(hat{z}=1.2t-1.4)

得到(y-5=1.2 imes (x-2010)-1.4)

(hat{y}=1.2x-2408.4)

(3)用所求的线性回归方程预测,到(2020)年底,该地的储蓄存款余额可达到多少?

分析:当(x=2020)时,代入(hat{y}=1.2x-2408.4)

得到(hat{y}=1.2 imes 2020-2408.4=15.6(千亿元))

相关链接:数据预处理的不同思路,数据预处理

例2【2017-18高三理科高考冲刺模拟试题9第15题】已知由样本数据点集合({(x_i,y_i)mid i=1,2,cdots,n})求得的回归直线方程为(hat{y}=1.5x+0.5),且(ar{x}=3),现发现两个数据点((1.1,2.1))((4.9,7.9))误差较大,去除后重新求得的回归直线(l)的斜率为(1.2),那么,当(x=2)时,(y)的估计值是______。

分析:由于样本中心点((ar{x},ar{y}))必在回归直线上,先代入计算得到(ar{y}=5)

即原数据的样本中心点为((3,5)),故(sumlimits_{i=1}^{n}x_i=3n)(sumlimits_{i=1}^{n}y_i=5n)

由于(1.1+4.9=6)(2.1+7.9=10),去除两个样本点后,

新的样本中心点的坐标(ar{x}=cfrac{3n-6}{n-2}=3)(ar{y}=cfrac{5n-10}{n-2}=5)

故新的样本中心点((3,5))必在回归直线(hat{y}=1.2x+b)上,

则有(5=1.2 imes 3+b),则(b=1.4)

即重新求得的回归直线(l)(hat{y}=1.2x+1.4)

(x=2)时,代入计算得到(hat{y}=1.2 imes 2+1.4=3.8)

法2:特殊化策略,将样本数据点的个数认定为(5)个,其他的计算仿上完成。

例3【2017全国卷1文科19题高考真题】为了监控某种零件的一条生产线的流程,检验员每隔(30min)从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的(16)个零件的尺寸:

抽取次序 1 2 3 4 5 6 7 8
零件尺寸 09.95 10.12 09.96 09.96 10.01 09.92 09.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 09.91 10.13 10.02 09.22 10.04 10.05 09.95

经计算得(ar{x}=cfrac{1}{16}cdotsumlimits_{i=1}^{16}{x_i}=9.97)

(s=sqrt{cfrac{1}{16}cdotsumlimits_{i=1}^{16}{(x_i-ar{x})^2}}=sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}^2})}approx 0.212)

(sqrt{sumlimits_{i=1}^{16}{(i-8.5)^2}}approx 18.439)(sumlimits_{i=1}^{16}{(x_i-ar{x})(i-8.5)}=-2.78)

其中(x_i)为抽取的第(i)个零件的尺寸,(i=1,2,cdots,16)

(1)求((x_i,i)(i=1,2,cdots,16))的相关系数(r),并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小

(若(|r|<0.25) ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).

分析:本题目的难点有:所给公式的正向迁移和破解,

比如(i ightarrow y_i),即表格中的第一行(i=1,2,cdots,16),故(ar{y_i}=ar{i}=8.5)

这样第一问的计算就没有多大难度了,

(|r|=cfrac{|sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}|}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})

(=cfrac{2.78}{0.212 imessqrt{16} imes 18.439}approx 0.18)<0.25.

故可以认为零件的尺寸不随生产过程的进行而系统地变大或变小。

(2)一天内抽检零件中,如果出现了尺寸在((ar{x}-3s,ar{x}+3s)) 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?

分析:(ar{x}=9.97,s=0.212),故((ar{x}-3s,ar{x}+3s))应该为((9.97-3 imes0.212,9.97+3 imes0.212))

((9.334,10.606)),可以看出表格中的第13个数据(9.22)不在这个范围内,

本来小概率事件在一次实验中不可能发生,现在竟然真真实实的发生,故可以认为出现异常,应该检查。

(ⅱ)在((ar{x}-3s,ar{x}+3s))之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)

分析:有上一问知道离群值为(9.22),剔除这个值,

则剩余的(15)个数值的均值(ar{x}_{15})应该这样计算:

(ar{x}_{15}=cfrac{16 imes9.97-9.22}{15}=10.02)

故这条生产线当天生产的零件尺寸的均值大约为(10.02)

计算标准差的分析:由方差公式,要计算剩余的(15)个数值的标准差,

需要计算(cfrac{1}{15}sumlimits_{i=1}^{15}{(x_i-ar{x}_{15})^2}=cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15ar{x}_{15}^2))

由于第一个公式没有办法和已知数据有效的链接,故改用第二个公式求解,

为此需要先求(sumlimits_{i=1}^{16}{x_i^2}),故可以从(sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212)开始,

分析到此,计算如下:

(sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212)得到,

(sumlimits_{i=1}^{16}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2)

(sumlimits_{i=1}^{15}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2-9.22^2=1506.125)

(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2=1506.125-15 imes10.02^2=0.119104)

(cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2)approx 0.008)

故所求的标准差(s_{15}=sqrt{0.008}approx 0.09),即这条生产线当天生产的零件尺寸的标准差大约为(0.09)

【附:样本((x_i,y_i)(i=1,2,cdots,n))的相关系数

(r=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})(sqrt{0.008}=0.09)

反思总结

准确、深入、全面的理解公式中的每一个字母的含义,做到灵活运用公式,能将公式正向迁移到新的题目中,这是解决本题的关键所在。我们平时的学习决不能仅仅停留在会套用公式的层面上,这样的要求有点低了。你不需要担心公式记不住,需要担心的是,给定公式,你到底会不会使用。

例4【2015新课标Ⅰ第19题】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(x)(单位:千元)对年销售量(y)(单位:t)和年利润(z)(单位:千元)的影响,对近8年的年宣传费(x_i)和年销售量(y_i)((i=1,2,…,8))数据作了初步处理,得到下面的散点图及一些统计量的值。

(ar{x}) (ar{y}) (ar{w}) (sumlimits_{i=1}^{8}{(x_i-ar{x})^2}) (sumlimits_{i=1}^{8}{(w_i-ar{w})^2}) (sumlimits_{i=1}^{8}{(x_i-ar{x})(y_i-ar{y})}) (sumlimits_{i=1}^{8}{(w_i-ar{w})(y_i-ar{y})})
(46.6) (563) (6.8) (289.8) (1.6) (1469) (108.8)

表中(w_i=sqrt{x_i})(ar{w}=cfrac{1}{8}sumlimits_{i=1}^{8}{w_i})

附:对于一组数据((u_1,v_1))((u_2,v_2))(cdots)((u_n,v_n)),其回归直线(v=alpha+eta u)的斜率和截距的最小二乘估计分别为(hat{eta}=cfrac{sumlimits_{i=1}^{8}{(u_i-ar{u})(v_i-ar{v})}}{sumlimits_{i=1}^{n}{(u_i-ar{u})^2}})(hat{alpha}=ar{v}-hat{eta}ar{u})

(Ⅰ)根据散点图判断,(y=a+bx)(y=c+dsqrt{x})哪一个适宜作为年销售量(y)关于年宣传费(x)的回归方程类型?(给出判断即可,不必说明理由)

分析:由散点图可以分析,(y=c+dsqrt{x})更适宜作为年销售量(y)关于年宣传费(x)的回归方程类型,图中的变量呈现曲线回归。

(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立(y)关于(x)的回归方程;

分析:令(w=sqrt{x}),先建立(y)关于(w)的线性回归方程,

由于(hat{d}=cfrac{108.8}{1.6}=68)

(hat{c}=ar{y}-hat{d}ar{w}=563-68 imes 6.8=100.6)

所以(y)关于(w)的线性回归方程为(hat{y}=100.6+68w)

(y)关于(x)的线性回归方程为(hat{y}=100.6+68sqrt{x}).

(Ⅲ)已知这种产品的年利润(z)(x)(y)的关系为(z=0.2y-x),根据(Ⅱ)的结果回答下列问题:

(i)年宣传费(x=49)时,年销售量及年利润的预报值是多少?

分析:由(Ⅱ)知,年宣传费(x=49)时,年销售量的预报值(hat{y}=100.6+68sqrt{49}=576.6)

年利润(z)的预报值(hat{z}=0.2 imes 576.6-49=66.32)

(ii)年宣传费(x)为何值时,年利润的预报值最大?

分析:由(Ⅱ)知,年利润(z)的预报值(hat{z}=0.2 imes (100.6+68sqrt{x})-x)

(=-x+13.6sqrt{x}+20.12=-[(sqrt{x})^2-13.6sqrt{x}]+20.12)

(sqrt{x}=cfrac{13.6}{2}=6.8)时,即当(x=46.24)时年利润的预报值最大。

例5【2018宝鸡市三检文第13题】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次实验,根据收集到的数据(如表格所示),由最小二乘法球的回归方程(hat{y}=0.67x+54.9),现发现表中有一个数据看不清,请你推断该数据的值为___________

零件数(x)(个) 10 20 30 40 50
加工时间(y)(min) (62) (**) (75) (81) (89)

分析:由于数据中心点((ar{x},ar{y}))必然在回归直线上,故先求得(ar{x}=30)

代入回归直线方程得到,(ar{y}=0.67 imes 30+54.9=75)

在计算数据是采用简单的算法,取参考值为75,设缺省值为(m)

则有(75=75+cfrac{-13+(m-75)+0+6+14}{5}),解得(m=68)

解后反思:

1、 数据中心点((ar{x},ar{y}))必然在回归直线上,

2、注意算法的简洁性,省时省力。

例4【2018豫东豫北十所名校联考】根据如下样本数据:

(x) 3 4 5 6 7
(y) (4.0) (a-5.4) (-0.5) (0.5) (b-0.6)

得到的回归直线方程为(hat{y}=hat{b}x+hat{a}),若样本点的中心为((5,0.9)),则当(x)每增加1个单位,(y)就【】

(A.)增加1.4个单位; (qquadqquadqquadqquadqquad) (B.)减少1.4个单位;

(C)增加7.9个单位; (qquadqquadqquadqquadqquad) (D.)减少7.9个单位;

分析:由题意可知,(cfrac{a+b-2}{5}=0.9),即(a+b=6.5)①,

有样本中心点为((5,0.9))在回归直线上,则(0.9=5b+a)②,

联立①②,解得(b=-1.4)(a=7.9)

则回归直线方程为(hat{y}=-1.4x+7.9)

故可知则当(x)每增加1个单位,(y)就减少1.4个单位;故选(B)

例5【2019届高三理科数学信息题】现在微信支付已成为人们日常流行的一种付款方式,某大型超市为了鼓励顾客使用微信支付,特举办微信支付活动一个月,规定:凡是在这个月内使用微信付款次数达到60次即有精美奖品,否则无奖品。现从该超市数据信息中随机选取已使用微信付款的40名顾客,且男女比例相同,将他们的数据整理如下表:

次数 <40 40~49 50~59 60~69 $ge $70
(2) (3) (2) (7) (6)
(1) (3) (8) (6) (2)

(1)根据题意完成下面的(2 imes 2)列联表,并据此判断能否有90%的把握认为“是否获奖”与“性别”有关?

有奖 无奖 总计
(13) (7) (20)
(8) (12) (20)
总计 (21) (19) (40)

(chi^2=cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}=cfrac{40(13 imes12-7 imes 8)^2}{20 imes20 imes21 imes19}approx 2.5<2.706)

所以没有90%的把握认为“是否获奖”与“性别”有关。

(2)在这40名顾客中,从支付次数达到70的人中随机抽取3人,设抽取的女性有(X)人,求(X)的分布列及数学期望(E(X))
附:参考公式(chi^2=cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)})

参考数据:

解析:支付次数达到70的顾客共有8人,其中6名男性,2名女性,从中随机抽取3人,抽取的女性人数服从超几何分布,(X)的所有可能取值为(0,1,2)

(P(X=0)=cfrac{C_6^3}{C_8^3}=cfrac{20}{56})(P(X=1)=cfrac{C_2^1C_6^2}{C_8^3}=cfrac{30}{56})

(P(X=2)=cfrac{C_2^2C_6^1}{C_8^3}=cfrac{6}{56})

所以分布列如下,略。

数学期望为(E(X)=0 imes cfrac{20}{56}+1 imes cfrac{30}{56}+2 imes cfrac{6}{56}=cfrac{3}{4})

原文地址:https://www.cnblogs.com/wanghai0666/p/10380633.html