求回归方程

前言

初级应用

只要理解给定公式的含义,分步骤计算即可得到线性回归方程;此类题目的数据做不做处理都可以计算出来;

例1【2020宝鸡市质检二文科数学第19题】某调查机构为了了解某产品年产量(x)(吨)对价格(y)(千元/吨)和利润(z)的影响,对近五年该产品的年产量和价格统计如下表:

(x) 1 2 3 4 5
(y) 7 6 5 4 2

(1).求(y)关于(x)的线性回归方程(hat{y}=hat{b}x+hat{a}).

分析:(ar{x}=cfrac{1}{5}(1+2+3+4+5)=3)(ar{y}=cfrac{1}{5}(7+6+5+4+2)=4.8)

(sumlimits_{i=1}^5{x_iy_i}=1 imes7+2 imes6+3 imes5+4 imes4+5 imes2=60)

(sumlimits_{i=1}^5{x_i^2}=1^2+2^2+3^2+4^2+5^2=55)

(hat{b}=frac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}}=cfrac{60-5 imes3 imes4.8}{55-5 imes 3^2}=-1.2)

(hat{a}=ar{y}-hat{b}cdotar{x}=4.8-(-1.2) imes 3=8.4).

(y)关于(x)的线性回归方程(hat{y}=-1.2x+8.4).

[另解:若对数据做一些简单的处理,运算能简单一些]令(m=y-5),则上述表格转化为

(x) 1 2 3 4 5
(m=y-5) 2 1 0 -1 -3

(ar{x}=cfrac{1}{5}(1+2+3+4+5)=3)(ar{m}=cfrac{1}{5}(2+1+0-1-3)=-0.2)

(sumlimits_{i=1}^5{x_im_i}=1 imes2+2 imes1+3 imes0+4 imes(-1)+5 imes(-3)=-15)

(sumlimits_{i=1}^5{x_i^2}=1^2+2^2+3^2+4^2+5^2=55)

(hat{b}=frac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}}=cfrac{-15-5 imes3 imes(-0.2)}{55-5 imes 3^2}=-1.2)

(hat{a}=ar{m}-hat{b}cdotar{x}=-0.2-(-1.2) imes 3=3.4).

(m)关于(x)的线性回归方程(m=-1.2x+3.4),又由于(m=y-5)

(y)关于(x)的线性回归方程(y-5=-1.2x+3.4),即(y)关于(x)的线性回归方程(hat{y}=-1.2x+8.4).

(2).若每吨该产品的成品为(2)千元,假设该产品能全部卖出去,预测当年的年产量为多少时,年利润(z)达到最大值?

分析:年利润 = 收入-成本,收入=产量( imes)价格;

故年利润(z=x(8.4-1.2x)-2x=-1.2x^2+6.4x)

(x=-cfrac{6.4}{2 imes (-1.2)}=cfrac{8}{3}),年利润最大。

[附参考公式:线性回归直线为(widehat{b}=frac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sumlimits_{i=1}^n{(x_i-ar{x})^2}}=frac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}})(widehat{a}=ar{y}-widehat{b}cdotar{x}).]

中阶应用

添加数据处理的步骤[如果数据不做处理,根本无法计算],换元后得到线性回归方程;

例5【2019高三理科数学第二次月考第18题】某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:

年份(x) 2011 2012 2013 2014 2015
储蓄存款(y)(千亿元) 5 6 7 8 10

为便于计算,将上表做一处理,令(t=x-2010)(z=y-5),得到下表2:

时间代号(t) 1 2 3 4 5
(z) 0 1 2 3 5

附可能用到的公式:线性回归直线为(widehat{y}=widehat{b}x+widehat{a})

(widehat{b}=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sumlimits_{i=1}^n{(x_i-ar{x})^2}}=cfrac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}})

(widehat{a}=ar{y}-widehat{b}cdotar{x}).

(1)求(z)关于(t)的线性回归方程。

分析:需要先注意(z ightarrow y;;)(t ightarrow x;;),然后将所给的公式翻译为关于(z)(t)的公式,这涉及到数学素养,公式的正向迁移。

由表格可知,(ar{t}=3)(ar{z}=2.2)(sumlimits_{i=1}^5{t_iz_i}=45)(sumlimits_{i=1}^5{t_i^2}=55)

(widehat{b}=cfrac{sumlimits_{i=1}^n{t_iz_i-ncdotar{t}cdotar{z}}}{sumlimits_{i=1}^n{t_i^2-ncdotar{t}^2}})

(=cfrac{45-5 imes 3 imes 2.2}{55-5 imes 9}=1.2)

(widehat{a}=ar{z}-widehat{b}cdotar{t}=2.2-3 imes 1.2=-1.4)

(hat{z}=1.2t-1.4)

(2)通过(1)中的方程,求出(y)关于(x)的线性回归方程。

分析:将(t=x-2010)(z=y-5)代入(hat{z}=1.2t-1.4)

得到(y-5=1.2 imes (x-2010)-1.4)

(hat{y}=1.2x-2408.4)

(3)用所求的线性回归方程预测,到(2020)年底,该地的储蓄存款余额可达到多少?

分析:当(x=2020)时,代入(hat{y}=1.2x-2408.4)

得到(hat{y}=1.2 imes 2020-2408.4=15.6)(千亿元)。

相关链接:数据预处理的不同思路,数据预处理

高阶应用

可以线性化的回归方程的情形。

例8【2015新课标Ⅰ第19题】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(x)(单位:千元)对年销售量(y)(单位:t)和年利润(z)(单位:千元)的影响,对近8年的年宣传费(x_i)和年销售量(y_i)((i=1,2,…,8))数据作了初步处理,得到下面的散点图及一些统计量的值。

(ar{x}) (ar{y}) (ar{w}) (sumlimits_{i=1}^{8}{(x_i-ar{x})^2}) (sumlimits_{i=1}^{8}{(w_i-ar{w})^2}) (sumlimits_{i=1}^{8}{(x_i-ar{x})cdot(y_i-ar{y})}) (sumlimits_{i=1}^{8}{(w_i-ar{w})cdot(y_i-ar{y})})
(46.6) (563) (6.8) (289.8) (1.6) (1469) (108.8)

表中(w_i=sqrt{x_i})(ar{w}=cfrac{1}{8}sumlimits_{i=1}^{8}{w_i})

附:对于一组数据((u_1,v_1))((u_2,v_2))(cdots)((u_n,v_n)),其回归直线(v=alpha+eta u)的斜率和截距的最小二乘估计分别为(hat{eta}=cfrac{sumlimits_{i=1}^{8}{(u_i-ar{u})(v_i-ar{v})}}{sumlimits_{i=1}^{n}{(u_i-ar{u})^2}})(hat{alpha}=ar{v}-hat{eta}ar{u})

(Ⅰ)根据散点图判断,(y=a+bx)(y=c+dsqrt{x})哪一个适宜作为年销售量(y)关于年宣传费(x)的回归方程类型?(给出判断即可,不必说明理由)

分析:由散点图可以分析,(y=c+dsqrt{x})更适宜作为年销售量(y)关于年宣传费(x)的回归方程类型,图中的变量呈现曲线回归。

(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立(y)关于(x)的回归方程;

分析:令(w=sqrt{x}),先建立(y)关于(w)的线性回归方程,

由于(hat{d}=cfrac{108.8}{1.6}=68)

(hat{c}=ar{y}-hat{d}ar{w}=563-68 imes 6.8=100.6)

所以(y)关于(w)的线性回归方程为(hat{y}=100.6+68w)

(y)关于(x)的线性回归方程为(hat{y}=100.6+68sqrt{x}).

(Ⅲ)已知这种产品的年利润(z)(x)(y)的关系为(z=0.2y-x),根据(Ⅱ)的结果回答下列问题:

(i)年宣传费(x=49)时,年销售量及年利润的预报值是多少?

分析:由(Ⅱ)知,年宣传费(x=49)时,年销售量的预报值(hat{y}=100.6+68sqrt{49}=576.6)

年利润(z)的预报值(hat{z}=0.2 imes 576.6-49=66.32)

(ii)年宣传费(x)为何值时,年利润的预报值最大?

分析:由(Ⅱ)知,年利润(z)的预报值(hat{z}=0.2 imes (100.6+68sqrt{x})-x)

(=-x+13.6sqrt{x}+20.12=-[(sqrt{x})^2-13.6sqrt{x}]+20.12)

(sqrt{x}=cfrac{13.6}{2}=6.8)时,即当(x=46.24)时年利润的预报值最大。

重点考查学生的数学素养,数学公式的正向迁移能力;

例2【2017全国卷1文科19题高考真题】为了监控某种零件的一条生产线的流程,检验员每隔(30min)从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的(16)个零件的尺寸:

抽取次序 1 2 3 4 5 6 7 8
零件尺寸 09.95 10.12 09.96 09.96 10.01 09.92 09.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 09.91 10.13 10.02 09.22 10.04 10.05 09.95

经计算得(ar{x}=cfrac{1}{16}cdotsumlimits_{i=1}^{16}{x_i}=9.97)

(s=sqrt{cfrac{1}{16}cdotsumlimits_{i=1}^{16}{(x_i-ar{x})^2}}=sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}^2})}approx 0.212)

(sqrt{sumlimits_{i=1}^{16}{(i-8.5)^2}}approx 18.439)(sumlimits_{i=1}^{16}{(x_i-ar{x})(i-8.5)}=-2.78)

其中(x_i)为抽取的第(i)个零件的尺寸,(i=1,2,cdots,16)

(1)求((x_i,i)(i=1,2,cdots,16))的相关系数(r),并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小。(若(|r|<0.25) ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).

分析:本题目的难点有:所给公式的正向迁移和破解,

比如(i ightarrow y_i),即表格中的第一行(i=1,2,cdots,16),故(ar{y_i}=ar{i}=8.5)

这样第一问的计算就没有多大难度了,

(|r|=cfrac{|sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}|}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})

(=cfrac{2.78}{0.212 imessqrt{16} imes 18.439}approx 0.18)<0.25.

故可以认为零件的尺寸不随生产过程的进行而系统地变大或变小。

(2)一天内抽检零件中,如果出现了尺寸在((ar{x}-3s,ar{x}+3s)) 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?

分析:(ar{x}=9.97,s=0.212),故((ar{x}-3s,ar{x}+3s))应该为((9.97-3 imes0.212,9.97+3 imes0.212))

((9.334,10.606)),可以看出表格中的第13个数据(9.22)不在这个范围内,

本来小概率事件在一次实验中不可能发生,现在竟然真真实实的发生,故可以认为出现异常,应该检查。

(ⅱ)在((ar{x}-3s,ar{x}+3s))之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)

分析:有上一问知道离群值为(9.22),剔除这个值,

则剩余的(15)个数值的均值(ar{x}_{15})应该这样计算:

(ar{x}_{15}=cfrac{16 imes9.97-9.22}{15}=10.02)

故这条生产线当天生产的零件尺寸的均值大约为(10.02)

计算标准差的分析:由方差公式,要计算剩余的(15)个数值的标准差,

需要计算(cfrac{1}{15}sumlimits_{i=1}^{15}{(x_i-ar{x}_{15})^2}=cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15ar{x}_{15}^2))

由于第一个公式没有办法和已知数据有效的链接,故改用第二个公式求解,

为此需要先求(sumlimits_{i=1}^{16}{x_i^2}),故可以从(sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212)开始,

分析到此,计算如下:

(sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212)得到,

(sumlimits_{i=1}^{16}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2)

(sumlimits_{i=1}^{15}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2-9.22^2=1506.125)

(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2=1506.125-15 imes10.02^2=0.119104)

(cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2)approx 0.008)

故所求的标准差(s_{15}=sqrt{0.008}approx 0.09),即这条生产线当天生产的零件尺寸的标准差大约为(0.09)

【附:样本((x_i,y_i)(i=1,2,cdots,n))的相关系数

(r=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})(sqrt{0.008}=0.09)

【反思总结】

准确、深入、全面的理解公式中的每一个字母的含义,做到灵活运用公式,能将公式正向迁移到新的题目中,这是解决本题的关键所在。

我们平时的学习决不能仅仅停留在会套用公式的层面上,这样的要求有点低了,不符合现代社会对人的素质的要求了。

你不需要担心公式记不住,需要担心的是,给定公式,你到底会不会使用。

原文地址:https://www.cnblogs.com/wanghai0666/p/12696272.html