1、31 回归分析的基本思想及其初步应用1.了解随机误差、残差、残差图的概念 2.会通过分析残差判断线性回归模型的拟合效果3掌握建立线性回归模型的步骤1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报2线性回归模型(1)在线性回归直线方程 x 中, , ,其中y a b b n i 1 (xi x)(yi y) n i 1 (xi x)2 a y b x xi, yi,(x,y )称为样本点的中心,回归直线过样本点的中心x 1n n i 1 y 1n n i 1(2)线性回归模型 ybxae,其
2、中 e 称为随机误差,自变量 x 称为解释变量,因变量 y称为预报变量注意 (1)非确定性关系:线性回归模型 ybxae 与确定性函数 yabx 相比,它表示 y 与 x 之间是统计相关关系(非确定性关系),其中的随机误差 e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值 a,b 的工具(2)线性回归方程 x 中 , 的意义是:以 为基数, x 每增加 1 个单位,y 相应地平均y b a a b a 增加 个单位b 3刻画回归效果的方式方式方法 计算公式 刻画效果R2R21 n i 1 (yi y i)2 n i 1 (yi y)2R2 越接近于 1,表示回归的效果越好残差图i
3、称为相应于点(x i,y i)的残差,e 残差点比较均匀地落在水平的iy i ie y 带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和 (yi i)2 n i 1 y 残差平方和越小,模型的拟合效果越好判断正误(正确的打“” ,错误的打 “”)(1)求线性回归方程前可以不进行相关性检验( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号( )(3)利用线性回归方程求出的值是准确值( )答案:(1) (2) (3) 变量 x 与 y 之间的回归方程表示( )Ax 与 y 之间的函数关系Bx 与 y 之间的不确定性关
4、系Cx 与 y 之间的真实关系形式Dx 与 y 之间的真实关系达到最大限度的吻合答案:D在两个变量 y 与 x 的回归模型中,分别选择了 4 个不同的模型,它们的相关指数 R2 如下,其中拟合效果最好的模型是( )A模型 1 的相关指数 R2 为 0.98B模型 2 的相关指数 R2 为 0.80C模型 3 的相关指数 R2 为 0.50D模型 4 的相关指数 R2 为 0.25答案:A已知线性回归方程 0.75x0.7,则 x11 时,y 的估计值为 _y 答案:8.95探究点 1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度 y 与腐蚀时间 x 之间的一组观察值如下表.x(s)
5、 5 10 15 20 30 40 50 60 70 90 120y(m) 6 10 10 13 16 17 19 23 25 29 46(1)画出散点图;(2)求 y 对 x 的线性回归方程;(3)利用线性回归方程预测时间为 100 s 时腐蚀深度为多少【解】 (1)散点图如图所示(2)从散点图中,我们可以看出 y 对 x 的样本点分布在一条直线附近,因而求回归直线方程有意义x (51015120)111 ,y (6101046) ,51011 111 21411y x 0.304 5.36.a b 21411 51011故腐蚀深度对腐蚀时间的线性回归方程为 y0.304x5.36.(3)根
6、据(2)求得的线性回归方程,当腐蚀时间为 100 s 时, 5.360.30410035.76(m),y 即腐蚀时间为 100 s 时腐蚀深度大约为 35.76 m. 求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系(2)求回归系数:若存在线性相关关系,则求回归系数(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系如果已测得炉料熔化完毕时钢水的含碳量 x 与冶炼时间 y(从炼料熔化完毕到出钢的时间) 的数据(x i,y i)(i1,2,
7、10)并已计算出1 589,i1 720,10i 1y故冶炼时间 y 对钢水的含碳量 x 的回归直线方程为 1.267x30.47.y 探究点 2 线性回归分析假定小麦基本苗数 x 与成熟期有效穗 y 之间存在相关关系,今测得 5 组数据如下:(1)以 x 为解释变量,y 为预报变量,作出散点图;(2)求 y 与 x 之间的回归方程,对于基本苗数 56.7 预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数 R2,并说明残差变量对有效穗的影响占百分之几?【解】 (1)散点图如下(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它x 15.0 25.
8、8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2们之间的关系设回归方程为 x , 30.36, 43.5,y b a x y (1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数 R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析(2)刻画回归效果的三种方法残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;残差平方和法:残差平方和 (yi i)2越小,模型的拟合效果越好;ni 1 y 关于 x 与 y 有如下数据:x 2
9、4 5 6 8y 30 40 60 50 70由(2)可得 yi i与 yi 的关系如下表:y y yi iy 1 5 8 9 3yi y 20 10 10 0 20由于 R 0.845,R 0.82,0.8450.82,21 2所以 R R .21 2所以(1)的拟合效果好于(2) 的拟合效果探究点 3 非线性回归分析某地今年上半年患某种传染病的人数 y(人) 与月份 x(月)之间满足函数关系,模型为yae bx,确定这个函数解析式月份 x/月 1 2 3 4 5 6人数 y/人 52 61 68 74 78 83【解】 设 uln y ,cln a ,得 x,u c b 则 u 与 x 的
10、数据关系如下表:x 1 2 3 4 5 6u ln y 3.95 4.11 4.22 4.304 4.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果(5)根据相应的变换,写出非线性回归方程某种书每册的成本费 y(元) 与印刷册数 x(千册)有关,经统计得到数据如下:x(千册) 1 2 3 5 10 20 30 50 100 200y(元 ) 10.15 5.52 4.08 2.85 2.11
11、1.62 1.41 1.30 1.21 1.15检验每册书的成本费 y(元)与印刷册数的倒数 之间是否具有线性相关关系,如有,求出 y1x对 x 的回归方程,并画出其图形解:首先作变量置换 u ,题目中所给的数据变成如下表所示的 10 对数据1xui 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005yi 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15然后作相关性检测经计算得 r0.999 80.75,从而认为 u 与 y 之间具有线性相关关系,由公式得1.125, 8.973,所以 1.1258.97
12、3u,最后回代 u ,可得 1.125 .a b y 1x y 8.973x这就是题目要求的 y 对 x 的回归方程回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支1关于回归分析,下列说法错误的是( )A回归分析是研究两个具有相关关系的变量的方法B散点图中,解释变量在 x 轴,预报变量在 y 轴C回归模型中一定存在随机误差D散点图能明确反映变量间的关系解析:选 D.用散点图反映两个变量间的关系时,存在误差2下列关于统计的说法:将一组数据中的每个数据都加上或减去同一个常数,方差恒不变;回归方程 x 必经过点(x,y);y b a 线性回归模型中,随机误差 ey i i;y 设回归方
13、程为 5x 3,若变量 x 增加 1 个单位,则 y 平均增加 5 个单位y 其中正确的为_(写出全部正确说法的序号 )解析:正确;正确;线性回归模型中,随机误差的估计值应为 iy i i,故错误;e y 若变量 x 增加 1 个单位,则 y 平均减少 5 个单位,故错误答案:3某商场经营一批进价是 30 元/台的小商品,在市场试销中发现,此商品的销售单价 x(x取整数)(元)与日销售量 y(台)之间有如下关系:x 35 40 45 50y 56 41 28 11(1)画出散点图,并判断 y 与 x 是否具有线性相关关系;(2)求日销售量 y 对销售单价 x 的线性回归方程(方程的斜率保留一个
14、有效数字);(3)设经营此商品的日销售利润为 P 元,根据(2)写出 P 关于 x 的函数关系式,并预测当销售单价 x 为多少元时,才能获得最大日销售利润解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系(2)因为 (354045 50)42.5,x 14(3)依题意有 P(161.53x )(x30)3x 2251.5x 4 8453 4 845.(x 251.56 )2 251.5212所以当 x 42 时,P 有最大值,约为 426 元故预测当销售单价为 42 元时,能获251.56得最大日销售利润知识结构 深化拓展线性回归模型的模拟效果(
15、1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果残差平方和越小的模型,拟合的效果越好(3)R2 法: R2 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好注意 r 的绝对值越大说明变量间的相关性越强,通常认为 r 的绝对值大于等于 0.75 时就是有较强的相关性,同样 R2
16、也是如此,R 2越大拟合效果越好.A 基础达标1废品率 x%和每吨生铁成本 y(元) 之间的回归直线方程为 2563x,表明( )y A废品率每增加 1%,生铁成本增加 259 元B废品率每增加 1%,生铁成本增加 3 元C废品率每增加 1%,生铁成本平均每吨增加 3 元D废品率不变,生铁成本为 256 元解析:选 C.回归方程的系数 表示 x 每增加一个单位, 平均增加 ,当 x 为 1 时,废品率应b y b 为 1%,故当废品率增加 1%时,生铁成本平均每吨增加 3 元2已知某产品连续 4 个月的广告费用为 xi(i1,2,3, 4)千元,销售额为yi(i 1, 2,3,4)万元,经过对
17、这些数据的处理,得到如下数据信息:x 1x 2x 3 x418,y 1y 2y 3y 414;广告费用 x 和销售额 y 之间具有较强的线性相关关系;回归直线方程 x 中, 0.8(用最小二乘法求得 ),那么当广告费用为 6y b a b 千元时,可预测销售额约为( )A3.5 万元 B4.7 万元C4.9 万元 D 6.5 万元解析:选 B.依题意得 x4.5,y3.5,由回归直线必过样本点中心得3.50.84.50.1,所以回归直线方程为 0.8x0.1.当 x6 时,a y 0.8 60.14.7.y 3某化工厂为预测某产品的回收率 y,需要研究它和原料有效成分含量之间的相关关系,现取了
18、 8 对观测值,计算得的线性回归方程是( )A. 11.47 2.62 xy B. 11.472.62xy C. 2.6211.47xy D. 11.47 2.62 xy 解析:选 A.由题中数据得 x6.5,y28.5,y x28.52.626.511.47,a b 所以 y 与 x 的线性回归方程是 2.62x11.47.故选 A.y 4若某地财政收入 x 与支出 y 满足线性回归方程 ybxae (单位:亿元),其中b0.8,a2,|e |0.5.如果今年该地区财政收入 10 亿元,则年支出预计不会超过( )A10 亿元 B9 亿元C10.5 亿元 D9.5 亿元解析:选 C.代入数据
19、y10e,因为|e| 0.5,所以 9.5y10.5,故不会超过 10.5 亿元5某种产品的广告费支出 x 与销售额 y(单位:万元)之间的关系如下表:x 2 4 5 6 8y 30 40 60 50 70y 与 x 的线性回归方程为 6.5 x17.5,当广告支出 5 万元时,随机误差的效应 (残差)为y _解析:因为 y 与 x 的线性回归方程为 6.5x17.5,当 x5 时, 50,当广告支出 5 万y y 元时,由表格得:y60,故随机误差的效应(残差) 为 605010.答案:106若一组观测值(x 1,y 1),( x2,y 2),(x n,y n)之间满足 yibx iae i
20、(i1,2,n),且 ei 恒为 0,则 R2 为_解析:由 ei恒为 0,知 yi i,即 yi i0,y y 故 R21 1 01. n i 1 (yi y i)2 n i 1 (yi y)2答案:17某个服装店经营某种服装,在某周内获纯利 y(元) 与该周每天销售这种服装件数 x 之间的一组数据关系见表:x 3 4 5 6 7 8 9y 66 69 73 81 89 90 91已知 x 280 , xiyi 3 487.7 i 12i 7 i 1(1)求 x,y;(2)已知纯利 y 与每天销售件数 x 线性相关,试求出其回归方程解:(1)x 6,3 4 5 6 7 8 97y .66 6
21、9 73 81 89 90 917 5597(2)因为 y 与 x 有线性相关关系,所以 4.75,b 3 487 765597280 736 64.75 51.36.a 5597 71914故回归方程为 4.75 x 51.36.y 8已知某校 5 个学生的数学和物理成绩如下表:(1)假设在对这 5 名学生成绩进行统计时,把这 5 名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有 2 名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用 x 表示数学成绩,用 y 表示物理成绩,求 y 与
22、 x 的回归方程;(3)利用残差分析回归方程的拟合效果,若残差和在( 0.1,0.1)范围内,则称回归方程为“优拟方程” ,问:该回归方程是否为“优拟方程”?参考数据和公式: x ,其中 y b a 学生的编号 i 1 2 3 4 5数学 xi 80 75 70 65 60物理 yi 70 66 68 64 62解:(1)记事件 A 为“恰有 2 名学生的物理成绩是自己的实际成绩 ”,则 P(A) .16(2)因为 x 70,80 75 70 65 605y 66,70 66 68 64 625Error!iyi112.3B 能力提升9.假设关于某设备的使用年限 x 和所支出的维修费用 y(万
23、元)有如表的统计资料:使用年限 x 2 3 4 5 6维修费用 y 2.2 3.8 5.5 6.5 7.010(选做题) 某地区不同身高的未成年男性的体重平均值如表所示:身高 x(cm) 60 70 80 90 100 110体重 y(kg) 6.13 7.90 9.99 12.15 15.02 17.50身高 x(cm) 120 130 140 150 160 170体重 y(kg) 20.92 26.86 31.11 38.85 47.25 55.05(1)试建立 y 与 x 之间的回归方程;(2)如果体重超过相同身高男性体重平均值的 1.2 倍为偏胖,低于 0.8 倍为偏瘦,那么这个地区
24、一名身高 175 cm、体重 82 kg 的在校男生体重是否正常?解:(1)根据题表中的数据画出散点图如图所示由图可看出,样本点分布在某条指数函数曲线 yc 1ec2x的周围,于是令 zln y ,得下表:x 60 70 80 90 100 110z 1.81 2.07 2.30 2.50 2.71 2.86x 120 130 140 150 160 170z 3.04 3.29 3.44 3.66 3.86 4.01作出散点图如图所示:由表中数据可得 z 与 x 之间的回归直线方程为0.662 50.020x ,z 则有 e0.662 5 0.020x.y (2)当 x175 时,预报平均体重为 e 0.662 50.020175 64.23,y 因为 64.231.277.0882,所以这个男生偏胖