1、第二章 统计2.3 变量间的相关关系2.3.2 两个变量的线性相关学习目标经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的回归方程的系数公式求回归方程.合作学习一、设计问题,创设情境问题 1:某小卖部为了了解热茶销售量与气温之间的关系 ,随机统计并制作了某 6 天卖出热茶的杯数与当天气温的对照表:气温/ 26 18 13 10 4 -1杯数 20 24 34 38 50 64如果某天的气温是-5 ,你能根据这些数据预测这天小卖部卖出热茶的杯数吗?问题 2:(1)正、负相关的概念是什么?(2)什么是线性相关?(3)看人体的脂肪百分比和年龄的散点图,当人的年龄增加时
2、 ,体内脂肪含量到底是以什么方式增加的呢?(4)什么叫做回归直线?(5)如何求回归直线的方程?什么是最小二乘法?它有什么样的思想?(6)利用计算机如何求回归直线的方程?(7)利用计算器如何求回归直线的方程?二、信息交流,揭示规律问题 2 讨论结果三、运用规律,解决问题【例 1】 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:摄氏温度/ -5 0 4 7 12 15 19 23 27 31 36热饮杯数 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;(2)从散点图中发现气温与热饮销
3、售杯数之间关系的一般规律;(3)求回归方程;(4)如果某天的气温是 2 ,预测这天卖出的热饮杯数.【例 2】 给出施化肥量对水稻产量影响的试验数据:施化肥量 x 15 20 25 30 35 40 45水稻产量 y 330 345 365 405 445 450 455(1)画出上表的散点图;(2)求出回归方程.四、变式训练,深化提高下表为某地近几年机动车辆数与交通事故数的统计资料:机动车辆数 x/千台 95 110 112 120 129 135 150 180交通事故数 y/千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13(1)请判断机动车辆数与交通事故数之间是否有线性
4、相关关系,如果不具有线性相关关系,说明理由;(2)如果具有线性相关关系,求出回归方程.五、反思小结,观点提炼请同学们想一想,求线性回归方程的步骤是什么?在里面有什么重要的方法?布置作业课本 P94 习题 2.3 A 组第 3 题.课后巩固:1.下列两个变量之间的关系不是函数关系的是( )A.角度和它的余弦值 B.正方形边长和面积C.正 n 边形的边数和它的内角和 D.人的年龄和身高2.三点(3,10),(7,20),(11,24)的线性回归方程是( )A. =5.75-1.75x B. =1.75+5.75x C. =1.75-5.75x D. =5.75+1.75x 3.已知关于某设备的使用
5、年限 x 与所支出的维修费用 y(万元 ),有如下统计资料:使用年限 x 2 3 4 5 6维修费用 y 2.2 3.8 5.5 6.5 7.0设 y 对 x 呈线性相关关系.试求:(1)回归方程 x+ 的回归系数 ;= ,(2)估计使用年限为 10 年时,维修费用是多少?4.我们考虑两个表示变量 x 与 y 之间的关系的模型, 为误差项,模型如下:模型 1:y=6+4x;模型 2:y=6+4x+.(1)如果 x=3,=1,分别求两个模型中 y 的值;(2)分别说明以上两个模型是确定性模型还是随机性模型.参考答案二、信息交流,揭示规律问题 2 讨论结果:(1)如果散点图中的点散布在从左下角到右
6、上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.(2)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系 .(3)大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加 ,呈正相关的趋势,我们可以从散点图上来进一步分析.(4)如下图:从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.如果能够求出这条回归直线的方程(简称回归方程), 那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性.就像平均数可以作为一个变量的数据的
7、代表一样,这条直线可以作为两个变量具有线性相关关系的代表.(5)那么,我们应当如何具体求出这个回归方程呢?有的同学可能会想,我可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就可得到回归方程了(图(1).但是,这样做可靠吗?有的同学可能还会想,在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同(图(2).同样地,这样做能保证各点与此直线在整体上是最接近的吗?还有的同学会想,在散点图中多取几组点,确定出几条直线的方程(图(3),再分别求出各条直线的斜率、截距的平均数,将这两个平均数当成回归方程的斜率和截距.同学
8、们不妨去实践一下,看看这些方法是不是真的可行?(学生讨论:1.选择能反映直线变化的两个点.2.在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.3.多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.)教师:分别分析各方法的可靠性 .如下图:图(1) 图(2) 图(3)上面这些方法虽然有一定的道理,但总让人感到可靠性不强.实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.人们经过长期的实践与研究,已经得出了计算回归方程的斜率与截距的一般公式=1(-)(-)=1(-)2 =1- =12-2,=-.
9、其中, 是回归方程的斜率, 是截距. 推导公式的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.假设我们已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn),且所求回归方程是 x+ ,= 其中 是待定参数.当变量 x 取 xi(i=1,2,n)时可以得到 xi+ (i=1,2,n), = 它与实际收集到的 yi 之间的偏差是 yi- =yi-( xi+ )(i=1,2,n). 这样,用这 n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(y i- )可正可负,为了避免相互抵消,可以考虑用 |yi- |来代替,但由于它含有绝对
10、值 ,运算不太方便,=1 所以改用 Q=(y1- x1- )2+(y2- x2- )2+(yn- xn- )2 来刻画 n 个点与回归直线在整体上的偏差.这样,问题就归结为:当 取什么值时 Q 最小,即总体偏差最小.经过数学上求最小值的,运算, 的值由公式给出.,通过求式的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(6)利用计算机求回归直线的方程.根据最小二乘法的思想和公式,利用计算器或计算机,可以方便地求出回归方程.以 Excel 软件为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下:在 Excel 中选
11、定表示人体的脂肪含量与年龄的相关关系的散点图,在菜单中选定“图表”中的“添加趋势线” 选项,弹出 “添加趋势线”对话框.单击“类型”标签,选定“ 趋势预测 /回归分析类型”中的“ 线性”选项,单击“确定”按钮,得到回归直线.双击回归直线,弹出“趋势线格式”对话框.单击“ 选项”标签,选定“ 显示公式”,最后单击“确定”按钮,得到回归直线的回归方程 =0.577x-0.448.(7)利用计算器求回归直线的方程.用计算器求这个回归方程的过程如下:所以回归方程为 =0.577x-0.448.正像本节开头所说的,我们从人体脂肪含量与年龄这两个变量的一组随机样本数据中,找到了它们之间关系的一个规律,这个
12、规律是由回归直线来反映的.回归方程的应用:描述两变量之间的依存关系;利用回归方程即可定量描述两个变量间依存的数量关系.利用回归方程进行预测;把预报因子 (即自变量 x)代入回归方程对预报量 (即因变量 Y)进行估计,即可得到个体 Y 值的容许区间.利用回归方程进行统计控制规定 Y 值的变化,通过控制 x 的范围来实现统计控制的目标.如已经得到了空气中 NO2 的浓度和汽车流量间的回归方程 ,即可通过控制汽车流量来控制空气中 NO2 的浓度.三、运用规律,解决问题【例 1】 解:(1)散点图如图所示:(2)从上图看到,各点散布在从左上角到右下角的区域里,因此 ,气温与热饮销售杯数之间呈负相关,即
13、气温越高,卖出去的热饮杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线的附近 ,因此,可用公式求出回归方程的系数.利用计算器容易求得回归方程 =-2.352x+147.767.(4)当 x=2 时, =143.063.因此,某天的气温为 2 时,这天大约可以卖出 143 杯热饮.【例 2】 解:(1)散点图如下图:(2)根据表中的数据进行具体计算,列成以下表格:i 1 2 3 4 5 6 7xi 15 20 25 30 35 40 45yi 330 345 365 405 445 450 455xiyi 4 950 6 900 9 125 12 150 15 575 18 000 2
14、0 475=30, =399.3, =7 000, =1 132 725, xiyi=87 175xy 7i=1x2i 7i=1y2i 7i=1故可得到 4.75, =399.3-4.7530257.=87 175-730399.37 000-7302 从而得回归方程是 =4.75x+257.四、变式训练,深化提高解:(1)在直角坐标系中画出数据的散点图,如下图:直观判断散点在一条直线附近,故具有线性相关关系.(2)计算相应的数据之和:xi=1 031, yi=71.6, =137 835, xiyi=9 611.7.8=1 8=1 8=12 8=1将它们代入公式计算得 0.077 4, =-
15、1.024 1, 所以,所求回归方程为 =0.077 4x-1.024 1.五、反思小结,观点提炼1.求线性回归方程的步骤:(1)计算平均数 ;,(2)计算 xi 与 yi 的积,求 xiyi;(3)计算 ,2(4)将上述有关结果代入公式 ,写出回归方程.=1(-)(-)=1(-)2 =1- =12-2,=- 求,2.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的回归方程系数公式求回归方程.课后巩固:1.D 2.D3.(1) =1.23, =0.08 (2)12 .38 万元 4.解:(1)模型 1:y=6+4x=6+43=18;模型 2:y=6+4x+=6+43+1=19.(2)模型 1 中相同的 x 值一定得到相同的 y 值,所以是确定性模型; 模型 2 中相同的 x 值,因 的不同,所得 y 值不一定相同,且 是随机的,所以模型 2 是随机性模型.