1、 3.2 回归分析回归分析 学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个 变量间的线性相关程度 知识点一 回归分析及回归直线方程 思考 1 什么叫回归分析? 答案 回归分析是对具有相关关系的两个变量进行统计分析的一种方法 思考 2 回归分析中,利用回归直线方程求出的函数值一定是真实值吗? 答案 不一定是真实值,利用回归直线方程求的值,在很多时候是个预测值 梳理 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法若两个变量 之间具有线性相关关系,则称相应的回归分析为线性回归分析 (2)回归直线方程为y b xa ,且b i1 n xi x
2、yi y i1 n xi x 2 ,a y b x ,其中 x 1 n i1 n xi, y 1 n i1 n yi,( x , y )称为样本点的中心,回归直线一定过样本点的中心 知识点二 相关系数 1对于变量 x 与 Y 随机抽到的 n 对数据(x1,y1),(x2,y2),(xn,yn),检验统计量是样本 相关系数 r n i1 xi x yi y n i1 xi x 2 n i1 yi y 2 n i1xiyin x y n i1x 2 in x 2 n i1y 2 in y 2. 2 相关系数 r 的取值范围是1,1, |r|越接近 1, 变量之间的线性相关程度越强; |r|越接近
3、0, 变量之间的线性相关程度越弱当|r|r0.05时,表明有 95%的把握认为两个变量之间具有线性 相关关系 1求回归直线方程前可以不进行相关性检验( ) 2利用回归直线方程求出的值是准确值( ) 类型一 回归直线方程 例 1 若从某大学中随机选取 8 名女大学生,其身高和体重数据如下表所示: 编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 求根据女大学生的身高预测体重的回归直线方程, 并预测一名身高为 172 cm 的女大学生的体 重 考点 线性回归分析 题点 回归直
4、线的应用 解 (1)画散点图 选取身高为自变量 x,体重为因变量 y,画出散点图,展示两个变量之间的关系,并判断二者 是否具有线性关系 由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用 回归直线方程y b xa 来近似刻画它们之间的关系 (2)建立回归方程由计算器可得b 0.848,a 85.632. 于是得到回归直线方程为y 0.848x85.632. (3)预测和决策 当 x172 时,y 0.84817285.63260.224(kg) 即一名身高为 172 cm 的女大学生的体重预测值为 60.224 kg. 反思与感悟 在使用回归直线方程进行预测时要注
5、意 (1)回归直线方程只适用于我们所研究的样本的总体 (2)我们所建立的回归直线方程一般都有时间性 (3)样本取值的范围会影响回归直线方程的适用范围 (4)不能期望回归直线方程得到的预测值就是因变量的精确值 跟踪训练 1 假设关于某设备的使用年限 x(年)和所支出的维修费用 y(万元)有如下的统计数 据: x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 由此资料可知 y 对 x 呈线性相关关系 (1)求回归直线方程; (2)求使用年限为 10 年时,该设备的维修费用为多少? 考点 回归直线方程 题点 求回归直线方程 解 (1)由题干表中的数据可得 x 4, y 5, i1
6、5 x2i90, i1 5 xiyi112.3, b i1 5 xiyi5 x y i1 5 x2i5 x 2 112.3545 90542 1.23, a y b x 51.2340.08. 回归直线方程为y 1.23x0.08. (2)当 x10 时,y 1.23100.0812.38. 即使用年限为 10 年时,该设备的维修费用约为 12.38 万元 类型二 相关性检验 例 2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y 来衡量, 这个指标越高, 耐 热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度 x(g/L)去 控制这一指标,为此必须找出它们之间的关
7、系,现安排一批实验,获得如下数据: 甲醛浓度(g/L) 18 20 22 24 26 28 30 缩醛化度(克分子%) 26.86 28.35 28.75 28.87 29.75 30.00 30.36 (1)画散点图; (2)求回归直线方程; (3)求相关系数 r,并进行相关性检验 考点 线性相关系数 题点 线性相关系数的概念及计算 解 (1)散点图如图 (2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算a ,b . i xi yi x2i xiyi 1 18 26.86 324 483.48 2 20 28.35 400 567 3 22 28.75 484 632.5
8、4 24 28.87 576 692.88 5 26 29.75 676 773.5 6 28 30.00 784 840 7 30 30.36 900 910.80 168 202.94 4 144 4 900.16 x 168 7 24, y 202.94 7 , b 7 i1xiyi7 x y 7 i1x 2 i7 x 2 4 900.16724202.94 7 4 1447242 0.264 3, a y b x 202.94 7 0.264 32422.648, 回归直线方程为y 22.6480.264 3x. (3) 7 i1y 2 i5 892,r 7 i1xiyi7 x y 7
9、 i1x 2 i7 x 2 7 i1y 2 i7 y 2 4 900.16724202.94 7 4 14472425 8927 202.94 7 20.96. r0.96r0.050.754. 有95%的把握认为“甲醛浓度与缩醛化度有线性相关关系”, 求得的回归直线方程有意义 反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值 r0.05比较,进 行相关性检验 跟踪训练 2 为了研究 3 月下旬的平均气温(x)与 4 月 20 日前棉花害虫化蛹高峰日(y)的关系, 某地区观察了 2012 年至 2017 年的情况,得到了下面的数据: 年份 2012 2013 2014 20
10、15 2016 2017 x() 24.4 29.6 32.9 28.7 30.3 28.9 y(日) 19 6 1 10 1 8 (1)对变量 x,y 进行相关性检验; (2)据气象预测, 该地区在 2019 年 3 月下旬平均气温为 27, 试估计 2019 年 4 月化蛹高峰日 为哪天 考点 线性相关系数 题点 线性相关系数的概念及计算 解 由已知条件可得下表: i 1 2 3 4 5 6 xi 24.4 29.6 32.9 28.7 30.3 28.9 yi 19 6 1 10 1 8 x 29.13, y 7.5, i1 6 x2i5 130.92, i1 6 y2i563, i1
11、6 xiyi1 222.6 (1)r i1 6 xiyi6 x y i1 6 x2i6 x 2 i1 6 y2i6 y 2 0.934 1. 查表知:r0.050.811.由|r|r0.05可知,变量 y 和 x 存在线性相关关系 (2)b 1 222.6629.137.5 5 130.92629.132 2.23, a y b x 72.46. 所以回归直线方程为y 2.23x72.46. 当 x27 时,y 2.232772.4612. 据此,可估计该地区 2019 年 4 月 12 日为化蛹高峰日. 1某商品销售量 y(件)与销售价格 x(元/件)呈负相关,则其回归直线方程可能是( )
12、A.y 10 x200 B.y 10 x200 C.y 10 x200 D.y 10 x200 考点 题点 答案 A 解析 由于销售量 y 与销售价格 x 成负相关,故排除 B,D.又当 x10 时,A 中 y100,而 C 中 y300,C 不符合题意,故选 A. 2下表是 x 和 y 之间的一组数据,则 y 关于 x 的回归直线必过( ) x 1 2 3 4 y 1 3 5 7 A.点(2,3) B点(1.5,4) C点(2.5,4) D点(2.5,5) 考点 回归直线方程 题点 样本点中心的应用 答案 C 解析 回归直线必过样本点中心( x , y ),即(2.5,4) 3对变量 y 和
13、 x 进行相关性检验,已知 n 为数据的对数,r 是相关系数,且已知n3,r 0.995 0;n7,r0.953 3;n15,r0.301 2;n17,r0.499 1.则变量 y 和 x 具 有线性相关关系的是( ) A和 B和 C和 D和 考点 线性相关系数 题点 线性相关系数的应用 答案 C 解析 当 n3 时,r0.050.997,所以|r|r0.05,表明有 95%的把握认为 x 与 y 之间具有线性相关关系;当 n15 时,r0.050.514,所以|r|r0.05, 表明有 95%的把握认为 x 与 y 之间具有线性相关关系,所以和满足题意,故选 C. 4某产品在某零售摊位的零售
14、价 x(单位:元)与每天的销售量 y(单位:个)的统计资料如下表 所示: x 16 17 18 19 y 50 34 41 31 由上表可得回归直线方程y b xa 中的b 5,据此模型预测当零售价为 14.5 元时,每天的 销售量为( ) A51 个 B50 个 C54 个 D48 个 考点 线性回归分析 题点 回归直线方程的应用 答案 C 解析 由题意知 x 17.5, y 39,代入回归直线方程得 a 126.5,126.514.5554,故选 C. 5已知 x,y 之间的一组数据如下表: x 0 1 2 3 y 1 3 5 7 (1)分别计算: x , y ,x1y1x2y2x3y3x
15、4y4,x21x22x23x24; (2)已知变量 x 与 y 线性相关,求出回归直线方程 考点 回归直线方程 题点 求回归直线方程 解 (1) x 0123 4 1.5, y 1357 4 4, x1y1x2y2x3y3x4y40113253734, x21x22x23x240212223214. (2)b 3441.54 1441.52 2, a y b x 421.51, 故回归直线方程为y 2x1. 1对具有线性相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求 回归直线方程并进行预报 2 通过求相关系数并和临界值 r0.05比较可以判断两个变量是否有线性相关关系, 求得的回归 直线方程是否有意义.