1、第九篇 统计专题9.03变量间的相关关系与统计案例【考试要求】1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解22列联表的统计意义,了解22列联表独立性检验及其应用.【知识梳理】1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左
2、下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为x,则,.其中,是回归方程的斜率,是在y轴上的截距.回归直线一定过样本点的中心(,).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一
3、种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(,)称为样本点的中心.(3)相关系数当r0时,表明两个变量正相关;当r0,则正相关;r0时,正相关;R;x,y之间不能建立线性回归方程.考点二线性回归方程及应用【例2】 (2019日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x20132014201520162017储蓄存款y(千亿元)567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:时间代号t12345Z01
4、235表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程x,其中,)【规律方法】1.(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程x必过样本点中心(,).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018全国卷)如图是某地
5、区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.考点三独立性检验【例3】 (2019湖南长沙雅礼中河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染
6、指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50(50,100(100,150(150,200(200,300(300,)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分
7、层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写22列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:P(K2k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.02
8、46.6357.879参考公式:K2,其中nabcd.【规律方法】1.在22列联表中,如果两个变量没有关系,则应满足adbc0.|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成22列联表:(2)根据公式K2计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断.【训练3】 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.
9、024)0.025.根据表中数据,得到K2的观测值k4.844.则认为选修文科与性别有关系出错的可能性为_.【反思与感悟】1.求回归方程,关键在于正确求出系数a,b ,由于a ,b 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.【易错防范】1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的
10、线性回归方程毫无意义.2.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.【分层训练】【基础巩固题组】(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1 B.r4r20r1r3C.r4r20r3r1 D.r2r40r1r32.有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平
11、方和越小的模型,拟合效果越好.正确的是()A. B. C. D.3.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎总计男6713女8917总计141630根据表中数据,得到如下结论正确的一项是()A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此调查中没有充分的证据显示说谎与性别有关4.(2019衡水中学调研)已知变量x,y之间的线性回归方程为0.7x10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是()x681012y6m32A.变量x,y之
12、间呈负相关关系B.可以预测,当x20时,3.7C.m4D.该回归直线必过点(9,4)5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110K2算得,K27.8.得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.有95%以上的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”二、填空题6.某单位为了了解用电量y(度)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()181
13、3101用电量(度)24343864由表中数据得回归直线方程x中的2,预测当气温为4 时,用电量约为_度.7.(2019济南调研)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题代数题总计男同学22830女同学81220总计302050根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过_.附表:P(K2k0)0.150.100.050.0250.0100.0050.001k02
14、.0722.7063.8415.0246.6357.87910.8288.(2019广东深中、华附、省实、广雅四校联考)如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为x1,则_.三、解答题9.(2019天津河西区调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:满意不满意男用户3010女用户2020(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.P(K2k0)0.1000.050
15、0.0250.010k02.7063.8415.0246.635注:K2,nabcd.10.调查某公司的五名推销员,其工作年限与年推销金额如下表:推销员ABCDE工作年限x(年)23578年推销金额y(万元)33.546.58(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:,.【能力提升题组】(建议用时:20分钟)11.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是()A.若K2的观测
16、值为k6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确12.(2019承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误
17、的是()A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 的月份有4个13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.5m10.511销售量y11n865由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是3.2x40,且mn20,则其中的n_.14.(2019山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精
18、准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为532,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式yC12C2x,其中C1,C2为常数.(2013年至2019年该市中学生人数大致保持不变)(ki)2(yi)2(xi)(yi)(xi)(ki)2.31.23.14.621其中kilog2 yi,ki.(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),(un,vn),其回归直线方程u的斜率和截距的最小二乘估计分别为,.20.720.320.121.721.821.90.60.81.13.23.53.7318