1、2022年中考数学复习专题25:回归分析与独立性检验【一】回归分析 (1) 求回归直线方程的一般步骤如下:依据样本数据画出散点图,确定两个变量具有线性相关关系;计算的值;计算回归系数;写出回归直线方程为。(2)回归直线过样本点中心(3)可以利用回归直线方程预报在取某个值时的估计值1.例题类型一:线性问题【例1】 广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如下表(单位:万元)广告费23456销售额2941505971由上表可得回归方程为,据此模型, 预测广告费为10万元时销售额约为( )A118.2万元B111.2万元C108.8万元D101.2
2、万元【答案】B【解析】由表格中数据可得,解得,回归方程为,当时,即预测广告费为10万元时销售额约为,故选B.【例2】 随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y与一定范围内的温度x有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期2日7日15日22日30日温度x/C101113128产卵数y/个2325302616(1)从这5天中任选2天,记这两天药用昆虫的产卵分别为m,n,求事件“m,n均不小于25”的概率;(2)科研人员确定的研究方
3、案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.()若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;()若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问()中所得的线性回归方程是否可靠?附:回归直线的斜率和截距的最小二乘估计公式分别为 ,a=y-bx.【解析】(1)依题意得,m、n的所有情况有:23,25、23,30、23,26、23,16、25,30、25,26、25,16、30,26、30,16、26,16,共有10
4、个;设“m、n均不小于25”为事件A,则事件A包含的基本事件有25,30、25,26、30,26,所以P(A)=310,故事件A的概率为310.(2)()由数据得x=12,y=27, , 所以y关于x的线性回归方程为y=52x-3.()由()知,y关于x的线性回归方程为y=52x-3.当x=10时,y=5210-3=22,|22-23|2.当x=8时,y=528-3=17,|17-16|3.841,则有95%的把握说两个事件有关;若K26.635,则有99%的把握说两个事件有关;若K23.841,因此在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关系【例2】2014年12月19日,2
5、014年中国数学奥林匹克竞赛(第30届全国中学生数学冬令营)在重庆市巴蜀中学举行参加本届中国数学奥林匹克竞赛共有来自各省、市(自治区、直辖市)、香港地区、澳门地区,以及俄罗斯、新加坡等国的30余支代表队,共317名选手竞赛为期2天,每天3道题,限时4个半小时完成部分优胜者将参加为国际数学奥林匹克竞赛而组建的中国国家集训队中国数学奥林匹克竞赛(全国中学生数学冬令营)是在全国高中数学联赛基础上进行的一次较高层次的数学竞赛,该项活动也是中国中学生级别最高、规模最大、最有影响的全国性数学竞赛2020年第29届全国中学生生物学竞赛也将在重庆巴蜀中学举行巴蜀中学校本选修课“数学建模”兴趣小组调查了2019
6、年参加全国生物竞赛的200名学生(其中男生、女生各100人)的成绩,得到这200名学生成绩的中位数为78这200名学生成绩均在50与110之间,且成绩在内的人数为30,这200名学生成绩的高于平均数的男生有62名,女生有38名并根据调查结果画出如图所示的频率分布直方图(1)求,的值;(2)填写下表,能否有的把握认为学生成绩是否高于平均数与性别有关系?男生女生总计成绩不高于平均数成绩高于平均数总计参考公式及数据:,其中【解析】(1)成绩在内的人数为30,成绩在内的频率为由频率分布直方图得,化简得,由中位数可得,化简得,由解得,(2)200名学生成绩的高于平均数的男生有62名,女生有38名,因男、
7、女生各100名,所以可得成绩不高于平均数的男生有38名,女生有62名,根据题意得到列联表:男生女生总计成绩不高于平均数3862100成绩高于平均数6238100总计100100200的观测值,有的把握认为学生成绩是否高于平均数与性别有关系2.巩固提升综合练习【练习1】 某市一中毕业生有3000名,二中毕业生有2000名为了研究语文高考成绩是否与学校有关,现采用分层抽样的方法,从中抽取100名学生,先统计了他们的成绩(折合成百分制),然后按“一中”、“二中”分为两组,再将成绩分为5组,50,60),60,70),70,80),80,90),90,100,分别加以统计,得到如图所示的频率分布直方图
8、:(1)从成绩在90分(含90分)以上的学生中随机抽取2人,问至少抽到一名学生是“一中”的概率;(2)规定成绩在70分以下为“成绩不理想”,请根据已知条件构造22列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“成绩理想不理想与所在学校有关”?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828【解析】(1)由分层抽样抽取的100名学生中,一中有60名,二中有40名,所以成绩在90分以上的人中,一中有600.00510=3人;二中有400.00510
9、=2人,故至少抽到一名学生是“一中”的概率为p=1-110=910.(2)22列联表如下:成绩不理想成绩理想合计一中154560二中142640合计2971100将列联表中的数据代入公式,可得:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(1526-1445)2297160401.16562.706,所以不能在犯错误的概率不超过0.1的前提下认为“成绩理想不理想与所在学校有关”.【练习2】某社会机构为了调查对手机游戏的兴趣与年龄的关系,通过问卷调查,整理数据得如下列联表:40岁以下40岁以上合计很有兴趣301545无兴趣203555合计5050100(1)根据列联表
10、,能否有99.9%的把握认为对手机游戏的兴趣程度与年龄有关?(2)若已经从40岁以下的被调查者中用分层抽样的方式抽取了5名,现从这5名被调查者中随机选取3名,求这3名被调查者中恰有1名对手机游戏无兴趣的概率参考公式及数据:,其中【解析】(1)由题可得的观测值,没有99.9%的把握认为手机游戏的兴趣程度与年龄有关(2)由题得40岁以下的被调查者中用分层抽样的方式抽取的5名人员中有3名对手机游戏很有兴趣,设为、;有2名对手机游戏无兴趣,设为、,从、,中随机选取3名的基本事件有、,共10个其中,恰有1个的有、,共6个这3名被调查者中恰有1名对手机游戏无兴趣的概率为课后自我检测1某高校调查了200名学
11、生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20), 20,22.5), 22.5,25),25,27.5),27.5,3根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A56 B60 C120 D140【答案】D【解析】自习时间不少于22.5小时的有,故选D2高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生从这次考试成绩看,在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;在语文和数学两个科目中,丙同
12、学的成绩名次更靠前的科目是 【答案】乙 ; 数学 【解析】由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学3五四青年节活动中,高三(1)、(2)班都进行了3场知识辩论赛,比赛得分情况的茎叶图如图所示(单位:分),其中高三(2)班得分有一个数字被污损,无法确认,假设这个数字x具有随机性(xN),那么高三(2)班的平均得分大于高三(1)班的平均得分的概率为 ( ) A34 B13 C35 D25【答案】D【解析】由茎叶图可得高三(1)班
13、的平均分为x=89+92+933=2743,高三(2)的平均分为y=88+(90+x)+913=269+x3,由xx5,又xN,所以x可取6,7,8,9,故所求的概率为P=410=25,故选D4为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表:平均每天喝500以上为常喝,体重超过50为肥胖常喝不常喝合计肥胖2不肥胖18合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为(1)请将上面的列联表补充完整;(2)是否有的把握认为肥胖与常喝碳酸饮料有关?说明你的理由;(3)已知常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生抽取2
14、人参加电视节目,则正好抽到一男一女的概率是多少?参考公式及数据:,其中【解析】(1)设常喝碳酸饮料肥胖的学生有人,补充完整的列联表如下:常喝不常喝合计肥胖628不肥胖41822合计102030(2)由已知数据可求得:,因此有的把握认为肥胖与常喝碳酸饮料有关(3)设常喝碳酸饮料的肥胖者男生为、,女生为、,则任取两人有,共15种,其中一男一女有,共8种,故抽出一男一女的概率为5某企业为提高生产质量,引入了一批新的生产设备,为了解生产情况,随机抽取了新、旧设备生产的共200件产品进行质量检测,分别统计得到产品的质量指标值如下表及图(所有产品质量指标值均位于区间内),若质量指标值大于30,则说明该产品
15、质量高,否则说明该产品质量一般质量指标合计频数281030201080(1)根据上述图表完成下列列联表,并判断是否有的把握认为产品质量高与引人新设备有关;新旧设备产品质量列联表产品质量高产品质量一般合计新设备产品旧设备产品合计(2)从旧设备生产的质量指标值位于区间的产品中,按分层抽样抽取6件产品,再从这6件产品中随机选取2件产品进行质量检测,求至少有一件产品质量指标值位于的概率参考公式及数据:,其中【解析】(1)列联表如下:产品质量高产品质量一般合计新设备产品602080旧设备产品4872120合计10892200所以的观测值,所以有的把握认为产品质量高与引入新设备有关(2)由题意,从中抽取1
16、件产品,记为,从中抽取2件产品,记为,从中抽取3件产品,记为,从这6件产品中任选2件,共有15种可能情况,分别为,记事件为至少有一件产品质量指标位于,共有9种情况,所以6(2019年高考全国卷文数)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:P(K2k)0.0500.0100.001k3.8416.63510.828【解析】(1)由调查数据,男顾客中对该商场服务满意
17、的比率为,因此男顾客对该商场服务满意的概率的估计值为,女顾客中对该商场服务满意的比率为,因此女顾客对该商场服务满意的概率的估计值为(2)由题可得由于,故有95%的把握认为男、女顾客对该商场服务的评价有差异7(2017年高考全国卷文数)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分
18、布直方图,对这两种养殖方法的优劣进行比较.附:P(K2k)0.050 0.010 0.001k3.841 6.635 10.828.【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法3466K2=.由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(
19、或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.8. (2018年全国III卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所
20、需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828【解析】(1)第二种生产方式的效率更高理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟
21、,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需
22、的时间更少,因此第二种生产方式的效率更高 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分(2)由茎叶图知m=79+812=80列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于,所以有99%的把握认为两种生产方式的效率有差异9某企业生产某种产品,为了提高生产效益,通过引进先进的生产技术和管理方式进行改革,并对改革后该产品的产量x(万件)与原材料消耗量y(吨)及100件产品中合格品与不合格品数量作了记录,以便和改革前作对照分析,以下是记录的数据:表一:改革后产品的产量和相应的原材料消耗量x3456y2.5344.5表二:改革前后定期抽查产品的合格数与不合
23、格数合格品的数量不合格品的数量合计改革前9010100改革后8515100合计17525200(1)请根据表一提供数据,用最小二乘法求出y关于x的线性回归方程y=bx+a .(2)已知改革前生产7万件产品需要6.5吨原材料,根据回归方程预测生产7万件产品能够节省多少原材料?(3)请根据表二提供的数据,判断是否有90%的把握认为“改革前后生产的产品的合格率有差异”?附参考公式与数据:,;K2=;P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828【解析】(1)由表一得x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,+62=86, b=32.5+43+54+64.5-44.53.586-44.52=66.5-635=0.7,a=3.5-0.74.5=0.35,所以所求线性回归方程为y=0.7x+0.35 (2)当x=7时,y=0.77+0.35=5.25,从而能够节省6.5-5.25=1.25吨原材料 (3)由表二得K2=200(9015-8510)210010017525=872.706,