1、 第 1 页 / 共 23 页 考点考点 34 变量的相关关系与统计案例变量的相关关系与统计案例 1、了解样本相关系数的统计含义, 2、了解样本相关系数与标准化数据向量夹角的关系,了解一元线性回归模型及独立性检验的含义, 3、了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,针对 实际问题,会用一元线性回归模型进行预测 独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为 中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤, 作出判断,再根据概率统计的相关知识求解问题. 1、独立性
2、检验独立性检验 利用随机变量 2 K (也可表示为 2 ) 2 () ()()()() n adbc ab cd ac bd (其中nabcd 为样本容量)来判断 “两个变量有关系”的方法称为独立性检验 2、独立性检验的一般步骤独立性检验的一般步骤 (1)根据样本数据列出2 2列联表; (2)计算随机变量 2 K 的观测值 k,查下表确定临界值 k0: 2 0 ()P Kk 0.50 0.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.001 0 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.8
3、79 10.828 考考纲要求纲要求 近三年高考情况分析近三年高考情况分析 考点总结考点总结 第 2 页 / 共 23 页 (3)如果 0 kk,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 2 0 P Kk;否则,就认为 在犯错误的概率不超过 2 0 P Kk的前提下不能推断“X 与 Y 有关系” 【注意】(1)通常认为2.706k 时,样本数据就没有充分的证据显示“X 与 Y 有关系” (2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个 结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就 可能对统计
4、计算的结果作出错误的解释 (3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断 (4)已知分类变量的数据,判断两类变量的相关性可依据数据及公式计算 2 K ,然后作出判断 3、相关关系相关关系 当自变量取值一定时, 因变量的取值带有一定的随机性, 则这两个变量之间的关系叫做相关关系 即 相关关系是一种非确定性关系 当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量正相关; 当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量负相关. 【注意】相关关系与函数关系的异同点: 共同点:二者都是指两个变量间的关系 不同点:函数关系是一种确定性关系,体
5、现的是因果关系;而相关关系是一种非确定性关系,体现 的不一定是因果关系,可能是伴随关系 4、非线性回归方程及应用非线性回归方程及应用 求非线性回归方程的步骤: 1确定变量,作出散点图 2根据散点图,选择恰当的拟合函数 3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程 4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果 5根据相应的变换,写出非线性回归方程 三年高考真题三年高考真题 第 3 页 / 共 23 页 1、 【2020 年高考全国卷理数】某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位: C) 的关系,在 20 个不同的温度条件下进
6、行种子发芽实验,由实验数据( , )(1,2,20) ii x yi 得到下面的散点 图: 由此散点图,在 10 C 至 40 C 之间,下面四个回归方程类型中最适宜作为发芽率 y 和温度 x 的回归方 程类型的是 Ay abx B 2 yabx Ce x yab D lnyabx 【答案】D 【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y和温度x的回归方程类型的是lnyabx. 故选:D. 2、 【2020 年高考全国卷理数】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为 调查该地区某种野生动物的数量,将其分成面积相近的 200 个
7、地块,从这些地块中用简单随机抽样的 方法抽取 20 个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中 xi和 yi分别表示第 i 个样区 的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 20 1 60 i i x , 20 1 1200 i i y , 20 2 1 )8(0 i i xx , 20 2 1 )9000( i i yy , 20 1 )()800( ii i yyxx (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的 平均数乘以地块数) ; (2)求样本(xi,yi) (i=1,2,20)的相关系数(精确
8、到 0.01) ; (3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以获得该地区这种野 第 4 页 / 共 23 页 生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由 附:相关系数 1 22 11 ) ( () () ( ) ii i n i n i i n i xy r xy xy xy , 21.414 【解析】 (1)由已知得样本平均数 20 1 60 1 20 i i yy ,从而该地区这种野生动物数量的估计值为 60 200=12000 (2)样本(,) ii x y(1,2,20)i 的相关系数 20 1 2020 22 11 )() 80
9、02 2 0.94 380 900 ( 0 ) ( ( i i i i ii i xyy x x r xyy (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层抽样 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关由于各地块间植物 覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了 样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确 的估计 3、 【2020 年高考全国 III 卷理数】某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天到某 公园锻炼的
10、人次,整理数据得到下表(单位:天) : 锻炼人次 锻炼人次 空气质量等级 0,200 (200,400 (400,600 1(优) 2 16 25 2(良) 5 10 12 3(轻度污染) 6 7 8 4(中度污染) 7 2 0 (1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表) ; (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称 第 5 页 / 共 23 页 这天“空气质量不好”根据所给数据,完成下面的 2 2 列联表,并根据列联表
11、,判断是否有 95%的把 握认为一天中到该公园锻炼的人次与该市当天的空气质量有关? 人次400 人次400 空气质量好 空气质量不好 附:K2= 2 ) n adbc ab cdacbd , P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 【解析】 (1)由所给数据,该市一天的空气质量等级为 1,2,3,4 的概率的估计值如下表: 空气质量等级 1 2 3 4 概率的估计值 0.43 0.27 0.21 0.09 (2)一天中到该公园锻炼的平均人次的估计值为 1 (100203003550045)350 100 (3)根据所给数据,可得22列联表:
12、人次400 人次400 空气质量好 33 37 空气质量不好 22 8 根据列联表得 2 2 100(33 822 37) 5.820 5545 70 30 K 由于5.8203.841,故有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关 4、 【2020 年高考山东】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽 查了100天空气中的PM2.5和 2 SO浓度(单位: 3 g/m) ,得下表: 2 SO PM2.5 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,115 3 7 10 第
13、6 页 / 共 23 页 (1)估计事件“该市一天空气中PM2.5浓度不超过75,且 2 SO浓度不超过150”的概率; (2)根据所给数据,完成下面的22列联表: 2 SO PM2.5 0,150 (150,475 0,75 (75,115 (3) 根据 (2) 中的列联表, 判断是否有99%的把握认为该市一天空气中PM2.5浓度与 2 SO浓度有关? 附: 2 2 () ()()()() n adbc K ab cd ac bd , 2 ()P Kk 0.050 0.010 0.001 k 3.841 6.635 10.828 【解析】 (1)根据抽查数据,该市 100 天的空气中 PM2
14、.5 浓度不超过 75,且 2 SO浓度不超过 150 的天 数为32186864,因此,该市一天空气中 PM2.5 浓度不超过 75, 且 2 SO浓度不超过 150 的概率的估 计值为 64 0.64 100 (2)根据抽查数据,可得22列联表: 2 SO PM2.5 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)根据(2)的列联表得 2 2 100 (64 10 16 10) 7.484 8020 7426 K 由于7.4846.635,故有99%的把握认为该市一天空气中PM2.5浓度与 2 SO浓度有关 5、 【2018 年高考全国卷理数】下图是
15、某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的 折线图 第 7 页 / 共 23 页 为了预测该地区 2018 年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量t的值依次为1 2 17, ,)建立模型:30.4 13.5yt ;根据 2010 年 至 2016 年的数据(时间变量t的值依次为1 2 7, ,)建立模型:99 17.5yt (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由 【答案】 (1)模型:226.1亿元
16、,模型:256.5亿元; (2)利用模型得到的预测值更可靠,理由 见解析 【解析】 (1)利用模型, 该地区 2018 年的环境基础设施投资额的预测值为30.4 13.5 19226.1y (亿元) 利用模型, 该地区 2018 年的环境基础设施投资额的预测值为99 17.5 9256.5y (亿元) (2)利用模型得到的预测值更可靠 理由如下: ()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线30.4 13.5yt 上 下这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化 趋势 2010 年相对 2009 年的
17、环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一 条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016年的数据建立的线性模型 9917.5yt 可以较好地描述2010年以后的环境基础设施投资额的变化 趋势,因此利用模型得到的预测值更可靠 第 8 页 / 共 23 页 ()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿 元的增幅明显偏低, 而利用模型得到的预测值的增幅比较合理 说明利用模型得到的预测值更可靠 以上给出了 2 种理由,考生答出其中任
18、意一种或其他合理理由均可得分 6、 【2018 年高考全国卷理数】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的 两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第 一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位: min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求 40 名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: 超过m 不超过m 第一种生产方式 第二种生产方式 (3)根据(2)
19、中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附: 2 2 n adbc K abcdacbd , 2 P Kk 0.050 0.010 0.001 k 3.841 6.635 10.828 【答案】 (1)第二种生产方式的效率更高,理由见解析; (2)列联表见解析; (3)有 99%的把握认为两 种生产方式的效率有差异 【解析】 (1)第二种生产方式的效率更高 理由如下: (i)由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟, 用第二种生产方式的工人中, 有 75%的工人完成生产任务所需时间至多 79 分钟 因此第二种生产方式的
20、 效率更高 (ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第二种 第 9 页 / 共 23 页 生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟因此第二种生产方式的效率更高 (iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产 方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高 (iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,
21、关于茎 7 大致 呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生 产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方 式的效率更高 以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分 (2)由茎叶图知 7981 80 2 m 列联表如下: 超过m 不超过m 第一种生产方式 15 5 第二种生产方式 5 15 (3)由于 2 2 40(15 155 5) 106.635 20 20 20 20 K ,所以有 99%的把握认为两种生产方式的效率有差异 题型一、独立性检验与线性回归方程 1、 (202
22、0 届山东省德州市高三上期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关” 作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 4 5 ,女生喜欢抖音的人 数占女生人数 3 5 ,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表: 2 0 P Kk 0.050 0.010 二年模拟试题二年模拟试题 第 10 页 / 共 23 页 k 3.841 6.635 附: 2 2 n adbc K abcdacbd A25 B45 C60 D75 【答案】BC 【解析】设男生的人数为5n nN ,根据题意列出2 2列联表如下表所示:
23、男生 女生 合计 喜欢抖音 4n 3n 7n 不喜欢抖音 n 2n 3n 合计 5n 5n 10n 则 2 2 1042310 557321 nnnn nn K nnnn , 由于有95%的把握认为是否喜欢抖音和性别有关,则 2 3.8416.632K, 即 10 3.8416.632 21 n ,得8.066113.9272n, nN ,则n的可能取值有9、10、11、12, 因此,调查人数中男生人数的可能值为45或60. 故选:BC. 2、 (2020 届山东省烟台市高三上期末)某大学为了解学生对学校食堂服务的满意度,随机调查了 50 名男生 和 50 名女生,每位学生对食堂的服务给出满意
24、或不满意的评价,得到如图所示的列联表.经计算 2 K 的观测 值4.762k ,则可以推断出( ) 满意 不满意 男 30 20 女 40 10 第 11 页 / 共 23 页 2 P Kk 0.100 0.050 0.010 k 2.706 3.841 6.635 A该学校男生对食堂服务满意的概率的估计值为 3 5 B调研结果显示,该学校男生比女生对食堂服务更满意 C有 95%的把握认为男、女生对该食堂服务的评价有差异 D有 99%的把握认为男、女生对该食堂服务的评价有差异 【答案】AC 【解析】对于选项 A,该学校男生对食堂服务满意的概率的估计值为 303 30 205 = + ,故 A
25、正确; 对于选项 B,该学校女生对食堂服务满意的概率的估计值为 4043 40 1055 ,故 B 错误; 因为4.7623.841k ,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故 C 正确,D 错误 故选:AC 3、 (2020 届山东省德州市高三上期末) 某公司为了了解年研发资金投人量x(单位: 亿元) 对年销售额y(单 位:亿元)的影响.对公司近12年的年研发资金投入量 i x和年销售额 i y的数据,进行了对比分析,建立了两 个函数模型: 2 yx, x t ye ,其中、t均为常数,e为自然对数的底数.并得到一 些统计量的值.令 2 ii ux,ln1,2,12 ii
26、 vy i,经计算得如下数据: x y 12 2 1 i i xx 12 2 1 i i yy u v 20 66 77 2 460 4.20 12 2 1 i i uu 12 1 ii i uuyy 12 2 1 i i vv 12 1 ii i xxvv 31250 215 3.08 14 (1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2) ()根据(1)的选择及表中数据,建立y关于x的回归方程; 第 12 页 / 共 23 页 ()若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元? 附:相关系数 1 22 11 n ii i nn ii ii xxyy
27、r xxyy , 回归直线y abx 中公式分别为: 1 2 1 n ii i n i i xxyy b xx ,a ybx $ ; 参考数据:308477,909.4868, 4.4998 90e . 【答案】 (1)模型 x t ye 的拟合程度更好; (2) () 0.180.56vx ; ()21.89亿元. 【解析】 (1)设 i u 和 i y 的相关系数为 1 r, i x 和 i v 的相关系数为 2 r,由题意, 12 1 1 1212 22 11 21543 0.86 5031250 2 ii i ii ii uuyy r uuyy , 12 1 2 1212 22 11
28、1410 0.91 1177 3.08 ii i ii ii xxvv r xxvv , 则 12 rr ,因此从相关系数的角度,模型 x t ye 的拟合程度更好; (2) ()先建立v关于x的线性回归方程,由 x t ye ,得ln y tx ,即vtx ; 由于 12 1 12 2 1 2 0.182 11 ii i i i xxvv xx , 2 4.20200.56 11 tvx, 所以v关于x的线性回归方程为 0.180.56vx , 所以ln 0.180.56yx ,则 0.180.56 e x y ; ()下一年销售额y需达到90亿元,即90y ,代入 0.180.56 e x
29、 y ,得 0.180.56 90 x e , 又 4 4998 e90 ,所以4.49980.180.56x,所以 4.49980.56 21.89 0.18 x , 第 13 页 / 共 23 页 所以预测下一年的研发资金投入量约是21.89亿元. 4、(2020届山东省日照市高三上期末联考) 某公司准备投产一种新产品, 经测算, 已知每年生产 515xx 万件的该种产品所需要的总成本 3 2 23 1630 910 x C xxx(万元) ,依据产品尺寸,产品的品质可能出 现优、中、差三种情况,随机抽取了 1000 件产品测量尺寸,尺寸分别在25.26,25.30,25.30,25.34
30、, 25.34,25.38,25.38,25.42,25.42,25.46,25.46,25.50,25.50,25.54(单位:mm)中, 经统计得到的频率分布直方图如图所示. 产品的品质情况和相应的价格m(元/件)与年产量x之间的函数关系如下表所示. 产品品质 立品尺寸的范围 价格m与产量x的函数关系式 优 25.34,25.46 34mx 中 25.26,25.34 3 25 5 mx 差 25.46,25.54 3 20 5 mx 以频率作为概率解决如下问题: (1)求实数a的值; (2)当产量x确定时,设不同品质的产品价格为随机变量,求随机变量的分布列; (3)估计当年产量x为何值时
31、,该公司年利润最大,并求出最大值. 【答案】 (1)6a; (2)见解析(3)年产量12x 时,该公司年利润取得最大值,最大利润为 138 万. 【解析】 (1)由题意得0.042 3 42.54.5 31a ,解得6a; 第 14 页 / 共 23 页 (2)当产品品质为优时频率为 1 0.04462.50.5p ,此时价格为34x ; 当产品品质为中时频率为 2 0.04230.2p ,此时价格为 3 25 5 x; 当产品品质为差时频率为 3 0.044.5 30.3p ,此时价格为 3 20 5 x; 以频率作为概率,可得随机变量的分布列为: 34x 3 25 5 x 3 20 5 x
32、 p 0.5 0.2 0.3 (3)设公司年利润为 f x,则 3 2 3323 340.5250.2200.31630 55910 x f xxxxxxx 整理得 3 2 3 1230 92 x f xxx , 2 11 312312 33 fxxxxx 显然当5,12x时, 0fx ,12,15x时, 0fx , 当年产量12x 时, f x取得最大值.12138f 估计当年产量12x 时,该公司年利润取得最大值,最大利润为 138 万. 5、 (2020 届山东省潍坊市高三上学期统考)班主任为了对本班学生的考试成绩进行分析,决定从本班 24 名 女同 18 名男同学中随机抽取一个容量为
33、7 的样本进行分析. (1)如果按照性别比例分层抽样,可以得到多少个不同的样本?(写出算式即可,不必计算出结果) (2)如果随机抽取的 7 名同学的数物理成绩(单位:分)对应如下表: 学生序号i 1 2 3 4 5 6 7 数学成绩 i x 60 65 70 75 85 87 90 物理成绩 i y 70 77 80 85 90 86 93 若规定 85 分以上(包括 85 分)为优秀,从这 7 名同学中抽取 3 名同记 3 名同学中数学和物理成绩均为 优秀的人数为,求的分布列和数学期望; 根据上表数据,求物理成绩y关于数学成绩x的线性回归方程(系数精确到 0.01) ;若班上某位同学的数 学
34、成绩为 96 分,预测该同学的物理成绩为多少分? 第 15 页 / 共 23 页 附:线性回归方程y bxa , 其中 1 2 1 ()() () n ii i n i i xxyy b xx ,aybx. x y 7 2 1 () i i xx 7 1 ()() ii i xxyy 76 83 812 526 【答案】 (1)不同的样本的个数为 43 2418 C C. (2)分布列见解析,( )E 9 7 . 线性回归方程为 0.6533.60yx .可预测该同学的物理成绩为 96 分. 【解析】 (1)依据分层抽样的方法,24 名女同学中应抽取的人数为 7 244 42 名, 18 名男
35、同学中应抽取的人数为 7 183 42 名, 故不同的样本的个数为 43 2419 C C. (2)7 名同学中数学和物理成绩均为优秀的人数为 3 名, 的取值为 0,1,2,3. 3 4 3 7 4 0 35 C P C , 21 43 3 7 1 1 8 35 C C C P, 12 43 3 7 1 2 2 35 C C C P, 3 3 3 7 5 3 1 3 C C P. 的分布列为 0 1 2 3 P 4 35 18 35 12 35 1 35 4181219 0123 353535357 E . 第 16 页 / 共 23 页 526 0.65 912 b ,830.65 763
36、3.60aybx .线性回归方程为 0.6533.60yx . 当96x 时, 0.65 9633.6096y .可预测该同学的物理成绩为 96 分. 6、 (2020 届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采 用3 3模式,其中语文、数外语三科为必考科目,每门科目满分均为150分.另外考生还要依据想考取的高 校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化生物6门科目中自选3 门参加考试(6选3) ,每门科目满分均为100分.为了应对新高考,某高中从高一年级1000名学生(其中男 生550人,女生450人)中,采用分层抽
37、样的方法从中抽取n名学生进行调查,其中,女生抽取45人. (1)求n的值; (2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情 况,对抽取到的n名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个科目且 只能选择一个科目) , 下表是根据调查结果得到的一个不完整的22列联表, 请将下面的22列联表补充完 整,并判断是否有99%的把握认为选择科目与性别有关?说明你的理由; 选择“物理” 选择“地理” 总计 男生 10 女生 25 总计 (3)在抽取到的45名女生中,按(2)中的选课情况进行分层抽样,从中抽出9名女生,再从这9
38、名女生 中抽取4人,设这4人中选择“物理”的人数为X,求X的分布列及期望.附: 2 2 () ()()()() n adbc K ab ac cd bd ,na b cd 2 0 P Kk 0.05 0.01 0.005 0.001 0 k 3.841 6.635 7.879 10.828 【答案】 (1)100n; (2)联表见解析,有,理由见解析; (3)分布列见解析, 20 9 【解析】 (1)由题意得 45 1000450 n ,解得100n. (2)2 2 列联表为: 第 17 页 / 共 23 页 选择“物理” 选择“地理” 总计 男生 45 10 55 女生 25 20 45 总
39、计 70 30 100 2 2 100 (45 2025 10) 8.12896.635 55 45 70 30 K , 故有99%的把握认为选择科目与性别有关. (3)从45名女生中分层抽样抽9名女生,所以这9女生中有5人选择“物理”, 4人选择“地理”. 9名女生 中再选择4名女生,则这4名女生中选择“物理”的人数X可为0,1,2,3,4, 设事件X发生的概率为P X,则 4 4 4 9 1 (0) 126 C P X C , 13 54 4 9 2010 (1) 12663 C C P X C , 22 54 4 9 6010 (2) 12621 C C P X C , 31 54 4
40、9 4020 (3) 12663 C C P X C , 4 5 4 9 5 (4) 126 C P X C 所以X的分布 列为: X 0 1 2 3 4 P 1 126 10 63 10 21 20 63 5 126 期望 1206040520 ()01234 1261261261261269 E X . 题型二 线性相关与概率的结合 1、 (2020 届山东省潍坊市高三上期末)读书可以使人保持思想活力,让人得到智慧启发,让人滋养浩然正 气书籍是文化的重要载体,读书是承继文化的重要方式某地区为了解学生课余时间的读书情况,随机抽取 了n名学生进行调查, 根据调查得到的学生日均课余读书时间绘制成
41、如图所示的频率分布直方图, 将日均课 余读书时间不低于40分钟的学生称为“读书之星”, 日均课余读书时间低于40分钟的学生称为“非读书之星”: 已知抽取的样本中日均课余读书时间低于10分钟的有10人 第 18 页 / 共 23 页 (1)求 , n p的值; (2)根据已知条件完成下面的22列联表,并判断是否有95%以上的把握认为“读书之星”与性别有关? 非读书之星 读书之星 总计 男 女 10 55 总计 (3)将上述调查所得到的频率视为概率,现从该地区大量学生中,随机抽取3名学生,每次抽取1名,已知每 个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量X,求X的分布列和期望E X
42、 附: 2 2 n adbc K abcdacbd ,其中na b cd . 2 0 P Kk 0.10 0.05 0.025 0.010 0.005 0.001 0 k 2.706 3.841 5.024 6.635 7.879 10.828 【答案】 (1)0.01P ,n=100,(2)表见解析,没有95%以上的把握认为“读书之星”与性别有关(3)分布 列见解析, 3 4 E X 【分析】 (1)首先根据频率和为 1 求P,再根据频率,频数和样本容量的关系求n; (2)首先计算“读书之 星”的人数,然后再依次填写22列联表;并根据公式计算 2 K 和3.841比较大小,做出判断; (3)
43、从该地 区学生中抽取一名学生是“读书之星”的概率为 1 4 ,由题意可知 1 3, 4 XB 并求分布列和数学期望. 第 19 页 / 共 23 页 【详解】 (1)0.0050.018 0.0200.0220.025101P 解得:0.01P , 所以 10 0. 10 1 0n . (2)因为100n,所以“读书之星”有100 0.25 25 从而22列联表如下图所示: 非读书之星 读书之星 总计 男 30 15 45 女 45 10 55 总计 75 25 100 将22列联表中的数据代入公式计算得 2 2 10030 10 15 45100 3.030 45 55 75 2533 K
44、因为3.0303.841,所以没有95%以上的把握认为“读书之星”与性别有关 (3)将频率视为概率,即从该地区学生中抽取一名学生是“读书之星”的概率为 1 4 . 由题意可知 1 3, 4 XB 所以 3 03 0 1127 0 4 1 464 P XC 3 2 1 127 11 464 1 4 P XC , 2 2 3 19 21 464 1 4 P XC 3 3 3 4 1 3 64 1 P XC 所以X的分布列为 X 0 1 2 3 第 20 页 / 共 23 页 P 27 64 27 64 9 64 1 64 故 13 3 44 E X . 2、 (2020 湖北高三期末(理) )某土
45、特产超市为预估 2020 年元旦期间游客购买土特产的情况,对 2019 年元 旦期间的 90 位游客购买情况进行统计,得到如下人数分布表. 购买金额(元) 0,15 15,30 30,45 45,60 60,75 75,90 人数 10 15 20 15 20 10 (1)根据以上数据完成22列联表,并判断是否有95%的把握认为购买金额是否少于 60 元与性别有关. 不少于 60 元 少于 60 元 合计 男 40 女 18 合计 (2)为吸引游客,该超市推出一种优惠方案,购买金额不少于 60 元可抽奖 3 次,每次中奖概率为p(每 次抽奖互不影响,且p的值等于人数分布表中购买金额不少于 60
46、 元的频率) ,中奖 1 次减 5 元,中奖 2 次 减 10 元,中奖 3 次减 15 元.若游客甲计划购买 80 元的土特产,请列出实际付款数X(元)的分布列并求 其数学期望. 附:参考公式和数据: 2 2 n adbc K abcdacbd ,na b cd . 附表: 0 k 2.072 2.706 3.841 6.635 7.879 2 0 P Kk 0.150 0.100 0.050 0.010 0.005 【答案】(1)见解析,有95%的把握认为购买金额是否少于 60 元与性别有关.(2)分布列见解析,数学期望 75 【解析】 (1)22列联表如下: 不少于 60 元 少于 60 元 合计 男 12 40 52 第 21 页 / 共 23 页 女 18 20 38 合计 30 60 90 2 2 9012 2040 181440 53.841 30 60 52 38247 K , 因此有95%的把握认为购买金额是否少于 60 元与性别有关. (2)X可能取值为 65,70,75,80,且 10201 903 p . 3 3 3 11 65 327 P XC , 2 2 3 122 70 339 P XC , 2 1 3 124 75 339 P XC