1、 例 1这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起, 到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期, 因此我们应该注意做好良好的防护措施和隔离措施 某研究团队统计了某地区 10000 名患者的相关信息,得到如表表格: 潜伏期(天) 0,2 2,4 4,6 6,8 8,10 10,12 12,14 人
2、数 600 1900 3000 2500 1600 250 150 (1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从 10000 名患者中抽取 200 人进行研究,完成下面的 22 列联表,并判断能否在犯错误的概率不超过 0.001 的前提下认为潜伏期与患者年龄有关? 潜伏期8天 潜伏期8天 总计 60 岁以上(含 60 岁) 150 60 岁以下 30 总计 200 (2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过 8 天相互独立为了深入研究,该团队在这一地区抽取了 20 名患者,其中潜伏期不超过 8 天的人数最有可能是多少? 附:22n adb
3、cKabcdacbd 20P Kk 0.150 0.100 0.050 0.025 0.010 0.005 0.001 0k 2.072 2.706 3.841 5.024 6.635 7.879 10.828 【答案】 (1)表格见解析,能; (2)16 名 优优 选选 例例 题题 成对数据的统计分析 大题优练大题优练 5 5 【解析】 (1)由表中数据可知,潜伏期大于 8 天的人数为1600250 1502004010000人, 补充完整的 22 列联表如下, 潜伏期8天 潜伏期8天 总计 60 岁以上(含 60 岁) 130 20 150 60 岁以下 30 20 50 总计 160 4
4、0 200 所以22200130 2030 2016.66710.828150 50 160 40K, 故能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关 (2)该地区 10000 名患者中潜伏期不超过 8 天的人数为600 1900 3000 25008000名, 将频率视为概率,潜伏期不超过 8 天的概率为80004100005, 所以抽取的 20 名患者中潜伏期不超过 8 天的人数最有可能是420165名 例 2某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用, 称之为“失效费” 某种机械设备的使用年限x(
5、单位: 年) 与失效费y(单位:万元)的统计数据如下表所示: 使用年限x(单位:年) 1 2 3 4 5 6 7 失效费y(单位:万元) 2.90 3.30 3.60 4.40 4.80 5.20 5.90 (1)由上表数据可知,可用线性回归模型拟合y与x的关系请用相关系数加以说明; (精确到0.01) (2)求出y关于x的线性回归方程,并估算该种机械设备使用 10 年的失效费 参考公式:相关系数12211()niinniiiiixxyyrxxyy 线性回归方程ybxa中斜率和截距最小二乘估计计算公式121niiiniixxyybxx, aybx 参考数据:71()14.00iiixxyy,7
6、217.08iiyy,198.2414.10 【答案】 (1)见解析; (2)0.52.3yx,7.3万元 【解析】 (1)由题意,知123456747x ,2.903.303.604.404.805.205.904.307y, 72222222211 424344454647428iixx, 结合参考数据知:14.0014.0014.000.9914.1028 7.08198.24r 因为y与x的相关系数近似为0.99,所以y与x的线性相关程度相当大, 从而可以用线性回归模型拟合y与x的关系 (2)71721140.528iiiiixxyybxx,4.30.5 42.3aybx y关于x的线
7、性回归方程为0.52.3yx, 将10 x 代入线性回归方程,得0.5 102.37.3y 估算该种机械设备使用 10 年的失效费为7.3万元 例 3近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:)有关,现收集了蕲艾的 13 组观测数据,得到如下的散点图: 现根据散点图利用yab x或dycx建立y关于x的回归方程,令sx,1tx得到如下数据: x y s t 10.15 109.94 3.04 0.16 113niiis ys y 13113iiit yty 132
8、2113ikss 1322113iitt 1322113iiyy 13.94 2.1 11.67 0.21 21.22 且,iis y与,iit y(i1,2,3,13)的相关系数分别为1r,2r,且20.9953r (1)用相关系数说明哪种模型建立y与x的回归方程更合适; (2)根据(1)的结果及表中数据,建立$y关于x的回归方程; (3)已知蕲艾的利润z与x、y的关系为1202zyx,当x为何值时,z的预报值最大 参考数据和公式:021 212244562,1167 21222476374,247.637415.7365, 对于一组数据,iiu v (i1,2,3,n),其回归直线方程vu
9、的斜率和截距的最小二乘法估计分别为1221niiiniiu vnu vunu,vu ,相关系数1222211niiinniiiiu vnu vrunuvnv 【答案】 (1)用dycx模型建立y与x的回归方程更合适; (2)10111.54yx; (3)当温度为 20时这种草药的利润最大 【解析】 (1)由题意知20.9953r ,113.9413.940.885811.67 21.22247.6374r , 因为121rr,所有用dycx模型建立y与x的回归方程更合适 (2)因为13113221132.1100.2113iiiiit ytydtt ,109.94 10 0.16111.54c
10、ydt, 所以 y关于x的回归方程为10111.54yx (3)由题意知110120012020(111.54)2230.8()2230.8202210.8222 zyxxxxx, 所以22.810z ,当且仅当20 x=时等号成立, 所以当温度为 20时这种草药的利润最大 1在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分 100 分),记低于80的评分为“效果一般”,不低于80分为“效果较好” (1)请补充完整2 2列联表;通过计算判断,有没有 99%的把握认为线上教学效果评分为“效果较好”与性别有关? 效果一般 效果
11、较好 合计 男 20 女 15 55 合计 (2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望 附表及公式: 20P Kk 0.15 0.10 0.05 0.025 0.010 0k 2.072 2.706 3.841 5.024 6.635 其中22n adbckabcdacbd,na b cd 【答案】 (1)列联表见解析,有99%的把握认为; (2)分布列见解析,95 【解析】 (1)由题意,补充后的列联表为: 效果一般 效果较好 合计 男 25 20 45 女 15 40 5
12、5 合计 40 60 100 则2210025 40 15 208.2496.63540 60 4 5 55K, 因此有99%的把握认为线上教学效果评分为“效果较好”与性别有关 (2)随机变量X的值可能为0,1,2,3, 模 拟模 拟 优 练优 练 由题可知,线上教学“效果较好”的频率为6031005,则33,5XB:, 可得303280C5125P X;21323361C55125P X ; 22323542C55125P X;5333273C5125P X 则随机变量X的分布列为 X 0 1 2 3 P 8125 36125 54125 27125 所以836542790123125125
13、1251255E X (或39355E X ) 2如图是M市旅游局宣传栏中的一幅标题为“20122019 年我市接待游客人次”的统计图根据该统计图提供的信息解决下列问题 (1)求M市在所统计的这 8 年中接待游客人次的平均值和中位数; (2)在所统计的 8 年中任取两年,记其中接待游客人次不低于平均数的年份数为X,求X的分布列和数学期望E X; (3)由统计图可看出,从 2016 年开始,M市接待游客的人次呈直线上升趋势,请你用线性回归分析的方法预测 2021 年M市接待游客的人次 参考公式:对于一组数据11,x y,22,x y,,nnxy,其回归直线ybxa的斜率和截距的最小二乘法估计分别
14、为1122211nniiiiiinniiiixxyyx ynxybxxxnx, aybx 参考数据: 2016xx 0 1 2 3 630yy 300 120 90 330 【答案】 (1)平均数为401.25(万人次),中位数为290(万人次); (2)分布列见解析,数学期望为34; (3)1365 万人次 【解析】 (1)平均数为110 150 180250330510720960401.258(万人次), 中位数为2503302902(万人次) (2)不低于平均数的有 3 年,X的可能取值为 0,1,2, 则2528C50C14P X ;115328C C151C28P X ;2328C
15、32C28P X 所以X的分布列为 X 0 1 2 P 514 1528 328 故5153213012142828284E X (3) x 2016 2017 2018 2019 y 330 510 720 960 简化变量: 2016xx 0 1 2 3 630yy 300 120 90 330 1.5x,0y ,411050iiix y ,42114iix 414222141050210144 1.54iiiiix yx ybxx ,0210 1.5315aybx 210315yx 当2021x时,5x,735y ,所以630735y,所以1365y 即 2021 年接待的游客约为 13
16、65 万人次 3首届中国国际进口博览会在国家会展中心(上海)举行,吸引了 58 个“一带一路”沿线国家的超过 1000多家企业参展,成为共建“一带一路”的又一个重要支撑某企业为了参加这次盛会,提升行业竞争力,加大了科技投入该企业连续 6 年来的科技投入x(百万元)与收益y(百万元)的数据统计如下: 科技投入x 2 4 6 8 10 12 收益y 5.6 6.5 12.0 27.5 80.0 129.2 并根据数据绘制散点图如图所示: 根据散点图的特点,甲认为样本点分布在指数曲线2bxyc的周围,据此他对数据进行了一些初步处理如下表: y z 61iiixxyy 61iiixxzz 621iiy
17、y 621iixx 43.5 4.5 854.0 34.7 12730.4 70 其中2logiizy,6116iizz (1) ()请根据表中数据,建立y关于x的回归方程(保留一位小数) ; ()根据所建立的回归方程,若该企业想在下一年收益达到 2 亿,则科技投入的费用至少要多少?(其中2log 52.3) (2)乙认为样本点分布在二次曲线2ymxn的周围,并计算得回归方程为20.9212.0yx,以及该回归模型的相关指数20.94R ,试比较甲乙两人所建立的模型,谁的拟合效果更好 附:对于一组数据11,u v,22,u v,33,u v,,nnu v,其回归直线vu的斜率和截距的最小二乘估
18、计分别为121niiiniivvuuuu,vu相关指数:221211niiiniivvRvv 【答案】 (1) ()0.512xy; ()13.2百万元; (2)甲建立的回归模型拟合效果更好 【解析】 (1) ()2468 10 1276x , 令22loglogzybxc,令2logac,则zbxa 根据最小二乘估计可知:6162134.70.570iiiiixxzzbxx$, 从而$4.50.5 71azbx$,故回归方程为0.51zx,即0.512xy ()设0.512200 x,解得20.51log 200 x ,即244log 513.2x , 故科技投入的费用至少要13.2百万元,
19、下一年的收益才能达到 2 亿 (2)甲建立的回归模型的残差: iy 5.6 6.5 12.0 27.5 80.0 129.2 $iy 4 8 16 32 64 128 $iiyy 1.6 1.5 4 4.5 16 1.2 则$621298.5iiiyy,从而2298.511 0.020.980.9412730.4R , 即甲建立的回归模型拟合效果更好 4重庆十一中某组同学为参加第 20 届中国青少年机器人竞赛重庆赛区选拔赛,需要从工厂订制零件,已知该厂有两条不同生产线A和B, 同学们为保证质量, 现从各自生产的产品中分别随机抽取 20 件, 进行品质鉴定,鉴定成绩的茎叶图如下所示: 该零件的质
20、量评价标准规定:鉴定成绩达到90,100的零件,质量等级为优秀;鉴定成绩达到80,90的零件,质量等级为良好;鉴定成绩达到60,80的零件,质量等级为合格将这组数据的频率视为整批产品的概率 (1)请完成下面质量等级与生产线产品列联表,并判断能不能在犯错误的概率不超过0.05的情况下,认为产品等级是否达到良好以上与生产产品的生产线有关; A生产线的产品 B生产线的产品 合计 良好以上 合格 合计 (2)从等级为优秀的样本中随机抽取两件,记X为来自B生产线的产品数量,写出X的分布列,并求X的数学期望; (3)为了确定机器人身上的零件个数ix与使用寿命1,2,5iy i L的关系,同时又兼顾灵敏性,
21、同学们通过实践研究把ix和1,2,5iy i L的数据作了初步处理,得到下面的散点图及一些统计量的值 x y w 51iiix y 51iiiw y 521iix 521iiw 3 11.0 0.46 262.5 30.1 55 1.458 上表中1iiwx,5115iiww 根据散点图直接判断(不必说明理由)yabx与dycx哪一个适宜作为y关于x的回归方程类型? 并根据表中数据建立y关于x的回归方程 附:22()()()()()n adbcKab cd ac bd 20P Kk 0.10 0.05 0.01 0.005 0k 2.706 3.841 6.635 7.879 对于一组数据11
22、,u v,22,u v,,nnu v,其回归直线vu的斜率和截距的最小二乘估计分别为1122211nniiiiiinniiiiuuvvu vnuvuuunu,vu 【答案】 (1)列联表见解析,不能在误差不超过0.05的情况下,认为产品等级是否达到良好以上与生产产品的机器有关; (2)分布列见解析,()1.2E X ; (3)dycx更适合,125.48yx 【解析】 (1)由已知可得,2 2列联表为: A生产的产品 B生产的产品 合计 良好以上 6 12 18 合格 14 8 22 合计 20 20 40 222()40 (12 146 8)403.6363.841()()()()20 20
23、 18 2211n adbcKab cd ac bd , 所以不能在误差不超过0.05的情况下,认为产品等级是否达到良好以上与生产产品的机器有关 (2)从茎叶图可以知道,样本中优秀的产品有 2 个来自A工厂,3 个来自B工厂, 所以X的可能取值为 0,1,2 2225C(0)0.1CP X ,112325C C(1)0.6CP X ,2325C(2)0.3CP X , X的分布列为: X 0 1 2 P 0.1 0.6 0.3 所以()0 0.1 1 0.62 0.31.2E X (3)根据散点图的形状更接近函数dycx的图象可以判断出dycx更适合,令1wx,先建立y关于w的线性回归方程 由5152221530.1 5 0.46 11121.4585 0.465iiiiiw ywydww ,11 12 0.465.48cydw 所以y关于w的线性回归方程为5.48 12yw, 因此y关于x的回归方程为125.48yx