1、第 2 讲 统计、统计案例 考情研析 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、 回归方程、独立性检验等 2.概率与统计的交汇问题是高考的热点,以解答题形式出现,难 度中等 核心知识回顾 1.两种抽样方法的特点 简单随机抽样:操作简便,适合总体个数较少的抽样 分层抽样:按比例抽样 2必记公式 数据 x1,x2,x3,xn的数字特征公式: (1)平均数: x 01 x1x2x3xn n (2)方差:s2 02 1 n(x1 x )2(x2 x )2(xn x )2 (3)标准差: s 03_ 1 n(x1 x )2(x2 x )2(xn x )2 3重要性质及结论 (1)
2、频率分布直方图的三个结论 小长方形的面积 01组距频率 组距频率; 各小长方形的面积之和等于 1; 小长方形的高 02 频率 组距,所有小长方形高的和为 1 组距. (2)回归直线方程:一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)其回归方 程y 03b xa ,其过样本点中心 04( x , y ) 其中b (3)独立性检验 K2 n(adbc)2 (ab)(cd)(ac)(bd)(其中 nabcd,n 为样本容量). 热点考向探究 考向 1 分层抽样法 例 1 (1)某中学高一年级有学生 1200 人,高二年级有学生 900 人,高三年级有学生 1500 人, 现
3、按年级为标准,用分层抽样的方法从这三个年级学生中抽取一个容量为 720 的样本进行 某项研究,则应从高三年级学生中抽取学生( ) A200 人 B300 人 C320 人 D350 人 答案 B 解析 由分层抽样可得高三年级抽取的学生人数为 1500 12009001500720300.故选 B. (2)(2020 海南省高三三模)某地 A,B,C 三所学校分别有教师 72,144,216 人当地教育 部门组织教研活动,计划用分层抽样的方法从这三所学校的教师中抽取若干人组成领导小组, 若从学校 B 抽取 8 名教师,则从学校 A 和 C 共抽取的教师人数为_ 答案 16 解析 设从学校 A 和
4、 C 分别抽取的教师人数为 x 和 y,由题意可知 x 72 8 144 y 216,所以 x 4,y12,xy16. 分层抽样的求解方法 分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先 求出抽样比样本容量与总体容量的比, 则各层所抽取的样本容量等于该层个体总数与抽样 比的乘积 1(2020 天津市红桥区二模)某校三个社团的人员分布如下表(每名同学只能参加一个社 团):学校要对这三个社团的活动效果进行抽样调查,按分层抽样的方法从社团成员中抽取 30 人,结果武术社被抽出 12 人,则这三个社团的总人数为_ 武术社 摄影社 围棋社 高一 45 30 a 高二 15
5、 10 20 答案 150 解析 设三个社团共有 x 人,由分层抽样的定义和方法可得30 x 12 4515,解得 x150, 所以这三个社团共有 150 人 2某公司生产 A,B,C 三种不同型号的轿车,产量之比依次为 234,为检验该公司 的产品质量,用分层抽样的方法抽取一个容量为 n 的样本,若样本中 A 种型号的轿车比 B 种 型号的轿车少 8 辆,则 n( ) A96 B72 C48 D36 答案 B 解析 由题意,得2 9n 3 9n8,n72.选 B. 考向 2 用样本估计总体 例 2 (1)“幸福感指数”是指某个人主观地评价他对自己目前生活状态的满意程度的指 标,常用区间0,1
6、0内的一个数来表示,该数越接近 10 表示满意程度越高,现随机抽取 6 位 小区居民,他们的幸福感指数分别为 5,6,7,8,9,5,则这组数据的中位数是( ) A5 B5.5 C6.5 D7 答案 C 解析 将该组数据从小到大排列为 5,5,6,7,8,9.所以这组数据的中位数是67 2 6.5. 故选 C. (2)甲、乙两名学生在 5 次数学考试中的成绩统计如下: 甲:74 82 91 88 95 乙:77 86 78 92 77 若 x 甲, x 乙分别表示甲、乙两人的平均成绩,则下列结论正确的是( ) A x 甲 x 乙,乙比甲稳定 B x 甲 x 乙,甲比乙稳定 C x 甲 x 乙,
7、乙比甲稳定 D x 甲 x 乙 因为 s2 甲 1 5(12) 2(4)252229254, s2 乙 1 5(5) 242(4)2102(5)236.4, 所以 s2 甲s 2 乙,故乙比甲稳定故选 A. (3)(多选)(2020 山东省泰安市高三一模)某调查机构对全国互联网行业进行调查统计, 得到 整个互联网行业从业者年龄分布饼状图、90 后从事互联网行业岗位分布条形图,则下列结论 正确的是( ) 注:90 后指 1990 年及以后出生,80 后指 19801989 年之间出生.80 前指 1979 年及以前 出生 A互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上 B互联网
8、行业中从事技术岗位的人数超过总人数的 20% C互联网行业中从事运营岗位的人数 90 后比 80 前多 D互联网行业中从事技术岗位的人数 90 后比 80 后多 答案 ABC 解析 由整个互联网行业从业者年龄分布饼状图、90 后从事互联网行业岗位分布条形图 得到:56%(39.6%17%)31.696%30%,所以互联网行业从业人员中从事技术和运营岗位 的人数占总人数的三成以上,故 A 正确;由整个互联网行业从业者年龄分布饼状图、90 后从 事互联网行业岗位分布条形图得到:56%39.6%22.176%20%,所以互联网行业中从事技 术岗位的人数超过总人数的 20%,故 B 正确;由整个互联网
9、行业从业者年龄分布饼状图、90 后从事互联网行业岗位分布条形图得到:17%56%9.52%,所以互联网行业中从事运营岗 位的人数 90 后比 80 前多,故 C 正确;由整个互联网行业从业者年龄分布饼状图、90 后从事 互联网行业岗位分布条形图得到:互联网行业中从事技术岗位的人数 90 后不一定比 80 后多, 故 D 错误故选 ABC. (4)(2020 天津市河北区二模)某班同学进行社会实践,对25,55岁的人群随机抽取 n 人进 行了生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念的称为“低碳族”, 否则称 为“非低碳族”,得到如下统计表和各年龄段人数频率分布直方图,则图表中的 p
10、,a 的值分 别为( ) 组数 分组 低碳族的人数 占本组的频率 第一组 25,30) 120 0.6 第二组 30,35) 195 p 第三组 35,40) 100 0.5 第四组 40,45) a 0.4 第五组 45,50) 30 0.3 第六组 50,55 15 0.3 A0.79,20 B0.195,40 C0.65,60 D0.975,80 答案 C 解析 由题意,得 n 120 0.6 0.0451000,a10000.0350.460. p 195 10001(0.040.040.030.020.01)50.65.故选 C. 用样本估计总体 (1)在表示样本数据的过程中,学会列
11、频率分布表、画频率分布直方图、频率折线图,体 会它们各自的特点. (2)理解样本数据标准差的意义和作用,学会计算数字特征(如平均数、标准差),并作出合 理的解释 (3)会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字 特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性. 1为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标 测验(指标值满分为 5 分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达 图,则下面叙述正确的是( ) A乙的数据分析素养优于甲 B乙的数学建模素养优于数学抽象素养 C甲的六大素养整体水平优于
12、乙 D甲的六大素养中数据分析最差 答案 C 解析 根据雷达图得到如下数据: 由数据可知选 C. 2(2020 广东省惠州市三模)惠州市某学校一位班主任需要更换手机语音月卡套餐,该教 师统计自己 1 至 8 月的月平均通话时间,其中有 6 个月的月平均通话时间分别为 520,530, 550,610,650,660(单位:分钟),有 2 个月的数据未统计出来根据以上数据,该教师这 8 个月的月平均通话时间的中位数大小不可能是( ) A580 B600 C620 D640 答案 D 解析 当另外两个月的平均通话时间都小于 530(分钟)时, 中位数为530550 2 540(分钟), 当另外两个月
13、的平均通话时间都大于 650(分钟)时,中位数为610650 2 630(分钟),所以这 8 个月的月平均通话时间的中位数大小的取值区间为540,630.故选 D. 3(2020 山东省泰安市四模)某药厂选取若干名志愿者进行临床试验,所有志愿者的舒张 压数据(单位:kPa)的分组区间为12,13),13,14),14,15),15,16),16,17,将其按 从左到右的顺序分别编号为第一组,第二组,第五组,如图是根据试验数据制成的频率分 布直方图,已知第一组与第二组共有 20 人,则第三组中的人数为_ 答案 18 解析 由直方图可得,分布在第一组与第二组共有 20 人,分布在第一组与第二组的频
14、率 分别为 0.24,0.16,设总的人数为 n,则20 n 0.240.160.4,所以 n50.所以第三组中的人 数为 500.3618. 考向 3 回归分析与独立性检验 角度 1 回归分析在实际中的应用 例 3 某市地产数据研究所的数据显示,2019 年该市新建住宅销售均价走势如下图所示, 3 月至 7 月房价上涨过快,政府从 8 月开始采取宏观调控措施, 10 月份开始房价得到很好的抑 制 (1)地产数据研究所发现,3 月份至 7 月份的各月均价 y(万元/平方米)与月份 x 之间具有较 强的线性相关关系,试建立 y 关于 x 的回归方程;政府若不调控,依此相关关系预测 12 月份 该
15、市新建住宅销售均价; (2)地产数据研究所在 2019 年的 12 个月中,随机抽取三个月的数据作样本分析,若关注 所抽三个月份的所属季度,记所属季度的个数为 X,求 X 的分布列和数学期望. 参考数据: 5 i1 xi25, 5 i1 yi5.36, 5 i1 (xi x )(yi y )0.64; 回 归 方 程 y b x a 中 斜 率 和 截 距 的 最 小 二 乘 法 估 计 公 式 分 别 为 : b n i1 (xi x )(yi y ) n i1 (xi x )2 ,a y b x . 解 (1) 月份 x 3 4 5 6 7 均价 y 0.95 0.98 1.11 1.12
16、 1.20 计算可得 x 5, y 1.072, 5 i1 (xi x )210, 所以b 0.64 10 0.064,a y b x 1.0720.06450.752. 所以从 3 月份至 7 月份 y 关于 x 的回归方程为y 0.064x0.752. 将 x12 代入回归方程,得y 0.064120.7521.52, 所以预测 12 月份该市新建住宅的销售均价约为 1.52 万元/平方米 (2)根据题意,X 的可能取值为 1,2,3. P(X1) C1 4 C3 12 1 55,P(X3) C3 4C 1 3C 1 3C 1 3 C3 12 27 55, P(X2)1P(X1)P(X3)
17、27 55, 所以 X 的分布列为 X 1 2 3 P 1 55 27 55 27 55 因此,X 的数学期望 E(X)1 1 552 27 553 27 55 136 55 . 在分析实际中两个变量的相关关系时, 可根据样本数据作出散点图来确定两个变量之间是 否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计或预测变量的值 近年来随着互联网的高速发展,旧货交易市场也得以快速发展某网络旧货交易平台对 2019 年某种机械设备的线上交易进行了统计,得到如图所示的频率分布直方图和散点图现 把直方图中各组的频率视为概率,用 x(单位:年)表示该设备的使用时间,y(单位:万元)表示 其相应的
18、平均交易价格 (1)已知 2019 年在此网络旧货交易平台成交的该种机械设备为 100 台,现从这 100 台设备 中,按分层抽样抽取使用时间 x(12,20的 4 台设备,再从这 4 台设备中随机抽取 2 台,求 这 2 台设备的使用时间都在(12,16的概率; (2)由散点图分析后, 可用 yebxa作为此网络旧货交易平台上该种机械设备的平均交易价 格 y 关于其使用时间 x 的回归方程 x y z i1 10 xiyi i1 10 xizi i1 10 x2 i 5.5 8.7 1.9 301.4 79.75 385 根据上述相关数据,求 y 关于 x 的回归方程; 根据上述回归方程,
19、求当使用时间 x15 时, 该种机械设备的平均交易价格的预报值 (精 确到 0.01). 附:对于一组数据(u1,v1) , (u2,v2) , (un,vn) ,其回归直线 vu 的斜率和截 距的最小二乘估计分别为 参考数据:e0.551.733,e0.950.3867,e1.850.1572. 解 (1)由图1中频率分布直方图可知, 从2019年成交的该种机械设备中使用时间x(12, 16的台数为 10040.0312,使用时间 x(16,20的台数为 10040.014, 按分层抽样所抽取的 4 台中,使用时间 x(12,16的设备有 3 台,分别记为 A,B,C; 使用时间 x(16,
20、20的设备有 1 台,记为 d, 从这 4 台设备中随机抽取 2 台的结果为(A,B),(A,C),(A,d),(B,C),(B,d),(C, d),共有 6 种等可能出现的结果,其中这 2 台设备的使用时间都在(12,16的结果为(A,B), (A,C),(B,C),共有 3 种,故所求事件的概率为3 6 1 2. (2)由题意得 zln yln ebxabxa, b i1 10 xizi10 x z i1 10 x2 i10 x 2 79.75105.51.9 385105.52 0.3, a z b x 1.90.35.53.55, z 关于 x 的线性回归方程为z 0.3x3.55,
21、y 关于 x 的回归方程为y e0.3x3.55. 由知,当使用时间 x15 时,y e0.3 153.550.39,故该种机械设备的平均交易价格 的预报值为 0.39 万元 角度 2 独立性检验在实际中的应用 例 4 (1)(多选)(2020 山东省烟台市模拟)某校计划在课外活动中新增攀岩项目,为了解学 生喜欢攀岩和性别是否有关, 面向学生开展了一次随机调查, 其中参加调查的男女生人数相同, 并绘制了如图所示的等高条形图,则( ) P(K2k0) 0.05 0.01 k0 3.841 6.635 参考公式:K2 n(adbc)2 (ab)(cd)(ac)(bd),nabcd. A参与调查的学
22、生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多 B参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多 C若参与调查的男女生人数均为 100 人,则有 99%的把握认为喜欢攀岩和性别有关 D无论参与调查的男女生人数为多少,都有 99%的把握认为喜欢攀岩和性别有关 答案 AC 解析 对于 A,因为参加调查的男女生人数相同,而男生中喜欢攀岩的占 80%,女生中喜 欢攀岩的占 30%, 所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多, 所以 A 正确;对于 B,参与调查的女生中喜欢攀岩的人数占 30%,不喜欢攀岩的人数占 70%,所以 参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所
23、以 B 错误;对于 C,若参与调查 的男女生人数均为 100 人,根据图表,列出 22 列联表如下: 喜欢 不喜欢 总计 男 80 20 100 女 30 70 100 总计 110 90 200 所以 K2200(80702030) 2 11090100100 5000 99 50.5056.635,所以有 99%的把握认为喜 欢攀岩和性别有关,所以 C 正确;对于 D,如果不确定参与调查的男女生人数,无法计算是 否有 99%的把握认为喜欢攀岩和性别有关,所以 D 错误故选 AC. (2)(2020 山东省淄博市模拟)新生儿某疾病要接种三次疫苗免疫(即 0,1,6 月龄),假设每 次接种之间
24、互不影响,每人每次接种成功的概率相等为了解新生儿该疾病疫苗接种剂量与接 种成功之间的关系,现进行了两种接种方案的临床试验:10 g/次剂量组与 20 g/次剂量组, 试验结果如表: 接种成功 接种不成功 总计(人) 10 g/次剂量组 900 100 1000 20 g/次剂量组 973 27 1000 总计(人) 1873 127 2000 根据数据说明哪种方案接种效果好?并判断能否有 99.9%的把握认为该疾病疫苗接种 成功与两种接种方案有关? 以频率代替概率,若选用接种效果好的方案,参与该试验的 1000 人的成功人数比此剂 量只接种一次的成功人数平均提高多少人? 参考公式:K2 n(a
25、dbc)2 (ab)(cd)(ac)(bd),其中 nabcd. 参考附表: P(K2k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 解 由于两种接种方案都是 1000 人接受临床试验,接种成功人数 10 g/次剂量组 900 人,20 g/次剂量组 973 人,且 973900, 所以方案 20 g/次剂量组接种效果好; 计算 K22000(90027100973) 2 100010001873127 44.80610.828, 所以有 99.9%的把握认为该疾病疫苗接种成功与两种接种方案有关 假设 20 g/次剂量组临床试验接种一次成功的概率为 p,
26、 由数据知,三次接种成功的概率为 973 10000.973,不成功的概率为 27 10000.027, 由于三次接种之间互不影响,每人每次接种成功的概率相等, 所以(1p)30.027,解得 p0.7; 设参与试验的 1000 人此剂量只接种一次成功的人数为 X, 显然 XB(1000,0.7),E(X)10000.7700, 参与试验的 1000 人此剂量只接种一次成功的人数平均为 700 人,且 973700273, 试验选用 20 g/次剂量组方案,参与该试验的 1000 人比此剂量只接种一次的成功人数平 均提高 273 人 独立性检验的关键 (1)根据 22 列联表准确计算 K2,若
27、 22 列联表没有列出来,要先列出此表 (2)K2的观测值 k 越大,对应假设事件 H0成立的概率越小,H0不成立的概率越大 某市自 2020 年 5 月启动对“车不让人行为”处罚以来,斑马线前机动车抢行不文明行为 得以根本改变,但作为交通重要参与者的行人,闯红灯通行却频有发生,带来了较大的交通安 全隐患,同时也使机动车的通畅率降低该市交警部门在某十字路口根据以往的检测数据,得 到行人闯红灯的概率约为 0.4,并从穿越该路口的行人中随机抽取了 200 人进行调查,对是否 存在闯红灯情况得到 22 列联表如下: 30 岁以下 30 岁以上 合计 闯红灯 60 未闯红灯 80 合计 200 近期,
28、为了整顿“行人闯红灯”这一项不文明及违法行为, 交警部门在该十字路口试行了 对闯红灯行人进行经济处罚, 并在试行经济处罚后从穿越该路口的行人中随机抽取了 200 人进 行调查,得到下表: 处罚金额(单位:元) 5 10 15 20 闯红灯的人数 50 40 20 0 将统计数据所得频率代替概率,完成下列问题 (1)将 22 列联表填写完整(不需写出填写过程),并根据表中数据分析,在未试行对闯红 灯行人进行经济处罚前,是否有 99.9%的把握认为闯红灯与年龄有关; (2)当处罚金额为 10 元时,行人闯红灯的概率会比不进行处罚降低多少; (3)结合调查结果,谈谈如何治理行人闯红灯现象 参考公式:
29、K2 n(adbc)2 (ab)(cd)(ac)(bd),其中 nabcd. 参考数据: P(K2k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.132 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解 (1) 30 岁以下 30 岁以上 合计 闯红灯 20 60 80 未闯红灯 80 40 120 合计 100 100 200 K2200(40206080) 2 10010080120 100 3 33.33310.828. 有 99.9%的把握认为闯红灯与年龄有关 (2)未进行处罚前, 行人闯
30、红灯的概率为 0.4, 进行处罚 10 元后, 行人闯红灯的概率为 40 200 1 50.2, 降低了 0.2. (3)根据调查数据显示, 行人闯红灯与年龄有明显关系, 可以针对 30 岁以上人群开展“道 路安全”宣传教育;由于处罚可以明显降低行人闯红灯的概率, 所以可以进行适当处罚来降 低行人闯红灯的概率 真题押题 真题检验 1 (2020 全国卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位: ) 的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20) 得到下面的散点图: 由此散点图,在 10 至 40 之间,下面四个回归方程类型
31、中最适宜作为发芽率 y 和温 度 x 的回归方程类型的是( ) Ayabx Byabx2 Cyabex Dyab ln x 答案 D 解析 由散点图分布可知, 散点图分布在一个对数型函数图象的附近,因此最适宜作为发 芽率 y 和温度 x 的回归方程类型的是 yab ln x.故选 D. 2 (2020 全国卷)设一组样本数据 x1, x2, , xn的方差为 0.01, 则数据 10 x1, 10 x2, , 10 xn的方差为( ) A0.01 B0.1 C1 D10 答案 C 解析 因为数据 axib(i1,2,n)的方差是数据 xi(i1,2,n)的方差的 a2倍, 所以所求数据的方差为
32、 1020.011.故选 C. 3(2020 全国卷)在一组样本数据中,1,2,3,4 出现的频率分别为 p1,p2,p3,p4, 且 4 i1 pi1,则下面四种情形中,对应样本的标准差最大的一组是( ) Ap1p40.1,p2p30.4 Bp1p40.4,p2p30.1 Cp1p40.2,p2p30.3 Dp1p40.3,p2p30.2 答案 B 解析 对于 A,该组数据的平均数为 x A(14)0.1(23)0.42.5, 方差为 s2 A(12.5) 20.1(22.5)20.4(32.5)20.4(42.5)20.10.65; 对于 B,该组数据的平均数为 x B(14)0.4(23
33、)0.12.5, 方差为 s2 B(12.5) 20.4(22.5)20.1(32.5)20.1(42.5)20.41.85; 对于 C,该组数据的平均数为 x C(14)0.2(23)0.32.5, 方差为 s2 C(12.5) 20.2(22.5)20.3(32.5)20.3(42.5)20.21.05; 对于 D,该组数据的平均数为 x D(14)0.3(23)0.22.5, 方差为 s2 D(12.5) 20.3(22.5)20.2(32.5)20.2(42.5)20.31.45. 因此,B 项这一组样本数据的标准差最大故选 B. 4 (2020 江苏高考)已知一组数据 4, 2a,
34、3a, 5, 6 的平均数为 4, 则 a 的值是_ 答案 2 解析 数据 4,2a,3a,5,6 的平均数为 4, 42a3a5620,解得 a2. 5(2020 新高考卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进 行调研,随机抽查了 100 天空气中的 PM2.5 和 SO2浓度(单位:g/m3),得下表: SO2 PM2.5 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,115 3 7 10 (1)估计事件“该市一天空气中 PM2.5 浓度不超过 75,且 SO2浓度不超过 150”的概率; (2)根据所给数据
35、,完成下面的 22 列联表: SO2 PM2.5 0,150 (150,475 0,75 (75,115 (3)根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO2浓 度有关? 附:K2 n(adbc)2 (ab)(cd)(ac)(bd). P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 解 (1)由表格中的数据可知,该市 100 天中,空气中的 PM2.5 浓度不超过 75,且 SO2浓 度不超过 150 的天数有 32618864 天, 所以该市一天空气中 PM2.5 浓度不超过 75,且 SO2浓度不超过
36、 150 的概率为 64 1000.64. (2)由所给数据,可得 22 列联表为 SO2 PM2.5 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)根据 22 列联表中的数据可得 K2 n(adbc)2 (ab)(cd)(ac)(bd) 100(64101610) 2 80207426 3600 481 7.4846.635, 所以有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO2浓度有关 6(2020 全国卷)某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天 到某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次
37、空气质量等级 0,200 (200,400 (400,600 1(优) 2 16 25 2(良) 5 10 12 3(轻度污染) 6 7 8 4(中度污染) 7 2 0 (1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代 表); (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4, 则称这天“空气质量不好” 根据所给数据, 完成下面的 22 列联表, 并根据列联表, 判断是否有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关? 人
38、次400 人次400 空气质量好 空气质量不好 附:K2 n(adbc)2 (ab)(cd)(ac)(bd). P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 解 (1)由频数分布表可知,该市一天的空气质量等级为 1 的概率为21625 100 0.43,空 气质量等级为 2 的概率为51012 100 0.27,空气质量等级为 3 的概率为678 100 0.21,空气 质量等级为 4 的概率为720 100 0.09. (2) 由 频 数 分 布 表 可 知 , 一 天 中 到 该 公 园 锻 炼 的 平 均 人 次 的 估 计 值 为 1002
39、03003550045 100 350. (3)22 列联表如下: 人次400 人次400 空气质量好 33 37 空气质量不好 22 8 K2100(3383722) 2 55457030 5.8203.841, 因此,有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关 7(2020 全国卷)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为 A, B,C,D 四个等级加工业务约定:对于 A 级品、B 级品、C 级品,厂家每件分别收取加工 费 90 元,50 元,20 元;对于 D 级品,厂家每件要赔偿原料损失费 50 元该厂有甲、乙两个 分厂可承接加工业务甲分厂
40、加工成本费为 25 元/件,乙分厂加工成本费为 20 元/件厂家为 决定由哪个分厂承接加工业务, 在两个分厂各试加工了 100 件这种产品, 并统计了这些产品的 等级,整理如下: 甲分厂产品等级的频数分布表: 等级 A B C D 频数 40 20 20 20 乙分厂产品等级的频数分布表: 等级 A B C D 频数 28 17 34 21 (1)分别估计甲、乙两分厂加工出来的一件产品为 A 级品的概率; (2)分别求甲、乙两分厂加工出来的 100 件产品的平均利润,以平均利润为依据,厂家应 选哪个分厂承接加工业务? 解 (1)由表中数据可知, 甲厂加工出来的一件产品为 A 级品的概率为 40
41、 1000.4, 乙厂加工 出来的一件产品为 A 级品的概率为 28 1000.28. (2)甲分厂加工 100 件产品的总利润为 40(9025)20(5025)20(2025) 20(5025)1500 元, 所以甲分厂加工 100 件产品的平均利润为 15 元/件 乙分厂加工 100 件产品的总利润为 28(9020)17(5020)34(2020)21(50 20)1000 元, 所以乙分厂加工 100 件产品的平均利润为 10 元/件 故厂家应选择甲分厂承接加工业务 8(2020 全国卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增 加为调查该地区某种野生动物的数量,
42、将其分成面积相近的 200 个地块,从这些地块中用简 单随机抽样的方法抽取 20 个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中 xi 和 yi分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 20 i1 xi 60, 20 i1 yi1200, 20 i1 (xi x )280, 20 i1 (yi y )29000, 20 i1 (xi x ) (yi y )800. (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动 物数量的平均数乘以地块数); (2)求样本(xi,yi)(i1,2,20)的相关系数(精
43、确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以获得该 地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由 附:相关系数 r n i1 (xi x )(yi y ) n i1 (xi x )2 n i1 (yi y )2 , 21.414. 解 (1)每个样区野生动物数量的平均数为 1 20 20 i1 yi 1 20120060,地块数为 200,所以该 地区这种野生动物数量的估计值为 2006012000. (2)样本(xi,yi)的相关系数为 r 20 i1 (xi x )(yi y ) 20 i1 (xi x )2
44、 20 i1 (yi y )2 800 809000 2 2 3 0.94. (3)由于各地块间植物覆盖面积差异很大,为提高样本数据的代表性,应采用分层抽样, 先将植物覆盖面积按优、中、差分成三层, 在各层内按比例抽取样本, 在每层内用简单随机抽样法抽取样本即可 金版押题 9光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能近几年在国内出 台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表: 某位同学分别用两种模型:y bx2a,y dxc 进行拟合,得到相应的回归方程并 进行残差分析,残差图如下(注:残差等于 yiy i): 经过计算得 i1 8 (xi x )(yi
45、y )72.8, i1 8 (xi x )242, i1 8 (tit)(yi y )686.8, i1 8 (ti t)23570,其中 tix2 i,t1 8 i1 8 ti. (1)根据残差图,比较模型,的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)的判断结果及表中数据建立 y 关于 x 的回归方程,并预测该地区 2021 年 新增光伏装机量是多少?(在计算回归系数时精确到 0.01) 附:回归直线的斜率和截距的最小二乘估计公式分别为 解 (1)选择模型. 理由如下:根据残差图可以看出,模型的估计值和真实值比较接近,模型的残差值相 对较大一些,所以模型的拟合效果相对较好
46、. (2)由(1)可知,y 关于 x 的回归方程为y b x2a ,令 tx2, 则y b ta . 由所给数据可得 t1 8 i1 8 ti1 8(1491625364964)25.5. y 1 8 i1 8 yi1 8(0.40.81.63.15.17.19.712.2)5, 所以b i1 8 (tit)(yi y ) i1 8 (tit)2 686.8 35700.19, a y b t50.1925.50.16, 所以 y 关于 x 的回归方程为y 0.19x20.16, 当 x10 时,y 0.191020.1619.16, 故预测该地区 2021 年新增光伏装机量为 19.16 兆
47、瓦 专题作业 一、选择题:在每小题给出的四个选项中,只有一项是符合题目要求的 1(2020 山东菏泽一中模拟)空气质量指数 AQI 是用来反映空气质量状况的,AQI 越小, 表明空气质量越好,其对应关系如下表: 下图是某市今年某月 1 日至 20 日的 AQI 折线图 下列叙述错误的是( ) A这 20 天的 AQI 的中位数略高于 100 B这 20 天中空气质量为中度污染及以上的天数占1 4 C该市该月的前半个月的空气质量越来越好 D总体来说,该市该月上旬的空气质量比中旬的空气质量好 答案 C 解析 对于 A,将这 20 天的 AQI 从小到大排序后,第 10 个数据略小于 100,第 11 个数 据约为 120, 因为中位数是这两个数据的平均数, 所以中位数略高于 100, 故 A 正确; 对于 B, 这 20 天中,AQI 大于 150 的有 5 天,故空气质量为中度污染及以上的天数占1 4,故 B 正确; 对于 C,由题中折线图可知,这 20 天中,前 5 天空气质量越来越好,从 6 日开始至 15 日空气 质量越来越差,故 C 错误;对于 D,由题中折线图可知,上旬 AQI 大部分在 100 以下,中旬 AQI 大部分在 100 以上,故该市该月上旬的空气质量比中旬的好,故 D 正确故选 C. 2 (20