1、第三节 用样本估计总体 命题分析预测 学科核心素养 从近五年高考来看,主要考查利用频率分布 直方图、茎叶图、样本的数字特征估计总体, 各种题型都有,难度中档偏下 本节主要通过用样本估计总体提升数据分析 与数学运算及直观想象核心素养 授课提示:对应学生用书第 240 页 知识点一 频率分布直方图、茎叶图 1作频率分布直方图的步骤 (1)求极差(即一组数据中最大值与最小值的差) ; (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图 2频率分布折线图和总体密度曲线 (1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线 图 (2)总
2、体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率 折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线 3茎叶图的优点 茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带 来方便 温馨提醒 频率分布直方图与众数、中位数与平均数的关系 (1)最高的小长方形底边中点的横坐标即是众数的估计值 (2)中位数左边和右边的小长方形的面积和是相等的 (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以 小长方形底边中点的横坐标之和 1学校为了解学生在课外读物方面的支出情况,抽取了 n 位同学进行调查,结果显
3、示这些同 学的支出都在10,50(单位:元)之间,其频率分布直方图如图所示,其中支出在10,30) (单位:元)内的同学有 33 人,则支出在40,50(单位:元)内的同学人数为( ) A100 B120 C30 D300 解析: 支出10, 30) 的同学所占的频率为 (0 010 023) 100 33, 所以 n 33 0.33100 支 出在40,50)的同学所占的频率为 1(00100230037)1003,故支出在40, 50)的同学人数是 1000330 答案:C 2在如图所示的茎叶图所示的数据中,众数和中位数分别是( ) A23,26 B31,26 C24,30 D26,30
4、解析:由茎叶图得到所有的数据从小到大排列依次为 12,14,20,23,25,26,30,31,31, 41,42,众数和中位数分别为 31,26 答案:B 3 (2021 衡水中学五调)某“跑团”为了解团队每月跑步的平均里程,收集并整理了 2020 年 1 月至 2020 年 11 月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的 折线图 根据折线图,下列结论正确的是( ) A月跑步平均里程的中位数为 6 月份对应的平均里程数 B月跑步平均里程逐月增加 C月跑步平均里程高峰期大致在 8 月和 9 月 D1 月至 5 月的月跑步平均里程相对于 6 月至 11 月,波动性更小,
5、变化比较平稳 解析:由折线图知,月跑步平均里程的中位数为 5 月份对应的平均里程数,A 错;月跑步平均 里程不是逐月增加的,B 错;月跑步平均里程高峰期大致在 9 月和 10 月,C 错 答案:D 知识点二 样本的数字特征 1众数、中位数、平均数 数字特征 概念 优点与缺点 众数 一组数据中重复出现次数最多的数 众数通常用于描述变量的值出现次数 最多的数但显然它对其他数据信息 的忽视使它无法客观地反映总体特征 中位数 把一组数据按从小到大的顺序排列, 处在中间位置的一个数据(或两个数 据的平均数) 中位数等分样本数据所占频率,它不 受少数几个极端值的影响,这在某些 情况下是优点,但它对极端值的
6、不敏 感有时也会成为缺点 平均数 如果有 n 个数据 x1,x2,xn,那 么这 n 个数的平均数x x1x2xn n 平均数与每一个样本数据有关,可以 反映出更多的关于样本数据全体的信 息,但平均数受数据中的极端值的影 响较大,使平均数在估计总体时可靠 性降低 2标准差、方差 ( 1 ) 标 准 差 : 样 本 数 据 到 平 均 数 的 一 种 平 均 距 离 , 一 般 用 s 表 示 , s 1 n(x1x )2(x2x )2(xnx )2 (2)方差:标准差的平方 s2 s21 n(x1x )2(x2x )2(xnx )2,其中 xi(i1,2,3,n)是样本数据, n 是样本容量,
7、x 是样本平均数 温馨提醒 1众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量 2平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心” 1已知样本数据 3,5,7,4,6,则该样本标准差为( ) A1 B 2 C 3 D2 解析:数据 3,5,7,4,6 的平均数为x 1 5(35746)5,方差为 s 21 5(35) 2(55)2(75)2(45)2(65)22,标准差为 2 答案:B 2 (易错题)10 名工人某天生产同一零件,生产的零件数分别是 15,17,14,10,15,17, 17,16,14,12,设其平均数为 a,中位数为 b,众数为
8、c,则有( ) Aabc Bbca Ccab Dcba 解析:依题意,这些数据由小到大依次是 10,12,14,14,15,15,16,17,17,17,因此 aba 答案:D 授课提示:对应学生用书第 242 页 题型一 统计图表的应用 1 (2021 广州四校联考)如图是 2019 年第一季度 A、B、C、D、E 五省 GDP 情况图,则下 列叙述中不正确的是( ) A2019 年第一季度 GDP 增速由高到低排位第 5 的是 A 省 B与 2018 年同期相比,各省 2019 年第一季度的 GDP 总量实现了增长 C2018 年同期 C 省的 GDP 总量不超过 4 000 亿元 D20
9、19 年第一季度 GDP 总量和增速由高到低排位均居同一位的省只有 1 个 解析:由折线图可知 A,B 正确;4 0674 (166%)3 816x) 解析: (1)频率分布直方图如图: (2)x250135015450355025650248, 即估计被采访的市民的平均年龄为 48 岁 (3)y20230340650560498a 20 958a 20 , 故 P(yx)P(958a 20 48)P(a2)07 题型三 样本的数字特征及应用 例 (2019 高考全国卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查 了 100 个企业,得到这些企业第一季度相对于前一年第一季度产值增长
10、率 y 的频数分布表 y 的分组 020,0) 0,020) 0 20, 0 40) 0 40, 0 60) 0 60, 0 80) 企业数 2 24 53 14 7 (1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点 值为代表) (精确到 001) 附: 748602 解析 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低于 40% 的企业频率为147 100 021 产值负增长的企业频率为 2 100002 用样本频率分布估计总体分布得这类企业中产值
11、增长率不低于 40%的企业比例为 21%,产值 负增长的企业比例为 2% (2)y 1 100(01020102403053050140707)030, s2 1 100 5 i1ni(yiy )2 1 100(040) 22(020)224025302021404027 0029 6, s 0.029 6002 74017 所以,这类企业产值增长率的平均数与标准差的估计值分别为 030,017 利用样本的数字特征解决优化决策问题 (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大 小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散
12、程度越小,越稳定 (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征 题组突破 1 (2020 高考全国卷) 设一组样本数据 x1, x2, , xn的方差为 0 01, 则数据 10 x1, 10 x2, , 10 xn的方差为( ) A001 B01 C1 D10 解析:10 x1,10 x2,10 xn的方差为 1020011 答案:C 2为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制 成如图所示的茎叶图有下列结论: 甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数; 甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数; 从最近五
13、场比赛的得分看,乙比甲更稳定; 从最近五场比赛的得分看,甲比乙更稳定 其中所有正确结论的编号为( ) A B C D 解析:对于,甲得分的中位数为 29,乙得分的中位数为 30,错误;对于,甲得分的平均 数为1 5(2528293132)29,乙得分的平均数为 1 5(2829303132)30, 正确;对于,甲得分的方差为1 5(2529) 2(2829)2(2929)2(3129)2 (3229)21 5(161049)6,乙得分的方差为 1 5(2830) 2(2930) 2(3030)2(3130)2(3230)21 5(41014)2,所以乙比甲更稳 定,正确,错误所以正确结论的编号
14、为 答案:C 用样本估计总体应用中的核心素养 直观想象、数据分析用样本估计总体的创新问题 例 (2021 惠州市一调)某大学生在开学季准备销售一种文具盒进行试创业,在一个开学 季内,每售出 1 盒该产品获得的利润为 30 元,未售出的产品,每盒亏损 10 元该大学生通 过查询资料得到开学季市场需求量的频率分布直方图,如图所示该大学生为这个开学季购 进了 160 盒该产品,以 x(单位:盒,100 x200)表示这个开学季内的市场需求量,y(单 位:元)表示这个开学季内经销该产品的利润 (1)根据直方图估计这个开学季内市场需求量 x 的众数和平均数; (2)将 y 表示为 x 的函数; (3)根
15、据直方图估计利润 y 不少于 4 000 元的概率 解析 (1)由题中频率分布直方图得,这个开学季内市场需求量 x 的众数是 150 盒, 需求量在100,120)内的频率为 0005 02001, 需求量在120,140)内的频率为 0010 02002, 需求量在140,160)内的频率为 0015 02003, 需求量在160,180)内的频率为 0012 520025, 需求量在180,200内的频率为 0007 520015 则平均数x 110011300215003170025190015153(盒) (2)因为每售出 1 盒该产品获得的利润为 30 元,未售出的产品,每盒亏损 1
16、0 元, 所以当 100 x160 时,y30 x10(160 x)40 x1 600; 当 160 x200 时,y160304 800 所以 y 40 x1 600,100 x160, 4 800,160 x200. (3) 因为利润 y 不少于 4 000 元, 所以当 100 x160 时, 由 40 x1 6004 000, 解得 140 x 160; 当 160 x200 时,y4 8004 000 恒成立,所以 140 x200 时,利润 y 不少于 4 000 元 故由(1)知利润 y 不少于 4 000 元的概率 P1010207 用样本估计总体常与函数、不等式、概率求法等交
17、汇考查,处理时需注意读图数据的准确性 及交汇点的应用 对点训练 如图是依据某城市年龄在 20 岁到 45 岁的居民上网情况调查而绘制的频率分布直方图,现已 知年龄在30,35) ,35,40) ,40,45的网民人数成递减的等差数列,则年龄在35,40)的 网民出现的频率为( ) A004 B006 C02 D03 解析:由题意得,年龄在20,25)的网民出现的频率为 0015005,25,30)的网民 出现的频率为 0075035,又30,35) ,35,40) ,40,45的网民人数成递减的等差 数列,则其频率也成等差数列,又30,45的频率为 100503506,则年龄在35, 40)的网民出现的频率为 06 302 答案:C