1、第 2 讲 统计与统计案例年份 卷别 考查内容及考题位置 命题分析卷扇形统计图的应用 T3卷回归分析及其应用 T182018卷 统计案例 T18卷频率分布直方图、独立性检验 T182017卷折线图的识别及应用 T3统计图表的应用 T42016 卷折线图、相关性检验、线性回归方程及其应用 T181.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在 34题的位置.2.统计解答题多在第18 题的位置,且多以频率分布直方图或茎叶图与线性回归分析或独立性检验相交汇的形式考查,难度中等.抽样方法(基础型)系统抽样总体容量为 N,样本容量
2、为 n,则要将总体均分成 n 组,每组 个(有零头时要先去掉)Nn若第一组抽到编号为 k 的个体,则以后各组中抽取的个体编号依次为k , k( n1) .Nn Nn分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比总体中各层的数量之比考法全练1福利彩票“双色球”中红色球的号码可以从 01,02,03,32,33 这 33 个两位号码中选取,小明利用如下所示的随机数表选取红色球的 6 个号码,选取方法是从第 1 行第 9 列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为( )81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91
3、 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49A.12 B33C06 D16解析:选 C.被选中的红色球号码依次为 17,12,33,06,32,22.所以第四个被选中的红色球号码为 06,故选 C.2利用系统抽样法从编号分别为 1,2,3,80 的 80 件不同产品中抽出一个容量为 16 的样本,如果抽出的产品中有一件产品的编号为 13,则抽到产品的最大编号为( )A73 B78C77 D76解析:选 B.样本的分段间隔为 5,所以 13 号在第三组,则最大的编号为8
4、01613(163)578.故选 B.3某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000 人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢4 800 7 200 6 400 1 600电视台为了了解观众的具体想法和意见,打算从中抽选出 100 人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A25,25,25,25 B48,72,64,16C20,40,30,10 D24,36,32,8解析:选 D.法一:因为抽样比为 ,10020 000 1200所以每类人中应抽选出的人数分别为4 800 24
5、,7 200 36,6 400 32,1 600 8.故选 D.1200 1200 1200 1200法二:最喜爱、喜爱、一般、不喜欢的比例为 4 8007 2006 4001 6006982,所以每类人中应抽选出的人数分别为 10024, 10036,66 9 8 2 96 9 8 210032, 1008,故选 D.86 9 8 2 26 9 8 2“双图” “五数”估计总体(基础型)统计中的 5 个数据特征(1)众数:在样本数据中,出现次数最多的那个数据(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数(3)平均数:样本数
6、据的算术平均数,即 (x1 x2 xn)x 1n(4)方差与标准差:s2 (x1 )2( x2 )2( xn x)2;1n x x x s .从频率分布直方图中得出有关数据的技巧(1)频率:频率分布直方图中横轴表示组数,纵轴表示 ,频率组距 .频 率组 距 频 率组 距(2)频率比:频率分布直方图中各小长方形的面积之和为 1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值(3)众数:最高小长方形底边中点的横坐标(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(5)平均数:频率分布直方图中每个小长方形的面积乘
7、小长方形底边中点的横坐标之和(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和组距1,列方程即可求得参数值考法全练1某课外小组的同学们在社会实践活动中调查了 20 户家庭某月的用电量,如下表所示:用电量/度 120 140 160 180 200户数 2 3 5 8 2则这 20 户家庭该月用电量的众数和中位数分别是( )A180,170 B160,180C160,170 D180,160解析:选 A.用电量为 180 度的家庭最多,有 8 户,故这 20 户家庭该月用电量的众数是 180,排除 B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这
8、20 户家庭该月用电量的中位数是 170.故选 A.2(2018贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80100 分的学生人数是( )A15 B18C20 D25解析:选 A.根据频率分布直方图,得第二小组的频率是 0.04100.4,因为频数是40,所以样本容量是 100,又成绩在 80100 分的频率是(0.010.005)100.15,400.4所以成绩在 80100 分的学生人数是 1000.1515.故选 A.3(2
9、018武汉调研)某选手的 7 个得分去掉 1 个最高分,去掉 1 个最低分,剩余 5 个得分的平均数为 91,如图,该选手的 7 个得分的茎叶图有一个数据模糊,无法辨认,在图中用 x 表示,则剩余 5 个得分的方差为( )A. B.1169 367C6 D30解析:选 C.由茎叶图知,最低分为 87 分,最高分为 99 分依题意得,(879390910 x91)91,解得 x4.则剩余 5 个得分的方差15s2 (8791) 2(9391) 2(9091) 2(9491) 2(9191) 2 (16419)15 156.故选 C.4 “中国人均读书 4.3 本(包括网络文学和教科书),比韩国的
10、 11 本、法国的 20 本、日本的 40 本、犹太人的 64 本少得多,是世界上人均读书最少的国家 ”这个论断被各种媒体反复引用出现这样的统计结果无疑是令人尴尬的某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了 40 名读书者进行调查,将他们的年龄(单位:岁)分成 6 段:20,30),30,40),40,50),50,60),60,70),70,80后得到如图所示的频率分布直方图(1)求在这 40 名读书者中年龄分布在40,70)的人数;(2)求这 40 名读
11、书者的年龄的平均数和中位数解:(1)由频率分布直方图知年龄在40,70)的频率为(0.0200.0300.025)100.75,故这 40 名读书者中年龄分布在40,70)的人数为 400.7530.(2)这 40 名读书者年龄的平均数为250.05350.10450.20550.30650.25750.1054.设中位数为 x,则 0.005100.010100.020100.030( x50)0.5,解得 x55,故这 40 名读书者年龄的中位数为 55.回归分析(综合型)典型例题命题角度一 线性回归分析(2018广州模拟)某地 110 岁男童年龄 xi(单位:岁)与身高的中位数 yi(单
12、位:cm)(i1,2,10)如下表:x/岁 1 2 3 4 5 6 7 8 9 10y/cm 76.5 88.5 96.8 104.1 111.3 117.7 124.0 130.0 135.4 140.2对上表的数据作初步处理,得到下面的散点图及一些统计量的值x y (xi )210 i 1 x (yi )10 i 1 y 2(xi )10 i 1 x (yi )y 5.5 112.45 82.50 3 947.71 566.85(1)求 y 关于 x 的线性回归方程(线性回归方程系数精确到 0.01);(2)某同学认为 y px2 qx r 更适宜作为 y 关于 x 的回归方程类型,他求得
13、的回归方程是 0.30 x210.17 x68.07.经调查,该地 11 岁男童身高的中位数为 145.3 cm.与y (1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程 x 中的斜率和截距的最小二乘估计公式分别为:y a b , .b a y b x 【解】 (1) 6.8716.87,b 566.8582.50 112.456.8715.574.66,a y b x 所以 y 关于 x 的线性回归方程为 6.87 x74.66.y (2)若回归方程为 6.87 x74.66,当 x11 时, 150.23.y y 若回归方程为 0.30 x210.17 x68.07,当
14、x11 时, y143.64.y |143.64145.3|1.663.841.50( 612 1418) 230202624 22552所以有 95%的把握认为学生实践操作能力强弱与性别有关(2) 的取值为 0,1,2,3,4.P( 0) , P( 1) , P( 2) , P( 3) 114 821 37, P( 4) .435 1210所以 的分布列为 0 1 2 3 4P 114 821 37 435 1210所以 E( )0 1 2 3 4 1.6.114 821 37 435 1210 85独立性检验的关键(1)根据 22 列联表准确计算 K2,若 22 列联表没有列出来,要先列出
15、此表(2)K2的观测值 k 越大,对应假设事件 H0成立的概率越小, H0不成立的概率越大 对点训练(2018高考全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位: min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过m 和不超过 m 的工人数填入下面的列联表:超过 m 不超
16、过 m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附: K2 ,n( ad bc) 2( a b) ( c d) ( a c) ( b d)P(K2 k) 0.050 0.010 0.001k 3.841 6.635 10.828解:(1)第二种生产方式的效率更高理由如下:(以下 4 种理由,任选其一)()由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方
17、式的工人完成生产任务所需时间的中位数为 85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二
18、种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(2)由茎叶图知 m 80.79 812列联表如下:超过 m 不超过 m第一种生产方式 15 5第二种生产方式 5 15(3)由于 K2 106.635,所以有 99%的把握认为两种40( 1515 55) 220202020生产方式的效率有差异一、选择题1某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将 60 个同学按01,02,03,60 进行编号,然后从随机数表第 9 行第 5 列的数开始向右读,则选出的第 6 个个体是( )(注:下表为随机数表的第 8 行和第 9 行)630
19、1 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A07 B25C42 D52解析:选 D.依题意得,依次选出的个体分别是 12,34,29,56,07,52,因此选出的第 6 个个体是 52.2(2018高考全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正
20、确的是( )A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选 A.法一:设建设前经济收入为 a,则建设后经济收入为 2a,则由饼图可得建设前种植收入为 0.6a,其他收入为 0.04a,养殖收入为 0.3a.建设后种植收入为 0.74a,其他收入为 0.1a,养殖收入为 0.6a,养殖收入与第三产业收入的总和为 1.16a,所以新农村建设后,种植收入减少是错误的故选 A.法二:因为 0.6 B,所以正确x x s (5378) 2(6278) 2(6478) 2(7678
21、) 2(7478) 2(7878)2A1152(7878) 2(7678) 2(8178) 2(8578) 2(8678) 2(8878) 2(8278)2(9278) 2(9578) 2121.6,s (4566) 2(4866) 2(5166) 2(5366) 2(5666) 2(6266)2B1152(6466) 2(6566) 2(7366) 2(7366) 2(7466) 2(7066) 2(8366)2(8266) 2(9166) 2175.2.故 s s , B 班的方差大,则 B 班的标准差也大,正确,故选 B.2B 2A法二:由茎叶图可知, A 班数学兴趣小组的平均成绩明显高
22、于 B 班; A 班的数学成绩较稳定,大多在 7090 分, B 班的数学成绩较分散,显然 B 班的方差、标准差较大,故选 B.二、填空题7给出下列四个命题:某班级一共有 52 名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为 4 的样本,已知 7 号、33 号、46 号同学在样本中,那么样本中另一位同学的编号为23;一组数据 1,2,3,3,4,5 的平均数、众数、中位数都相同;若一组数据 a,0,1,2,3 的平均数为 1,则其标准差为 2;根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为 x,其y a b 中 2, 1, 3,则 1.a x y b 其中真命题有_
23、(填序号)解析:在中,由系统抽样知抽样的分段间隔为 52413,故抽取的样本的编号分别为 7 号、20 号、33 号、46 号,故是假命题;在中,数据 1,2,3,3,4,5 的平均数为 (123345)3,中位数为 3,众数为 3,都相同,故是真命题;在中,16因为样本的平均数为 1,所以 a01235,解得 a1,故样本的方差为(11) 2(01) 2(11) 2(21) 2(31) 22,标准差为 ,故是假命题;15 2在中,回归直线方程为 x2,又回归直线过点( , ),把(1,3)代入回归直线方y b x y 程 2,得 1,故是真命题y b x b 答案:8(2018长沙模拟)为了
24、解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:购买食品的年支出费用 x/万元 2.09 2.15 2.50 2.84 2.92购买水果和牛奶的年支出费用 y/万元 1.25 1.30 1.50 1.70 1.75根据上表可得回归直线方程 x ,其中 0.59, ,据此估计,该社区y b a b a y b x 一户购买食品的年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为_万元解析: 2.50(万元),x 2.09 2.15 2.50 2.84 2.925 1.50(万元),y 1.25 1.30 1.50
25、 1.70 1.755其中 0.59, 0.025, 0.59 x0.025,故年支出费用为 3.00 万元的b a y b x y 家庭购买水果和牛奶的年支出费用约为 0.593.000.0251.795 万元y 答案:1.7959某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是_解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5 个数据同时减去 110,得到新的数据分别为 0,4,11,9,16,其平均数为 8,根据方差公式可得 s2 (08) 2(48) 2(118) 2(98) 2(168) 230.
26、8.15答案:30.8三、解答题10某校为了解高一学生周末的“阅读时间” ,从高一年级中随机抽取了 100 名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照0,0.5),0.5,1),4,4.5分成 9 组,制成样本的频率分布直方图如图所示:(1)求图中 a 的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率现从全校高一年级随机抽取 20 名学生,其中有 k 名学生“阅读时间”在1,2.5)内的概率为 P(X k),其中 k0,1,2,20.当 P(X k)最大时,求 k 的值解:(1)由频率分布直方图可知,周末“阅读时间”在0,0.5)内的频率为0
27、.080.50.04.同理,在0.5,1),1.5,2),2,2.5),3,3.5),3.5,4),4,4.5内的频率分别为 0.08,0.20,0.25,0.07,0.04,0.02,所以 1(0.040.080.200.250.070.040.02)0.5 a0.5 a,解得 a0.30.(2)设该校高一学生周末“阅读时间”的中位数为 m 小时因为前 5 组的频率之和为 0.040.080.150.200.250.720.5,而前 4 组的频率之和为 0.040.080.150.200.471,则 k12.6, P(X k1)P(X k)又 2.706,80( 1220 2820) 240403248故有 90%以上的把握认为“数学成绩优秀与教学改革有关” (2)从乙班70,80),80,90),90,100分数段中抽取的人数分别为 2,3,2,依题意随机变量 X 的所有可能取值为 0,1,2,3,P(X0) , P(X1) , P(X2) , P(X3)435 1835 1235 ,135其分布列如下表:X 0 1 2 3P 435 1835 1235 135所以 E(X)0 1 2 3 .435 1835 1235 135 4535 97