1、10.3用样本估计总体最新考纲考情考向分析1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数,标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.主要考查平均数,方差的计算以及茎叶图与频率分布直方图的简单应用;题型以选择题和填空题为主,出现解答题时经常与概率相结合,难度为中低档.1.作频率分布直
2、方图的步骤(1)计算极差(即一组数据中最大值与最小值的差).(2)决定组数与组距.(3)决定分点.(4)列频率分布表.(5)绘制频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图.(2)总体密度曲线:设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线yf(x)来描绘,这条光滑曲线就叫做总体密度曲线.3.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.4.众数、中位数、平均数数字特征概念优点与
3、缺点众数一组数据中重复出现次数最多的数众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使它无法客观地反映总体特征中位数把一组数据按从小到大顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,xn,那么这n个数的平均数平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低5.标准差和方差(1)标准差是样本数据到平均数的一种平均距离.(2)标准差:s
4、.(3)方差:s2(x1)2(x2)2(xn)2(xn是样本数据,n是样本容量,是样本平均数).概念方法微思考1.在频率分布直方图中如何确定中位数?提示在频率分布直方图中,中位数左边和右边的直方图的面积是相等的.2.平均数、标准差与方差反映了数据的哪些特征?提示平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.题组一思考辨析1.判断下列结论是否正确(请在括号中打“”或“”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.()(2)一组数据的众数可以是一个或几个,那么中位数也具有相
5、同的结论.()(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.()(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.()题组二教材改编2.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为()A.4 B.8 C.12 D.16答案B解析设频数为n,则0.25,n328.3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和
6、平均数分别是()A.91.5和91.5 B.91.5和92C.91和91.5 D.92和92答案A解析这组数据由小到大排列为87,89,90,91,92,93,94,96,中位数是91.5,平均数91.5.4.如图是100位居民月均用水量的频率分布直方图,则月均用水量为2,2.5)范围内的居民有_人.答案25解析0.50.510025.题组三易错自纠5.若数据x1,x2,x3,xn的平均数5,方差s22,则数据3x11,3x21,3x31,3xn1的平均数和方差分别为()A.5,2 B.16,2C.16,18 D.16,9答案C解析x1,x2,x3,xn的平均数为5,5,135116,x1,x
7、2,x3,xn的方差为2,3x11,3x21,3x31,3xn1的方差是32218.6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m,众数为n,平均数为,则m,n,的大小关系为_.(用“”连接)答案nm解析由图可知,30名学生得分的中位数为第15个数和第16个数(分别为5,6)的平均数,即m5.5;又5出现次数最多,故n5;5.97.故nm乙,ss,所以甲组的研发水平优于乙组.(2)记恰有一组研发成功为事件E,在所抽得的15个结果中,恰有一组研发成功的结果是(a,),(,b),(a,),(,b),(a,),(a,),(,
8、b),共7个.因此事件E发生的频率为.用频率估计概率,即得所求概率为P(E).1.某教育局为了解“跑团”每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是()A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8,9月D.1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳答案D解析由折线图知,月跑步平均里程的中位数为5月份对应的里程数;月跑步平均里程不是逐月增加的;月跑步平均里程高峰期大致在9,10月份,故A,B
9、,C错.2.如图是某样本数据的茎叶图,则该样本的中位数、众数、极差分别是()A.323432B.334535C.344532D.333635答案B解析从茎叶图中知共16个数据,按照从小到大排序后中间的两个数据为32,34,所以这组数据的中位数为33;45出现的次数最多,所以这组数据的众数为45;最大值是47,最小值是12,故极差是35.3.从某中学甲、乙两班各随机抽取10名同学,测量他们的身高(单位:cm),所得数据用茎叶图表示如下,由此可估计甲、乙两班同学的身高情况,则下列结论正确的是()A.甲班同学身高的方差较大B.甲班同学身高的平均值较大C.甲班同学身高的中位数较大D.甲班同学身高在17
10、5 cm以上的人数较多答案A解析逐一考查所给的选项:观察茎叶图可知甲班同学数据波动大,则甲班同学身高的方差较大,A选项正确;甲班同学身高的平均值为169.2,乙班同学身高的平均值为:171,则乙班同学身高的平均值大,B选项错误;甲班同学身高的中位数为168,乙班同学身高的中位数为171.5,则乙班同学身高的中位数大,C选项错误;甲班同学身高在175 cm以上的人数为3人,乙班同学身高在175 cm以上的人数为4人,则乙班同学身高在175 cm以上的人数多,D选项错误.4.为了解学生在课外活动方面的支出情况,抽取了n个同学进行调查,结果显示这些学生的支出金额(单位:元)都在10,50内,其中支出
11、金额在30,50内的学生有117人,频率分布直方图如图所示,则n等于()A.180 B.160 C.150 D.200答案A解析30,50对应的概率为1100.65,所以n180.5.某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品的中位数为()A.20 B.25 C.22.5 D.22.75答案C解析产品的中位数出现在频率是0.5的地方.自左至右各小矩形的面积依次为0.1,0.2,0.4,0.15,0.15,设中位数是x,则由0.10.20.08(x20)0.5,得x22.5,故选C.6.北京市2016年12个月的PM2.5平均浓度指数如图所示
12、.由图判断,四个季度中PM2.5的平均浓度指数方差最小的是()A.第一季度 B.第二季度C.第三季度 D.第四季度答案B解析从题设中提供的图象及数据分析可以看出:第二季度的三个月中PM2.5的平均浓度指数较为平缓,差异不大较为整齐,因此其方差最小,故选B.7.已知样本数据x1,x2,xn的平均数5,则样本数据2x11,2x21,2xn1的平均数为_.答案11解析由x1,x2,xn的平均数5,得2x11,2x21,2xn1的平均数为2125111.8.从某企业的某种产品中抽取1 000件,测量该种产品的一项质量指标值,由测量结果得到如图所示的频率分布直方图,假设这项指标在185,215内,则这项
13、指标合格,估计该企业这种产品在这项指标上的合格率为_.答案0.79解析这种指标值在185,215内,则这项指标合格,由频率分布直方图得到这种指标值在185,215内的频率为(0.0220.0330.024)100.79,所以估计该企业这种产品在这项指标上的合格率为0.79.9.从甲、乙、丙三个厂家生产的同一种产品中抽取8件产品,对其使用寿命(单位:年)进行追踪调查的结果如下:甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12.三个厂家广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的
14、哪一种集中趋势的特征数.甲:_;乙:_;丙:_.答案众数平均数中位数解析甲的众数为8,乙的平均数为8,丙的中位数为8.10.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为_.答案2解析170(12x451011)175,(33x)5,即33x35,解得x2.11.某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图
15、:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w3时,估计该市居民该月的人均水费.解(1)如题图所示,用水量在0.5,2)的频率的和为(0.20.30.4)0.50.45,用水量在0.5,3)的频率的和为(0.20.30.40.50.3)0.50.85.用水量小于等于2立方米的频率为0.45,用水量小于等于3立方米的频率为0.85,又w为整数,为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.(2)当w3时,该市居民该月的人均水费估计为(0.110.151.50.2
16、20.252.50.153)40.15340.05(3.53)0.05(43)0.05(4.53)107.21.81.510.5(元).即当w3时,该市居民该月的人均水费估计为10.5元.12.某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图B地区用户满意度评分的频数分布表满意度评分分组50,60)60,70)70,80)80,90)90,100频数2814106(1)在图中作出B地区用户满意度评分的频率分布直方图,并通过直方图
17、比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图图(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解(1)作出频率分布直方图如图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记CA表示事件:“A地区用户的满意度等级为不满意”
18、;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.010.020.03)100.6,P(CB)的估计值为(0.0050.02)100.25.所以A地区用户的满意度等级为不满意的概率大.13.(2017全国)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,xn的平均数 B.x1,x2,xn的标准差C.x1,x2,xn的最大值 D.x1,x2,xn的中位数答案B解析因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳
19、定程度,应该用样本数据的极差、方差或标准差.故选B.14.共享单车入住泉州一周年以来,因其“绿色出行,低碳环保”的理念而备受人们的喜爱,值此周年之际,某机构为了了解共享单车使用者的年龄段,使用频率、满意度等三个方面的信息,在全市范围内发放5 000份调查问卷,回收到有效问卷3 125份,现从中随机抽取80份,分别对使用者的年龄段、2635岁使用者的使用频率、2635岁使用者的满意度进行汇总,得到如下三个表格:表(一)使用者年龄段25岁以下26岁35岁36岁45岁45岁以上人数20401010表(二)使用频率06次/月714次/月1522次/月2331次/月人数510205表(三)满意度非常满意
20、(910)满意(89)一般(78)不满意(67)人数1510105(1)依据上述表格完成下列三个统计图形:(2)某城区现有常住人口30万,请用样本估计总体的思想,试估计年龄在26岁35岁之间,每月使用共享单车在714次的人数.解(1)(2)由表(一)可知:年龄在26岁35岁之间的有40人,占总抽取人数的一半,用样本估计总体的思想可知,某城区30万人口中年龄在26岁35岁之间的约有3015(万人);又年龄在26岁35岁之间每月使用共享单车在714次之间的有10人,占总抽取人数的,用样本估计总体的思想可知,城区年龄在26岁35岁之间15万人中每月使用共享单车在714次之间的约有15(万人),所以年
21、龄在26岁35岁之间,每月使用共享单车在714次之间的人数约为万人.15.已知样本(x1,x2,xn)的平均数为,样本(y1,y2,ym)的平均数为(),若样本(x1,x2,xn,y1,y2,ym)的平均数a(1a),其中0a,则n,m的大小关系为()A.nm C.nm D.不能确定答案A解析由题意可得,a(1a),所以a,1a,又0a,所以0,所以n59,5148,3629,6845,所以在北京这22天的空气质量中,按平均数来考察,最后4天的空气质量优于最前面4天的空气质量,即选项A正确;AQI不低于100的数据有3个:143,225,145,所以在北京这22天的空气质量中,有3天达到污染程度,即选项B正确;因为12月29日的AQI为225,为重度污染,该天的空气质量最差,即选项C正确;AQI在0,50)的数据有6个:36,47,49,48,29,45,即达到空气质量优的天数有6天,所以选项D错.