1、3.2 独立性检验的基本思想及其初步应用1分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的_,像这样的变量称为分类变量(2)列联表:定义:列出的两个分类变量的_称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系2等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否_,常用等高条形图表示列联表数据的_(2)观察等高条形图发现_和_相差很大,就判断两个分类变量之间有关系3独立性检验(1)定义:利用随机变量来判断“两个分类变量
2、有关系”的方法称为独立性检验(2)公式:,其中_为样本容量(3)独立性检验的具体步骤确定,根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_;计算的观测值,利用公式计算随机变量的观测值为_;下结论,如果_,就推断“与有关系”,这种推断_不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中_支持结论“与有关系”学-科网K知识参考答案:1(1)不同类别(2)频数表2(1)相互影响频率特征(2)3(2)(3)临界值观测值犯错误的概率没有发现足够证据K重点了解分类变量的意义,会列出的列联表,会计算,并理解其意义K难点了解实际推理
3、和假设检验的基本思想K易错思维不清易出错,错把统计当确定列联表和等高条形图的应用某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系【答案】见解析【解析】作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比
4、例高,可以认为考前紧张与性格类型有关【名师点睛】(1)判断两个分类变量是否有关系的两种常用方法:利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法;一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大(2)利用等高条形图判断两个分类变量是否相关的步骤:独立性检验某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总数喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总数262450则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为0.500.400.250.150.100.050.0250.0100.0050.
5、0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828A99%B97.5%C95%D无充分依据【答案】B【解析】由表中数据得的观测值,所以约有97.5%的把握认为两变量之间有关系故选B 某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18725学习积极性一般61925合计242650(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法
6、分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由?参考公式及数据:,其中为样本容量0.0500.0100.0013.8416.63510.828【答案】(1),;(2)有99.9%的把握说学习积极性与对待班级工作的态度有关系【解析】(1)积极参加班级工作的学生有24人,总人数为50人概率为;不太主动参加班级工作且学习积极性一般的学生有19人,概率为(2)由表中数据可得,所以有99.9%的把握说学习积极性与对待班级工作的态度有关系【名师点睛】独立性检验的步骤如下:第一步,确定分类变量,获取样本频数,得到列联表第二步,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的
7、上界,然后查表确定临界值第三步,利用公式计算随机变量的观测值第四步,作出判断如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”思维不清易出错,错把统计当确定试分析下列说法正确与否:在用独立性检验的方法检验某单位招聘行政工作人员和技术工作人员所招聘的男女人数时,得到了的观测值为,这就证明该单位在两类工作岗位上的招聘中一定存在性别歧视【错解】这种说法都是正确的【错因分析】统计思维得出的结论是带有随机性的、不能完全确定的结论错解中依据确定性思维对统计计算的结果给出了错误的解
8、释【正解】说法错误根据独立性检验,当的观测值为时,有95%的把握认为该单位在两类工作岗位上的招聘中存在性别歧视,即该单位在招聘工作中存在性别歧视的嫌疑很大,概率高达95%,即使是这样也不能100%肯定该单位在招聘工作中存在性别歧视学+科网另一方面,由于男女在选择工作岗位上的心理不同,也会造成各个岗位招聘男女人数的差异,导致计算的的观测值过大,因此,单纯从这个计算结果不能得出该单位在两类工作岗位上的招聘中一定存在性别歧视的结论1下列关于K2的说法正确的是AK2在任何相互独立问题中都可以用来检验是有关还是无关BK2的值越大,两个事件的相关性就越大CK2是用来判断两个分类变量是否有关系的随机变量,只
9、对于两个分类变量适合DK2的观测值k的计算公式为2如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出A性别与喜欢理科无关B女生中喜欢理科的比为80%C男生比女生喜欢理科的可能性大些D男生不喜欢理科的比为60%3假设有两个分类变量X和Y,它们的值分别为x1,x2和y1,y2,其列联表如下:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为Aa=5,b=4,c=3,d=2Ba=5,b=3,c=4,d=2Ca=2,b=3,c=4,d=5Da=3,b=2,c=4,d=54在吸烟与患肺癌这
10、两个分类变量的独立性检验的计算中,下列说法正确的是A若K2的观测值为k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D以上三种说法都不正确5为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032
11、课外阅读量一般82028总计303060则下说法正确的是A在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B在犯错误的概率不超过0.001的前提下认为“作文成绩优秀与课外阅读量大有关”C在犯错误的概率不超过0.05的前提下认为“作文成绩优秀与课外阅读量大有关”D在犯错误的概率不超过0.005的前提下认为“作文成绩优秀与课外阅读量大有关”6通过随机询问110名性别不同的大学生是否爱好排球运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由算得k7.8附表:P(K2k)0.0500.0100.001k3.8416.63510.828参照附表,
12、得到的正确结论是A在犯错误的概率不超过0.01的前提下,认为“爱好排球运动与性别有关”B在犯错误的概率不超过0.01的前提下,认为“爱好排球运动与性别无关”C在犯错误的概率不超过0.001的前提下,认为“爱好排球运动与性别有关”D在犯错误的概率不超过0.001的前提下,认为“爱好排球运动与性别无关”7若由一个22列联表中的数据计算得k4.013,那么在犯错误的概率不超过_的前提下认为两个变量之间有关系8利用独立性检验来考虑两个分类变量与是否有关系时,通过查阅下表来确定“与有关系”的可信度如果,那么就有把握认为“与有关系”的百分比为_0.500.400.250.150.100.050.0250.
13、0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8289某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众与年龄_(填“有关”或“无关”)10某校对学生课外活动进行调查,结果整理成下表:体育文娱合计男生212344女生62935合计275279运用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关
14、系”?参考公式和数据:11为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:男女需要4030不需要160270(1)估计该地区老年人中需要志愿者提供帮助的老年人的比例;(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?参考公式和数据:12调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人(1)将列联表补充完整;出生时间总计晚上白天男婴女婴总计(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生
15、时间有关系?参考公式和数据:13下列关于等高条形图的叙述正确的是A从等高条形图中可以精确地判断两个分类变量是否有关系B从等高条形图中可以看出两个变量频数的相对大小C从等高条形图中可以粗略地看出两个分类变量是否有关系D以上说法都不对14有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计多看电视6842110少看电视203858总计8880168则大约有多大的把握认为多看电视与人变冷漠有关系A99.9%B97.5%C95%D99%15某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表,为了判断主修统计专业是否与性别有关系,根据表中的数据,
16、得到随机变量K2的观测值:k4.8443.841因此判定主修统计专业与性别有关系,那么这种判断出错的概率为_非统计专业统计专业男1310女72016在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲下列说法正确的是A男、女人患色盲的频率分别为0.038,0.006B男、女人患色盲的概率分别为,C男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D调查人数太少,不能说明色盲与性别有关17下表是某地区的一种传染病与饮用水的调查表:得病不得病合计干净水52466518不干净水94218312合计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由
17、;(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异18某企业有两个分厂生产某种零件,规定内径尺寸(单位:mm)的值落在2994,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面22列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”甲厂乙厂合计优质品非优质品合计参考公式和数据:19某城市随机抽取一年(365天)内100天的空气质量指数的监测数据,结果统
18、计如下:空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数413183091115记某企业每天由空气污染造成的经济损失为(单位:元),空气质量指数为在区间0,100对企业没有造成经济损失;在区间对企业造成的经济损失成直线模型(当为150时,造成的经济损失为500元,当API为200时,造成的经济损失为700元);当大于300时造成的经济损失为2000元(1)试写出的表达式;(2)试估计在本年内随机抽取一天,该天经济损失S大于500元且不超过900元的概率;(3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断能否有95%的把握认为该市本年空气重度污染
19、与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100附:P(K2k0)0.250.150.100.050.0250.0100.0050.001k01.3232.0722.7063.8415.0246.6357.87910.82820(2017新课标全国II)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量50 kg箱产量50 kg旧养殖法
20、新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P()0.050 0.010 0.001k3.841 6.635 10.828 21(2018新课标全国理)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工
21、人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:P()0.0500.0100.001k3.8416.63510.8281【答案】C【解析】K2是用来判断两个分类变量是否有关的随机变量,所以A错;K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性的大小,B错;D中应为故选C4【答案】C【解析】在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,即不表示二者的关系具体有多大,而只是指“有关系”的可信度为99%,或者说把“没有关系”误判为“有关系”的概率为1%故选C学+科网5【答案
22、】D【解析】因为的观测值,所以在犯错误的概率不超过的前提下认为作文成绩优秀与课外阅读量大有关故选D6【答案】A【解析】因为7.86.635,所以在犯错误的概率不超过0.01的前提下,认为“爱好排球运动与性别有关”故选A7【答案】0.05【解析】因为随机变量k2的观测值k4.0133.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系8【答案】95%【解析】因为,所以有把握认为“与有关系”的百分比为95%9【答案】有关【解析】因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,两者相差较大,所以认为收看新闻节目的观众
23、与年龄有关11【答案】(1);(2)在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关【解析】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为(2)由题可得K2的观测值,由于9.9676.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关12【答案】(1)见解析;(2)在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系【解析】(1)补充完整的列联表如下:出生时间总计晚上白天男婴243155女婴82634总计325789(2)由所给数据计算的观测值根据临界值表
24、知,因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系13【答案】C【解析】在等高条形图中仅能粗略判断两个分类变量的关系,故A错,C正确,在等高条形图中仅能够找出频率,无法找出频数,故B错故选C16【答案】C【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的故选C17【答案】(1)见解析;(2)见解析【解析】(1)根据题目中的列联表,及公式得因为,因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关(2)依题意得列联表:得病不得病合计干净水55055不干净水92231合计147286由公式得由,所以我们有
25、97.5%的把握认为该种传染病与饮用水的卫生程度有关两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性18【答案】(1)甲厂生产的零件的优质品率为,乙厂生产的零件的优质品率为;(2)在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”【解析】(1)甲厂抽查的产品中有360件优质品,从而估计甲厂生产的零件的优质品率为;乙厂抽查的产品中有320件优质品,从而估计乙厂生产的零件的优质品率为(2)列联表如下:甲厂乙厂合计优质品360320680非优质
26、品140180320合计5005001000所以,因此,在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”19【答案】(1);(2);(3)有95%的把握认为该市本年空气重度污染与供暖有关【解析】(1)由题意得当时,;当时,设,由题意可知时,;时,从而可得,解得,所以;当时,综上,可得(2)设“在本年内随机抽取一天,该天经济损失大于500元且不超过900元”为事件,由,即,得,对应的频数为39,所以(3)根据题中数据得到如下列联表:非重度污染重度污染合计供暖季22830非供暖季63770合计8515100的观测值,所以有95%的把握认为该市本年空气重度
27、污染与供暖有关20【答案】(1)0.62;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)新养殖法优于旧养殖法【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)5=0.62因此事件A的概率估计值为0.62(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法3466由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 k
28、g到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高(以上给出了4种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知列联表如下:超过不超过第一种生产方式155第二种生产方式515(3)由于,所以有99%的把握认为两种生产方式的效率有差异本学期结束