1、32 独立性检验的基本思想及其初步应用1.了解分类变量的意义 2.了解 22 列联表的意义 3.了解随机变量 K2的意义4通过对典型案例分析,了解独立性检验的基本思想和方法, 1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的频数表称为列联表22 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为x 1,x 2和y 1,y 2,其样本频数列联表(也称为 22 列联表)为下表y1 y2 总计x1 a b abx2 c d cd总计 ac bd abcd(1)列联表是两个或两个以上分类变量的汇总统计表,
2、现阶段我们仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为 22 列联表(2)列联表有助于直观地观测数据之间的关系 2等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征(2)观察等高条形图发现 和 相差很大,就判断两个分类变量之间有关系aa b cc d3独立性检验(1)定义利用随机变量 K2 来判断“两个分类变量有关系 ”的方法称为独立性检验(2)K2 ,n( ad bc)2(a b)(c d)(a c)(b d)其中 nabcd 为样本容量(3)独立性检验的具体做法根据实际问题的需要确定容许推
3、断“两个分类变量有关系”犯错误概率的上界 ,然后查表确定临界值 k0.利用公式计算随机变量 K2 的观测值 k.如果 kk 0,就推断“X 与 Y 有关系” ,这种推断犯错误的概率不超过 ,否则,就认为在犯错误的概率不超过 的前提下不能推断“X 与 Y 有关系” ,或者在样本数据中没有发现足够证据支持结论“X 与 Y 有关系” 独立性检验的基本思想与反证法的思想的相似之处反证法 独立性检验要证明结论 A 要确认“两个分类变量有关系”在 A 不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算 K2判断正误(正确的打“” ,错误的打 “”)(1)列联表中
4、的数据是两个分类变量的频数( )(2)对事件 A 与 B 的独立性检验无关,即两个事件互不影响 ( )(3)K2 的大小是判断事件 A 与 B 是否相关的统计量( )答案:(1) (2) (3) 某校为了检验高中数学新课程改革的成果,在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如 22 列联表所示(单位:人) ,则其中m_,n_ 80 分及 80 分以上 80 分以下 总计试验班 32 18 50对照班 24 m 50总计 56 44 n答案:26 100若两个分类变量 X 和 Y 的 22 列联表为:y1 y2x1 5 15x2 40 10则 X 与 Y 之间
5、有关系的可信度为_解析:K 2的观测值 k18.810.828.故有 99.9%的把握认为 X 与 Y 有关系答案:99.9%探究点 1 等高条形图的应用为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别 阳性数 阴性数 总计铅中毒病人 29 7 36对照组 9 28 37总计 38 35 73试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?【解】 等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比
6、,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系(1)判断两个分类变量是否有关系的两种常用方法利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法一般地,在等高条形图中, 与 相差越大,两个分类变量有关系的可能性就越aa b cc d大(2)利用等高条形图判断两个分类变量是否相关的步骤研究人员选取 170 名青年男女大学生,对他们进行一种心理测验发现 60名女生对该心理测验中的最后一个题目的反应是:作肯定的有 18 名,否定的有 42 名.110名男生在相同的题目上作肯定的有 22 名,否定的有 88 名试判断性别与态度之间是否有关系解:根据题
7、目所给数据建立如下列联表:肯定 否定 总计女生 18 42 60男生 22 88 110总计 40 130 170相应的等高条形图如图所示比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关探究点 2 独立性检验某新闻媒体为了了解观众对央视开门大吉节目的喜爱与性别是否有关系,随机调查了观看该节目的观众 110 名,得到如下的列联表:女 男 总计喜爱 40 20 60不喜爱 20 30 50总计 60 50 110试根据样本估计总体的思想,估计约有多大的把握认为“喜爱该节目与否和性别有关” ,并说明理由参考附表:P(K2k) 0.050 0.010 0
8、.001k 3.841 6.635 10.828(参考公式:K 2 ,其中 na bc d)n(ad bc)2(a b)(c d)(a c)(b d)【解】 假设喜爱开门大吉节目与否和性别无关K2的观测值 k 7.86.635,P(K 26.635)0.01,110(4030 2020)260506050所以有 99%以上的把握认为“ 喜爱开门大吉节目与否和性别有关” 解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表(2)作出相应的等高条形图,可以利用图形做出相应判断(3)求 K2的观测值(4)判断可能性:与临界值比较,得出事件有关的可能性大小 为了研究学生选报文、理科是否与对外语的
9、兴趣有关,某同学调查了 361名高一在校生,调查结果如下:理科对外语有兴趣的有 138 人,无兴趣的有 98 人,文科对外语有兴趣的有 73 人,无兴趣的有 52 人试分析学生选报文、理科与对外语的兴趣是否有关?解:问题是判断学生选报文、理科是否与对外语的兴趣有关列出 22 列联表如下:理 文 总计有兴趣 138 73 211无兴趣 98 52 150总计 236 125 361由公式得 K2的观测值 k 1.87110 4 .361(13852 7398)2236125211150因为 1.871104 6.635,故有 99%的把握认为箱产量与养殖方法有关 两个分类变量相关关系的判断(1)
10、等高条形图法:在等高条形图中,可以估计满足条件 Xx 1的个体中具有 Yy 1的个体所占的比例 ,也可以估计满足条件 Xx 2的个体中具有 Yy 1的个体所占的比例 .aa b cc d两个比例的值相差越大,X 与 Y 有关系成立的可能性就越大(2)观测值法:通过 22 列联表,先计算 K2的观测值 k,然后借助 k 的含义判断“两个分类变量有关系”这一结论成立的可信程度 某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的 180 节课分为三类课堂教学模式,教师主讲的为 A 模式,少数学生参与的为 B 模式,多数学生参与的为 C 模式,A ,B,C 三类课
11、的节数比例为 321.(1)为便于研究分析,教育专家将 A 模式称为传统课堂模式, B,C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下 22 列联表(单位:节)高效 非高效 总计新课堂模式 60 30 90传统课堂模式 40 50 90总计 100 80 180请根据统计数据回答:能否在犯错误的概率不超过 0.01 的前提下认为课堂教学效率与教学模式有关?并说明理由(2)教育专家采用分层抽样的方法从收集到的 180 节课中选出 12 节课作为样本进行研究,并从样本中的 B 模式和 C 模式课堂中随机抽取 2 节课,求至少有一节课为 C 模式课堂
12、的概率参考临界值有:P(K2k 0) 0.10 0.05 0.025 0.010 0.005 0.001k0 2.706 3.841 5.024 6.635 7.879 10.828参考公式:K 2 ,n(ad bc)2(a b)(c d)(a c)(b d)其中 nabcd.解:(1)由列联表中的统计数据计算随机变量 K2的观测值 k96.635,180(6050 4030)2100809090由临界值表 P(K26.635)0.010 ,所以在犯错误的概率不超过 0.01 的前提下可以认为课堂效率与教学模式有关(2)样本中的 B 模式课堂和 C 模式课堂分别是 4 节和 2 节从中任取两节
13、有 C 15 种取法,其中至少有一节课为 C 模式课堂取法有 C C 9 种,26 26 24所以至少有一节课为 C 模式课堂的概率为 .915 351对于分类变量 X 与 Y 的随机变量 K2 的观测值 k,下列说法正确的是( )Ak 越大, “X 与 Y 有关系” 的可信程度越小Bk 越小, “X 与 Y 有关系” 的可信程度越小Ck 越接近于 0, “X 与 Y 没有关系 ”的可信程度越小Dk 越大, “X 与 Y 没有关系 ”的可信程度越大解析:选 B.k 越大, “X 与 Y 没有关系”的可信程度越小,则“X 与 Y 有关系”的可信程度越大;k 越小, “X 与 Y 有关系”的可信程
14、度越小2下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A性别与喜欢理科无关B女生中喜欢理科的比为 80%C男生比女生喜欢理科的可能性大些D男生不喜欢理科的比为 60%解析:选 C.由图知女生中喜欢理科的比为 20%,男生不喜欢理科的比为 40%,故 B、D 不正确由图知,男生比女生喜欢理科的可能性大些3高中流行这样一句话“文科就怕数学不好,理科就怕英语不好” 下表是一次针对高三文科学生的调查所得的数据总成绩好 总成绩不好 总计数学成绩好 478 a 490数学成绩不好 399 24 423总计 b c 913(1)计算 a,b,c 的值;(2
15、)文科学生总成绩不好与数学成绩不好有关系吗?解:(1)由 478a490,得 a12.由 a24c,得 c122436.由 bc913,得 b91336877.(2)计算随机变量 K2的观测值k 6.2335.024,913(47824 39912)249042387736因为 P(K25.024)0.025,所以在犯错误的概率不超过 0.025 的前提下,认为文科学生总成绩不好与数学成绩不好有关系知识结构 深化拓展1.独立性检验基本思想的理解(1)“P(K26.635)0.01”成立的前提是 H0 成立(2)P(K26.635)近似为 0.01,当样本容量 n 越大时,其近似程度越大(3)K
16、2 与 k 的关系并不是 k ,K 2 是一个随机变量,在K2a,b,c,d 取不同的值时,K 2 可能不同,而 k 是取定一组数a,b,c,d 后的一个值2假设检验与反证法的关系反证法 独立性检验要证明结论 A 提出假设 H0在 A 不成立的前提下进行在 H0 成立的条件下进行推理推出矛盾,意味着结论 A成立推出有利于 H0 成立的小概率事件发生,意味着 H0 成立的可能性小没有找到矛盾,不能对 A下任何结论,即反证法不成立推出有利于 H0 成立的小概率事件不发生,接受原假设, A 基础达标1观察下列各图,其中两个分类变量 x,y 之间关系最强的是( )解析:选 D.在四幅图中,D 图中两个
17、深色条高相差最明显,说明两个分类变量之间关系最强2经过对 K2 的统计量的研究,得到了若干个临界值,当 K22.706 时,我们认为事件 A与 B( )A有 95%的把握认为 A 与 B 有关系B有 99%的把握认为 A 与 B 有关系C没有充分理由说明事件 A 与 B 有关系D不能确定解析:选 C.当 K22.706 时,有 90%以上的把握说明 A 与 B 有关系,但当 K22.706 时,只能说明 A 与 B 是否有关系的理由不够充分,故选 C.3为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了 60 名高中生,通过问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计
18、课外阅读量较大 22 10 32课外阅读量一般 8 20 28总计 30 30 60由以上数据,计算得到 K2 的观测值 k9.643,根据临界值表,以下说法正确的是( )A没有充足的理由认为课外阅读量大与作文成绩优秀有关B有 0.5%的把握认为课外阅读量大与作文成绩优秀有关C在犯错误的概率不超过 0.001 的前提下认为课外阅读量大与作文成绩优秀有关D在犯错误的概率不超过 0.005 的前提下认为课外阅读量大与作文成绩优秀有关解析:选 D.根据临界值表, 9.6437.879,在犯错误的概率不超过 0.005 的前提下,认为课外阅读量大与作文成绩优秀有关4某班主任对全班 50 名学生进行了作
19、业量的评价调查,所得数据如下表所示:认为作业量大 认为作业量不大 总计男生 18 9 27女生 8 15 23总计 26 24 50则认为作业量的大小与学生的性别有关的犯错误的概率不超过( )A0.01 B0.025C0.10 D无充分证据解析:选 B.因为 K2的观测值为 k 5.0595.024,所以认为50(1815 98)227232624作业量的大小与学生的性别有关的犯错误的概率不超过 0.025.5独立性检验所采用的思路是:要研究 X,Y 两个分类变量彼此相关,首先假设这两个分类变量彼此_,在此假设下构造随机变量 K2.如果 K2 的观测值较大,那么在一定程度上说明假设_解析:独立
20、性检验的前提是假设两个分类变量无关系,然后通过随机变量 K2的观测值来判断假设是否成立答案:无关系 不成立6在吸烟与患肺病是否相关的判断中,有下面的说法:若 K2 的观测值 k6.635,则在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系,那么在 100 个吸烟的人中必有 99 人患有肺病;从独立性检验可知在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有 99%的可能患有肺病;从独立性检验可知在犯错误的概率不超过 0.05 的前提下,认为吸烟与患肺病有关系时,是指有 5%的可能性使得推断错误其中说法正确的是_解析:K 2是检验吸烟与患肺病相
21、关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:7为研究某新药的疗效,给 100 名患者服用此药,跟踪调查后得下表中的数据:无效 有效 总计男性患者 15 35 50女性患者 6 44 50总计 21 79 100设 H0:服用此药的效果与患者的性别无关,则 K2 的观测值 k_,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为_解析:由公式计算得 K2的观测值 k4.882.因为 k3.841,所以我们有 95%的把握认为服用此药的效果与患者的性别有关,从而出错的可能性为 5%.
22、答案:4.882 5%8在调查的 480 名男性中有 38 名患有色盲,520 名女性中有 6 名患有色盲,请列出 22列联表,并估计色盲与性别是否有关系解:性别与色盲列联表色盲 不色盲 合计男 38 442 480女 6 514 520合计 44 956 1 000因为在调查的 480 名男性中,色盲占 ,3838 442 19240在调查的 520 名女性中,色盲占 ,66 514 3260 ,且两个比例的值相差较大,19240 3260故估计色盲与性别有关系9某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩的平均分(采用百分制 ),剔除平均分在
23、30 分以下的学生后,共有男生 300名,女生 200 名现采用分层抽样的方法,从中抽取了 100 名学生,按性别分为两组,并将两组学生成绩分为 6 组,得到如下所示频数分布表分数段 40,50) 50,60) 60,70) 70,80) 80,90) 90, 100男 3 9 18 15 6 9女 6 4 5 10 13 2(1)估计男、女生各自的平均分( 同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定 80 分以上为优秀(含 80 分),请你根据已知条件作出 22 列联表,并判断是否在犯错误的概率不超过 0.1 的前提下认为数学成绩与性别有关优秀 非优
24、秀 总计男生女生总计 100解:(1)x 男 450.05550.15650.3750.25850.1950.1571.5,x 女 450.15550.1650.125750.25850.325950.0571.5,因为 x 男 x 女 ,所以从男、女生各自的平均分来看,并不能判断数学成绩与性别是否有关(2)由频数分布表可知,在抽取的 100 名学生中, “男生组 ”中数学成绩优秀的有 15 人,“女生组”中数学成绩优秀的有 15 人,据此可得 22 列联表如下:优秀 非优秀 总计男生 15 45 60女生 15 25 40总计 30 70 100可得 K2的观测值为k 1.79,100(15
25、25 1545)260403070 2514因为 1.792.706,所以在犯错误的概率不超 0.1 的前提下不能认为数学成绩与性别有关B 能力提升10某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总成绩优秀的人数如下表所示,能否在犯错误的概率不超过 0.001 的前提下认为数学成绩优秀与物理、化学、总成绩优秀有关系?物理优秀 化学优秀 总成绩优秀数学优秀 228 225 267数学非优秀 143 156 99注:该年级在此次考试中数学成绩优秀的有 360 人,非优秀的有 880 人解:列出数学成绩与物理成绩的 22 列联表如下:物理优秀 物理非优秀 总计数学
26、优秀 228 132 360数学非优秀 143 737 880总计 371 869 1 240将表中数据代入公式,得 K 的观测值为21k1 270.110.828.1 240(228737 132143)2360880371869列出数学成绩与化学成绩的 22 列联表如下:化学优秀 化学非优秀 总计数学优秀 225 135 360数学非优秀 156 724 880总计 381 859 1 240将表中数据代入公式,得 K 的观测值为2k2 240.610.828.1 240(225724 156135)2360880381859列出数学成绩与总成绩的 22 列联表如下:总成绩优秀 总成绩非优
27、秀 总计数学优秀 267 93 360数学非优秀 99 781 880总计 366 874 1 240将表中数据代入公式,得 K 的观测值为23k3 486.110.828.1 240(267781 9399)2360880366874由上面的分析知,K 2的观测值都大于 10.828,说明在犯错误的概率不超过 0.001 的前提下认为数学成绩优秀与物理、化学、总成绩优秀都有关系11(选做题)2018 年春节, “抢红包”成为社会热议的话题之一某机构对春节期间用户利用手机“抢红包”的情况进行调查,如果一天内抢红包的总次数超过 10 次为“关注点高” ,否则为“关注点低” ,调查情况如下表所示:
28、关注点高 关注点低 总计男性用户 5女性用户 7 8总计 10 16(1)把上表补充完整,并判断能否在犯错误的概率不超过 0.05 的前提下认为性别与关注点高低有关?(2)现要从上述男性用户中随机选出 3 名参加一项活动,以 X 表示选中的同学中抢红包总次数超过 10 次的人数,求随机变量 X 的分布列及数学期望 E(X)下面的临界值表供参考:P(K2k 0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828独立性检验统计量 K2 ,其中 nabcd.n(ad bc)2(a b)(c d)(a c)(b d)解:(1)根据题意得 22 列联表如下:关注点高 关注点低 总计男性用户 3 5 8女性用户 7 1 8总计 10 6 16K2的观测值为 k 4.273.841.16(31 75)210688所以,在犯错误的概率不超过 0.05 的前提下认为性别与关注点高低有关(2)随机变量 X 的所有可能取值为 0,1,2,3.P(X0) ,P(X1) ,528 1528P(X2) ,P(X3) .1556 156得 X 的分布列为X 0 1 2 3P 528 1528 1556 156E(X)0 1 2 3 .528 1528 1556 156 98