1、3.2 独立性检验的基本思想及其初步应用,第三章 统计案例,学习目标 1.了解分类变量的意义. 2.了解22列联表的意义. 3.了解随机变量K2的意义. 4.通过对典型案例分析,了解独立性检验的基本思想和方法.,题型探究,问题导学,内容索引,当堂训练,问题导学,答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.,知识点一 分类变量及22列联表,思考,山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:,答案,如何判定“喜欢体育还是文娱与性别是否有联系”?,(1)分类变量 变量的不同“值”表示个体所属的 ,像这样的变量称为分类变量.
2、 (2)列联表 定义:列出的两个分类变量的 ,称为列联表.,梳理,不同类别,频数表,22列联表 一般地,假设有两个分类变量X和Y,它们的取值分别为 和 ,其样本频数列联表(也称为22列联表)为下表.,x1,x2,y1,y2,知识点二 等高条形图,1.与表格相比,图形更能直观地反映出两个分类变量间是否 ,常用等高条形图展示列联表数据的 特征. 2.如果通过计算或等高条形图发现 相差很大,就判断两个分类变量之间 .,相互影响,频率,有关系,知识点三 独立性检验,1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.,2.K2 ,其中nabcd为样本容量.,3.独立性检验的具体
3、做法 (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定 . (2)利用公式计算随机变量K2的 . (3)如果 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在 不超过的前提下不能推断“X与Y有关系”,或者在样本数据中 支持结论“X与Y有关系”.,临界值k0,观测值k,kk0,犯错误的概率,没有发现足够证据,题型探究,例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:,类型一 利用等高条形图判断两个分类变量是否有关系,试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数
4、有无差别,铅中毒病人与尿棕色素为阳性是否有关系?,解答,解 等高条形图如图所示:,其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.,(1)等高条形图实质上是列联表中的数据的频率特征. (2)由于高度相等的条形分别用两种不同颜色表示,其频率差异更能直观地表现出来.,反思与感悟,跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200
5、人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?,解答,解 根据题目所给的数据得到如下22列联表:,得出等高条形图如图所示:,比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.,例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.,类型二 由K2进行独立性检验,解答,试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.,解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术
6、没有关系,由表中数据得a39,b157,c29,d167,ab196,cd196,ac68,bd324,n392,,因为k1.7792.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论, 即这两种手术对病人又发作过心脏病的影响没有差别.,(1)独立性检验的关注点 在22列联表中,如果两个分类变量没有关系,则应满足adbc0,因此|adbc|越小,关系越弱;|adbc|越大,关系越强. (2)独立性检验的具体做法 根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界,然后查表确定临界值k0.,反思与感悟,如果kk0,推断“X与Y有关系”这种推
7、断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.,跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人. (1)根据以上数据建立一个22列联表;,解答,解 22列联表如下所示:,(2)判断是否有99%的把握说明对新课程教学模式的赞同情况
8、与教师年龄有关系.,解 假设“对新课程教学模式的赞同情况与教师年龄无关”.,解答,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.,例3 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图如图.,类型三 独立性检验的综合应用,将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.,(1)根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”与性别有关?,解答,解 由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而22列联表如下:,将22列联表中
9、的数据代入公式计算,得K2的观测值,因为2.7063.0303.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.,解 数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表,当堂训练,1.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是,2,3,4,5,1,解析,解析 由等高条形图易知,D选项两个分类变量关系最强.,答案,2,3,4,5,1,2.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是 A.100个吸烟者中至少有99
10、人患有肺癌 B.1个人吸烟,那么这个人有99%的概率患有肺癌 C.在100个吸烟者中一定有患肺癌的人 D.在100个吸烟者中可能一个患肺癌的人也没有,解析,解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.,答案,3.下面是一个22列联表:,2,3,4,5,1,则表中a、b处的值分别为 A.94,96 B.52,50 C.52,60 D.54,52,解析,答案,解析 a2173,,a52,ba852860.,4.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:,2,3,4,5,1,解析,根据表中数
11、据得到 因为k6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为 A.0.1 B.0.05 C.0.025 D.0.01,答案,解析 因为k6.635,所以有99%的把握说秃发与患心脏病有关, 故这种判断出错的可能性有10.990.01.,2,3,4,5,1,5.根据下表计算:,2,3,4,5,1,K2的观测值k_.(保留3位小数),答案,解析,4.514,规律与方法,1.列联表与等高条形图 列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解 独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.,本课结束,