1、8.3 列联表与独立性检验列联表与独立性检验 8.3.1 分类变量与列联表分类变量与列联表 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100 m世界世界纪录和创纪录的时间等,都是纪录和创纪录的时间等,都是数值变量数值变量. 数值变量的取值为实数,其大小和运算数值变量的取值为实数,其大小和运算都有实际含义都有实际含义. 在现实生活中,人们经常需要回答在现实生活中,人们经常需要回答一定范围内的两种现象或性质一定范围内的两种现象或性质之间是否存之间是否存在在关联性或相互影响的问题关联性或相互影响的问题. 例如,就读不同学校是否
2、对学生的成绩有影响,不例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等等. 本节将要学习的本节将要学习的独立性检验独立性检验方法为我们提供了解决这类问题的方案方法为我们提供了解决这类问题的方案. 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以以区别不同的现象或性质区别不同的现象或性质,这类随机变量称为,这类随机变量称为分类变量分类变量. 分类变量的取值可以用分类变量的取值
3、可以用实数表示,例如,学生所在的班级可以用实数表示,例如,学生所在的班级可以用1, 2, 3等表示,男性、女性可以用等表示,男性、女性可以用1, 0表表示,等等示,等等. 在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义义. 本节我们主要讨论本节我们主要讨论取值于取值于0, 1的分类变量的分类变量的关联性问题的关联性问题. 1. 分类变量分类变量 问题问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对
4、学生是否经常锻炼的情素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查况进行了普查. 全校学生的普查数据如下全校学生的普查数据如下: 523名女生中有名女生中有331名经常锻炼;名经常锻炼;601名男生中有名男生中有473名经常锻炼名经常锻炼. 你能利用这些数据,说明该校女生和男生在你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗体育锻炼的经常性方面是否存在差异吗? 如何利用统计数据判断一对分类变量之间是否具有关联性呢如何利用统计数据判断一对分类变量之间是否具有关联性呢? 对于这样的统计对于这样的统计问题,有时可以利用普查数据,通过比较相关的
5、比率给出问题的准确回答,但在问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法大多数情况下,需要借助概率的观点和方法. 我们先看下面的具体问题我们先看下面的具体问题. 这是一个简单的统计问题这是一个简单的统计问题. 最直接的解答方法是,比较最直接的解答方法是,比较经常锻炼的学生在女生经常锻炼的学生在女生和男生中的比率和男生中的比率. 由已知数据,可得由已知数据,可得 0f 经经常常锻锻炼炼的的女女生生数数女女生生总总数数1f 经经常常锻锻炼炼的的男男生生数数男男生生总总数数3310.633523,4730.787601. . 该校的女生
6、和男该校的女生和男生在体育锻炼的生在体育锻炼的经常性方面有差经常性方面有差异,而且男生更异,而且男生更经常锻炼经常锻炼. 上面的问题还可以通过建立一个古典概型,上面的问题还可以通过建立一个古典概型,使用条件概率使用条件概率的语言,给出另外的语言,给出另外一一 种解答方法种解答方法. 用用表示该校全体学生构成的集合,则表示该校全体学生构成的集合,则为样本空间,定义一对分类变量为样本空间,定义一对分类变量X和和Y如下如下: 对于对于中的每一名学生,分别令中的每一名学生,分别令 01X ,该该生生为为女女生生,该该生生为为男男生生,01Y ,该该生生不不经经常常锻锻炼炼,该该生生经经常常锻锻炼炼.
7、.下面我们利用已知数据分别来计算这两个条件概率下面我们利用已知数据分别来计算这两个条件概率. 若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为的概率为 而该男生属于经常锻炼群体的概率为而该男生属于经常锻炼群体的概率为 (1|0)P YX,(1|1).P YX为了清楚起见,我们用表格整理数据,如下表所示为了清楚起见,我们用表格整理数据,如下表所示. 性别性别 锻炼锻炼 合计合计 不经常不经常(Y0) 经常经常(Y1) 女生女生(X0) 192 331 523 男生男生(X1) 128 473 601 合计
8、合计 320 804 1124 331(1|0)0.633523P YX,473(1|1)0.787.601P YX(1|1)(1|0)P YXP YX,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼. 2. 列联表列联表 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存要,将数据分类统计,并做成表格加以保
9、存. 我们将形如下表这种形式我们将形如下表这种形式的数据统计表称为的数据统计表称为2 2列联表列联表. 2 2列联表给出了列联表给出了成对分类变量数据的交成对分类变量数据的交叉分类频数叉分类频数. 组别组别 甲甲(Y0) 乙乙(Y1) 合计合计 A(X0) a b ab B(X1) c d cd 合计合计 ac bd abcd 用用表示两所学校的全体学生构成的集合,则表示两所学校的全体学生构成的集合,则为样本空间,对于为样本空间,对于中的每中的每一名学生,定义分类变量一名学生,定义分类变量X和和Y如下:如下: 例例1 为比较甲、为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽乙两
10、所学校学生的数学水平,采用简单随机抽样的方法抽取取88名学生名学生. 通过测验得到了如下数据通过测验得到了如下数据: 甲校甲校43名学生中有名学生中有10 名数学成绩名数学成绩优秀优秀; 乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀. 试分析两校学生中数学成绩优试分析两校学生中数学成绩优秀率之间是否存在差异秀率之间是否存在差异. 解:解: 01X ,该该生生来来自自甲甲校校,该该生生来来自自乙乙校校,01Y ,该该生生数数学学成成绩绩不不优优秀秀,该该生生数数学学成成绩绩优优秀秀. .将所给数据整理成如下将所给数据整理成如下2 2列联表列联表. 学校学校 数学成绩数学成绩 合
11、计合计 不优秀不优秀(Y0) 优秀优秀(Y1) 甲校甲校(X0) 33 10 43 乙校乙校(X1) 38 7 45 合计合计 71 17 88 学校学校 数学成绩数学成绩 合计合计 不优秀不优秀(Y0) 优秀优秀(Y1) 甲校甲校(X0) 33 10 43 乙校乙校(X1) 38 7 45 合计合计 71 17 88 330.767443 ,由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高校学生的数学成绩优秀率比乙校学生的高. 由由2 2列联表可列联表可得,得,甲校学生中数
12、甲校学生中数学成绩不优秀和数学成绩不优秀和数学成绩优秀的频率学成绩优秀的频率分别为分别为 100.232643 . .乙校学生中数学成绩不优秀和乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为数学成绩优秀的频率分别为 380.844445 ,70.155645 . .作出等高堆积条形图如图示作出等高堆积条形图如图示. 甲校甲校 乙校乙校 1.0 0.8 0.6 0.4 0.0 0.2 优秀优秀 不优秀不优秀 思考思考 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的是错误的? 事实上,事实上,“两校学生的数学成绩
13、优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根据两个这个结论是根据两个频率间存在差异推断出来的频率间存在差异推断出来的. 有可能出现这种情况有可能出现这种情况: 在随机抽取的这个样在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的是没有差别的. 这就是说,样本的随机性导致了两个频率间出现较大差异这就是说,样本的随机性导致了两个频率间出现较大差异. 在这种情况下,我们推断出的结论就是错误的在这种情况下,我们推断出的结论就是错误的. 后面我们将讨论犯这种后面我们将讨论犯这种错误的概
14、率大小问题错误的概率大小问题. 变式变式 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有人调查,发现其中经常上网的有200人,这人,这200人中有人中有80人期末考试不及人期末考试不及格,而另外格,而另外800人中有人中有120人不及格利用图形判断学生经常上网与学习成人不及格利用图形判断学生经常上网与学习成绩有关吗?绩有关吗? 解解:根据题目所给的数据得到如下根据题
15、目所给的数据得到如下2 2列联表:列联表: 成绩成绩 上网上网 合计合计 经常上网经常上网 不经常上网不经常上网 不及格不及格 80 120 200 及格及格 120 680 800 合计合计 200 800 1 000 由此可得由此可得得到等高堆积得到等高堆积条形图如图所示:条形图如图所示: 比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关因此可以认为经常上网与学习成绩有关 课本课本127页页 1. 成语“名师出高徒”可以解释为“
16、知名老师指导出高水平学生的概率较成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联大”,即老师的名声与学生的水平之间有关联. 你能举出更多的描述生活你能举出更多的描述生活中两种属性或现象之间关联的成语吗中两种属性或现象之间关联的成语吗? 解:解:例如水涨船高、登高望远等例如水涨船高、登高望远等. 课本课本127页页 2. 例例1中的随机抽样数据是否足够确定与中的随机抽样数据是否足够确定与X和和Y有关的所有概率和条件概率有关的所有概率和条件概率?为什么为什么? 解:解:不能不能. 因为随机抽样得到的样本具有随机性,根据样本数据计算出来因为随机抽
17、样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性的频率也具有随机性. 在统计推断中,依据频率稳定于概率的原理,可以在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与利用频率推断与X和和Y有关的概率和条件概率,但由于频率具有随机性,这有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误种推断可能犯错误. 因此,随机抽样数据不足以确定与因此,随机抽样数据不足以确定与X和和Y有关的所有概有关的所有概率和条件概率率和条件概率. 课本课本127页页 3. 根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语. 那么那
18、么 (1) 吸烟是否对每位烟民一定会引发健康问题吸烟是否对每位烟民一定会引发健康问题? (2) 有人说吸烟不一定引起健康问题,因此可以吸烟有人说吸烟不一定引起健康问题,因此可以吸烟. 这种说法对吗这种说法对吗? 解:解:(1) 从已掌握的知识来看,吸烟会损害身体的健康从已掌握的知识来看,吸烟会损害身体的健康. 但除了吸烟之但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果的结果. 吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者. 因因此健康与吸烟
19、有关联,即从统计意义上讲,吸烟会损害健康,但不一定此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题会对每位烟民都引起健康问题. (2) 这种说法不正确这种说法不正确. 虽然吸烟不一定会对每个人都引起健康问题,但根虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一吸烟不一定引起健康问题,因此可以吸烟定引起健康问题,因此可以吸烟”的说法是不对的的说法是不对的. 课本课本127页页 4. 假设在本小节“问题”中,只是随机抽取了假设在本小节“问题”中,只是
20、随机抽取了44名学生,按照性别和体名学生,按照性别和体育锻炼情况整理为如下的列联表育锻炼情况整理为如下的列联表: 性别性别 锻炼锻炼 合计合计 不经常不经常 经常经常 女生女生 5 15 20 男生男生 6 18 24 合计合计 11 33 44 (1) 据此推断性别因素是否影响据此推断性别因素是否影响学生锻炼的经常性;学生锻炼的经常性; (2) 说明你的推断结论是否可能说明你的推断结论是否可能犯错,并解释原因犯错,并解释原因. 课本课本127页页 性别性别 锻炼锻炼 合计合计 不经常不经常(Y0) 经常经常(Y1) 女生女生(X0) 5 15 20 男生男生(X1) 6 18 24 合计合计
21、 11 33 44 (1) 据此推断性别因素是否影据此推断性别因素是否影响学生锻炼的经常性;响学生锻炼的经常性; (2) 说明你的推断结论是否可说明你的推断结论是否可能犯错,并解释原因能犯错,并解释原因. 解:解: (1)根据列联表中的数据根据列联表中的数据,计算得男女生中不经常锻,计算得男女生中不经常锻炼和经常锻炼的频率分别为炼和经常锻炼的频率分别为 50.2520 ,150.7520 . .通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断经常锻炼的频
22、率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响因此,可以认为性别对体育锻炼的经常性没有影响. 60.2524 ,180.7524 ,(2) 推断可能犯错误推断可能犯错误. 因为样本是通过随机抽样得到的,频率具有随机性,因因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误此推断可能犯错误. 小结:小结: 1. 分类变量分类变量 用以区别不同的用以区别不同的现象现象或或性质性质的一种特殊的随机变量,称为分类变量的一种特殊的随机变量,称为分类变量分类变量的取值可以用实数表示,例如,学生所在的班级可以用分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表示,等等表示,等等 2. 列联表列联表 将形如下表这种形式的数据统计表称为将形如下表这种形式的数据统计表称为2 2列联表列联表. 2 2列联表给出列联表给出了了成对分类变量数据的交叉分类频数成对分类变量数据的交叉分类频数. 组别组别 甲甲(Y0) 乙乙(Y1) 合计合计 A(X0) a b ab B(X1) c d cd 合计合计 ac bd abcd