ImageVerifierCode 换一换
格式:PPT , 页数:28 ,大小:360.71KB ,
资源ID:218309      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,更优惠
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.77wenku.com/d-218309.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(8.3.2 独立性检验ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册)为本站会员(吹**)主动上传,七七文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知七七文库(发送邮件至373788568@qq.com或直接QQ联系客服),我们立即给予删除!

8.3.2 独立性检验ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册

1、8.3.2 独立性检验独立性检验 复习:复习: 1. 分类变量分类变量 用以区别不同的用以区别不同的现象现象或或性质性质的一种特殊的随机变量,称为分类变量的一种特殊的随机变量,称为分类变量分类变量的取值可以用实数表示,例如,学生所在的班级可以用分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表示,等等表示,等等 2. 列联表列联表 将形如下表这种形式的数据统计表称为将形如下表这种形式的数据统计表称为2 2列联表列联表. 2 2列联表给出列联表给出了了成对分类变量数据的交叉分类频数成对分类变量数据的交叉分类频数. 组别组别

2、甲甲(Y0) 乙乙(Y1) 合计合计 A(X0) a b ab B(X1) c d cd 合计合计 ac bd abcd 前面我们通过前面我们通过2 2列联表整理成对分类变量的样本观测数据,并根据随机事件列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联频率的稳定性推断两个分类变量之间是否有关联. 对于随机样本而言,因为频率对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大本容量较小时,犯错误的可能性会

3、较大. 因此,需要因此,需要找到一种更为合理的推断方找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算法,同时也希望能对出现错误推断的概率有一定的控制或估算. 设设X和和Y为定义在以为定义在以为样本空间上,且取值于为样本空间上,且取值于0, 1 的的成对分类变量成对分类变量,则判断,则判断事件事件X=1和和Y=1之间是否有关联,主要是看以下假定关系是否成立之间是否有关联,主要是看以下假定关系是否成立. 1. 零假设或原假设零假设或原假设 在这里我们通常把在这里我们通常把H0称为称为零假设零假设或或原假设原假设. 其中其中P(Y=1|X=0)表示从表示从X=0中随机选

4、一个样本点,该样本点属于中随机选一个样本点,该样本点属于X=0, Y=1的概率;的概率;P(Y=1|X=1)表示从表示从X=1中随机选一个样本点,该样本点属于中随机选一个样本点,该样本点属于X=1, Y=1的概率的概率. 0(1|0)(1|1).HP YXP YX:由条件概率的定义可知,零假设由条件概率的定义可知,零假设H0等价于等价于 零假设或原假设:零假设或原假设: 由于由于X=0和和X=1为对立事件,故有为对立事件,故有 0(1|0)(1|1).HP YXP YX:(10)(11)(0)(1)(10) (1)(11) (0).P YXP YXP XP XP YXP XP YXP X ,或

5、或,(0)1(1).P XP X(01)(1)(11).P XYP YP XY,(1) (1)(11).P XP YP XY等等价价于于, ,由此,由此,零假设零假设H0等价于等价于X=1和和Y=1独立独立. 由于下列四条性质彼此等价:由于下列四条性质彼此等价: X=0和和Y=0独立;独立;X=0和和Y=1独立;独立;X=1和和Y=0独立;独立;X=1和和Y=1独立独立. 如果如果这些性质成立这些性质成立,我们就称,我们就称分类变量分类变量X和和Y独立独立. 这相当于下面四个等式成立这相当于下面四个等式成立: (00)(0) (0)(01)(0) (1)(10)(1) (0)(11)(1) (

6、1)P XYP XP YP XYP XP YP XYP XP YP XYP XP Y, ,;, ,;, ,;,.,. 因此,我们可以用概率语言,将零假设改述为因此,我们可以用概率语言,将零假设改述为 H0: 分类变量分类变量X和和Y独立独立. 思考思考 如何基于中的四个等式及下列如何基于中的四个等式及下列22列联表中的数据,构造适当的统列联表中的数据,构造适当的统计量,对成对分类变量计量,对成对分类变量X和和Y是否相互独立作出推断是否相互独立作出推断? X Y 合计合计 Y0 Y1 X0 a b ab X1 c d cd 合计合计 ac bd abcd 2(00)(0) (0)()()P XY

7、P XP Yab acn 由由于于, ,则事件则事件X=0, Y=0发生的频数的发生的频数的期望值期望值(或预期值或预期值)为为 ()().ab acn所以如果零假设所以如果零假设H0成立,下面四个量的取值都不应该太大成立,下面四个量的取值都不应该太大: ()()()()()()()()| | | |ab acab bdcd accd bdabcdnnnn,. .反之,当这些量的取值较大时,就可以推断反之,当这些量的取值较大时,就可以推断H0不成立不成立. 显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够计

8、算分布的统计量,来推断计算分布的统计量,来推断H0是否成立是否成立. 一般来说,若频数的期望值较大,则差的绝对值也会较大;而若频数的期望一般来说,若频数的期望值较大,则差的绝对值也会较大;而若频数的期望值较小,则相应的差的绝对值也会较小值较小,则相应的差的绝对值也会较小. 为了合理地平衡这种影响,我们将为了合理地平衡这种影响,我们将四个四个差的绝对值取平方后分别除以相应的期望值再求和差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量,得到如下的统计量: 22222()()()()()()()()=()()()()()()()()ab acab bdcd accd bdabcdnnn

9、nab acab bdcd accd bdnnnn +.+.该表达式可化简为该表达式可化简为 22().()()()()n adbcab cd ac bd 上述表达式是上述表达式是2的计算公式,的计算公式, 2读作读作“卡方卡方”. 随机变量随机变量2取值的大小可作为判断零假设取值的大小可作为判断零假设H0是否成立的依据是否成立的依据,当它比较大时,当它比较大时推断推断H0不成立,否则认为不成立,否则认为H0成立成立. 那么,究竟那么,究竟2大到什么程度,可以推断大到什么程度,可以推断H0不成不成立呢立呢? 或者说,怎样确定判断或者说,怎样确定判断2大小的标准呢大小的标准呢? 小概率值小概率值

10、的临界值的临界值: 忽略忽略2的实际分布与该近似分布的误差后,对于任何小概率值的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相,可以找到相应的正实数应的正实数x,使得,使得P(2 x)=成立成立. 我们称我们称x为为的的临界值临界值,这个,这个临界值就可作临界值就可作为判断为判断2大小的标准,概率值大小的标准,概率值越小,临界值越小,临界值x越大越大. 由由P(2 x)=可知,只要把概率值可知,只要把概率值取得充分小,在假设取得充分小,在假设H0成立成立的情况下,的情况下,事事件件2 x是不大可能发生的是不大可能发生的. 根据这个规律,如果根据这个规律,如果该事件发生,我们就可以推

11、断该事件发生,我们就可以推断H0不成立不成立. 22().()()()()n adbcab cd ac bd 2计算公式:计算公式: 基于小概率值基于小概率值的检验规则是的检验规则是: 当当2x时,我们就推断时,我们就推断H0不成立,即认为不成立,即认为X和和Y不独立,该推断犯错误的概率不独立,该推断犯错误的概率不超过不超过; 当当2x时,我们没有充分证据推断时,我们没有充分证据推断H0不成立,可以认为不成立,可以认为X和和Y独立独立. 这种利用这种利用2的取值推断分类变量的取值推断分类变量X和和Y是否独立的方法称为是否独立的方法称为2独立性检验独立性检验,读作,读作“卡方独立性检验卡方独立性

12、检验”,简称,简称独立性检验独立性检验. 下表给出了下表给出了2独立性检验中几个常用的小概率值和相应的临界值独立性检验中几个常用的小概率值和相应的临界值. 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 例如,对于小概率值例如,对于小概率值=0.05,我们有如下的具体检验规则,我们有如下的具体检验规则: (1)当当2 x0.05=3.841时,我们推断时,我们推断H0不成立,即认为不成立,即认为X和和Y不独立,该推断犯错不独立,该推断犯错误的概率不超过误的概率不超过0.05; (2)当当2 x0.05=3.841时,我们没有

13、充分证据推断时,我们没有充分证据推断H0不成立,可以认为不成立,可以认为X和和Y独立独立. 零假设为零假设为H0: 分类变分类变量量X与与Y相互独立,即两校相互独立,即两校学生的数学成绩优秀率无学生的数学成绩优秀率无差异差异. 根据表中的数据,计根据表中的数据,计算得到算得到 例例2 依据小概率值依据小概率值=0.1的的2 独立性检验,分析例独立性检验,分析例1中的抽样数据,能否据中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异此推断两校学生的数学成绩优秀率有差异? 解:解: 学校学校 数学成绩数学成绩 合计合计 不优秀不优秀(Y0) 优秀优秀(Y1) 甲校甲校(X0) 33 10 4

14、3 乙校乙校(X1) 38 7 45 合计合计 71 17 88 2288(33 710 38)43 45 71 17 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 0.837 根据小概率值根据小概率值=0.1的的2独立性检验,没有充分证据推断独立性检验,没有充分证据推断H0不成立,因不成立,因此可以认为此可以认为H0成立,即认为两校的数学成绩优秀率没有差异成立,即认为两校的数学成绩优秀率没有差异. 0.12.706.x 思考思考 例例1和例和例2都是基于同一组数据的分析,但却得出了不同的结论,你能都是基于同一组数据的分析

15、,但却得出了不同的结论,你能说明其中的原因吗说明其中的原因吗? 事实上,如前所述,例事实上,如前所述,例1只是根据只是根据一个样本的两个频率间存在差异一个样本的两个频率间存在差异得出得出两校学生数学成绩优秀率两校学生数学成绩优秀率有差异有差异的结论,并没有考虑由的结论,并没有考虑由样本随机性样本随机性可能导可能导致的错误,所以例致的错误,所以例1的推断依据不太充分,在例的推断依据不太充分,在例2中,我们中,我们用用2独立性检验独立性检验对零假设对零假设H0进行了检验进行了检验. 通过计算,发现通过计算,发现2 0.837小于小于=0.1所对应的临界所对应的临界值值2.706,因此认为,因此认为

16、没有充分证据推断没有充分证据推断H0不成立不成立,所以接受,所以接受H0 ,推断出两,推断出两校学生的数学成绩优秀率校学生的数学成绩优秀率没有显著差异没有显著差异的结论的结论. 这个检验结果意味着,这个检验结果意味着,抽抽样数据中两个频率的差异很有可能是由样本随机性导致的样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,因此,只根据只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的. 由此可见,相对于简单比较两个频率的推断,由此可见,相对于简单比较两个频率的推断,用用2独立性检验得到的结独立性检验得到的结果更

17、理性、更全面,理论依据也更充分果更理性、更全面,理论依据也更充分. 零假设为零假设为H0: 疗法与疗效独立,即疗法与疗效独立,即两种疗法效果没有差异两种疗法效果没有差异. 由已知数据列出列联表由已知数据列出列联表. 例例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患抽到接受甲种疗法的患儿儿67名,其中未治愈名,其中未治愈15名,治愈名,治愈52名名; 抽到接受乙种疗法的患儿抽到接受乙种疗法的患儿69名,

18、其中名,其中未治愈未治愈6名,治愈名,治愈63名名. 试根据小概率值试根据小概率值=0.005的独立性检验,分析乙种疗的独立性检验,分析乙种疗法的效果是否比甲种疗法好法的效果是否比甲种疗法好. 解:解: 疗法疗法 疗效疗效 合计合计 未治愈未治愈 治愈治愈 甲甲 15 52 67 乙乙 6 63 69 合计合计 21 115 136 22136(15 6352 6)67 69 21 115 4.881 根据小概率值根据小概率值=0.005的的2独立性检验,没有充分证据推断独立性检验,没有充分证据推断H0不成立,不成立,因此可以认为因此可以认为H0成立,即认为两种疗法效果没有差异成立,即认为两种

19、疗法效果没有差异. 0.0057.879.x 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 对犯错误概率的解释对犯错误概率的解释 在零假设在零假设H0成立的前提下,随着成立的前提下,随着小概率值小概率值的逐渐减小的逐渐减小, 2统计量对应的统计量对应的临临界值界值x逐渐增大逐渐增大,则事件,则事件2 x越来越不容易发生,越来越不容易发生,零假设越来越不容易被拒零假设越来越不容易被拒绝绝;随着;随着小概率值小概率值的逐渐增大的逐渐增大, 2统计量对应的统计量对应的临界值临界值x逐渐减小逐渐减小,则事件,则事件2 x越来越容易

20、发生,越来越容易发生,零假设越来越容易被拒绝零假设越来越容易被拒绝. 例如,对于例例如,对于例3中的数据,经计算得中的数据,经计算得2 4.881. (1) 当小概率值当小概率值=0.005时,时,x0.005=7.879, 此时此时2 4.8813.841,则,则拒绝零假设拒绝零假设,即认为两种疗法的效果,即认为两种疗法的效果有差异有差异,该推断犯错误的概率不超过该推断犯错误的概率不超过0.05. (3)当小概率值当小概率值=0.1时,时,x0.05=2.706, 此时此时2 4.8812.706,则,则拒绝零假设拒绝零假设,即认为两种疗法的效果即认为两种疗法的效果有差异有差异,该推断犯错误

21、的概率不超过该推断犯错误的概率不超过0.1. 观察观察 在例在例3的的22列联表中,若对调两种疗法的位置或对调两种疗效的位列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中置,则卡方计算公式中a, b, c, d的赋值都会相应地改变的赋值都会相应地改变. 这样做会影响这样做会影响2取值取值的计算结果吗的计算结果吗? 疗法疗法 疗效疗效 合计合计 未治愈未治愈 治愈治愈 甲甲 15 52 67 乙乙 6 63 69 合计合计 21 115 136 22136(15 6352 6)4.881.67 69 21 115 这说明,对调两种疗法的位置,不会影响这说明,对调两种疗法的位置

22、,不会影响2取值的计算结果,同理对调取值的计算结果,同理对调两种疗效的位置也不会影响结果两种疗效的位置也不会影响结果. 对调前对调前 疗法疗法 疗效疗效 合计合计 未治愈未治愈 治愈治愈 乙乙 6 63 69 甲甲 15 52 67 合计合计 21 115 136 对调后对调后 22136(6 5263 15)69 67 21 115 4.881. 变式变式1 为了研究每周累计户外暴露时间是否足够为了研究每周累计户外暴露时间是否足够(单位:小时单位:小时)与近视发病率的关与近视发病率的关系,对某中学一年级系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:名学生进行不记名问卷调查,

23、得到如下数据: 近视近视 不近视不近视 足够的户外暴露时间足够的户外暴露时间 20 35 不足够的户外暴露时间不足够的户外暴露时间 30 15 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 (1)用样本估计总体思想估计该中学一年级学生的近视率;用样本估计总体思想估计该中学一年级学生的近视率; (2)能否在犯错误的概率不超过能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视的前提下认为不足够的户外暴露时间与近视有关系?有关系? (1) 零假设为零假设为H0: 户外暴露时间与近视率相互独立户外暴露时间与近视

24、率相互独立. 由题可知该中学一年级由题可知该中学一年级学生近视的人数为学生近视的人数为50,总数为,总数为100,利用样本估计总体思想可知,利用样本估计总体思想可知50该中学一年该中学一年级学生的近视率为级学生的近视率为 解:解: 5010050 .100 变式变式1 为了研究每周累计户外暴露时间是否足够为了研究每周累计户外暴露时间是否足够(单位:小时单位:小时)与近视发病率的关与近视发病率的关系,对某中学一年级系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:名学生进行不记名问卷调查,得到如下数据: 近视近视 不近视不近视 足够的户外暴露时间足够的户外暴露时间 20 35 不足

25、够的户外暴露时间不足够的户外暴露时间 30 15 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 (2)能否在犯错误的概率不超过能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视的前提下认为不足够的户外暴露时间与近视有关系?有关系? (2) 由卡方计算公式,可得由卡方计算公式,可得 解:解: 22100(20 1535 30)9.0916.635.55 45 50 50 在犯错误的概率不超过在犯错误的概率不超过0.01的前提下可以推断的前提下可以推断H0不成立,即认为不足够的不成立,即认为不足够的户外暴露

26、时间与近视有关系户外暴露时间与近视有关系. 变式变式2 为了研究每周累计户外暴露时间是否足够为了研究每周累计户外暴露时间是否足够(单位:小时单位:小时)与近视发病率的关与近视发病率的关系,对某中学一年级系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:名学生进行不记名问卷调查,得到如下数据: 近视近视 不近视不近视 足够的户外暴露时间足够的户外暴露时间 20 35 不足够的户外暴露时间不足够的户外暴露时间 30 15 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 能否在犯错误的概率不超过能否在犯错误的概率不超

27、过0.001的前提下认为不足够的户外暴露时间与近的前提下认为不足够的户外暴露时间与近视有关系?视有关系? 由卡方计算公式,可得由卡方计算公式,可得 解:解: 22100(20 1535 30)9.09110.828.55 45 50 50 没有充分证据推断没有充分证据推断H0不成立,因此可以认为不成立,因此可以认为H0成立,即不足够的户外暴成立,即不足够的户外暴露时间与近视没有关系露时间与近视没有关系. 零假设为零假设为H0: 吸烟与患肺癌之间无吸烟与患肺癌之间无关联,由表中数据可得关联,由表中数据可得 例例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的为研究吸烟是否与肺癌

28、有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险的独立性检验,分析吸烟是否会增加患肺癌的风险. 解:解: 吸烟吸烟 肺癌肺癌 合计合计 非肺癌患者非肺癌患者 肺癌患者肺癌患者 非吸烟者非吸烟者 7775 42 7817 吸烟者吸烟者 2099 49 2148 合计合计 9874 91 9965 229965(7775 4942 2099)7817 2148 9874 91 0.1 0.0

29、5 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 56.632 根据小概率值根据小概率值=0.001的的2独立性检验,独立性检验,推断推断H0不成立,即认为吸烟与患肺癌有关不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于联,此推断犯错误的概率不大于0.001. 0.00110.828.x 例例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示人,得到成对样本观测数据的分类统

30、计结果,如下表所示. 依据小概率值依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险的独立性检验,分析吸烟是否会增加患肺癌的风险. 解:解: 吸烟吸烟 肺癌肺癌 合计合计 非肺癌患者非肺癌患者 肺癌患者肺癌患者 非吸烟者非吸烟者 7775 42 7817 吸烟者吸烟者 2099 49 2148 合计合计 9874 91 9965 根据列联表中的数据计算,不吸烟根据列联表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为者中不患肺癌和患肺癌的频率分别为 吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的频率分别为 7775420.99460.0054;781778

31、17和和因此可以推断乙种疗法的效果比甲种疗法好因此可以推断乙种疗法的效果比甲种疗法好. 2099490.97720.0228.21482148和和0.02284.20.0054 由由, ,可可知知在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌. 应用独立性检验解决实际问题大致应包括以下几个主

32、要环节应用独立性检验解决实际问题大致应包括以下几个主要环节: (1) 提出零假设提出零假设H0: X和和Y相互独立,并给出在问题中的解释相互独立,并给出在问题中的解释. (2) 根据抽样数据整理出根据抽样数据整理出2 2列联表,计算列联表,计算2的值,并与临界值的值,并与临界值x比较比较. (3) 根据检验规则得出推断结论根据检验规则得出推断结论. (4) 在在X和和Y不独立的情况下,根据需要,通过比较相应的频率,分析不独立的情况下,根据需要,通过比较相应的频率,分析X和和Y间的影响规律间的影响规律. 注意,上述几个环节的内容可以根据不同情况进行调整注意,上述几个环节的内容可以根据不同情况进行

33、调整. 例如,在有些例如,在有些时候,分类变量的抽样数据列联表是问题中给定的时候,分类变量的抽样数据列联表是问题中给定的. 思考思考 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗同和不同之处吗? 简单地说,反证法是在某种假设简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明之下,推出一个矛盾结论,从而证明H0不不成立;而独立性检验是在零假设成立;而独立性检验是在零假设H0之下,如果出现一个与之下,如果出现一个与H0相矛盾的小概率事相矛盾的小概率事件,就推断件,就推断H0不成立,且该推断犯错误

34、的概率不大于这个小概率不成立,且该推断犯错误的概率不大于这个小概率. 另外,在全另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误. 独立性检验的本质是比较观测值与期望值之间的差异,由独立性检验的本质是比较观测值与期望值之间的差异,由2所代表的这种差所代表的这种差异的大小是通过确定适当的小概率值进行判断的异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式,不仅有相当广泛的应用,也开启了人类认

35、识世界的一种新的思维方式. 课本课本134页页 1. 对于例对于例3中的抽样数据,采用小概率值中的抽样数据,采用小概率值=0.05的独立性检验,分析乙种的独立性检验,分析乙种疗法的效果是否比甲种疗法好疗法的效果是否比甲种疗法好. 根据题意,可得根据题意,可得 解:解: 24.881 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 根据小概率值根据小概率值=0.05的的2独立性检验,推断独立性检验,推断H0不成立,即认为两种疗法不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过的效果有差异,该推断犯错误的概率不超过0

36、.05. 0.053.841.x甲种疗法未治愈和治愈的频率分别是甲种疗法未治愈和治愈的频率分别是 乙种疗法未治愈和治愈的频率分别是乙种疗法未治愈和治愈的频率分别是 15520.2240.776;6767和和因此可以推断乙种疗法的效果比甲种疗法好因此可以推断乙种疗法的效果比甲种疗法好. 6630.0870.913.6969和和课本课本134页页 2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论率值,是否会得出不同的结论? 为什么为什么? 解:解:可能会得出不同的结论可能会得出不同的结论.

37、理由如下:理由如下: 对同一抽样数据,计算出来的对同一抽样数据,计算出来的2的值是确定的,在独立性检验中,基的值是确定的,在独立性检验中,基于不同的小概率值于不同的小概率值的检验规则,对应不同的临界值的检验规则,对应不同的临界值x0,其与,其与2的大小关的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同系可能不同,相当于检验的标准发生变化,因此结论可能会不同. 课本课本134页页 3. 为考察某种药物为考察某种药物A对预防疾病对预防疾病B的效果,进行了动物试验,根据的效果,进行了动物试验,根据105个有个有放回简单随机样本的数据,得到如下列联表放回简单随机样本的数据,得到如下列联

38、表: 依据依据=0.05的独立性检验,分析药物的独立性检验,分析药物A对预对预防疾病防疾病B的有效性的有效性. 药物药物A 疾病疾病B 合计合计 未患病未患病 患病患病 未服用未服用 29 15 44 服用服用 47 14 61 合计合计 76 29 105 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 零假设为零假设为H0: 药物药物A与预防疾病与预防疾病B无关无关联,即药物联,即药物A对预防疾病对预防疾病B没有效果,根据没有效果,根据列联表中数据,经计算得到列联表中数据,经计算得到 22105(29 1415 47)4

39、4 61 76 29 1.587 根据小概率值根据小概率值=0.05的的2独立性检验,没有充分证据推断独立性检验,没有充分证据推断H0不成立,不成立,即可以认为药物即可以认为药物A对预防疾病对预防疾病B没有效果没有效果. 0.053.841.x解:解: 课本课本134页页 4. 从某学校获取了容量为从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下末考试成绩的样本观测数据整理如下: 解:解: 依据依据=0.05的独立性检验,能否认为数的独立性检验,能否认为数学成绩与语文成绩有关联学成绩与语文成绩有关联? 数

40、学成绩数学成绩 语文成绩语文成绩 合计合计 不优秀不优秀 优秀优秀 不优秀不优秀 212 61 273 优秀优秀 54 73 127 合计合计 266 134 400 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 零假设为零假设为H0: 数学成绩与语文成绩独立数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到联表中数据,经计算得到 22400(212 7361 54)273 127 266 134 48.034 根据小概率值根据小概率值=0.05的的2独

41、立性检验,我们可以推断独立性检验,我们可以推断H0不成立,即认不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05. 0.053.841.x课本课本134页页 解:解: 数学成绩数学成绩 语文成绩语文成绩 合计合计 不优秀不优秀 优秀优秀 不优秀不优秀 212 61 273 优秀优秀 54 73 127 合计合计 266 134 400 数学成绩不优秀的人中语文成绩不优秀和数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为优秀的频率分别为 数学成绩优秀的人中语文成绩不优秀和优秀数学成绩优秀的人中语文成绩不优秀和优秀的频率

42、分别为的频率分别为 212610.780.22;273273和和54730.430.57.127127和和由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率不优秀的人中语文成绩优秀的频率. 根据频率稳定于概率的原理,我们可以推根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大断,数学成绩优秀的人其语文成绩优秀的概率较大. 巩固训练巩固训练 为了检验两种不同的课堂教学模式对学生的成绩是否有影响,现从高二为了检验两种不同的课堂教学模式对学生的成绩是否有影响,

43、现从高二年级的甲年级的甲(实行实行“问题问题探究式探究式”模式模式)、乙、乙(实行实行“自学自学指导式指导式”模式模式)两个班中每班两个班中每班任意抽取任意抽取20名学生进行测试,他们的成绩名学生进行测试,他们的成绩(总分总分150分分)如下如下 甲班甲班: 88 92 95 98 103 108 110 112 118 118 120 121 126 132 134 135 140 142 146 148 乙班乙班: 96 97 104 107 108 108 114 117 119 121 124 124 125 127 132 135 135 137 138 147 记成绩在记成绩在12

44、0分以上分以上(包括包括120分分)为优秀,其他的成绩为一般,试根据小概率值为优秀,其他的成绩为一般,试根据小概率值0.1的独立性检验,分析这两种课堂教学模式对学生的成绩是否有影响的独立性检验,分析这两种课堂教学模式对学生的成绩是否有影响 解:解:零假设为零假设为H0:课堂教学模式与学生的成绩相互独立根据题中所给数据得到:课堂教学模式与学生的成绩相互独立根据题中所给数据得到如下如下2 2列联表:列联表: 班级班级 成绩成绩 合计合计 优秀优秀 一般一般 甲班甲班 10 10 20 乙班乙班 11 9 20 合计合计 21 19 40 由卡方计算公式,可得由卡方计算公式,可得 2240(10 9

45、10 11)0.10032.706.21 19 20 20 没有充分证据推断没有充分证据推断H0不成立,因此可以认不成立,因此可以认为为H0成立,即成立,即两种课堂教学模式对学生的成两种课堂教学模式对学生的成绩绩没没有影响有影响. 小结:小结: 1. 小概率值小概率值的临界值的临界值: 忽略忽略2的实际分布与该近似分布的误差后,对于任何小概率值的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相,可以找到相应的正实数应的正实数x,使得,使得P(2 x)=成立成立. 我们称我们称x为为的的临界值临界值,这个,这个临界值就可作临界值就可作为判断为判断2大小的标准,概率值大小的标准,概率值越小,临界值越小,临界值x越大越大. 22().()()()()n adbcab cd ac bd 2. 2计算公式:计算公式: 3. 基于小概率值基于小概率值的检验规则是的检验规则是: 当当2x时,我们就推断时,我们就推断H0不成立,即认为不成立,即认为X和和Y不独立,该推断犯错误的概率不独立,该推断犯错误的概率不超过不超过; 当当2x时,我们没有充分证据推断时,我们没有充分证据推断H0不成立,可以认为不成立,可以认为X和和Y独立独立.