ImageVerifierCode 换一换
格式:PPT , 页数:26 ,大小:744.04KB ,
资源ID:218317      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,更优惠
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.77wenku.com/d-218317.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2022年高二下学期数学人教A版(2019)选择性必修第三册《8.3.1分类变量与列联表》课件)为本站会员(吹**)主动上传,七七文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知七七文库(发送邮件至373788568@qq.com或直接QQ联系客服),我们立即给予删除!

2022年高二下学期数学人教A版(2019)选择性必修第三册《8.3.1分类变量与列联表》课件

1、分类变量与列联表 吸烟的危害 吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国固定每年5月31日为全球戒烟日 在现实生活中,人们经常需要回答一定范围内的在现实生活中,人们经常需要回答一定范围内的两种现象两种现象或性质之间是否存在关联性或性质之间是否存在关联性或或互相影响互相影响的问题的问题. 吸烟是否会增加患肺癌的风险? 例如例如 ,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响 , 不同班级学生不同班级学生用于体育锻炼的时间是否有差别用于体育锻炼的时间是否有差别 , 吸烟是否会增加患肺癌的风险吸烟是否会增加患肺癌

2、的风险 , 等等等等 , 本节将要学习的独立性检验方法为我们提供了解决这类问题本节将要学习的独立性检验方法为我们提供了解决这类问题的方案的方案. 在现实生活中,人们经常需要回答一定范围内的在现实生活中,人们经常需要回答一定范围内的两种现象或两种现象或性质之间是否存在关联性性质之间是否存在关联性或或互相影响互相影响的问题的问题. 在讨论上述问题时在讨论上述问题时 , 为了表述方便为了表述方便 , 我们经常会使用我们经常会使用一种特殊的随机变量一种特殊的随机变量 , 以区别不同的现象或性质以区别不同的现象或性质 , 这类随这类随机变量称为机变量称为分类变量分类变量. 两种变量两种变量 分类变量:性

3、别、是否吸烟、是否患分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等肺癌、宗教信仰、国籍等等 变变量量 对于性别变量,其取值为男和女两种. 这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 两种变量两种变量 数值变量的取值一定是实数数值变量的取值一定是实数, , 例如身高例如身高、体重体重、考试成绩等考试成绩等,张明的身高是张明的身高是180180cmcm,李立的身高是李立的身高是175175cmcm。 数值变量:体重、身高、温度、考试成绩等等数值变量:体重、身高、温度、考试成绩等等 两种变量两种变量 分类变量:性别、是否吸烟、是否患肺癌、分类变量:性别、是否吸烟、

4、是否患肺癌、宗教信仰、国籍等等宗教信仰、国籍等等 变变量量 数值变量的取值为实数,其大小和运算都有实际含义. 分类变量分类变量是区别不同的现象和性质的一种特殊的随机变量 本节主要讨论取值于0,1的分类变量的关联性. 分类变量的取值也可以用实数来表示,例如男性,女性可以用1, 0表示,学生的班级可以用1, 2, 3来表示 这些数值只作编号使用,并没有大小和运算意义 分类变量是相对于数值变量来说的 但要注意到: 问题: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下: 523名女生中有

5、331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据, 说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 解法一: 比较经常锻炼的学生在女生和男生的比率. 01.ff经常锻炼的女生数经常锻炼的男生数,女生总数男生总数013314730.6330.787523601,ff10-0.787-0.6330.154.ff问题: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下: 523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,

6、 说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 10-0.787-0.6330.154.ff 男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼. 解法二: 对于中的每一名学生,分别令 0,0,11XY该生不经常锻炼,该生为女生,该生经常锻炼,该生为男生,性别对体育锻炼的经常性没有影响: (10)(11)P YXP YX性别对体育锻炼的经常性有影响: (10)(11)P YXP YX合计 男生(X=1) 女生(X=0) 经常(Y=1) 不经常(Y=0) 合计 锻炼 性别 (1,0)(1,0)331(10)0.633(0

7、)(0)523P YXn YXP YXP Xn X(1,1)(1,1)473(11)0.787(1)(1)601P YXn YXP YXP Xn X 由 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼. (11)(10)P YXP YX 在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率. 在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样

8、本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.(用样本估计总体) 在实践中在实践中 , 由于保存原始数据的成本较高由于保存原始数据的成本较高 , 人们经常按研究问人们经常按研究问题的需要题的需要, 将数据分类统计将数据分类统计, 并做成表格加以保存并做成表格加以保存, 我们将上表这种我们将上表这种形式的数据统计表称为形式的数据统计表称为22列联表列联表.表格直观呈现了成对分类变量数据的交叉分类频数。 分类变量X和Y的抽样数据的22列联表: 以上表为例以上表为例, 22列联列联包含了包含了X和和Y的如下信息的如下信息: 最后一行的前两个数分最后一行的前两个数分别是事件别是事

9、件Y=0和和Y=1中样本点的个数中样本点的个数; 最后一列的前两个数分别是事件最后一列的前两个数分别是事件 X=0和和 X=1中样本点的个数中样本点的个数 ; 中间的四个格中的数是表格的核心部分中间的四个格中的数是表格的核心部分, 给给出了事件出了事件X=x, Y=y(x, y=0, 1)中样本点的个数中样本点的个数; 右下角格中的数是样本空间右下角格中的数是样本空间中样本点的总数中样本点的总数. 班级班级 锻炼锻炼 合计合计 80分及80分以上 80分以下 实验班 32 18 50 对照班 24 m 50 合计 56 44 n 练习:某校为了检验高中数学新课程改革的成果,在两个班进行教学方式

10、的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如 22列联表所示(单位人),则其中m=_,n=_. 例1: 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异. 解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下: 0,0, 11XY该生数学成绩不优秀,该生来自甲校,该生数学成绩优秀.,该生来自乙校,合计 乙校(X=1) 甲校(X=0) 优秀(Y=1) 不

11、优秀(Y=0) 合计 数学成绩 学校 例1: 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异. 因此,甲校学生中数学成绩不优秀 和数学成绩优秀的频率分别为: 33100.7674 0.2326.4343,3870.8444 0.1556.4545,乙校学生中数学成绩不优秀 和数学成绩优秀的频率分别为: 可以用等高堆积条形图直观地展示上述计算结果: 通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率

12、明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高. 依据频率稳定于概率的原理,我们可以推断:依据频率稳定于概率的原理,我们可以推断:P(Y=1|X=0)P(Y=1|X=1) . 也就是说,如果从甲校和乙校各随机也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩生数学成绩优秀的概率,因此,可以认为两校

13、学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高. 反思一个现象:反思一个现象: 学生提出:学生提出:“我很有能力,我只是没有考上一个好的大学,我很有能力,我只是没有考上一个好的大学,而那些好的企业却只去名校招聘,这是不是不公平?而那些好的企业却只去名校招聘,这是不是不公平?” 结合刚才例题的启发,尝试从一个企业的角度去想想,结合刚才例题的启发,尝试从一个企业的角度去想想,为什么为什么他们他们“更偏向于去好学校招聘更偏向于去好学校招聘”。 反思2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的? 有

14、可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.后面我们将讨论犯这种错误的概率大小问题. 练习:(多选)下图是调查某地区男女中学生喜欢理科的等高堆积条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( ) A.性别与喜欢理科

15、无关 B.女生中喜欢理科的比为80% C.男生比女生喜欢理科的可能性大些 D.男生不喜欢理科的比为40% 课本P127 练习 4 假设在本小节问题中,只是随机抽取了44 名学生,按照性别和体育锻炼情况整理为如下的列联表(单位:人) (1)据此推断性别因素是否影响学生锻炼的经常性; (2)说明你的推断结论是否可能犯错,并解释原因. 性别性别 锻炼锻炼 合计合计 不经常 经常 女生 5 15 20 男生 6 18 24 合计 11 33 44 练习: 某学校对高三学生作一项调查后发现在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧

16、张.请作出考前心情紧张与性格情况的列联表. 练习:在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为 492人,请作出性别与喜欢吃甜食的列联表。 练习:在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有 21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用+与+判断二者是否有关系. 作业:课本P135 习题8.3 5 两个分类变量之间关联关系的定性分析的方法: (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系. 如可以通过列联表中 值的大小粗略地判断分类变量X和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大. 与acabcd归纳小结: (2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.