2023届高考数学复习知识点:成对数据的统计分析

上传人:吹** 文档编号:219392 上传时间:2022-08-11 格式:DOCX 页数:4 大小:62.83KB
下载 相关 举报
2023届高考数学复习知识点:成对数据的统计分析_第1页
第1页 / 共4页
2023届高考数学复习知识点:成对数据的统计分析_第2页
第2页 / 共4页
2023届高考数学复习知识点:成对数据的统计分析_第3页
第3页 / 共4页
2023届高考数学复习知识点:成对数据的统计分析_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 成对数据的统计分析成对数据的统计分析 01 成对数据的统计相关性成对数据的统计相关性 【知识点梳理】【知识点梳理】 1相关关系 两个变量间的关系有函数关系,相关关系和不相关关系 两个变量有关系, 但又没有确切到可由其中的一个去精确地决定另一个的程度, 这种关系称为相关关系 2正相关、负相关 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关 3线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关 一般地,如果两个变量

2、具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关 4相关系数 r 的计算 注意:相关系数是研究变量之间线性相关程度的量 假设两个随机变量的数据分别为(x1,y1),(x2,y2),(xn,yn),对数据作进一步的“标准化处理”处理,用 sx1nni1 (xix)2,sy1nni1 (yiy)2分别除 xix和 yiy (i1,2,n,x和y分别为 x1,x2,xn和 y1,y2,yn的均值),得x1xsx,y1ysy,x2xsx,y2ysy,xnxsx,ynysy,为简单起见,把上述“标准化”处理后的成对数据分别记为(x1,y1),(x2,y2),(xn,yn),则变量

3、x 和变量 y 的样本相关系数 r 的计算公式如下: r1n(x1y1x2y2xnyn) ni1 (xix)(yiy)ni1 (xix)2ni1 (yiy)2. 5相关系数 r 的性质 (1)当 r0 时,称成对样本数据正相关;当 r0 时,成对样本数据负相关;当 r0 时,成对样本数据间没有线性相关关系 (2)样本相关系数 r 的取值范围为1,1 当|r|越接近 1 时,成对样本数据的线性相关程度越强; 当|r|越接近 0 时,成对样本数据的线性相关程度越弱 6样本相关系数与标准化数据向量夹角的关系 r1nxy1n|x|y|cos cos (其中 x(x1,x2,xn),y(y1,y2,yn

4、),|x|y| n, 为向量x和向量 y的夹角) 02 02 一元线性回归模型及其应用一元线性回归模型及其应用 【知识点梳理】【知识点梳理】 1一元线性回归模型 我们称 Ybxae,E(e)0,D(e)2 为 Y 关于 x 的一元线性回归模型,其中 Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和 b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 bxa 之间的随机误差 2线性回归方程与最小二乘法 回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征 我们将ybxa称为 Y 关于 x 的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经

5、验回归直线这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做 b,a 的最小二乘估计(least squares estimate ), 其中 3残差的概念 对于响应变量 Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析 4刻画回归效果的方式 (1)残差图法 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合

6、效果越好 (2)残差平方和法 残差平方和ni1 (yiyi)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差 (3)利用 R2刻画回归效果 决定系数 R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力 R21ni1 (yiyi)2ni1 (yiy)2,R2越大,即拟合效果越好,R2越小,模型拟合效果越差 03 03 列联表与独立性检验列联表与独立性检验 【知识点梳理】【知识点梳理】 1分类变量 这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种 我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分

7、类变量,分类变量的取值可以用实数表示 22 2 列联表 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为 2 2 列联表,2 2 列联表给出了成对分类变量数据的交叉分类频数 一般地,假设有两个分类变量 X 和 Y,它们的取值分别为x1,x2和y1,y2,其 2 2 列联表为 y1 y2 合计 x1 a b ab x2 c d cd 合计 ac bd abcd 3.等高堆积条形图 等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推

8、断结果 4.临界值 2 统计量也可以用来作相关性的度量2 越小说明变量之间越独立,2越大说明变量之间越相关 2n(adbc)2(ab)(cd)(ac)(bd).忽略 2的实际分布与该近似分布的误差后, 对于任何小概率值 ,可以找到相应的正实数 x,使得 P(2x) 成立我们称 x为 的临界值,这个临界值就可作为判断 2大小的标准 5独立性检验 基于小概率值 的检验规则是: 当 2x时,我们就推断 H0不成立,即认为 X 和 Y 不独立,该推断犯错误的概率不超过 ; 当 2x时,我们没有充分证据推断 H0不成立 ,可以认为 X 和 Y 独立 这种利用 2的取值推断分类变量 X 和 Y 是否独立的

9、方法称为 2独立性检验,读作“卡方独立性检验”,简 称独立性检验(test of independence) 下表给出了 2独立性检验中几个常用的小概率值和相应的临界值 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 6.应用独立性检验解决实际问题的大致步骤 (1)提出零假设 H0:X 和 Y 相互独立,并给出在问题中的解释; (2)根据抽样数据整理出 2 2 列联表,计算 2的值,并与临界值 x比较; (3)根据检验规则得出推断结论; (4)在 X 和 Y 不独立的情况下,根据需要,通过比较相应的频率,分析 X 和 Y 间的影响规律

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 高中 > 高中数学 > 数学高考 > 一轮复习