1、12 相关系数相关系数 13 可线性化的回归分析可线性化的回归分析 学习目标 1.了解线性相关系数 r 的求解公式,并会初步应用.2.了解非线性相关与线性相 关的转化.3.会用回归分析解决一些简单实际问题 知识点一 相关系数 1相关系数 r 的计算 假设两个随机变量的数据分别为(x1,y1),(x2,y2),(xn,yn),则变量间线性相关系数 r lxy lxxlyy i1 n xi x yi y i1 n xi x 2 i1 n yi y 2 i1 n xiyin x y i1 n x2in x 2 i1 n y2in y 2 . 2相关系数 r 的性质 (1)r 的取值范围为1,1 (2
2、)|r|值越大,误差 Q 越小,变量之间的线性相关程度越高 (3)|r|值越接近 0,误差 Q 越大,变量之间的线性相关程度越低 3相关性的分类 (1)当 r0 时,两个变量正相关 (2)当 r0 时,两个变量负相关 (3)当 r0 时,两个变量线性不相关 知识点二 可线性化的回归分析 曲线方程 曲线图形 变换公式 变换后的线性函数 幂函数曲 线 yaxb cln a vln x uln y ucbv 指数曲线 y aebx cln a uln y ucbx 倒指数曲 线 yae b x cln a v1 x uln y ucbv 对数曲线 y abln x vln x uy uabv 1回归
3、分析中,若 r 1 说明 x,y 之间具有完全的线性关系( ) 2若 r0,则说明两变量是函数关系( ) 3样本相关系数的范围是 r(,)( ) 类型一 线性相关系数及其应用 例 1 下图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图 注:年份代码 17 分别对应年份 20122018. (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2020 年我国生活垃圾无害化处理量 附注: 参考数据: i1 7 yi9.32, i1 7 tiyi40.17, i1 7
4、 yi y 20.55, 72.646. 参考公式:相关系数 r i1 n ti t yi y i1 n ti t 2 i1 n yi y 2 , 回归方程 yabt 中斜率和截距的最小二乘估计公式分别为: b i1 n ti t yi y i1 n ti t 2 , a y b t . 解 (1)由折线图中数据和附注中参考数据得 t 4, i1 7 (ti t )228, i1 7 yi y 20.55. i1 7 (ti t )(yi y ) i1 7 tiyi t i1 7 yi40.1749.322.89, r 2.89 0.5522.6460.99. 因为 y 与 t 的相关系数近似
5、为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回 归模型拟合 y 与 t 的关系 (2)由 y 9.32 7 1.331 及(1)得 b i1 7 ti t yi y i1 7 ti t 2 2.89 28 0.103, a y b t 1.3310.10340.92. 所以 y 关于 t 的回归方程为 y0.920.10t. 将 2020 年对应的 t9 代入回归方程得 y0.920.1091.82. 所以预测 2020 年我国生活垃圾无害化处理量将约为 1.82 亿吨 反思与感悟 (1)散点图只能直观判断两变量是否具有相关关系 (2)相关系数能精确刻画两变量线性相关关
6、系的强弱 跟踪训练 1 变量 x, y 的散点图如图所示, 那么 x, y 之间的相关系数 r 的最接近的值为( ) A1 B0.5 C0 D0.5 考点 题点 答案 C 解析 从散点图中,我们可以看出,x 与 y 没有线性相关关系,因而 r 的值接近于 0. 类型二 可线性化的回归分析 例 2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年 销售量 y(单位:t)和年利润 z(单位:千元)的影响对近 8 年的年宣传费 xi和年销售量 yi(i 1,2,8)的数据作了初步处理,得到下面的散点图及一些统计量的值 x y w i1 8 (xi x )2 i1 8 (
7、wi w )2 i1 8 (xi x (yi y ) i1 8 (wi w ) (yi y ) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中 wi xi, w 1 8 i1 8 wi. (1)根据散点图判断, yabx 与 ycd x哪一个适宜作为年销售量 y 关于年宣传费 x 的回 归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)当年宣传费 x49 时,年销售量的预报值是多少? 附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线 vu 的斜率和截距的 最小二乘估计分
8、别为 i1 n ui u vi v i1 n ui u 2 , v u . 考点 非线性回归分析 题点 非线性回归分析 解 (1)由散点图可以判断, ycd x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型 (2)令 w x,先建立 y 关于 w 的线性回归方程 由于 d i1 8 wi w yi y i1 8 wi w 2 108.8 1.6 68, c y d w 563686.8100.6, 所以 y 关于 w 的线性回归方程为 y100.668w, 因此 y 关于 x 的回归方程为 y100.668 x. (3)由(2)知,当 x49 时, 年销售量 y 的预报值 y100.6
9、68 49576.6. 引申探究 本例中,若这种产品的年利润 z 与 x,y 的关系为 z0.2yx,则年宣传费 x 为何值时,年利 润的预报值最大? 解 根据(2)的结果知,年利润 z 的预报值 z0.2(100.668 x)xx13.6 x20.12. 所以当 x13.6 2 6.8,即 x46.24 时,z 取得最大值 故年宣传费为 46.24 千元时,年利润的预报值最大 反思与感悟 由样本数据先作散点图, 根据散点图的分布规律选择合适的函数模型 如果发 现具有线性相关头系,可由公式或计算器的统计功能,求得线性回归方程的两个参数如果 发现是指数型函数或二次函数,可以通过一些代数变换,转化
10、为线性回归模型 跟踪训练 2 在一次抽样调查中测得样本的 5 个样本点,数值如下表: x 0.25 0.5 1 2 4 y 16 12 5 2 1 求 y 关于 x 的回归方程 考点 非线性回归分析 题点 非线性回归分析 解 由数值表可作散点图如图, 根据散点图可知 y 与 x 近似地呈反比例函数关系, 设 yk x,令 t 1 x,则 ykt,原数据变为: t 4 2 1 0.5 0.25 y 16 12 5 2 1 由置换后的数值表作散点图如下: 由散点图可以看出 y 与 t 呈近似的线性相关关系,列表如下: i ti yi tiyi t2i 1 4 16 64 16 2 2 12 24
11、4 3 1 5 5 1 4 0.5 2 1 0.25 5 0.25 1 0.25 0.062 5 7.75 36 94.25 21.312 5 Q1 所以 t 1.55, y 7.2. 所以 b i1 5 tiyi5 t y i1 5 t2i5 t 2 4.134 4, a y b t 0.8. 所以 y4.134 4t0.8. 所以 y 与 x 之间的回归方程是 y4.134 4 x 0.8. 1给定 y 与 x 是一组样本数据,求得相关系数 r0.690,则( ) Ay 与 x 的线性相关性很强 By 与 x 线性不相关 Cy 与 x 正线性相关 Dy 与 x 负线性相关 考点 线性相关系
12、数 题点 线性相关系数的应用 答案 D 解析 因为|r|0.690|0.75, 所以 y 与 x 的线性相关性一般, 又因为 r0.6900, 所以 y 与 x 负线性相关 2某种细胞在培养正常的情况下,时刻 t(单位:分)与细胞数 n(单位:个)的部分数据如下: t 0 20 60 140 n 1 2 8 128 根据表中的数据,推测繁殖到 1 000 个细胞时的时刻 t 最接近于( ) A200 B220 C240 D260 考点 非线性回归分析 题点 非线性回归分析 答案 A 解析 由表可得时刻 t(单位:分)与细胞数 n 满足回归方程 n 20 2 t ,由此可知 n1 000 时,
13、t 接近 200. 3对于回归分析,下列说法错误的是( ) A在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定 B线性相关系数可以是正的或负的 C回归分析中,如果 r 1,说明 x 与 y 之间完全线性相关 D样本相关系数 r(1,1) 考点 线性相关系数 题点 线性相关系数的应用 答案 D 解析 相关系数|r|1,D 错误 4 由两个变量x与y的散点图可看出样本点分布在一条曲线yx2的附近, 若要将其线性化, 则只需要设_即可 考点 非线性回归分析 题点 非线性回归分析 答案 tx2 解析 设 tx2,则 yt 为线性回归方程 5一唱片公司研究预支出费用 x(十万元)
14、与唱片销售量 y(千张)之间的关系,从其所发行的 唱片中随机抽选了 10 千张, 得到如下的资料: i1 10 xi28, i1 10 x2i303.4, i1 10 yi75, i1 10 y2i598.5, i1 10 xiyi237,则 y 与 x 的相关系数 r 的绝对值为_ 考点 线性相关系数 题点 线性相关系数的应用 答案 0.3 解析 根据公式得相关系数 r i1 10 xiyi10 x y i1 10 x2i10 x 2 i1 10 y2i10 y 2 237102.87.5 303.4102.82598.5107.520.3, 所以|r|0.3. 1散点图的优点是直观但是有时不能准确判断,尤其数据较多时,不易作出散点图这 时可根据线性相关系数 r 来判断 2对于具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归问题 去解决.