1、97 变量间的相关关系与统计案例变量间的相关关系与统计案例 【教材梳理】 1变量间的相关关系 常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是_;与 函数关系不同,相关关系是一种_关系,带有随机性 2两个变量的线性相关 (1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间 具有_,这条直线叫_ (2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相 关关系称为_;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相 关关系称为_ (3)相关系数 r n j j n i i n i ii yyxx yyxx 1 2 1 2 1
2、 )()( )( ,当 r0 时,表示两个变量正相关;当 r0 时,表示两个变量负相关r 的绝对值越接近_,表示两个变量的线性相关性越强;r的绝对值越接近_,表示两个变量的线性相关 性越弱通常当r的绝对值大于 0.75 时,认为两个变量具有很强的线性相关关系 3回归直线方程 (1)通过求 Q(,) n i i xy 1 2 i )(的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距 离的平方和最小的方法叫做 该式取最小值时的 , 的值即分别为 a ,b (2)两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为axby ,则 . xby
3、a xnx yxnyx xx yyxx b n i i n i ii n i i n i ii , )( )( 1 22 1 1 2 1 其中x= 1 1 n i i x n ,y= 1 1 n i i y n ,_称为样本点的中心. 4回归分析 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法 (2)线性回归模型用 ybxae 表示,其中 a 和 b 为模型的未知参数,e 称为 _它的均值满足 E(e)_,D(e) 2,2 越小,精度越_ (3)残差: i e = 称为相应于点 ( i x, i y) 的残差, 残差平方和为 . (4)相关指数 R2= . R2越大,说明残
4、差平方和 ,即模型的拟 合效果 ;R2越小,残差平方和 ,即模型的拟合效果 . 在线性回归模型中,R2表示解释变量对于预报变量变化的 ,R2越接近于 1, 表示回归的效果 . 5. 独立性检验 (1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为_. (2)像下表所示列出两个分类变量的频数表,称为_.假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2 ,其样本频数列联表(称为 2 2 列联表)为 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量 K2=_, 其中 n=a+b+c+d 为样本容量
5、. 如果 K2的观测值 kk0,就认为“两个分类变量之间有关系” ;否则就认为“两个分类变 量之间没有关系”.我们称这样的 k0为一个判断规则的临界值.按照上述规则,把“两个分 类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过 P(K2 k0).上面这种利用随机变量 K2来判断“两个分类变量有关系”的方法称为_. 【常用结论】 6对于相关系数 r,统计学认为,对于变量 x,y,如果 r1, 075,那么负相关很强;如果 r075,1,那么正相关很强;如 果 r(075,030或 r030,075),那么相关性一般;如 果 r025,025,那么相关性较弱 7在线性回归模型
6、中,有 2 1 () n i i yy = 2 1 () n ii i yy + 2 1 () n i i yy 【自查自纠】 1相关关系 非确定性 2(1)线性相关关系 回归直线 (2)正相关 负相关,(3)1 0 3(1)最小二乘法 (2)( x,y), 4(2)随机误差 0 高, (3) ii yy n i ii yy 1 2 )( (4)1 n i i n i ii yy yy 1 2 1 2 )( )( 越小 越好 越大 越差 贡献率 越好 5(1)分类变量 (2)列联表 n(adbc)2 (ab)(cd)(ac)(bd) 独立性检验 判断下列命题是否正确,正确的在括号内画“”,错误
7、的画“” (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关 系 ( ) (2)回归直线方程一定过样本点中心,且中心相同的样本点的回归方程一定相 同 ( ) (3)两个变量的相关系数越小,它们的相关性越弱 ( ) (4)独立性检验一定能给出明确肯定或拒绝原假设的结论 ( ) (5)在线性回归模型中,相关指数 R2越接近 1,表示回归的效果越好 ( ) 解:(1); (2); (3); (4); (5) 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作 成如图所示的人体脂肪含量与年龄关系的散点图根据该图,下列结论中正确的是 ( ) A人体脂肪含量与年龄正
8、相关,且脂肪含量的中位数等于 20% B人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20% C人体脂肪含量与年龄负相关,且脂肪含量的中位数等于 20% D人体脂肪含量与年龄负相关,且脂肪含量的中位数小于 20% 解:从散点图可以看出,年龄增大,脂肪含量也随之增加, 故为正相关中间的两个点即第 5, 6 两个点脂肪含量均低于 20%, 故脂肪含量的中位数小于 20%故选 B 某校学生会为了调查学生对 2022 年北京冬奥会的关注是否与性别有关,抽样调查了 100 人, 得到如下数据 不关注 关注 总计 男生 30 15 45 女生 45 10 55 总计 75 25 100 根据表中数据,
9、通过计算统计量 K2 n(adbc)2 (ab)(cd)(ac)(bd),并参考以下临界数 值: P(K2k0) 015 010 005 0025 0010 k0 2072 2706 3841 5024 6635 若由此认为“学生对 2022 年北京冬奥会的关注与性别有关”,则此结论出错的概率不超过 ( ) A010 B005 C0025 D001 解:根据表中数据,计算统计量 K2100(30104515) 2 75254555 3032706, 参考临界数据知,认为“学生对 2022 年北京冬奥会的关注与性别有 关”,此结论出错的概率不超过 010故选 A (2020全国卷)某校一个课外学
10、习小组为研究某作物种子的发芽率y和温度x(单位: ) 的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20) 得到如图的散点图: 由此散点图, 在 10至 40之间, 下面四个回归方程类型中最适宜作为发芽率 y 和温度 x 的回归方程类型的是 ( ) Ayabx Byabx2 Cyabex Dyablnx 解:由散点图分布可知,散点图分布在一个对数函数的图象附 近,因此,最适合作为发芽率 y 和温度 x 的回归方程类型的是 ya blnx故选 D (2019宜宾期末)某机构为了解学生核心素养现状,对某地高中学生数学运算素 养 x 和数据分析素养 y 进
11、行量化统计分析,得到如下统计数据: 数学运算素养 x 2 3 4 5 6 数据分析素养 y 15 45 55 65 7 由表中数据,求得线性回归方程为 y13xa,若该地区某中学生的数学运算 素养为 8,估计该中学生的数据分析素养为_ 解:x23456 5 4,y154555657 5 5, 则样本点的中心坐标为(4,5), 代入y 13xa,即 5134a,解得a02, 所以线性回归方程为y 13x02, 把 x8 代入线性回归方程y 13x02,得y102 故填 102 考点一考点一 相关关系的判断相关关系的判断 (1)某中学的兴趣小组在某座山上测得海拔高度(km)、 气压(kPa)和沸点
12、()的六组数据绘制成的散点图如图所 示,则下列说法错误的是 ( ) A沸点与海拔高度呈正相关 B沸点与气压呈正相关 C沸点与海拔高度呈负相关 D沸点与海拔高度、沸点与气压的相关性都很强 解:由图 1 知气压随海拔高度的增加而减小,由图 2 知沸点随气压的升高 而升高,所以沸点与气压呈正相关,B 正确;沸点与海拔高度呈负相关,C 正 确,A 错误;由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸 点与气压的相关性都很强,D 正确故选 A (2)(2020全国卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有 所增加为调查该地区某种野生动物的数量,将其分成面积相近的 200 个地
13、块,从这些 地块中用简单随机抽样的方法抽取 20 个作为样区, 调查得到样本数据(xi, yi)(i1, 2, , 20),其中 xi和 yi分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数 量,并计算得 20 1 i i x =60, 20 1 i i y =1200, 20 2 1 () i i xx =80, 20 2 1 () i i yy =9000, 20 1 ()() ii i xxyy 800 ()求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种 野生动物数量的平均数乘以地块数); ()求样本(xi,yi)(i1,2,20)的相关系数(
14、精确到 001); ()根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以 获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并 说明理由 附:相关系数 r 1 22 11 ()() ()() n ii i nn ii ii xxyy xxyy , 21414 解:()由已知得样区这种野生动物数量的平均数y 1 20 i1 20 yi 1 201 20060,地块数为 200,从而该地区这种野生动物数量的估计值为 2006012 000 ()样本(xi,yi)(i1,2,20)的相关系数 r 20 1 2020 22 11 ()() ()() ii i
15、ii ii xxyy xxyy 800 809 000 2 2 3 094 ()分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层抽样理 由如下:由()知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地 块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异也很大,采用分层抽样的 方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区 这种野生动物数量更准确的估计 【点拨】 用相关系数 r 可以衡量两个变量之间的相关关系的强弱,r 的绝对值越接近于 1,表示两个变量的线性相关性越强,且 r 的正负即表示 两个变量相关性的
16、正负相关系数的取值范围是1,1除了相关系数 外,散点图也可以判断两个变量的相关关系点分布在从左下角到右上角的 区域时,两个变量呈现正相关;点分布在从左上角到右下角的区域时,两个 变量呈负相关 (1)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是 ( ) Ar2r40r3r1 Br4r20r1r3 Cr4r20r3r1 Dr2r40r1r3 解:由给出的四组数据的散点图可以看出,图和图是正相关,相 关系数大于 0,图和图是负相关,相关系数小于 0,图和图的点相 对更加集中,所以相关性要强,所以 r1接近于 1,r2接近于1,由此可得 r2r40r3r1故选 A (2)如图是某
17、地区 2015 年至 2021 年生活垃圾无害化处理量(单位:亿吨)的折线图 注:年份代码 17 分别对应年份 20152021 由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明 附注: 参考数据: 7 1 i i y =9.32, 7 1 ii i t y 40.17, 7 1 i i yy 2 ( - )0.55, 72.646. 参考公式:相关系数 r 1 22 11 ()() ()() n ii i nn ii ii ttyy ttyy 解:由折线图中数据和附注中参考数据得 t=4, 7 1 i i t t 2 ( -)=28, 7 1 i i yy 2 (
18、 - )=0.55, 777 111 iiiii iii ttyyt yty ()()=40.1749.322.89, r 2.89 0.5522.6460.99. 因为 y 与 t 的相关系数近似为 0.99, 说明 y 与 t 的线性相关程度相当高, 从而可以 用线性回归模型拟合 y 与 t 的关系 考点二考点二 回归分析回归分析 命题角度 1 线性回归方程及其应用 (2019 河北模拟)全国两会召开前夕,许多人大代表关心雾霾治理,倡导绿色发展, 击碎十面“霾伏”.通过不懈努力,近两年某市空气质量逐步改善,居民享受着在蓝天白云下 出行和锻炼PM2.5 值是表示空气中某种颗粒物的浓度,通常用
19、来代表空气的污染情况,这 个值越高空气污染就越严重,下表是某人朋友圈内室外锻炼的人数与 PM2.5 值的一组数据. PM2.5 值 x 110 100 80 60 50 室外锻炼人数 y(人) 90 95 100 105 110 (1)请用相关系数 r(精确到 0.01)说明 y 与 x 之间具有线性相关关系; (2)若室外锻炼人数与 PM2.5 值存在线性关系,请根据上表提供的数据,估计 PM2.5 值为 40 时,室 外锻炼人数(四舍五入) 参考公式: b 1 2 1 ()() () n ii i n i i xxyy xx = 1 22 1 n ii i n i i x ynxy xnx
20、 , a =y- bx 参考数据: xi yi39 200,x2i34 600, y2i50 250, 265.10, 25015.81. 解:(1)x1 5(110100806050)80, y1 5(9095100105110)100, 39 200580100 (34 6005802)(50 25051002) 800 2 600250 80 5.115.810.99. 所以 y 与 x 之间具有较强的负线性相关关系 (2) b 39 200580100 34 6005802 800 2 600 4 130.31, a yb x1000.3180124.8. 所以 y 关于 x 的线性回
21、归方程为y 0.31x124.8. 当 x40 时,y 0.3140124.8112. 当 PM2.5 值为 40 时,室外锻炼人数估计为 112 人. 【点拨】 线性回归方程的重要应用是进行估计牢记求线性回归 方程的步骤:第一步,列表;第二步,计算x,y, 1 n ii i x y , 2 1 n i i x 或 1 ()() n ii i xxyy , 2 1 () n i i xx ; 第 三 步 , 代 入 公 式 求 b, 再 利 用 a = y-b x 求 a ;第四步,写出回归方程. 变式 2 某商家欲将购进的一批成本价为 4 元/件的商品卖出,为了对这种产品制定合 理售价,将该
22、产品按事先拟定的价格进行试销,得到如下 6 组数据. 单价 x/元 8 8.2 8.4 8.6 8.8 9 销量 y/件 90 84 83 80 75 68 (1)若 90 xy100,就说产品“定价合理” ,现从这 6 组数据中任意抽取 2 组数据, 求这 2 组数据均为“定价合理”的概率; (2)求出 y 关于 x 的线性回归方程y bxa,预计在今后的销售中,销量与单价仍服从 此关系,为了获得最大利润,该产品的销售单价应定为多少元?(利润销售收入成本, 精确到 0.1 元) 参考公式: b 1 2 1 ()() () n ii i n i i xxyy xx = 1 22 1 n ii
23、i n i i x ynxy xnx , a =y- bx 解:(1)从这 6 组数据中任意抽取 2 组数据有 15 种情况, “定价合理”的有:89098, 8.28492.2,8.48391.4,从中任取 2 组有 3 种情况, 则所求概率 P 3 15 1 5. (2)因为x8.5,y80, 2 1 () n i i xx =0.7, 2 1 () () n ii i xxyy =-14, 则 b=14 0720, a =y- bx250 则 y 关于 x 的线性回归方程是 y20 x250, 利润函数 L(x)x(20 x250)4(20 x250)20 x2330 x1 000, 当
24、 x 330 2(20)8.25 时,L(x)取得最大值 361.25, 故当单价定为 8.2 元或 8.3 元时,可获得最大利润. 命题角度 2 相关指数与残差 某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地 为了研究海水浓度 x(%)对亩产量 y(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩 产量与海水浓度的数据如下表. 海水浓度 x(%) 3 4 5 6 7 亩产量 y(吨) 0.57 0.53 0.44 0.36 0.30 残差e i 0.01 0.02 m n 0 绘制散点图发现,可以用线性回归模型拟合亩产量 y(吨)与海水浓度 x(%)之间的
25、相关关系, 用最小二乘法计算得 y 与 x 之间的线性回归方程为0.07x a . (1)求 a ,m,n 的值; (2)统计学中常用相关指数 R2来刻画回归效果,R2越大,回归效果越好,如假设 R20.85, 就说明预报变量 y 的差异有 85%是解释变量 x 引起的.请计算相关指数 R2(精确到 0.01),并指出亩 产量的变化多大程度上是由浇灌海水浓度引起的? 附:残差e iyi i,相关指数 R21 2 1 2 1 () () n ii i n i i yy yy ,其中 5 2 1 () i i yy 0051 解:(1)因为x 1 5(34567)5. y 1 5(0.570.53
26、0.440.360.30)0.44. 所以 0.440.075a ,即a0.79. 所以线性回归方程为y 0.07x0.79, 所以y 30.0750.790.44, my3y 30.440.440. y 40.0760.790.37, ny4y 40.360.370.01. (2) 5 2 1 () ii i yy (0.01)20.02202(0.01)2020.000 6. 所以相关指数 R210.000 6 0.051 0.99. 故亩产量的变化有 99%是由海水浓度引起的. 【点拨】 用相关指数 R2来刻画回归效果,R2越大,说明模型 拟合的效果越好另外,计算也不能出错 (1) 某同
27、学用收集到的 6 组数据对(xi,yi)(i1,2,3,4,5,6)制作成如图所示的散点图(点 旁的数据为该点坐标),并由最小二乘法计算得到回归直线 l1的方程:y b 1xa 1,相关系数为 r1,相关 指数为 R2 1;经过残差分析确定点 E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的 5 组数 据计算得到回归直线 l2的方程:y b 2xa 2,相关系数为 r2,相关指数为 R 2 2.则以下结论中,不正确的是 ( ) A.r10,r20 B. b 10,b 20 C. b 1b 2 D.R 2 1R 2 2 解:从散点图中可以看出,两个变量是正相关,所以选项 A 是正确的
28、; 从图中可以看出,回归直线的斜率是正数,所以选项 B 和 C 是正确的;R2 值越大,说明残差的平方和越小,也就是说模型的拟合效果越好,所以选项 D 是错误的故选 D. (2)【多选题】某种产品的广告支出费用 x(单位:万元)与销售量 y(单位:万件)之间 的对应数据如下表所示: 广告支出费用 x 22 26 40 53 59 销售量 y 38 54 70 116 122 根据表中的数据可得回归直线方程y 227x a ,R2096,以下说法正确的是 ( ) A第三个样本点对应的残差 3 e -1 B在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中 C销售量的多少有 96%
29、是由广告支出费用引起的 D用该回归方程可以很准确地预测广告费用为 20 万元时的销售量 解 : 由 题 意 得x 2226405359 5 4 ,y 385470116122 5 8,代入回归方程y 227x a 中得 82274 a ,得 a 108,故回归直线方程为y 227x108,所以 3 e 7(2274 108)1,A 正确;由于 R2096,所以该回归模型拟合的效果比较好,故对应 的残差图中残差点应该比较均匀地分布在水平的带状区域中,B 错误;在线性回归模型 中,R2表示解释变量对于预报变量的贡献率,R2096,则销售量的多少有 96%是由 广告支出费用引起的,C 正确;由于样本
30、的取值范围会影响回归方程的使用范围,而广 告费用 20 万元远大于表格中广告费用值,故用该回归方程不能准确地预测广告费用为 20 万元时的销售量,故 D 错误故选 AC 考点三考点三 独立性检验独立性检验 (2020全国新高考卷)为加强环境保护,治理空气污染,环境监测部门对某 市空气质量进行调研, 随机抽查了 100 天空气中的 PM25 和 SO2浓度(单位: g/m3), 得下表: SO2 PM25 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,115 3 7 10 (1)估计事件“该市一天空气中 PM25 浓度不超过 75,且
31、SO2浓度不超过 150”的概 率; (2)根据所给数据,完成下面的 22 列联表: SO2 PM25 0,150 (150,475 0,75 (75,115 (3)根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM25 浓度与 SO2浓度有关? 附:K2 n(adbc)2 (ab)(cd)(ac)(bd), P(K2k) 0050 0010 0001 k 3841 6635 10828 解:(1)根据抽查数据,该市 100 天的空气中 PM25 浓度不超过 75,且 SO2浓度不 超过 150 的天数为 32186864,因此, “该市一天空气中 PM25 浓度不超过 7
32、5, 且 SO2浓度不超过 150”的概率的估计值为 64 100064 (2)根据抽查数据,可得 22 列联表: SO2 PM25 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)根据(2)的列联表得 K2100(64101610) 2 80207426 7484由于 74846635, 故有 99%的把握认为该市一天空气中 PM25 浓度与 SO2浓度有关 【点拨】 独立性检验的一般步骤:(i)假设两个分类变量 x 与 y 没有关系;(ii)计算出 K2的观测值;(iii)把 K2的值与临界值比较,作 出合理的判断独立性检验的注意事项:(i)在列联表中
33、注意事件的 对应及相关值的确定,不可混淆;(ii)在实际问题中,独立性检验的结 论仅是一种数学关系表述, 得到的结论有一定的概率出错; (iii)对判断 结果进行描述时,注意对象的选取要准确无误 为了解“低碳生活,绿色出行”活动执行情况,某机构随机调查了本市 1 800 名 18 岁以上市民某月的骑车 次数,统计如下 次数 人数 年龄 0,10) 10,20) 20,30) 30,40) 40,50) 50,60 18 岁至 31 岁 8 12 20 60 140 150 32 岁至 44 岁 12 28 20 140 60 150 45 岁至 59 岁 25 50 80 100 225 45
34、0 60 岁及以上 25 10 10 18 5 2 联合国世界卫生组织于 2017 年确定新的年龄分段:18 岁至 44 岁为青年人,45 岁至 59 岁为中年人,60 岁及以上 为老年人用样本估计总体的思想,解决下列问题: (1)估计本市青年人该月骑车的平均次数; (2)若月骑车次数不少于 30 次者称为“骑行爱好者”,根据这些数据,能否在犯错误的概率 不超过 0001 的前提下认为“骑行爱好者与青年人有关”? 附: K2 n(adbc)2 (ac)(ab)(bd)(cd),其中 nabcd P(K2k0) 025 015 010 005 0025 0010 0005 0001 k0 132
35、3 2072 2706 3841 5024 6635 7879 10828 解 : (1) 本 市 青 年 人 该 月 骑 车 的 平 均 次 数 估 计 值 为x 20540154025200352004530055 204040200200300 4275 (2)根据题意得 22 列联表,如图所示 骑行爱好者 非骑行爱好者 总计 青年人 700 100 800 非青年人 800 200 1 000 总计 1 500 300 1 800 根据表格中数据计算 K21 800(100800700200) 2 3001 5008001 000 1810828 根据这些数据知, 能在犯错误的概率不超
36、过 0001 的前提下认为“骑行爱好者与青年人有 关” 学科素养微专题 线性回归方程应用中的数据分析 (2019湖南第二次联考)菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但蔬菜上市时仍存 在少量的残留农药, 食用时需要用清水清洗干净, 下表是用清水 x(单位: kg)清洗该蔬菜 1kg 后, 蔬菜上残留的农药 y(单 位: g)的统计表 x 1 2 3 4 5 y 58 54 39 29 10 (1)在下列坐标系中,描出散点图,并判断变量 x 与 y 是正相关还是负相关; (2)若用解析式 y cx2d 作为蔬菜上农药残留量 y 与用水量 x 的回归方程,令 wx2,计算平均值
37、w与y,完成 以下表格,并求出 y 与 x 的回归方程(c,d 保留两位有效数字); i 1 2 3 4 5 w 1 4 9 16 25 y 58 54 39 29 10 wiw yi y (3)对于某种残留在蔬菜上的农药,当它的残留量低于 20 g 时对人体无害,为了放心食用该蔬菜,请估计需要 用多少 kg 的清水清洗 1 kg 蔬菜?(结果精确到 01,参考数据: 52236) 附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线 y x 的斜率和截距的最小二乘估计分别 为 n i1 (xi x)(yiy) n i1 (xi x)2 ,y x 解:(1)散点图如图所示
38、 变量 x 与 y 是负相关 (2)由题中表格易得11,y38, i 1 2 3 4 5 w 1 4 9 16 25 y 58 54 39 29 10 wi 10 7 2 5 14 yiy 20 16 1 9 28 c1020(7)16(2)15(9)14(28) (10)2(7)2(2)252142 751 37420, d y c38201160, 所以 y 20w6020 x260 (3)当 y 20 时,20 x2602 545, 所以为了放心食用该蔬菜,估计需要用 45 kg 的清水清洗 1 kg 蔬菜 【点拨】 数据分析是指针对研究对象获取数据, 运用数学方法对数据进行 整理、分析
39、和推断,形成关于研究对象知识的素养数据分析过程主要包括: 收集数据,整理数据,提取信息,构建模型,进行推断,获得结论 某大型娱乐场有两种型号的水上摩托,管理人员为了解水上摩托的使用及给娱乐 城带来的经济收入情况,对该场所最近 6 年水上摩托的使用情况进行了统计,得到相关数据 如下表: 年份 201 2 201 3 201 4 201 5 201 6 201 7 年份代码 x 1 2 3 4 5 6 使用率 y(%) 11 13 16 15 20 21 (1)请根据以上数据, 用最小二乘法求水上摩托使用率 y 关于年份代码 x 的线性回归方程, 并预测该娱乐场 2019 年水上摩托的使用率; (
40、2)随着生活水平的提高,外出旅游的老百姓越来越多,该娱乐场根据自身的发展需要,准备重新购进一批水上摩 托,其型号主要是目前使用的型、型两种,每辆价格分别为 1 万元、12 万元根据以往经验,每辆水上摩托的 使用年限不超过四年娱乐场管理部对已经淘汰的两款水上摩托的使用情况分别抽取了 50 辆进行统计, 使用年限如条 形图所示: 已知每辆水上摩托从购入到淘汰平均年收益是 08 万元,若用频率作为概率,以每辆水上摩托纯利润(纯利润 收益购车成本)的期望值为参考值,则该娱乐场的负责人应该选购型水上摩托还是型水上摩托? 附:回归直线方程为 y bx,其中 b 1 2 1 ()() () n ii i n
41、 i i xxyy xx 1 22 1 n ii i n i i x ynxy xnx ,=y bx. 解:(1)由表格数据,得x=3.5, y=16, 6 1 ii i x y =371, 所以 b= 1 22 1 6 6 n ii i n i i x yxy xx 37163516 175 2, 所以162359, 所以水上摩托使用率 y 关于年份代码 x 的线性回归方程为 y 2x9 当 x8 时, y 28925,故预测该娱乐场 2019 年水上摩托的使用率为 25% (2)由频率估计概率,结合条形图知型水上摩托每辆可使用 1 年、2 年、3 年,4 年的概率分别为 02,03,03,02, 所以每辆型水上摩托可产生的纯利润期望值为(081)02(208 1)03(3081)03(4081)021(万元) 由频率估计概率,结合条形图知型水上摩托每辆可使用 1 年、2 年、3 年,4 年 的概率分别为 01,02,04,03, 所以每辆型水上摩托可产生的纯利润期望值为(0812)01(208 12)02(30812)04(40812)03112(万元) 应选购型水上摩托