1、第 79 讲 变量的相关性、回归分析、独立性检验1设某大学的女生的体重 y(单位:kg) 与身高 x(单位:cm) 具有线性相关关系,根据一组样本数据(x i,y i)(i1,2,n) ,用最小二乘法建立的回归方程为 y 0.85x85.71,则下列结论中不正确的是(D)Ay 与 x 具有正的线性相关关系B回归直线过样本点的中心( , )x y C若该大学某女生的身高增加 1 cm,则其体重约增加 0.85 kgD若该大学某女生的身高为 170 cm,则可断定其体重必为 58.79 kgA、B、C 均正确,是回归方程的性质 D 项是错误的,线性回归方程只能预测学生的体重,选项 D 应改为“ 若
2、该大学某女生身高为 170 cm,则估计其体重大约为 58.79 kg”才正确2(2017山东卷)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系设其回归直线方程为 y b xa .已知 i225, i1 600,b 4.该班某学生10i 1x10i 1y的脚长为 24,据此估计其身高为(C)A160 B163C166 D170因为 i225,所以 i22.5.10i 1x x 11010i 1x因为 i1 600,所以 i160.10i 1y y 11010i 1y又 b 4,所
3、以 a b 160422.570.x x 所以回归直线方程为 y 4x70.将 x24 代入上式得 y 42470166.3下列关于 K2 的说法中正确的是 (C)AK 2 在任何相互独立问题中都可以用于检验有关还是无关BK 2 的值越大,两个事件的相关性就越大CK 2 是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合DK 2 的观测值的计算公式为knad bca bc da cb d4通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计爱好 40 20 60不爱好 20 30 50总计 60 50 110由 K2 算得,nad bc2a b
4、c da cb dK2 7.8.1104030 2020260506050附表:P(K2k) 0.050 0.010 0.001k 3.841 6.635 10.828参照附表,得到的正确结论是(A)A有 99%以上的把握认为 “爱好该项运动与性别有关”B有 99%以上的把握认为 “爱好该项运动与性别无关”C在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关 ”解:因为 7.86.635,所以 99%以上的把握认为“爱好该项运动与性别有关”,选 A.5对于一组数据的两个函数模型,模型和模型的残差平方和分别
5、为 180.2 和290.7,若从中选取一个拟合程度较好的函数模型,应选 模型 .解:残差平方和越小,函数模型对数据的拟合效果越好;残差平方和越大,说明函数模型对数据的拟合效果越差6已知 x、y 的取值如下表所示,x 0 1 3 4y 2.2 4.3 4.8 6.7从所得的散点图分析,y 与 x 线性相关,且 y0.95xa,则 a 2.6 .解:因为回归直线方程必过样本点的中心( , ),x y 由表中数据得 2, 4.5,将(2,4.5)代入 y0.95x a,可得 a2.6.x y 7(2018全国卷)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图
6、为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型: 30.413.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)y 建立模型: 9917.5t.y (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值(2)你认为用哪个模型得到的预测值更可靠?并说明理由(1)利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为30.413.519226.1( 亿元) y 利用模型,可得该地区 2018
7、 年的环境基础设施投资额的预测值为9917.59256.5(亿元 )y (2)利用模型得到的预测值更可靠理由如下:(i)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线y30.413.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型9917.5t 可以较
8、好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模y 型得到的预测值更可靠(ii)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分)8一车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 8 次试验,收集的数据如下表:零件数 x(个) 10 20 30 40加工时间 y(min) 62 68 75 81零件数 x(个) 50 60 70 80加工时间 y(m
9、in) 89 95 102 108设回归方程为 y bxa,则点(a,b)在直线 x45y100 的(C)A左上方 B左下方C右上方 D右下方解:由 45, 85,得 a45b85,即有 a45b100,故点(a ,b)在直线x y x45y100 的右上方,故选 C.9某医疗研究所为了了解某种血清预防感冒的作用,把 500 名使用过这种血清的人与另外 500 名未使用这种血清的人一年中的感冒记录比较,提出假设 H0:“这种血清不能起到预防感冒的作用”,利用 22 列联表计算得 K23.918 ,经查临界值表知 P(K23.841)0.05.由下列结论中,正确结论的序号是 .有 95%的把握认
10、为“这种血清能起到预防感冒的作用 ”;若某人未使用该血清,那么他在一年中有 95%的可能性得感冒;这种血清预防感冒的有效率为 95%;这种血清预防感冒的有效率为 5%.解:因为 K23.9183.841,而 P(K23.841)0.05,所以有 95%的把握认为“这种血清能起到预防感冒的作用”10(2018佛山一模)有甲、乙两家公司都愿意聘用某求职者,这两家公式的具体聘用信息如下:甲公司 :职位 A B C D月薪/元 6000 7000 8000 9000获得相应职位概率 0.4 0.3 0.2 0.1乙公司: 职位 A B C D月薪/元 5000 7000 9000 11000 获得相应
11、职位概率 0.4 0.3 0.2 0.1(1)根据以上信息,如果你是该求职者,你会选择哪一家公司?说明理由;(2)某课外实习作业小组调查了 1000 名职场人士,就选择这两家公司的意愿作了统计,得到如下数据分布:人员结构选择意愿40 岁以上(含 40 岁)男性40 岁以上(含 40 岁)女性40 岁以下男性40 岁以下女性 选择甲公司 110 120 140 80选择乙公司 150 90 200 110若分析选择意愿与年龄这两个分类变量,计算得到的 K2 的观测值为 k15.5513,测得出“选择意愿与年龄有关系”的结论犯错误的概率的上限是多少?并用统计学知识分析,选择意愿与年龄变量和性别变量
12、哪一个关联性更大?附:K 2n(ad bc)2(a b)(c d)(a c)(b d)P(K2k) 0.050 0.025 0.010 0.005k 3.841 5.024 6.635 7.879(1)设甲公司与乙公司的月薪分别为随机变量 X,Y,则 E(X)6000 0.47000 0.380000.290000.17000,E(Y)5000 0.470000.3 90000.2110000.17000,D(X)(60007000) 20.4(70007000) 20.3(8000 7000)20.2(90007000)20.11000 2,D(Y)(50007000) 20.4(70007
13、000) 20.3(9000 7000)20.2(110007000)20.12000 2,则 E(X)E(Y),D(X) D(Y),我希望不同职位的月薪差距小一些,故选择甲公司;或我希望不同职位的月薪差距大一些,故选择乙公司(2)因为 k15.55135.024,根据表中对应值,得出“选择意愿与年龄有关系”的结论犯错的概率的上限是 0.025,由数据分布可得选择意愿与性别两个分类变量的 22 列联表如下:选择甲公司 选择乙公司 总计男 250 350 600女 200 200 400总计 450 550 1000计算 K2 6.734,1000(250200 350200)2600400450550 2000297且 K26.7346.635,对照临界值表得出结论“选择意愿与性别有关”的犯错误的概率上限为 0.01,由0.010.025,所以与年龄相比,选择意愿与性别关联性更大