1、章末复习提升课线性回归分析问题展示 (选修 23 P101 复习参考题 A 组 T2)如果美国 10 家工业公司提供了以下数据:公司销售总额 x1/百万美元利润 x2/百万美元通用汽车 126 974 4 224福特 96 933 3 835埃克森 86 656 3 510IBM 63 438 3 758通用电气 55 264 3 939美孚 50 976 1 809菲利普 莫利斯 39 069 2 946克莱斯勒 36 156 359杜邦 35 209 2 480德士古 32 416 2 413(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;(2)建立销售总额为解释变
2、量,利润为预报变量的回归模型,并计算残差;(3)计算 R2,你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由【解】 (1)将销售总额作为横轴 x,利润作为纵轴 y,根据表中数据绘制散点图如图由于散点图中的样本点基本上在一个带状区域内分布,猜想销售总额与利润之间呈线性相关关系(2)由最小二乘法的计算公式,得 1 334.5, 0.026,a b 则线性回归方程为 0.026x 1 334.5.y 其残差值计算结果见下表:销售总额126 974 96 933 86 656 63 438 55 264利润 4 224 3 835 3 510 3 758 3 939残差 411.824
3、 19.758 77.556 774.112 1 167.636销售总额50 976 39 069 36 156 35 209 32 416利润 1 809 2 946 359 2 480 2 413残差 850.876 595.706 1 915.556 230.066 235.684(3)对于(2)中所建立的线性回归方程,R 20.457,说明在线性回归模型中销售总额只能解释利润变化的 46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系经分析预测,美国通用汽车等 10 家大公司的销售总额 xi(i1,2,10,单位:百万美元)与利润 yi(i1,2,10 ,单位:百万美元)的近
4、似线性关系为 0.026x ,经y a (2)若通用汽车公司的销售总额 x1126 974(百万美元) ,残差 387,估计通用汽车的利润;(3)福特公司的销售总额为 96 933 百万美元,利润为 3 835,比较通用汽车与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?,(以上答案精确到个位)得样本中心点为(62 309,2 930),所以 2 9300.02662 3091 310.a (2)由(1)知 0.026 x1 310,y 当 x1126 974 时,10.026 126 9741 3104 611,y 所以 y1 1 14 611(387)4 224,y e 估计通
5、用汽车的利润为 4 224 百万美元(3)由(1)(2)可得通用汽车利润的解释变量对于预报变量变化的贡献率为 R ,21则 R 1 1 0.91191.1%.21(y1 y 1)2(y1 y )2 ( 387)2(1 294)2设福特公司利润的解释变量对于预报变量变化的贡献率为 R ,2由 0.026 x 1 310 得y 20.026 96 9331 3103 830,y 则 R 1 1 0.999 999.99%.2(3 835 3 830)2(3 835 2 930)2 529052由 R R 知,用 0.026x 1 310 作为解释变量与预报变量的关系,预报通用汽车的效果21 2 y
6、 没有预报福特公司的效果好,或者说预报通用汽车的精确度低于预报福特公司的精确度非线性回归分析问题展示 (选修 23 P86 例 2)一只红铃虫的产卵数 y 和温度 x 有关现收集了 7 组观测数据列于表中,试建立 y 关于 x 的回归方程温度 x/ 21 23 25 27 29 32 35产卵数 y/个 7 11 21 24 66 115 325【解】 根据收集的数据,作散点图:由散点图知,样本点分布在某条指数函数曲线周围,故该回归方程为 yc 1ec2x,两边取对数得 ln yc 2xln c 1,作变换 (c2 ,ln c 1 ),得 x ,z ln yx x) b a z b a 且变化
7、后所得样本数据表为x 21 23 25 27 29 32 35z 1.946 2.398 3.045 3.178 4.190 4.745 5.784经计算得 z 关于 x 的线性回归方程为0.272 x3.849 ,所以 y 关于 x 的回归方程为z e 0.272x3.849 即 e0.272x.y y 1e3.849拓展 1 “指数型”回归方程选择的等价性(1)选择指数函数 ya x(a0 且 a1)不科学,因为指数函数 ya x(a0 且 a1)恒过定点(0,1),且仅有一个估计值 a,不能有效体现解释变量 x 与预报变量 y 之间的关系,即拟合效果很差(2)“平移型”指数函数与 yc
8、1ec2x 的等价性回归方程为 ya xb由 ya xb 得 ln y(x b)ln a (ln a) xbln a,作变换 ( ln a, bln a),则有 x .z ln yx x)b a z b a 回归方程为 ya xb,令 axke x,t e x,可得变换 得 ykt b( k, b)t 1kax,y y ) b a (3)一般“指数型”函数与 yc 1ec2x 的等价性回归方程为 yk 1ek2xb因为 yk 1ek2xbk 1ek2xebk 1ebek2x,ln yln( k1eb)k 2xln k 1bk 2x,作变换 ( k 2, ln k 1b),z ln yx x)b
9、 a 则有 x .z b a 拓展 2 从散点图看回归方程的设置(1)由本例从散点图可以看出,样本点集中在某二次函数(抛物线)的附近,因此可选择二次函数 yax 2b 作为回归方程作变换 即得 yatb( 其中 a, b)t x2,y y) b a (2)若选用 yax 2bx c 模型,则具有不确定性;因为 yax 2bx ca ,(x b2a)2 4ac b24a虽然作变换 可得出线性关系 yat ,t (x b2a)2 ,y y ) 4ac b24a但由于 a、b、c 未确定,从而变换 t 的 t 值不确定,从而不能列出样本点(t i,y i)数(x b2a)2 据表,即 yat 不能确
10、定4ac b24a因此,我们根据散点图设置回归方程应特别注意:变换 可列出(t i,z i)的数据表t f(x),z g(y))注重变换后的线性回归方程中的 与 与变换前参数的关系b a 利用求出的线性回归方程替换变量后还原成原问题的回归方程最后根据需要进行回归分析独立性检验问题展示 (选修 23 P97 练习) 有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表优秀 不优秀 总计甲班 10 35 45乙班 7 38 45总计 17 73 90请画出列联表的等高条形图,并通过图形判断成绩与班级是否有关系;根据列联表的独立性检验,能否在犯
11、错误的概率不超过 0.01 的前提下认为成绩与班级有关系?【解】 列联表的等高条形图如图由图及表直观判断,好像“成绩优秀与班级有关系” 假设成绩与班级没有关系,则有a10,b35,c7,d38,ab45,cd45,ac17,bd73,n90,代入K2公式,得 K2的观测值k 0.653.90(1038 735)245451773由于 k0.6536.635,所以在犯错误的概率不超过 0.01 的前提下不能认为成绩与班级有关系甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表班级与成绩列联表优秀 不优秀 总计甲班 a b 45乙班 c d 45总计 25 65
12、 90若 K2 的观测值为 .1813(1)求 a,b,c,d 的值;(2)根据观测值表,能否在犯错误的概率不超过 0.25 的前提下认为成绩与班级无关【解】 (1)由表知,c25a,b45a,d45c45(25a)20a,n90.由 K2 得n(ad bc)2(a b)(c d)(a c)(b d) ,90a(20 a) (25 a)(45 a)245452565 1813化简得(2a25) 225,所以 2a255 或 2a255,所以 a15 或 a10,当 a10 时,优秀 不优秀 总计甲班 10 35 45乙班 15 30 45总计 25 65 90当 a15 时,优秀 不优秀 总计
13、甲班 15 30 45乙班 10 35 45总计 25 65 90说明甲班与乙班编号不同而已,故当 a10 时,b35,c15,d30,或当 a15 时,b30,c10,d35.(2)因为 K2的观测值 k 1.3851.323,1813而 P(K21.323)0.25,所以在犯错误的概率不超过 0.25 的前提下可以认为成绩与班级无关数学教师 STC 对他所任教的高二两个班进行一次数学考试 (满分 100 分),从两个班学生考试成绩中,都随机抽取了 15 名学生的数学成绩的茎叶图如下,(1)从茎叶图能否判断乙班的成绩好于甲班的成绩;(2)若记成绩在区间80,100)为优秀,小于 80 为不优
14、秀,你有多少把握判断乙班的成绩比甲班的成绩优良【解】 (1)甲班成绩集中在“茎 7”,乙班的成绩集中在 “茎 8”,从茎叶图可判断乙班的成绩好于甲班的成绩(2)根据茎叶图列出 22 列联表优秀 不优秀 总计甲班 5 10 15乙班 7 8 15总计 12 18 30K2的观测值 k 0.5560.455,且 k 0.5560.708,30(58 710)215151218 59 59又 P(K20.455)0.50,P (K20.708) 0.40,故仅有 50%至 60%的把握认为乙班的成绩比甲班的成绩优良1甲、乙、丙、丁四位同学各自对 A、B 两变量的线性相关性做试验,并用回归分析方法分别
15、求得相关系数 r 与残差的平方和 m 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则哪位同学的试验结果体现 A、B 两变量有更强的线性相关性( )A甲 B乙C丙 D丁解析:选 D.相关系数 r 越接近于 1 和残差平方和 m 越小,两变量 A、B 的线性相关性越强,故选 D.2某大学数学系学生会为了调查爱好游泳运动与性别是否有关,通过随机询问 110 名性别不同的大学生是否爱好游泳运动,得到如下的列联表:男 女 总计爱好 40 20 60不爱好 20 30 50总计 60 50 110由 K2 算得 K2 的观测值n(ad bc)2(a b
16、)(c d)(a c)(b d)k 7.8.110(4030 2020)260506050附表:P(K2k 0) 0.050 0.010 0.001k0 3.841 6.635 10.828参照附表,得到的正确结论是( )A在犯错误的概率不超过 0.1%的前提下,认为“爱好游泳运动与性别有关 ”B在犯错误的概率不超过 0.1%的前提下,认为“爱好游泳运动与性别无关”C在犯错误的概率不超过 1%的前提下认为“爱好游泳运动与性别有关”D在犯错误的概率不超过 1%的前提下认为“爱好游泳运动与性别无关 ”解析:选 C.因为 K27.86.635,但 7.810.828,故在犯错误的概率不超过 1%的前
17、提下认为“爱好游泳运动与性别有关” ,故选 C.3为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验,得到 5 组数据(x 1,y 1), (x2,y 2),(x 3,y 3),(x 4,y 4),( x5,y 5)根据收集到的数据可知x1x 2x 3x 4x 5150,由最小二乘法求得回归直线方程为 0.67x54.9,则y y1y 2y 3y 4y 5 的值为_解析:由题意,得 (x1x 2x 3x 4x 5)30,且回归直线 0.67x54.9 恒过点( ,x 15 y x ),则 0.673054.9 75,所以 y1y 2y 3y 4y 55 375.y y y
18、答案:3754在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁为了考察某种埃博拉病毒疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表:感染 未感染 总计服用 10 40 50未服用 20 30 50总计 30 70 100附表:P(K2k 0) 0.10 0.05 0.025k0 2.706 3.841 5.024参照附表,在犯错误的概率不超过_( 填百分比) 的前提下,认为 “小鼠是否被感染与服用疫苗有关” 解析:K 2的观测值 k 4.7623.841,所以在犯错误的概100(1030 2040)230705050率不超过 5%的前提下,认为 “小鼠是否被感染
19、与服用疫苗有关” 答案:5%5某中学对高二甲、乙两个同类班级进行了“加强语文阅读理解训练对提高数学应用题得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练) ,乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数) 如下表所示:60 分及以下6170 分7180 分8190 分91100 分甲班(人数)3 6 11 18 12乙班(人数)4 8 13 15 10现规定平均成绩在 80 分以上(不含 80 分) 的为优秀(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面
20、22 列联表,并判断能否在犯错误概率不超过 0.1 的前提下认为“加强语文阅读理解训练对提高数学应用题得分率”有关系优秀人数 非优秀人数 总计甲班乙班总计解:(1)由题意知,甲、乙两班均有学生 50 人,甲班优秀人数为 30,优秀率为 60%,3050乙班优秀人数为 25,优秀率为 50%,2550所以甲、乙两班的优秀率分别为 60%,50%.(2)22 列联表如下:优秀人数 非优秀人数 总计甲班 30 20 50乙班 25 25 50总计 55 45 100所以 K2的观测值 k 1.0102.706,100(3025 2025)250505545 10099所以不能在犯错误概率不超过 0.1 的前提下认为“加强语文阅读理解训练对提高数学应用题得分率”有关系