1、第三章第三章 统计案例统计案例 章末复习章末复习 学习目标 1.会求回归直线方程, 并用回归直线进行预报.2.理解独立性检验的基本思想及实 施步骤 1最小二乘法 对于一组数据(xi,yi),i1,2,n,如果它们线性相关,则回归直线方程为y b xa ,其 中b i1 n xi x yi y i1 n xi x 2 i1 n xiyin x y i1 n x2in x 2 ,a y b x . 222 列联表 22 列联表如表所示: B B 合计 A n11 n12 n1 A n21 n22 n2 合计 n1 n2 n 其中 n1n11n21,n2n12n22, n1n11n12,n2n21n
2、22, nn11n21n12n22. 3独立性检验 常用统计量 2nn11n22n12n21 2 n1n2n1n2 来检验两个变量是否有关系. 类型一 线性回归分析 例 1 某城市理论预测 2010 年到 2014 年人口总数与年份的关系如表所示: 年份 201x(年) 0 1 2 3 4 人口数 y(十万) 5 7 8 11 19 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,求出 y 关于 x 的回归直线方程y b xa ; (3)据此估计 2019 年该城市人口总数 考点 回归分析思想的应用 题点 回归分析思想的应用 解 (1)散点图如图: (2)因为 x 01234 5
3、2, y 5781119 5 10, i1 5 xiyi051728311419132, i1 5 x2i021222324230, 所以b 1325210 30522 3.2, a y b x 3.6. 所以回归直线方程为y 3.2x3.6. (3)令 x9,则y 3.293.632.4, 故估计 2019 年该城市人口总数为 32.4(十万) 反思与感悟 解决回归分析问题的一般步骤 (1)画散点图根据已知数据画出散点图 (2)判断变量的相关性并求回归方程 通过观察散点图, 直观感知两个变量是否具有相关关系; 在此基础上,利用最小二乘法求回归系数,然后写出回归方程 (3)实际应用依据求得的回
4、归方程解决实际问题 跟踪训练 1 某运动员训练次数与运动成绩之间的数据关系如下: 次数 x 30 33 35 37 39 44 46 50 成绩 y 30 34 37 39 42 46 48 51 (1)作出散点图; (2)求出回归直线方程; (3)计算相关系数并进行相关性检验; (4)试预测该运动员训练 47 次及 55 次的成绩 解 (1)作出该运动员训练次数 x 与成绩 y 之间的散点图,如图所示,由散点图可知,它们之 间具有线性相关关系 (2)列表计算: 次数 xi 成绩 yi x2i y2i xiyi 30 30 900 900 900 33 34 1 089 1 156 1 122
5、 35 37 1 225 1 369 1 295 37 39 1 369 1 521 1 443 39 42 1 521 1 764 1 638 44 46 1 936 2 116 2 024 46 48 2 116 2 304 2 208 50 51 2 500 2 601 2 550 由上表可求得 x 39.25, y 40.875, 8 i1x 2 i12 656, 8 i1y 2 i13 731, 8 i1xiyi13 180, b 8 i1xiyi8 x y 8 i1x 2 i8 x 2 1.041 5,a y b x 0.003 88, 回归直线方程为 y1.041 5x0.003
6、 88. (3)计算相关系数 r0.992 7,因此运动员的成绩和训练次数两个变量有较强的相关关系 (4)由上述分析可知,我们可用回归直线方程 y1.041 5x0.003 88 作为该运动员成绩的预报 值 将 x47 和 x55 分别代入该方程可得 y49 和 y57.故预测该运动员训练 47 次和 55 次的 成绩分别为 49 和 57. 类型二 独立性检验 例 2 为了解某班学生喜爱打篮球是否与性别有关, 对本班 48 人进行了问卷调查得到了如下 的 22 列联表: 喜爱打篮球 不喜爱打篮球 合计 男生 6 女生 10 合计 48 已知在全班 48 人中随机抽取 1 人,抽到喜爱打篮球的
7、学生的概率为2 3. (1)请将上面的 22 列联表补充完整;(不用写计算过程) (2)能否在犯错误的概率不超过 0.05 的前提下认为喜爱打篮球与性别有关?说明你的理由 考点 独立性检验及其基本思想 题点 独立性检验的综合应用 解 (1)列联表补充如下: 喜爱打篮球 不喜爱打篮球 合计 男生 22 6 28 女生 10 10 20 合计 32 16 48 (2)由 2 48220602 282032164.286. 因为 4.2863.841, 所以能在犯错误的概率不超过 0.05 的前提下认为喜爱打篮球与性别有关 反思与感悟 通过公式 2nn11n22n12n21 2 n1n2n1n2 计
8、算出 2的值,再与临界值作比较,最后得出结论 跟踪训练 2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方 法从该校调查了 60 人,结果如下: 是否愿意提供志愿者服务 性别 愿意 不愿意 男生 20 10 女生 10 20 (1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取 6 人,其中男生抽取多少人? (2)你能否在犯错误的概率不超过 0.01 的前提下认为该高校学生是否愿意提供志愿者服务与 性别有关? 下面的临界值表供参考: P(2k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 2.072 2.706 3.841 5.02
9、4 6.635 7.879 10.828 独立性检验统计量 2nn11n22n12n21 2 n1n2n1n2 ,其中 n1n11n21,n2n12n22,n1n11n12, n2n21n22,nn11n21n12n22. 考点 独立性检验思想的应用 题点 分类变量与统计、概率的综合性问题 解 (1)由题意,可知男生抽取 6 20 20104(人) (2)26020201010 2 30303030 6.667, 由于 6.6676.635, 所以能在犯错误的概率不超过 0.01 的前提下认为该高校学生是否愿意提供志愿者服务与性别有关. 1 “回归”一词是在研究子女的身高与父母的身高之间的遗传
10、关系时由高尔顿提出的, 他的 研究结果是子代的平均身高向中心回归根据他的结论,在儿子的身高 y 与父亲的身高 x 的 回归直线方程y b xa 中,b 的值( ) A在(1,0)内 B等于 0 C在(0,1)内 D在1,)内 考点 线性回归分析 题点 回归直线方程的应用 答案 C 解析 子代平均身高向中心回归,b 应为正的真分数,故选 C. 2从某地区老人中随机抽取 500 人,其生活能否自理的情况如下表所示,则( ) 性别 人数 生活能否自理 男 女 能 178 278 不能 23 21 A.有 95%的把握认为老人生活能否自理与性别有关 B有 99%的把握认为老人生活能否自理与性别有关 C
11、没有充分理由认为老人生活能否自理与性别有关 D以上都不对 考点 题点 答案 C 解析 经计算,得 2 50017821278232 178231782782782123212.9253.841, 故我们没有充分的理由认为老人生活能否自理与性别有关 3四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归方程,分别得 到以下四个结论: y 与 x 负相关且y 2.347x6.423; y 与 x 负相关且y 3.476x5.648; y 与 x 正相关且y 5.437x8.493; y 与 x 正相关且y 4.326x4.578. 其中一定不正确的结论的序号是( ) A B C
12、D 考点 线性回归分析 题点 回归直线方程的应用 答案 D 解析 中,回归方程中 x 的系数为正,不是负相关;中,回归方程中 x 的系数为负,不 是正相关,所以一定不正确 4对于回归直线方程y b xa ,当 x3 时,对应的 y 的估计值是 17,当 x8 时,对应的 y 的估计值是 22,那么,该回归直线方程是_,根据回归直线方程判断当 x_ 时,y 的估计值是 38. 考点 线性回归分析 题点 回归直线方程的应用 答案 y x14 24 解析 首先把两组值代入回归直线方程,得 3b a 17, 8b a 22, 解得 b 1, a 14. 所以回归直线方程是y x14. 令 x1438,可得 x24,即当 x24 时,y 的估计值是 38. 1建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量 (2)画出散点图,观察它们之间的关系 (3)由经验确定回归方程的类型 (4)按照一定的规则估计回归方程中的参数 2独立性检验是研究两个分类变量间是否存在相关关系的一种案例分析方法.