1、第八章第八章 成对数据的统计分析成对数据的统计分析 章末检测卷章末检测卷 (时间:120 分钟 满分:150 分) 一、单项选择题(本题共 8 小题,每小题 5 分,共 40 分在每小题给出的四个选 项中,只有一项是符合题目要求的) 1 下表显示出样本中变量y随变量x变化的一组数据, 由此判断它最可能是( ) x 4 5 6 7 8 9 10 y 14 18 19 20 23 25 28 A.线性函数模型 B二次函数模型 C指数函数模型 D对数函数模型 解析 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故 最可能是线性函数模型 答案 A 2已知具有线性相关关系的两个变量 x
2、,y 之间的一组数据如下,且回归方程是 y 0.95xa,则当 x6 时,y 的预测值为( ) x 0 1 2 3 4 y 2.2 4.3 4.5 4.8 6.7 A.8.4 B8.3 C8.2 D8.1 解析 由已知可得x 01234 5 2,y 2.24.34.54.86.7 5 4.5, 4.50.952a ,a2.6, 回归方程是y 0.95x2.6, 当 x6 时,y 的预测值y 0.9562.68.3. 答案 B 3在 22 列联表中,若每个数据变为原来的 2 倍,则 2的值变为原来的倍数 为( ) A8 倍 B4 倍 C2 倍 D不变 解析 由公式2 n(adbc)2 (ab)(
3、cd)(ac)(bd)中所有值变为原来的2倍, 得(2) 2n(2a 2d2b 2c)2 (2a2b)(2c2d)(2a2c)(2b2d)2 2, 故 2也变为原来的 2 倍 答案 C 4一唱片公司欲知唱片费用 x(十万元)与唱片销售量 y(千张)之间的关系,从其 所发行的唱片中随机抽选了 10 张,得如下的资料:错误错误! !iyi237,则 y 与 x 的相 关系数 r 的绝对值为( ) A0.6 B0.5 C0.4 D0.3 解析 |237102.87.5| 303.4102.82 598.5107.520.3. 答案 D 5为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽
4、取了 100 位居民进行调查,经过计算 20.99,根据这一数据分析,下列说法正确的 是( ) A有 99%的人认为该电视栏目优秀 B有 99%的人认为该电视栏目是否优秀与改革有关系 C有 99%的把握认为该电视栏目是否优秀与改革有关系 D没有理由认为该电视栏目是否优秀与改革有关系 解析 只有 26.635 时才能有 99%的把握认为该电视栏目是否优秀与改革有关 系,而即使 26.635 也只是对“该电视栏目是否优秀与改革有关系”这个论断 成立的可能性大小的推论,与是否有 99%的人等无关 答案 D 6为预测某种产品的回收率 y,需要研究它和原料有效成分含量 x 之间的相关 关系,若已知 y
5、与 x 之间存在线性相关关系,现取了 8 组观察值,计算知 8 i1x i 52, 8 i1y i288, 8 i1x 2 i478, 8 i1x i yi 1849,则 y 关于 x 的线性回归方程 是( ) A.y 11.472.62x B.y 11.472.62x C.y 2.6211.47x D.y 11.472.62x 解析 由b n i1x iyinx y n i1x 2 inx 2 ,a y b x , 直接计算得b 2.62,a11.47, 所以所求线性回归方程为y 2.62x11.47. 答案 A 7在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x
6、2,xn全不相 等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线 y1 2x1 上,则 这组样本数据的样本相关系数为( ) A1 B0 C.1 2 D1 解析 所有点均在直线上,且直线的斜率大于 0,则样本相关系数最大即为 1, 故选 D. 答案 D 8下表给出 5 组数据(x,y),为选出 4 组数据使其线性相关程度最大,且保留第 1 组数据(5,3),则应去掉( ) i 1 2 3 4 5 xi 5 4 3 2 4 yi 3 2 4 1 6 A.第 2 组 B第 3 组 C第 4 组 D第 5 组 解析 通过散点图选择, 画出散点图如图, 应除去第三组, 对应点的坐标是(
7、3, 4)故选 B. 答案 B 二、多项选择题(本题共 4 小题,每小题 5 分,共 20 分在每小题给出的四个选 项中,有多项符合题目要求,全部选对的得 5 分,部分选对的得 3 分,有选错的 得 0 分) 9下列说法中不正确的是( ) A相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实 际意义 B独立性检验对分类变量关系的研究没有 100%的把握,所以独立性检验研究 的结果在实际中也没有多大的实际意义 C相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的 D独立性检验如果得出的结论有 99%的可信度,就意味着这个结论一定是正确 的 解析 相关关系虽然是一种不确定
8、关系, 但是回归分析可以在某种程度上对变量 的发展趋势进行预报, 这种预报在尽量减小误差的条件下可以对生产与生活起到 一定的指导作用;独立性检验对分类变量的检验也是不确定的,但是其结果也有 一定的实际意义故选 ABD. 答案 ABD 10对于回归直线方程y bxa,下列说法中正确的是( ) A直线必经过点(x ,y ) Bx 增加 1 个单位时,y 平均增加b 个单位 C样本数据中 x0 时,可能有 ya D样本数据中 x0 时,一定有 ya 解析 回归直线方程是根据样本数据得到的一个近似曲线, 故由它得到的值也是 一个近似值 答案 ABC 11根据下面的列联表得到如下四个判断,正确的是( )
9、 嗜酒 不嗜酒 合计 患肝病 700 60 760 未患肝病 200 32 232 合计 900 92 992 A.至少有 99.9%的把握认为“患肝病与嗜酒有关” B至少有 99%的把握认为“患肝病与嗜酒有关” C在犯错误的概率不超过 0.01 的前提下认为“患肝病与嗜酒有关” D在犯错误的概率不超过 0.01 的前提下认为“患肝病与嗜酒无关” 解析 由列联表中数据可求得 2992(7003260200) 2 76023290092 7.3496.635 x0.01,所以在犯错误的概率不超过 0.01 的前提下,认为“患肝病与嗜酒有关 系”,即至少有 99%的把握认为“患肝病与嗜酒有关系”因
10、此 BC 正确 答案 BC 12下列说法中,正确的说法是( ) A将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变 B对于回归方程y 35x,变量 x 增加 1 个单位时,y平均增加 5 个单位 C残差图中,残差点所分布的带状区域越窄,说明模型的拟合程度越好 D在一个 22 列联表中,若 213.079,则有 99.9%以上的把握认为这两个变 量之间有关系 解析 数据的方差与加了什么样的常数无关,故 A 正确;对于回归方程y 3 5x,变量 x 增加 1 个单位时,y 平均减少 5 个单位,故 B 错误;易知 C 正确;若 213.07910.828x0.001, 则有99.9%以上
11、的把握认为这两个变量之间有关系, 故 D 正确 答案 ACD 三、填空题(本大题共 4 小题,每小题 5 分,共 20 分把答案填在题中的横线上) 13 已知下表所示数据所求得的回归直线方程为y 4x242, 则实数 a_ X 2 3 4 5 6 Y 251 254 257 a 266 解析 由题意, 得x 4, y 1 5(1 028a), 代入y 4x242, 可得1 5(1 028a)44 242,解得 a262. 答案 262 14 某数学老师身高 176 cm,他爷爷、父亲和儿子的身高分别是 173 cm、170 cm 和 182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归
12、分析的方法预测 他孙子的身高为_ cm. 解析 由题意可得数学老师的爷爷、父亲、数学老师本人和他儿子的身高可组成 三个坐标(173,170),(170,176),(176,182), x 173170176 3 173, y 170176182 3 176, b 3 i1x iyi3x y 3 i1x 2 i3(x )2 1, a y b x 1761733, y x3, 即数学老师的孙子的身高约为y 1823185(cm) 答案 185 15若两个分类变量 X 与 Y 的 22 列联表为: y1 y2 合计 x1 10 15 25 x2 40 16 56 合计 50 31 81 则“X 与
13、Y 之间有关系”这个结论出错的概率为_ 解析 由列联表数据,可求得 281(10164015) 2 25565031 7.2276.635x0.01, 所以“x 与 y 之间有关系”出错的概率为 0.01. 答案 0.01 16为了调查患慢性气管炎是否与吸烟有关,调查了 100 名 50 岁以下的人,调 查结构如下表: 患慢性气管炎 未患慢性气管炎 合计 吸烟 20 m 40 不吸烟 n 55 60 合计 25 75 100 根据列联表数据,求得2_(保留 3 位有效数字),根据下表,在犯错 误的概率不超过_的前提下认为患慢性气管炎与吸烟有关(本题第一 空 3 分,第二空 2 分) 附: 0.
14、050 0.010 0.001 x 3.841 6.635 10.828 2 n(adbc)2 (ab)(cd)(ac)(bd). 解析 由 20m40,得 m20. 由 20n25,得 n5. 故 2100(2055205) 2 40602575 22.210.828x0.001. 所以在犯错误的概率不超过 0.001 的前提下认为患慢性气管炎与吸烟有关 答案 22.2 0.001 四、解答题(本题共 6 小题,共 70 分解答应写出必要的文字说明、证明过程或 演算步骤) 17(本小题满分 10 分)为了调查某大学学生在某天上网的时间,随机对 100 名 男生和 100 名女生进行了不记名的
15、问卷调查,得到了如下的统计结果: 表 1:男生上网时间与频数分布表 上网时间 (分) 30,40) 40,50) 50,60) 60,70) 70,80 人数 5 25 30 25 15 表 2:女生上网时间与频数分布表 上网时间 (分) 30,40) 40,50) 50,60) 60,70) 70,80 人数 10 20 40 20 10 (1)若该大学共有女生 750 人,试估计其中上网时间不少于 60 分钟的人数; (2)完成下面的 22 列联表,并回答能否有 90%的把握认为“大学生上网时间与 性别有关” 上网时间少于 60 分钟 上网时间不少于60分钟 合计 男生 女生 合计 附:
16、2 n(adbc)2 (ab)(cd)(ac)(bd), 其中 nabcd 为样本容量 0.50 0.40 0.25 0.15 0.10 x 0.455 0.708 1.323 2.072 2.706 0.05 0.025 0.010 0.005 0.001 x 3.841 5.024 6.635 7.879 10.828 解 (1)设上网时间不少于 60 分钟的女生人数为 x, 依题意有 x 750 2010 100 , 解得 x225, 所以估计女生中上网时间不少于 60 分钟的人数是 225. (2)填 22 列联表如下: 上网时间少 于 60 分钟 上网时间不少 于 60 分钟 合计
17、男生 60 40 100 女生 70 30 100 合计 130 70 200 由表中数据可得到 2200(60304070) 2 10010013070 2.207.879x0.005. 因此有 99.5%的把握认为肥胖与常喝碳酸饮料有关 (3)设常喝碳酸饮料的肥胖者男生为 A,B,C,D,女生为 E,F,则任取 2 人有 AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF 共 15 种,其中 1 男 1 女有 AE,AF,BE,BF,CE,CF,DE,DF 共 8 种,故抽出 1 男 1 女的概率 p 8 15. 21(本小题满分 12 分)某农科所对
18、冬季昼夜温差大小与某反季节大豆新品种发 芽多少之间的关系进行分析研究, 他们分别记录了 12 月 1 日至 12 月 5 日的每天 昼夜温差与实验室每天每 100 颗种子中的发芽数,得到如下资料: 日期 12 月 1 日 12 月 2 日 12 月 3 日 12 月 4 日 12 月 5 日 温差 x () 10 11 13 12 8 发芽数 y(颗) 23 25 30 26 16 该农科所确定的研究方案是:先从这五组数据中选取 2 组,用剩下的 3 组数据求 线性回归方程,再对被选取的 2 组数据进行检验 (1)求选取的 2 组数据恰好是不相邻 2 天数据的概率; (2)若选取的是 12 月
19、 1 日与 12 月 5 日的两组数据,请根据 12 月 2 日至 12 月 4 日的数据,求出 y 关于 x 的线性回归方程y bxa; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 颗, 则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可 靠? 解 (1)设事件 A 表示“选取的 2 组数据恰好是不相邻 2 天的数据”,则A 表示 “选取的数据恰好是相邻 2 天的数据” 基本事件总数为 10,事件A 包含的基本事件数为 4. P(A ) 4 10 2 5, P(A)1P(A )3 5. (2)x 12,y 27, 3 i1x i yi977,
20、 3 i1x 2 i434, b 3 i1x iyi3x y 3 i1x 2 i3x 2 97731227 4343122 2.5, a y b x 272.5123, y 2.5x3. (3)由(2)知:当 x10 时,y 22,与检验数据的误差不超过 2 颗; 当 x8 时,y 17,与检验数据的误差不超过 2 颗 故所求得的线性回归方程是可靠的 22(本小题满分 12 分)某食品厂为了检查甲、乙两条自动包装流水线的生产情 况,随机在这两条流水线上各抽取 40 件产品作为样本,称出它们的质量(单位: 克),质量值落在(495,510的产品为合格品,否则为不合格品下图是甲流水线 样本的频率分
21、布直方图: 乙流水线样本的频数分布表如下: 产品质量(克) 频数 490,495 6 (495,500 8 (500,505 14 (505,510 8 (510,515 4 (1)若以频率作为概率,试估计从甲流水线上任取 5 件产品, 其中合格品的件数 X 的数学期望; (2)从乙流水线样本的不合格品中任取 2 件,求其中超过合格品质量的件数 Y 的 分布列; (3)由以上统计数据完成下面的 22 列联表,并回答有多大的把握认为“产品的 包装质量与两条自动包装流水线的选择有关” 甲流水线 乙流水线 合计 合格品 a b 不合格品 c d 合计 n 参考公式:2 n(adbc)2 (ab)(c
22、d)(ac)(bd),其中 nabcd. 参考数据: 0.15 0.10 0.05 0.025 0.010 x 2.072 2.706 3.841 5.024 6.635 解 (1)由题图知甲样本中合格品数为(0.060.090.03)54036,故合格品 的频率为36 400.9,据此可估计从甲流水线上任取 1 件产品,该产品为合格品的 概率 p0.9,则 X(5,0.9),E(X)50.94.5. (2)由题表知乙流水线样本中不合格品共 10 件,超过合格品质量的有 4 件,则 Y 的可能取值为 0,1,2,且 P(Yk)C k 4C2 k 6 C210 (k0,1,2),于是有 P(Y0)1 3, P(Y1) 8 15,P(Y2) 2 15. 所以 Y 的分布列为: Y 0 1 2 P 1 3 8 15 2 15 (3)22 列联表如下: 甲流水线 乙流水线 合计 合格品 36 30 66 不合格品 4 10 14 合计 40 40 80 2 n(adbc)2 (ab)(cd)(ac)(bd) 80(360120)2 66144040 3.1172.706 x0.10,所以有 90%的把握认为“产品的包装质量与两条自动包装流水线的选择有 关”.