1、8.2.1一元线性回归模型 收集数据收集数据 整理数据整理数据 分析数据分析数据 统计推断统计推断 研究统计问题的一般流程:研究统计问题的一般流程: 简单随机抽样简单随机抽样 分层抽样分层抽样 频数分布表频数分布表 频率分布直方图频率分布直方图 茎叶图茎叶图 散点图散点图 . 众数众数 中位数中位数 平均数平均数 方差方差 标准差标准差 用样本估计总体用样本估计总体 ? 单一数据单一数据 成对数据成对数据 单一数据单一数据 线性相关系数线性相关系数r . 成对数据成对数据 离散型随机变量离散型随机变量 . 连续型随机变量连续型随机变量 (正态分布)(正态分布) 复习引入 问题问题1:生活经验告
2、诉我们,儿子的身高与父亲的身高相关生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,一般来说,父亲的身高较高时,儿子的身高通常也较高父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间为了进一步研究两者之间的关系,有人调查了的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数名男大学生的身高及其父亲的身高,得到的数据如表据如表1所示所示. 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 儿子身高/cm 176 176
3、170 170 185 176 178 174 170 168 178 172 165 182 探究新知 172 父亲身高父亲身高 176 174 儿子身高儿子身高 儿子身高不是父亲身高的函数儿子身高不是父亲身高的函数 思考思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗? 探究新知 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 儿子
4、身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182 思考思考1: 根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗? 探究新知 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 儿子身高/cm 176 176 170 170 185 176 178 174 170 168 1
5、78 172 165 182 170 儿子身高儿子身高 173 169 父亲身高父亲身高 父亲身高不是儿子身高的函数父亲身高不是儿子身高的函数 . . . . . . . 利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示: 探究新知 思考2:经过刚才的分析,你觉得儿子身高不父亲身高的关系是怎样的? 儿子身高不父亲身高丌是函数关系,而是相关关系. 追问:儿子身高不父亲身高的关系是正相关还是负相关?是线
6、性相关还是曲线相关? 随着父亲身高的增加,儿子身高呈增加的趋势,所以是正相关. 优先考虑线性相关. 儿子身高与父亲身高呈正线性相关关系 探究新知 思考3:能否进一步验证刚才的结论? 样本相关系数为: 12211()()()()niiinniiiixx yyrxxyy 表明儿子身高和父亲身高正线性相关,且相关程度较高. 0.886探究新知 探究新知 思考4:除父亲身高外,还有哪些因素影响儿子的身高?除父亲身高外,还有哪些因素影响儿子的身高? 随机误差随机误差e 母亲身高 生活环境 饮食习惯 体育锻炼 追问:追问:如何理解随机误差如何理解随机误差e对儿子身高的影响?对儿子身高的影响? 假设没有随机
7、误差,则儿子身高x只受父亲身高Y影响,则 abxY事实上,相关系数 ,故 886. 0rabxY也可以记作 eabxY探究新知 思考5:随机误差随机误差e有哪些特征?有哪些特征? 随机误差e是一个随机变量 abxy 由于随机误差表示由于随机误差表示大量已大量已知和未知的各种影响之和知和未知的各种影响之和,它,它们会们会相互抵消相互抵消,为使问题简洁,为使问题简洁,可以假设随机误差可以假设随机误差e的均值为的均值为0,方差为与父亲身高无关的定值方差为与父亲身高无关的定值,即即E(e)=0,D(e)=. 可取正或取负 有些无法测量 丌可事先设定 因为误差是随机的,即取各种正负误差的因为误差是随机的
8、,即取各种正负误差的可能性一样,所以可能性一样,所以它们均值的它们均值的理想状态应该为理想状态应该为0. 如果随机误差时一个不为如果随机误差时一个不为0的常数的常数,则可以则可以将将合并到合并到截距截距项项a中中,否则模型无法确定,即参数没有唯一解,否则模型无法确定,即参数没有唯一解. 另外,如果另外,如果不为不为0,则表,则表示示存在系统误差存在系统误差,在实际建模中也,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差不希望模型有系统误差,即模型不存在非随机误差. 探究新知 追问1:为什么要假设为什么要假设E(e)=0,而不假设其为某个不为,而不假设其为某个不为0的常数?的常数?
9、探究新知 思考6:你能否考虑到上述随机因素的作用,用类似于函数的表达式,表达儿子身高不父亲身高的关系吗? 我们称(1)式为Y关于x的一元线性回归模型. 2Y,(1)( )0,( ).bxaeE eD e 如果用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差的均值为0,方差为不父亲身高无关的定值2,则它们乊间的关系可以表示为 其中,Y称为因变量或响应变量, x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数. 函数模型与函数模型与回归模型有什回归模型有什么区别?么区别? 追问1:你能结合父亲不儿子身高的实例,说明回归模型(1)的意义? 对于父亲身高为对
10、于父亲身高为的某一名男大学生,他的身高的某一名男大学生,他的身高 并不一定并不一定为为 bxi+a ,它仅是该子总体的一个,它仅是该子总体的一个观测值观测值,这个观测值与均值有这个观测值与均值有一个误差项一个误差项ei=yi -(+a). 探究新知 可以解释为父亲身高为可以解释为父亲身高为的的所有男大学生身高组成一个子总体所有男大学生身高组成一个子总体,该,该子总体的均值为子总体的均值为 bxi+a ,即该子总体的均值与父亲的身高是线性函数关系,即该子总体的均值与父亲的身高是线性函数关系. ()E bE Yxae)()(eEabxE0)(abxbxa追问2:对于父亲身高为xi的某一名男大学生,
11、他的身高yi一定是bxi+a吗? (1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等生活环境、饮食习惯和锻炼时间等; (2)在测量儿子身高时,由于测量工具、测量精度所产生的在测量儿子身高时,由于测量工具、测量精度所产生的测量误差测量误差; (3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来可以利用一元线性回归模型来近似近似这种关系,这种近似关系也是产生这种关系,这种近似关系也是产生随机误差随机误差
12、e的原因的原因. 产生随机误差产生随机误差e的原因有:的原因有: 追问3:你能结合具体实例解释产生模型(1)中随机误差项的原因吗? 探究新知 例题.某种新产品表面需要腐蚀刻线, 腐蚀深度Y(m)不腐蚀时间x(s)有关, 测得结果如下: 时间 x(s) 5 10 15 20 30 40 50 60 70 90 120 深度 Y(m) 5 8 10 13 16 17 19 23 25 29 46 (1)请根据以上数据判断,腐蚀深度Y(m)不腐蚀时间x(s)乊间的关系能否用一元线性回归模型2( )0,( )YbxaeE eD e,来刻画?并请说明理由. (2)请说明模型中abx不e分别表示什么?本题
13、中e的具体含义是什么? 典例分析 解: (1)用散点图定性分析散点落在一条直线附近,随着腐蚀时间的增加,腐蚀深度呈线性增加的趋势,所以,腐蚀深度不腐蚀时间具有正线性相关关系. 用线性相关系数r进行定量分析 用 excel 可算出,984. 0r所以,进一步说明腐蚀深度不腐蚀时间具有正线性相关关系. 综上,可以用一元线性回归模型进行刻画. (2)abx表示腐蚀时间对腐蚀深度的主要影响;e表示其它因素对腐蚀深度的次要影响. 2.2.建立一元线性回归模型的步骤建立一元线性回归模型的步骤 1.1.一元线性回归模型一元线性回归模型 (1)不函数模型的区别 (2)随机误差产生的原因及分布 (1)整理数据:散点图(3)如果线性相关,建立一元线性回归模型(否则就是其它曲线回归模型)2( )0,( )YbxaeE eD e,(2)分析数据定性分析 定量分析 函数关系 or 相关关系 or 没有关系? 课堂小结