1、 温故知新:温故知新: 1. 样本相关系数:样本相关系数: 12211()()()()niiinniiiixxyyrxxyy 2.相关系数的性质:相关系数的性质: 当当r0时,称成对样本数据时,称成对样本数据正相关正相关;当;当r0时,称成对样本数据时,称成对样本数据负相关负相关. |r|1; 当当|r|越接近越接近1时,成对数据的时,成对数据的线性相关程度越强线性相关程度越强;当;当|r|越接近越接近0时,成对数时,成对数据的据的线性相关程度越弱线性相关程度越弱;特别地,当;特别地,当|r|0时时,成对数据的,成对数据的没有线性相关关系没有线性相关关系;当当|r|1时,时,成对数据都落在一条
2、直线上成对数据都落在一条直线上. 1222211.niiinniiiix ynx yxnxyny 2.2.变量变量x x和变量和变量y y的的3 3对随机观测数据对随机观测数据(2(2,2)2),(3(3,1), (51), (5,7)7),计算成,计算成对样本数据的样本相关系数对样本数据的样本相关系数. . 能据此推断这两个变量线性相关吗能据此推断这两个变量线性相关吗? ? 为什么为什么? ? 解:解: 由样本数据可得由样本数据可得 313322222211103343( 2)31.10383 ()543 ( 2)333iiiiiiix yxyrxxyy 311022 23 ( 1)5 (
3、7)343iiixyx y ,332222222211235382( 1)( 7)54iiiixy ,.,. 虽然样本相关系数为虽然样本相关系数为1 1,三个样本点在一条直线上,但是由于样,三个样本点在一条直线上,但是由于样本量太小,据此推断两个变量完全线性相关并不可靠本量太小,据此推断两个变量完全线性相关并不可靠. . 请看课本请看课本P103P103:练习:练习2 2 niii 1nn2222iii 1i 1x ynxyrxnxyny 4.4.随机抽取随机抽取7 7家超市,得到其广告支出与销售额数据如下:家超市,得到其广告支出与销售额数据如下: 解:解: 由样本数据可得由样本数据可得 71
4、7722222211577284174270.83.577537 ()133507 42777iiiiiiix yx yrxxyy 31574228417iiixyx y ,33221175313350iiiixy,.,.正线性相关,相关性较强,销售额与广告支出的变化趋势相同正线性相关,相关性较强,销售额与广告支出的变化趋势相同. . 超市超市 A B C D E F G 广告支出广告支出/万元万元 1 2 4 6 10 14 20 销售额销售额/万元万元 19 32 44 40 52 53 54 请推断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋请推断超市的销售额与广告支出之
5、间的相关关系的类型、相关程度和变化趋势的特征势的特征. . 请看课本请看课本P103P103:练习:练习4 4 niii 1nn2222iii 1i 1x ynxyrxnxyny 8.2.1 8.2.1 一元线性回归模型一元线性回归模型 8.2 8.2 一元线性回归模型及其应用一元线性回归模型及其应用 生活经验告诉我们,儿子的身高与父亲的身高相关生活经验告诉我们,儿子的身高与父亲的身高相关. .一般来说,父亲一般来说,父亲的身高较高时,儿子的身高通常也较高的身高较高时,儿子的身高通常也较高. .为了进一步研究两者之间的关系为了进一步研究两者之间的关系,有人调查了,有人调查了1414名男大学生的
6、身高及其父亲的身高,得到的数据如名男大学生的身高及其父亲的身高,得到的数据如下下表表所示所示. . 编号编号 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1010 1111 1212 1313 1414 父亲身高父亲身高/cm/cm 174174 170170 173173 169169 182182 172172 180180 172172 168168 166166 182182 173173 164164 180180 儿子身高儿子身高/cm/cm 176176 176176 170170 170170 185185 176176 178178 174174
7、170170 168168 178178 172172 165165 182182 探究:探究: 利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图,如右图所示建立直角坐标系,再将表中的成对样本数据表示为散点图,如右图所示. . 由图可知散点大致分布在一条从左下角到右,上角的直线附近,表由图可知散点大致分布在一条从左下角到右,上角的直线附近,表明明儿子身高和父亲身高线性相关儿子身高和父亲身高线性相关. . 利用统计软件,求得样本相关系数为利用统计软件,求得样本相关系数为r0.
8、886r0.886,表明,表明儿子身高和父亲身高正线性相关儿子身高和父亲身高正线性相关,且,且相关程度较高相关程度较高. . 思考思考1 1:根据数据,父子的身高之间的关系可以用函数模型刻画吗根据数据,父子的身高之间的关系可以用函数模型刻画吗? ? 儿子身高和父亲身高之间不是函数关系,故不能用函数模型刻画儿子身高和父亲身高之间不是函数关系,故不能用函数模型刻画. . 但由于父子的身高有较强的但由于父子的身高有较强的线性相关线性相关,因此我们可以用,因此我们可以用一次函数一次函数来刻画来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素作为父亲身高对儿子身高的影响,而把影响儿子身高的其他因
9、素作为随机误随机误差差,得到刻画两个变量之间关系的,得到刻画两个变量之间关系的线性回归模型线性回归模型. . 若用若用x x表示父亲身高表示父亲身高,Y Y表示儿子身高,表示儿子身高,e e表示随机误差表示随机误差. . 假定随机误差假定随机误差e e的均值为的均值为0 0,方差为,方差为与父亲身高无关的定值与父亲身高无关的定值2 2,则它们之间的关系可以表示为,则它们之间的关系可以表示为 2(1)( )0( ).YbxaeE eD e , 思考思考1 1:根据数据,父子的身高之间的关系可以用函数模型刻画吗根据数据,父子的身高之间的关系可以用函数模型刻画吗? ? 2(1)( )0( ).Ybx
10、aeE eD e , 我们称我们称(1)(1)式为式为Y Y关于关于x x的的一元线性回归模型一元线性回归模型. .其中,其中,Y Y称为称为因变量或因变量或响应变量响应变量,x x称为称为自变量或解释变量自变量或解释变量;a a和和b b为模型的未知参数,为模型的未知参数,a a称为称为截截距参数距参数,b b称为称为斜率参数斜率参数;e e是是Y Y与与bx+abx+a之间的之间的随机误差随机误差. . 模型中的模型中的Y Y也是也是随机变量随机变量,其值虽不能由变量,其值虽不能由变量x x的值确定,但却能表示为的值确定,但却能表示为bx+abx+a与与e e的和,的和,前一部分由前一部分
11、由x x所确定,后一部分是随机的所确定,后一部分是随机的. . 如果如果e=0e=0,那么,那么Y Y与与x x之间的关之间的关系就可用一元线性函数模型来描述系就可用一元线性函数模型来描述. . 因为误差是随机的,即取各种正负误差的因为误差是随机的,即取各种正负误差的可能性一样,所以可能性一样,所以它们均值的它们均值的理想状态应该为理想状态应该为0. 如果随机误差时一个不为如果随机误差时一个不为0的常数的常数,则可以则可以将将合并到合并到截截距项距项a中中,否则模型无法确定,即参数没有唯一解,否则模型无法确定,即参数没有唯一解. 另外,如果另外,如果不为不为0,则表,则表示示存在系统误差存在系
12、统误差,在实际建模中,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差也不希望模型有系统误差,即模型不存在非随机误差. 追问1:为什么要假设为什么要假设E(e)=0,而不假设其为某个不为,而不假设其为某个不为0的常数?的常数? 追问2:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义? 对于父亲身高为对于父亲身高为的某一名男大学生,他的身高的某一名男大学生,他的身高 并不一定为并不一定为 bxi+a ,它,它仅是该子总体的一个仅是该子总体的一个观测值观测值,这个观测值与均值有一个误差项这个观测值与均值有一个误差项ei=yi - -(+a). 可以解释为父亲身高为可以解释为父亲身
13、高为的的所有男大学生身高组成一个子总体所有男大学生身高组成一个子总体,该子,该子总体的均值为总体的均值为 bxi+a ,即该子总体的均值与父亲的身高是线性函数关系,即该子总体的均值与父亲的身高是线性函数关系. ()E bE Yxae)()(eEabxE0)(abxbxa追问3:对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗? 思考思考2 2:结合具体实例解释产生模型结合具体实例解释产生模型(1)(1)中随机误差项的原因吗中随机误差项的原因吗? ? 2(1)( )0( ).YbxaeE eD e ,在研究儿子身高与父亲身高的关系时,产生随机误差在研究儿子身高与父亲身高的关系时
14、,产生随机误差e e的原因有:的原因有: (1) (1) 除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;活环境、饮食习惯和锻炼时间等; (2)(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;在测量儿子身高时,由于测量工具、测量精度所产生的测量误差; (3)(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差可以利用一元线性回归模型来近似这种关系,这
15、种近似也是产生随机误差e e的原因的原因. . 思维辨析思维辨析( (对的打对的打“”“”,错的打错的打“”)”) 1 1. .两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差( ( ) ) 2 2. .在一元线性回归模型中在一元线性回归模型中,可以假设随机误差可以假设随机误差e e的均值为某个不为的均值为某个不为0 0的常数的常数( ( ) ) 学以致用:学以致用: 2.2.在一元线性回归模型在一元线性回归模型(1) (1) 中,参数中,参数b b的含义是什么的含义是什么? ? 解:解:参数参数b b的含义可以解释为解释变量
16、的含义可以解释为解释变量x x对响应变量对响应变量Y Y的均值的影响,变的均值的影响,变量量x x每增加每增加1 1个单位,响应变量个单位,响应变量Y Y的均值将增加的均值将增加b b个单位个单位. . 例如,教科书中父亲身高为例如,教科书中父亲身高为175 cm175 cm的儿子身高的均值比父亲身高为的儿子身高的均值比父亲身高为174cm174cm的儿子身高的均值高出的儿子身高的均值高出0.839cm.0.839cm. 注意:因为响应变量注意:因为响应变量Y Y最终取值,除了受变量最终取值,除了受变量x x的影响,还要受随机的影响,还要受随机误差误差e e的影响,所以不能解释成解释变量的影响,所以不能解释成解释变量x x每增加一个单位,响应变量每增加一个单位,响应变量Y Y增增加加b b个单位个单位. . 请看课本请看课本P107P107:练习:练习2 2 我们称Ybxae,Ee0,De2为 Y 关于 x 的_模型, 其中 Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和 b 为模型未知参数,a 称为_参数,b 称为斜率参数;e 是 Y 与 bxa 之间的随机_ 课堂小结:课堂小结: 一元线性回归模型:一元线性回归模型: 一元线性回归一元线性回归 误差误差 截距截距