8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册

上传人:吹** 文档编号:218307 上传时间:2022-07-24 格式:PPT 页数:23 大小:2.19MB
下载 相关 举报
8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册_第1页
第1页 / 共23页
8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册_第2页
第2页 / 共23页
8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册_第3页
第3页 / 共23页
8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册_第4页
第4页 / 共23页
8.2.2一元线性回归模型参数的最小二乘估计ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册_第5页
第5页 / 共23页
点击查看更多>>
资源描述

1、8.2.2一元线性回归模型参数的最小二乘估计 问题问题1:为了研究两个变量之间的相关关系,我们建立了一元线性回为了研究两个变量之间的相关关系,我们建立了一元线性回归模型归模型表表达式达式 刻画的是变量刻画的是变量Y与变量与变量x之间的线性相关关系,其中参数之间的线性相关关系,其中参数a和和b未知,未知,我们能否通过样本数据估计参数我们能否通过样本数据估计参数a和和b? 2,( )0,( ).YbxaeE eD e 参数参数a和和b刻画了变量刻画了变量Y与变量与变量x的线性关系,因此通过样本数据估计的线性关系,因此通过样本数据估计这两个参数,这两个参数,相当于寻找一条适当的直线,使表示成对样本数

2、据的这些散相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近点在整体上与这条直线最接近. 与函数模型不同,回归模型的参数一般是与函数模型不同,回归模型的参数一般是无法精确求出的无法精确求出的,只能,只能通过成对样本数据通过成对样本数据估计估计这两个参数这两个参数. 问题引入 思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”? 思路思路1 1:先画出一条直线,先画出一条直线,测量出各点到直线的距离,测量出各点到直线的距离,然后移动直线,然后移动直线,到达一个到达一个使距离的和最小的位置使距离的和最小的位置,测量出此时的斜率和截距,测量

3、出此时的斜率和截距,就得到一条直线就得到一条直线 160 165 170 175 180 儿子身高/cm 父亲身高/cm 190 185 180 175 170 165 160 探究新知 思路思路2 2:可以在散点图可以在散点图中选两点画一条直线,中选两点画一条直线,使得直线两侧点的个数使得直线两侧点的个数基本相同基本相同,把这条直线,把这条直线作为所求直线作为所求直线 160 165 170 175 180 儿子身高/cm 父亲身高/cm 190 185 180 175 170 165 160 思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”? 探究新知 思

4、路思路3 3:在散点图中多取在散点图中多取几对点,确定出几条直线,几对点,确定出几条直线,再分别再分别求出这些直线的斜求出这些直线的斜率、截距的平均数率、截距的平均数作为所作为所求直线的斜率和截距求直线的斜率和截距 160 165 170 175 180 儿子身高/cm 父亲身高/cm 190 185 180 175 170 165 160 思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”? 探究新知 160 165 170 175 180 185 儿子身高/cm 父亲身高/cm 190 185 180 175 170 165 160 设满足一元线性回归模型的

5、两个变量的n对样本数据为 (x1,y1),(x2,y2), (xn,yn) 设 表示点 到直线 的距离, 表示点 到直线 的竖直距离, 表示直线 的倾斜角,则 ,所以思路1可以用中的距离可以用竖直距离替换. ybxaid()iix y,()iix y,ybxacosiidhihybxa探究新知 由 ,得 .显然 越小,表示点 与点 的“距离”越小,即样本数据点离直线 的竖直距离越小.因此可以用这n个竖直距离之和 来刻画各样本观测数据与直线 的“整体接近程度”. ybxaybxa(1,2,3, )iiiybxae inie)iiiybxae-()iix y,()iix bxa,1)niiiybx

6、a-(1|()|niiiybxa求求a, b的值,使的值,使Q(a, b)最小最小 探究新知 21( , )()niiiQ a bybxa残差平方和: 残差:实际值不估计值之间的差值,即 ()iiybxa思考2:如何求a,b的值,使 最小? 221122112112()()()()( , )()()()()()2()()()nniiiiiinniiiiiiniiiniiiybxaybxaybxayyyyb xQ a bybxybxb xxybxayyb xxn ybaabxxyx1111,nniiiixx yynn记记 探究新知 21( , )()niiiQ a bybxa1111()() (

7、)()()()()()()()()()0nniiiiiinniiiiyyb xxy bxay bxayyb xxy bxayybxxy bxanynyb nxnx注意到注意到 221()()( , )niiiyyb xxQ an ybxab所以所以 当当 取最小值时,取最小值时, 取最小值取最小值0,即,即 . . 2()n ybxa( , )Q a b=a ybx21221211()() =( , )2()()()nniiiiniiiiniiQ a bxx yyyxxyb xxyybb此时此时 探究新知 上式是关于上式是关于b的二次函数的二次函数, ,因此要使因此要使Q取得最小值取得最小值,

8、 ,当且仅当当且仅当b的取值为的取值为 121()()()niiiniixxyybxx综上,当综上,当a, ,b的取值为的取值为 时时, , Q达到最小达到最小. . 121()()()niiiniixxyybxxaybx21122211()() =( , )()2()()nniiiinniiiiiiyyb xxbbyyQ a bxxxx yy探究新知 易得易得: :(1 1)经验回归直线必过样本中心)经验回归直线必过样本中心 ; ; (2 2) 与相关系数与相关系数r符号相同符号相同. . ( , )x yb 我们将我们将 称为称为Y 关于关于x 的的经验回归方程经验回归方程,也称,也称经验

9、回归经验回归函数函数或或经验回归公式经验回归公式,其图形称为,其图形称为经验回归直线经验回归直线,这种求经验回归,这种求经验回归方程的方法叫方程的方法叫最小二乘法,最小二乘法,求得的求得的 , , 叫做叫做b, ,a的的最小二乘估计最小二乘估计 ybxab a探究新知 iiii()() (2)()1 12 21 11 11 1= = niniiii22innxyxxyybxxn x yxn xayb x 问题问题2:利用上节课的数据,依据用最小二乘估计一元线性回归模型利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高参数的公式,求出儿子身高Y关于父亲身高关于父亲身高x

10、的经验回归方程的经验回归方程. 探究新知 0.83928.957yx 利用公式利用公式(2)可以可以计算出计算出b=0.839, a=28.957, 得到儿子身高得到儿子身高Y关于父亲身高关于父亲身高x的经验回归方程为的经验回归方程为 160 165 170 175 180 185 儿子身高/cm 父亲身高/cm 190 185 180 175 170 165 160 0 83928 957 y.x.相应的经验回归直线如下图所示:相应的经验回归直线如下图所示: 追问1:当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么? 177y 探究新知 儿子的

11、身高不一定会是儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,这是因为还有其他影响儿子身高的因素,回归模型中的回归模型中的随机误差清楚地表达了这种影响随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高时,儿子身高一般在一般在177cm左右左右. 如果把父亲身高为如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值是这个子总体均值的估计值. 一般地,因为一

12、般地,因为E(Y)=bx+a, 是是bx+a的估计值,所以的估计值,所以 是是E(Y)的估计值的估计值. 追问2:根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗? 0.83928.957yx 根据经验回归方程 中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm. 0.83928.957yx探究新知 分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则 184.172(cm).y 矮个子父亲有生矮个子儿子的趋势,但一群矮个

13、子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则 171.587(cm).y 英国著名统计学家高尔顿把这种后代的身高像中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析. 探究新知 Ybxae一元线性回归模型 对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差,即 . yeyy 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析. 思考: 儿子身高不父亲身高的关系,运用残差分析所得的

14、一元线性回归模型的有效性吗? 探究新知 残差图: 作图时纵坐标为残差, 横坐标可以选为样本编号, 或身高数据或体重估计值等,这样作出的图形称为残差图 从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性. 探究新知 为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示: (1) (2) (3) 追问:追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随观察以下四幅残差图

15、,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?机误差的假定? 探究新知 (4) 图(1)显示残差不观测时间有线性关系,应将时间变量纳入模型; 图(2)显示残差不观测时间有非线性关系,应在模型中加入时间的非线性函数部分; 图(3)说明残差的方差丌是一个常数,随观测时间变大而变大 图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内. 一般地, 建立经验回归方程后,通常需要对模型刻画数据的效果迚行分析.借助残差分析还可以对模型迚行改迚,使我们能根据改迚模型作出更符合实际的预测不决策. 2.残差的平方和越小越好; 3.原始数据中的可疑数据往往是残差绝对值过大的数据; 4. 对数据

16、刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内 探究新知 1.残差等于观测值减预测值 eyy残差的性质: 1.关于残差图的描述错误的是( ) A.残差图的横坐标可以是样本编号 B.残差图的横坐标也可以是解释变量或预报变量 C.残差点分布的带状区域的宽度越窄相关指数越小 D.残差点分布的带状区域的宽度越窄残差平方和越小 C 巩固练习 2.已知变量x,Y之间具有线性相关关系,其散点图如图所示, 则其经验回归方程可能为( ) A. =1.5x+2 B. =-1.5x+2 C. =1.5x-2 D. =-1.5x-2 yyyyB x x 2 2 4 4 5 5 6 6 8 8 Y Y

17、 3030 4040 6060 5050 7070 3.某种产品的广告支出费用x(单位:万元)不销售额Y(单位: 万元)的数据如表: 已知Y关于x的经验回归方程为 =6.5x+17.5,则当广告支出费用为5万元时,残差为_. y当x=5时, =6.55+17.5=50,表格中对应y=60,于是残差为60-50=10. y10 巩固练习 .0,0 .0,0.0,0 .0,0AabB abC abD ab4.根据如下样本数据: 得到的经验回归方程为 , ,则则( ( ) ) y=bx+aB 5.5,0.25xy 25.51.417.5b61()()24.5iiixx yy 21()17.5niixx7 95 abxy.巩固练习 x 2 2 3 3 4 4 5 5 6 6 Y 4 4 2.52.5 - -0.50.5 - -2 2 - -3 3 1.经验回归方程 ,其中 ybxa121()()()niiiniixxyybxxaybx2.残差分析 课堂小结 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 高中 > 高中数学 > 人教A版(2019) > 选择性必修第三册