1、3.1 回归分析的基本思想及其初步应用,第三章 统计案例,学习目标 1.了解随机误差、残差、残差图的概念. 2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤.,题型探究,问题导学,内容索引,当堂训练,问题导学,请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?,知识点一 线性回归模型,思考,某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:,答案,答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.,(1)函数关系是一种 关系,而相关关系是一种 关系. (2)回归分析是对具有 关系
2、的两个变量进行统计分析的一种常用方法.,梳理,确定性,非确定性,相关,(4)线性回归模型ybxae,其中a和b是模型的未知参数,e称为_ _,自变量x称为 ,因变量y称为 .,随机,误差,解释变量,预报变量,知识点二 线性回归分析,思考1,预报变量 与真实值y一样吗?,答案 不一定.,答案,思考2,预报值 与真实值y之间误差大了好还是小了好?,答案 越小越好.,答案,(1)残差平方和法,梳理,(2)残差图法 残差点 落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度 ,说明模型拟合精度越高,回归方程的预报精度越高.,比较均匀地,越窄,(3)利用相关指数R2刻画回归效果其计算公式
3、为:R21 ,其几何意义: ,表示回归的效果越好.,R2越接近于1,知识点三 建立回归模型的基本步骤,1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. 2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程). 4.按一定规则(如最小二乘法)估计回归方程中的参数. 5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.,题型探究,例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据
4、:,类型一 求线性回归方程,(1)请画出上表数据的散点图;,解答,解 如图:,解答,预测记忆力为9的同学的判断力约为4.,解答,(1)求线性回归方程的基本步骤 列出散点图,从直观上分析数据间是否存在线性相关关系.,反思与感悟,写出线性回归方程并对实际问题作出估计. (2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.,跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:,由此资料可知y对x呈线性相关关系. (1)求线性回归方程;,解答,解 由上表中的数据可得,(2)求使用年限为10年时,该设备的维修费用为
5、多少?,即使用年限为10年时,该设备的维修费用为12.38万元.,解答,例2 为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:,类型二 线性回归分析,(1)作出散点图并求线性回归方程;,解答,解 散点图如图:,由散点图可知x与y呈线性相关,,(2)求出R2;,解 R20.999 1.,(3)进行残差分析.,解 由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型; 由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回
6、归模型的精度较高, 由以上分析可知,弹簧长度与质量具有线性关系.,解答,引申探究 1.在条件不变的情况下,画出残差图.,解 如图所示.,解答,2.当x35时,估计y的值.,解 当x35时,y6.2850.1833512.69.,解答,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法 残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.,反思与感悟,跟踪训练2 关于x与y有如下
7、数据:,解答,(1)的拟合效果好于(2)的拟合效果.,类型三 非线性回归分析,例3 下表为收集到的一组数据:,(1)作出x与y的散点图,并猜测x与y之间的关系;,解答,解 作出散点图如图,从散点图可以看出x与y不具有线性相关关系, 根据已有知识可以发现样本点分布在某一条指数型函数曲线yc1e 的周围,其中c1、c2为待定的参数.,(2)建立x与y的关系,预报回归模型并计算残差;,解答,解 对两边取对数把指数关系变为线性关系, 令zln y,则有变换后的样本点应分布在直线zbxa,aln c1,bc2的周围, 这样就可以利用线性回归模型来建立y与x之间的非线性回归方程,数据可以转化为,残差列表如
8、下:,(3)利用所得模型,预报x40时y的值.,解答,非线性回归问题的处理方法 (1)指数函数型yebxa 函数yebxa的图象:,反思与感悟,处理方法:两边取对数得ln yln ebxa,即ln ybxa.令zln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b. (2)对数函数型ybln xa 函数ybln xa的图象:,处理方法:设xln x,原方程可化为ybxa, 再根据线性回归模型的方法求出a,b. (3)ybx2a型 处理方法:设xx2,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.,跟踪训练3 已知某种食品每千克的生产成本y(元)与生产该
9、食品的重量x(千克)有关,经生产统计得到以下数据:,解答,所以估计生产该食品500千克时每千克的生产成本是1.14元.,当堂训练,1.设有一个回归方程 21.5x,当变量x增加1个单位时 A.y平均增加1.5个单位 B.y平均增加2个单位 C.y平均减少1.5个单位 D.y平均减少2个单位,2,3,4,5,1,答案,解析,解析 由回归方程中两个变量之间的关系可以得到.,2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是,2,3,4,5,1,A. B. C. D.,答案,解析,解析 由图易知两个图中样本点在一条直线附近,因此适合用线性回归模型.,3.某产品在某零售摊位的零售价x(单位:
10、元)与每天的销售量y(单位:个)的统计资料如下表所示:,2,3,4,5,1,A.51个 B.50个 C.49个 D.48个,答案,解析,2,3,4,5,1,4.下表是x和y之间的一组数据,则y关于x的回归直线必过,2,3,4,5,1,解析,A.点(2,3) B.点(1.5,4) C.点(2.5,4) D.点(2.5,5),答案,5.已知x、y之间的一组数据如下表:,2,3,4,5,1,解答,(2)已知变量x与y线性相关,求出回归方程.,2,3,4,5,1,解答,规律与方法,回归分析的步骤: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程,(4)按一定规则估计回归方程中的参数; (5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.,本课结束,