一元线性回归原理.pptx
(一)问题的提出例例1 1 假定需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。表表1 化肥施用量与粮食产量化肥施用量与粮食产量化肥施用量x(万吨)4541.054541.053637.872287.493056.894883.73779.34021.09粮食产量y(万吨)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(万吨)2989.062989.063021.93953.973212.133804.761598.281998.56粮食产量y(万吨)42947.4442947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(万吨)3710.563710.563269.031017.121864.232797.241034.09粮食产量y(万吨)46598.0446598.0444020.9234866.9137184.1441864.7733717.78第1页/共22页图1 化肥施用量与粮食产量的散点图第2页/共22页上述变量间关系的特点:1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y第3页/共22页问题两个变量之间有着密切的关系,但它们之间密切的程度并不能由一个变量唯一确定另一个变量,即它们间的关系是一种非确定性的关系。它们之间到底有什么样的关系呢?u例1中由20组数据,粮食产量与化肥施用量的关系式 是如何得到的?第4页/共22页解决方案运用模型来拟合这些数据点。观测值分解成两部分:y=0 0+1 1 x +l一元线性回归模型 x xy y观测项观测项 =+结构项结构项随机项随机项 =+第5页/共22页(二)一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x +y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数 x xy y第6页/共22页一元线性回归模型 (基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x4.对于所有的 x 值,的方差2 都相同5.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关第7页/共22页回归方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x方方程程的的图图示示是是一一条条直直线线,也也称称为为直线回归方程直线回归方程 0 0是是回回归归直直线线在在 y 轴轴上上的的截截距距,是当是当 x=0 时时 y 的期望值的期望值 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x 每每变变动动一一个个单单位位时时,y 的平均变动值的平均变动值 x xy y第8页/共22页xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)问题:回归直线如何确定?第9页/共22页Karl Gauss的最小化图x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i目标:找一条直线尽可能的拟合这n个样本点。第10页/共22页(三)最小二乘估计(least-squares estimation)1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第11页/共22页问题如何估计 使得 最小第12页/共22页解决方法根据微积分法求极值的原理,通过求偏导数并命其为0而得到:这组方程称为正规方程组经过整理,可得?第13页/共22页其中,u记u可以简写为经过整理,可得第14页/共22页例例1 1 假定需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。表表1粮食产量与化肥施用量粮食产量与化肥施用量化肥施用量x(万吨)4541.054541.053637.872287.493056.894883.73779.34021.09粮食产量y(万吨)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(万吨)2989.062989.063021.93953.973212.133804.761598.281998.56粮食产量y(万吨)42947.4442947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(万吨)3710.563710.563269.031017.121864.232797.241034.09粮食产量y(万吨)46598.0446598.0444020.9234866.9137184.1441864.7733717.78最小二乘法求解回归方程实例第15页/共22页解:第16页/共22页回归方程为:第17页/共22页 直观来看,回归直线与20个样本数据点都很接近,说明回归直线对数据的拟合效果是好的。图1 化肥施用量与粮食产量的散点图第18页/共22页最小二乘估计的软件实现、输出结果回归方程为:第19页/共22页小结:估计的回归方程3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程1.总体回归参数 和 是未知的,必须利用样本数据去估计其中:是估计的回归直线在 y 轴上的截距,是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时,y 的平均变动值.第20页/共22页“回归”名称的由来十九世纪,英国生物学家兼统计学家高尔顿研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x(单位:英寸,1英寸=2.54厘米),取他们的一个成年儿子的身高作为y,绘制散点图发现趋势近乎一条直线,计算出的直线方程为:这种趋势表明子代的身高向中心回归,才使得人类的身高在一定时间内相对稳定,没有出现两极分化现象。其后研究变量x和变量y的统计关系时借用这个名词。第21页/共22页谢谢您的观看!第22页/共22页