一元线性回归方程.pptx
第一章第一章 一元线性回归模型一元线性回归模型 以下设 x 为自变量(普通变量普通变量)Y 为因变量(随机变量随机变量).现给定 x 的 n 个值 x1,xn,观察 Y 得到相应的 n 个值 y1,yn,(xi,yi)i=1,2,n 称为样本点样本点.以以(xi,yi)为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图散点图.第1页/共28页第2页/共28页1.1 1.1 模型的建立及其假定条件模型的建立及其假定条件例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下理论回归模型理论回归模型:Yi=0+1 Xi+i其中:Yi被解释变量;Xi解释变量;I 随机误差项;0,1回归系数随机变量 i包含:回归模型中省略的变量;确定数学模型的误差;测量误差 一、一元线性回归模型一、一元线性回归模型第3页/共28页 XY8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191户数户数5657665765总支出总支出32546244570767875068510439661211 假设调查了某社区所有居民,他们的人均可支假设调查了某社区所有居民,他们的人均可支配收入和消费支出数据如下:配收入和消费支出数据如下:第4页/共28页YX55100 120140 16080 描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。第5页/共28页二、随机误差项二、随机误差项i i的假定条件的假定条件为了估计总体回归模型中的参数,需对随机误差项作出如下假定:假定1:零期望假定零期望假定:E(i)=0。假定2:同方差性假定同方差性假定:Var(i)=2。假定4:i 服从正态分布服从正态分布,即i N(0,2)。假定3:无序列相关假定无序列相关假定:Cov(i,j)=0,(i j)。前三个条件称为G-M条件第6页/共28页1.2 1.2 一元线性回归模型的参数估一元线性回归模型的参数估计计普通最小二乘法(普通最小二乘法(Ordinary Least Ordinary Least SquaresSquares)OLSOLS回归直线的性质回归直线的性质OLSEOLSE的性质的性质第7页/共28页一、普通最小二乘法一、普通最小二乘法对于所研究的问题,通常真实的回归直线 E(Yi|Xi)=0+1Xi 是观测不到的。可以通过收集样本来对真实的回归直线做出估计。经验回归直线:经验回归直线:其中:为Yi的估计值(拟合值);为 0,1 的估计值;如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用ei表示(称为残差),则经验回归模型经验回归模型为:(ei为i的估计值)第8页/共28页注意:分清4个式子的关系(4)经验(估计的)回归直线:(1)理论(真实的)回归模型:(3)经验(估计的)回归模型:(2)理论(真实的)回归直线:第9页/共28页对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q=则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:=0=0正规方程组即第10页/共28页根据以上两个偏导方程得以下正规方程正规方程(Normal equation):第11页/共28页若记则 第12页/共28页二、二、OLS回归直线的性回归直线的性质质(1)估计的回归直线 过点 .(3)Yi 的拟合值的平均数等于其样本观测值的平均数 .=(2)第13页/共28页统计性质统计性质l 线性线性l 无偏性无偏性l 有效性有效性 2 2 的估计的估计三、三、OLSE回归直线的性质回归直线的性质第14页/共28页1 1、线性、线性这里指 都是Yi的线性函数。证明:=令代入上式,得:同理可证:0也具有线性特性。=第15页/共28页2、无偏性 证明:=类似可证第16页/共28页3、有效性 0,1 的OLS估计量的方差比其他线性无偏估计量的方差都小。第17页/共28页总体(随机误差项)真实方差 2的无偏估计量:三、三、2 的估计的估计第18页/共28页1.3 1.3 回归方程的显著性检验回归方程的显著性检验一、回归参数的显著性检验(一、回归参数的显著性检验(t t 检验检验)首先,提出原假设和备择假设:H0:H1:其次,确定并计算统计量:如果 不能拒绝H0:,认为X X对Y Y没有显著影响。如果 拒绝H0:,认为X X对Y Y有显著影响。同理,可对 进行显著性检验。第19页/共28页二、回归方程的显著性检验(二、回归方程的显著性检验(F F检验检验)总离差平方和 回归平方和 残差平方和SST =SSR +SSESST =SSR +SSEH0:H1:拒绝域F F F F (1,n-2)第20页/共28页三、三、用样本可决系数检验回归方程的拟合优度用样本可决系数检验回归方程的拟合优度 R2=R2 2=0=0时 表明解释变量X X与被解释变量Y Y之间不存在线性关系;R2 2=1=1时 表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2 2越接近1 1表示拟合程度越好,X X对Y Y的解释能力越强。第21页/共28页四四.相关系数检验法相关系数检验法1.提出原假设2.选择统计量3.对给定的显著性水平,查临界值 r (n-2),得否定域为|R R|r (n-2);第22页/共28页1.41.4 回归系数估计值的置信区回归系数估计值的置信区间间-t/2(n-2)0 t/2(n-2)由于:由大括号内不等式表示的 1 1的1-的置信区间为:得:P t/2(n-2)=1-同理,可,并求得 的置信区间为:第23页/共28页1.5 1.5 一元线性回归方程的预测和控一元线性回归方程的预测和控制制 点预测Yi区间预测 (1)单个值Yi的区间预测 (2)均值E(Yi)的区间预测控制第24页/共28页如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测和控制。1 1、点预测 假设X0为解释变量的一个已知点,则带入样本回归方程即可得到Y Y0 0的估计值:2 2、区间预测 估计值 是一个点预测值,它可以是(1 1)总体真值Y0的预测值;也可以是(2)总体回归线E(Y 0)的预测值。现在根据 来对(1)(2)进行区间预测。第25页/共28页(1)Y0的预测区间 的分布是:所以,Y0 的预测区间是:(2)平均值E(E(Y0)的预测区间 的分布是:所以,E(E(Y0)的预测区间是:第26页/共28页3、控制问题是预测的反问题如何控制X?第27页/共28页谢谢您的观看!第28页/共28页