一元线性回归方程修订.pptx
回归的现代释义回归的现代释义回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。l商品需求函数:l生产函数:l菲利普斯曲线:l拉弗曲线:第2页/共75页第1页/共75页l 等式左边的变量被称为被解释变量(Explained Variable)或应 变量(Dependeni Variable)。l等式右边的变量被称为解释变量(Explanaiory Variable)或自 变量(Independeni Variable)。回归的现代释义回归的现代释义 回归分析的目的回归分析的目的l 根据自变量的值,估计因变量的均值。l检验(基于经济理论的)假设。l根据样本外自变量的值,预测因变量的均值。第3页/共75页第2页/共75页 回归与因果关系回归与因果关系从逻辑上说,统计关系式本身不可能意味着任何从逻辑上说,统计关系式本身不可能意味着任何因果关系。因果关系。“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。”Kendall 和Stuart前面四个例子都是基于经济理论设定的,包括身高和体重的关系。第4页/共75页第3页/共75页总体回归函数 假想案例 总体回归函数的随机设定 随机误差项的意义第5页/共75页第4页/共75页 XY8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191户数户数5657665765总支出总支出32546244570767875068510439661211 假设一个国家只有假设一个国家只有60户居民,他们的可支配收户居民,他们的可支配收入和消费支出数据如下(单位:美元):入和消费支出数据如下(单位:美元):假想案例第6页/共75页第5页/共75页(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布条件分布(Conditional distribution)是已知的,如:P(Y=55|X=80)=1/5。因此,给定收入因此,给定收入X的值的值Xi,可得消费支出,可得消费支出Y的的条件均值条件均值(conditional mean)或或条件期望条件期望(conditional expectation):E(Y|X=Xi)该例中:该例中:E(Y|X=80)=65分析:分析:第7页/共75页第6页/共75页 描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。E(Y|Xi)=0+1Xi=17.00+0.6Xi第8页/共75页第7页/共75页“天行有常,不为尧存,不为桀亡。应之以治则吉,应之以乱则凶。”-荀子天论E(Y|Xi)=0+1Xil 总体回归函数总体回归函数其中:Y被解释变量;X解释变量;0,1回归系数(待定系数或待估参数)第9页/共75页第8页/共75页 总体回归函数的随机设定l 对于某一个家庭,如何描述可支配收入和消费支出的关系?XiYi.E(Y|Xi)=0+1 XiY1Y2Y3u1u2u3总体回归直线uiYi-E(Y|Xi)随机误差项某个家庭的消费支出分为两部分:一是E(Y|Xi)=0+1 Xi,称为系统成分或确定性成分;二是ui,称为非系统或随机性成分。Yi=E(Y|Xi)+ui=0+1 Xi+ui第10页/共75页第9页/共75页Yi=0+1 Xi+uiE(Y|Xi)=0+1 Xi,随机性总体回归函数随机性总体回归函数确定性总体回归函数确定性总体回归函数第11页/共75页第10页/共75页 随机误差项u的意义l 反映被忽略掉的因素对被解释变量的影响。或者理论不够完善,或者数据缺失;或者影 响轻微。l模型设定误差l度量误差l 人类行为内在的随机性第12页/共75页第11页/共75页 XY8010012014016018020022024026055135137609310711565749511012014017594103144178759810813517588113125189115162191户数户数4226331333总支出总支出255162192627342370144337501544样本回归函数 为研究总体,我们需要抽取一定的样本。第第一一个个样样本本第13页/共75页第12页/共75页样本回归线样本回归线样本均值连线样本均值连线第14页/共75页第13页/共75页 XY801001201401601802002202402606579102120135607084931151451527490155801161441521657585118145180140160189185115户数户数2532323343总支出总支出135374253208336255409447654517样本回归函数 第二个样本第二个样本第15页/共75页第14页/共75页样本回归线样本回归线样本均值连线样本均值连线第16页/共75页第15页/共75页 总体回归模型和样本回归模型的比较总体回归模型和样本回归模型的比较第17页/共75页第16页/共75页XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)=0+1 Xi注意:分清几个关系式和表示符号(2)样本(估计的)回归直线:(3)总体(真实的)回归函数:(4)样本(估计的)回归函数:(1)总体(真实的)回归直线:ui随机误差项随机误差项ei残差项残差项第18页/共75页第17页/共75页对于所研究的经济问题,通常总体回归直线 E(Yi|Xi)=0+1Xi 是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。样本回归模型:样本回归模型:其中:为Yi的估计值(拟合值);为 0,1 的估计值;ei为残差,可视为ui的估计值。普通最小二乘法或:第19页/共75页第18页/共75页如何得到一条能够较好地反映这些点变化规律的直线呢?第20页/共75页第19页/共75页对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q=则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。样本回归模型:样本回归模型:第21页/共75页第20页/共75页则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:=0=0正规方程组即第22页/共75页第21页/共75页根据以上两个偏导方程得以下正规方程正规方程(Normal equation):第23页/共75页第22页/共75页OLS回归直线的性质回归直线的性质(1)残差和等于零(2)估计的回归直线 过点 .(3)Yi 的拟合值的平均数等于其样本观测值的平均数 .=由正规方程 可得。=第24页/共75页第23页/共75页=(4)Cov(ei,Xi)=0=(5)Cov(ei,)=0第25页/共75页第24页/共75页线性与非线性l生产函数:l菲利普斯曲线:l拉弗曲线:第26页/共75页第25页/共75页受教育年限与平均小时工资奥肯定律股票价格与利率古董钟与拍卖价格 一些例子第27页/共75页第26页/共75页u利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?u为什么要用普通最小二乘法?u样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?u样本回归模型对数据的拟合程度可以接受吗?u如何用样本回归模型进行预测?问题结束了吗?问题结束了吗?第28页/共75页第27页/共75页1密度函数密度函数第29页/共75页第28页/共75页假定1:解释变量是非随机的。解释变量是非随机的。假定2:零期望假定零期望假定:E(ui)=0。E(ui|Xi)=0。古典线性回归模型的基本假定E(Y|Xi)=0+1 XiXY0第30页/共75页第29页/共75页假定3:同方差性假定同方差性假定:Var(ui)=Eui-E(ui)2=E(ui2)=2。XY0XY0同方差异方差第31页/共75页第30页/共75页假定4:无序列相关无序列相关(无自相关)假定:假定:Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(uiuj)=0,(i j)。无自相关正自相关负自相关假定5:ui服从正态分布,ui N(0,2)第32页/共75页第31页/共75页假定6*:解释变量解释变量X与随机误差项与随机误差项u不相关不相关 Cov(ui,Xi)=E(ui-E(ui)(Xi-E(Xi)=E(ui Xi)=0 如果如果X为确定性变量,该假定自然满足为确定性变量,该假定自然满足假定7*:回归模型是关于参数线性的,但不一定关于变量线性。回归模型是关于参数线性的,但不一定关于变量线性。其他一些假定的说明:第33页/共75页第32页/共75页OLS估计量的性质 高斯高斯-马尔可夫定理马尔可夫定理如果满足古典线性回归模型的基本假定(假定如果满足古典线性回归模型的基本假定(假定1-假定假定4),),则在所有的则在所有的线性估计量线性估计量中,中,OLS估计量是最优线性无偏估估计量是最优线性无偏估计量(计量(BLUE)。)。线性性线性性 无偏性无偏性 有效性有效性第34页/共75页第33页/共75页都是Yi的线性函数。证明:=令代入上式,得:=线性性线性性 线性估计量的处理要比非线性估计量更为容易第35页/共75页第34页/共75页证明:=无偏性无偏性=11无偏估计量 有偏估计量第36页/共75页第35页/共75页OLS估计量的方差比其他线性无偏估计量的方差都小。最小方差性与有效性最小方差性与有效性1第37页/共75页第36页/共75页 一致性(了解)一致性(了解)1概率密度第38页/共75页第37页/共75页 OLS估计量的方差估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资1第39页/共75页第38页/共75页第40页/共75页第39页/共75页第41页/共75页第40页/共75页总体(随机误差项)真实方差总体(随机误差项)真实方差 2的估计量:的估计量:2的估计的估计第42页/共75页第41页/共75页受教育年限与每小时工资OLS估计量的概率分布概率分布是进行假设检验的前提如果受教育年限的单位为月如果受教育年限的单位为日第43页/共75页第42页/共75页2、方差(1)的期望(2)的期望1、期望(2)的方差(1)的方差服从N()N()服从假定7:ui 服从正态分布服从正态分布,即ui N(0,2)。Yi=0+1 Xi+ui,所以Yi N(0+1 Xi,2)线性性第44页/共75页第43页/共75页H0:1=0 H1:10 零假设与备择假设构造统计量0受教育年限与每小时工资假设检验与置信区间1 假设检验第45页/共75页第44页/共75页 Z检验与t检验第46页/共75页第45页/共75页显著性检验(显著性检验(t t 检验)的基本步检验)的基本步骤骤 首先,提出原假设和备择假设:H0:H1:其次,确定并计算统计量:最后,给定显著性水平,查自由度为 t-2 的t分布表。则,如果 不能拒绝H0:1 1=0=0,认为X X对Y Y没有显著影响。如果 拒绝H0:1 1=0=0,认为X X对Y Y有显著影响。同理,可对 0 0 进行显著性检验。模型:模型:第47页/共75页第46页/共75页=2.5%t(n-2)-t0.025t0.025=2.5%95%0双侧第48页/共75页第47页/共75页受教育年限与每小时工资n=130-2.2012.201H0:1=0 H1:10 第49页/共75页第48页/共75页股票价格与利率H0:1=0 H1:10 n=20第50页/共75页第49页/共75页 其他零假设检验奥肯定律H0:1=-0.4 H1:1-0.4n=29第51页/共75页第50页/共75页u 对于双变量模型,自由度总为(n-2)u 经验分析中,常用的有1%、5%和10%。为了避免显著水平选择的随意性,通常要给 出p值。第52页/共75页第51页/共75页 p值 t(n-2)-t0.025t0.025p/20tp值0.05,接受原假设t(n-2)-t0.025t0.025p/20tp值00t(n-2)t0.05=5%95%0=5%t(n-2)-t0.0595%0单侧(左侧)单侧(右侧)第55页/共75页第54页/共75页受教育年限与每小时工资n=1301.796H0:1=0 H1:10 第56页/共75页第55页/共75页股票价格与利率n=20H0:1=0 H1:10 第57页/共75页第56页/共75页 p值 t(n-2)t0.05p0tp值0.05,接受原假设t(n-2)t0.05p0tp值0.05,接受原假设t(n-2)t0.05p0tp值0.05,拒绝原假设单侧检验第59页/共75页第58页/共75页用 p 值判断参数的显著性的方法方法:将给定的显著性水平 与p值比较:若p值 ,则在显著性水平 下拒绝原假设H0 0:=0,=0,即认为X对Y有显著影响;若p值 ,则在显著性水平 下接受原假设H0 0:=0=0,即认为X对Y没有显著影响;这一判别规则对于单侧检验和双侧检验都成立!第60页/共75页第59页/共75页 置信区间 1=2.5%2=2.5%第61页/共75页第60页/共75页由于:由大括号内不等式表示置信水平为1-时 1 1的置信区间:得:P t/2(n-2)=1-同理,可求得 的置信区间为:-t/2(n-2)0 t/2(n-2)第62页/共75页第61页/共75页受教育年限与每小时工资n=13通过置信区间,可以直接对H0:1=0进行检验吗?第63页/共75页第62页/共75页股票价格与利率n=20第64页/共75页第63页/共75页离差平方和的分解可决系数拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的统计量是可决系数。拟合优度与可决系数第65页/共75页第64页/共75页 离差平方和的分解离差平方和的分解.YXYi Xi A0=+=+总离差 =回归差 +残差 回归差:由样本回归直线解释的部分 残差:不能由样本回归直线解释的部分 可以证明:第66页/共75页第65页/共75页证明:=由于:=0所以:=总离差平方和 回归平方和 残差平方和TSS =ESS +RSSTSS =ESS +RSS第67页/共75页第66页/共75页 可决系数可决系数=1回归平方和在总离差平方和中所占的比重越大,说明样本回归直线对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系数定义为:R2=R2 的取值范围是 0,1。对于一组数据,T TSS是不变,所以E ESS(),R RSS()第68页/共75页第67页/共75页R2 2=0=0时 表明解释变量X X与被解释变量Y Y之间不存在线性关系;R2 2=1=1时 表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2 2越接近1 1表示拟合程度越好,X X对Y Y的解释能力越强。另外:R2 2=R2 2=第69页/共75页第68页/共75页 相关系数与可决系数的关系(1)样本相关系数是建立在相关分析的基础之上的,研究的是随机变量之间的关系;可决系数则是建立在回归分析基础上,研究的是非随机变量X X对随机变量Y Y的解释程度。(2 2)取值上,可决系数是样本相关系数的平方。(3 3)样本相关系数是由随机的X和Y抽样计算得到,因而相关关系是否显著,还需进行检验。第70页/共75页第69页/共75页可决系数可决系数相关系数相关系数就模型而言就模型而言就两个变量而言就两个变量而言说明解释变量对应变量的说明解释变量对应变量的解释程度解释程度度量两个变量线性依存程度量两个变量线性依存程度。度。取值:取值:0,1取值:取值:1,1第71页/共75页第70页/共75页点预测Yi区间预测 (1)单个值Yi的区间预测 (2)均值E(Yi)的区间预测一元线性回归方程的预测第72页/共75页第71页/共75页如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测。预测分为点预测和区间预测。1 1、点预测 假设XF为解释变量的一个已知点,则带入样本回归方程即可得到Y YF F的估计值:2 2、区间预测 估计值 是一个点预测值,它可以是(1 1)总体真值YF的预测值;也可以是(2)总体回归线E(YF|XF)的预测值。现在根据 来对(1)(2)进行区间预测。第73页/共75页第72页/共75页E(E(YF|XF)的预测区间是:(1)条件期望E(E(Y0|X0)的预测区间 YF的预测区间是:第74页/共75页第73页/共75页SRF各种预测值的关系各种预测值的关系Y的个别值的置信区间Y均值的置信区间第75页/共75页第74页/共75页谢谢您的观看!第75页/共75页