简单线性回归模型ppt课件.ppt
第二章第二章 简单线性回归模型简单线性回归模型定义模型的假设参数估计OLS的代数性质拟合优度测量单位和函数形式OLS的统计性质其它说明说明目前主要关注横截面数据的回归分析 截面数据是一个随机样本。每一个观察是一个新的个人、企业或者其他的个体,这些个体在某个同一时点上的信息被记录下来。如果样本不是随机的,那么就出现了样本选择性问题(sample-selectionproblem)obsnowageeducexperfemalemarried13.101121023.2412221133.001120046.008440155.301270152511.56165015263.5014510所谓横截面数据集,就是在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位采集的样本所构成的数据集。有时,所有单位的数据并非完全对应于同一时间段。例如,几个家庭可能在一年中的不同星期被调查。在一个纯粹的横截面分析中,我们应该忽略数据搜集中细小的时间差别。如果一系列家庭都是在同一年度的不同星期被调查的,那我们仍视之为横截面数据集。横截面数据的一个重要特征是,我们通常可以假定,它们是从样本背后的总体中通过随机抽样(randomsampling)而得到的。例如,如果我们通过随机地从工人总体中抽取500人,并得到其有关工资、受教育程度、工作经历和其他特征方面的信息,那我们就得到所有工人构成的总体的一个随机样本。随机抽样是初级统计学教程中所讲授的抽样方案,而且它使得对横截面数据的分析大为简化。有时,以随机抽样作为对横截面数据的一个假定并不适当。例如,假设我们对研究影响家庭财富积累的因素感兴趣,虽然我们可以调查家庭的一个随机样本,但有些家庭可能拒绝报告其财富。比方说,如果越是富裕的家庭就越不愿意暴露其财富,那么由此得到的财富样本,就不是由所有家庭构成的总体的一个随机样本。这是对样本选择问题的一个解释。简单回归模型简单回归模型的定义的定义简单回归模型可以用来研究两个变量之间的关系。出于某些原因,简单回归模型要作为经验性分析的一般工具,还存在着局限性。但是在某些情况下,把它当作经验工具来使用,还是非常适宜的。学会解释简单回归模型,对于我们接下来要学习的多元回归模型,无疑也是非常好的练习。应用计量经济学分析大多都是从如下假设前提开始的:y和x是代表某一个总体的两个变量,我们感兴趣的是用x来解释y,或者说是研究y如何随x而变化。一些例子:y是大豆的产出,x是化肥的用量;y是每小时的工资,x是受教育的年数;y是社区的犯罪率,x是警察的数量,等等。简单回归模型的定义简单回归模型的定义简单回归模型简单回归模型的定义的定义在写出用x解释y的模型时,我们要面临三个问题。首先,既然两个变量之间没有一个确切的关系,那么我们应该如何考虑其他影响y的因素呢?第二,y和x的函数关系是怎样的呢?第三,我们怎样知道是否抓住了在其他条件不变的情况下y和x之间的关系(如果这是我们所追求的目标的话)呢?简单回归模型简单回归模型的定义的定义我们可以通过写出关于y和x的一个方程来消除这些疑惑。一个简单的方程是:y=b0+b1x+u(2.1)且假定方程(2.1)在我们所关注的某个总体中成立,它定义了一个简单线性回归模型(simplelinearregressionmodel)。因为它把两个变量x和y联系起来,所以又把它叫做两变量或者双变量线性回归模型。我们现在来讨论等式(2.1)中每个量的含义。在简单线性回归模型y=b0+b1x+u中,统称y为:因变量(DependentVariable)或响应变量(responsevariable)或被解释变量(ExplainedVariable)或被预测变量(predictedvariable)或回归子(regressand)几个术语几个术语几个术语几个术语在y对x的简单线性回归中,通常称x为:自变量(IndependentVariable)或解释变量(ExplanatoryVariable)或回归量(元)(Regressor)或协变量(Covariate)或预测元(predictorvariable)控制变量(ControlVariables)说明:“自变”(independent)与统计学概念里面随机变量之间的独立(independency)有所不同。yx因变量自变量被解释变量解释变量响应变量控制变量被预测变量预测变量回归子回归元几个术语几个术语几个术语几个术语在简单线性回归模型y=b0+b1x+u中,我们称u为误差项或随机扰动项。表示除x之外影响y的其他所有非观测因素。一个简单回归分析能够有效地处理除x之外其他所有影响y的非观测因素。也可以把u看作是“观测不到的”因素。误差项或随机扰动项的来源:被忽略的因素测量误差随机误差模型的设定误差等式y=b0+b1x+u同样表述了y和x之间的函数关系。如果u中的其他因素被看作是保持不变的,就意味着u的变化为零,即,那么x对y具有线性影响,其表述如下:如果,那么(2.2)几个术语几个术语(2.2)意味着y的变化量是b1和x的变化量的简单乘积。这就是说,保持u中其他因素不变,b1就是y和x的关系式中的斜率参数(slopeparameter),在应用经济学中,它是人们研究的主要兴趣所在。截距参数(interceptparameter)b0也有它的作用,但很少被当作分析研究的主要部分。例2.1大豆产出和施肥量假使大豆的产出由以下模型所决定:(2.3)y=产出而x=施肥量。农业研究者对其他因素不变时化肥用量如何影响大豆产出量感兴趣。影响的效果由b1给出,误差项u包括了诸如土地质量、降雨量等因素。系数b0度量了在其他条件不变的情况下施肥量对产出量的影响:例2.2一个简单的工资方程以下模型表示一个人的工资水平与他的可测教育水平及其他非观测因素的关系:(2.4)如果工资和教育分别以每小时美元数和受教育的年数来计量,那么b1度量了在其他条件不变的情况下每增加一年教育所获得的小时工资增长量。其他非观测因素则包括劳动力的经验、天生的素质、在现任雇主之下供职的时间、工作道德以及无数的其他因素。等式(2.1)的线性性显示:不管x的初始值为多少,它的任何一单位变化对y的影响都是相同的。这对许多经济学应用来说是非常不现实的。例如:在工资教育的例子中,我们或许还要考虑到递增的回报,就是说:后一年的教育比前一年的教育对工资的影响更大。后面我们会研究如何考虑这种可能性。最困难的问题最困难的问题模型(2.1)是否真的能让我们得到关于x如何在其他条件不变下影响y的结论?从等式(2.2)我们可以看到,保持u中的其他所有条件不变,b1确实能够度量x对y的影响。但我们对这个因果问题的讨论可以就此结束吗?非常不幸,还不行。一般地说,怎样能在保持其他因素固定的同时又忽略所有这些其他因素,以得到在其他条件不变下x对y的影响呢?只有当我们对非观测的u与解释变量x之间的关系加以约束时,才能从一些数据的随机样本中获得b0和b1的可靠估计量。没有这样一个约束,我们就不能估计出在其他条件不变下的影响b1。因为u和x都是随机变量,所以我们需要一个基于概率的概念。一个简单的假设一个简单的假设关于u的假定。只要截距被包括在等式之中,假设总体中u的平均值为0就不会失掉什么。用数学形式来表示就是:E(u)=0(2.5)。换言之,在y=b0+b1x+u中误差项u的平均值在总体中应为0。(2.5)并没有说出u和x的关系,只是简单地说明了总体中非观测变量的分布。因此其限制性并不是特别强。而且,容易证明总能够通过重新定义等式(2.1)中的截距b0把E(u)标准化为0。在例2.1中,我们把诸如土地质量这样的对大豆产出有影响而观测不到的因素进行标准化,使其在所有耕种的地区平均值为零,对结果不会有损失。例2.2中非观测因素的情形也与此相同。为不失一般性,我们可以假定在所有的工作人员构成的样本中诸如平均能力这样的因素为零。例题:在简单线性回归模型y=b0+b1x+u中,假定E(u)0。令E(u)=0,证明:这个模型总可以改写为另一种形式,斜率与原来的相同,但是截距和误差有所不同,并且新的误差项有一个零期望值。证明:方程y=0+1x+u中,在方程右边同时加减0,可得y=(0+0)+1x+(u0)。令新的误差项为e=u0,容易证明E(e)=0。新的截距为0+0,但斜率依然为1。关于关于u和和x的关系的关键性假定的关系的关键性假定测度两个随机变量的关系的非常自然的方法是相关系数。如果u和x不相关,那么作为随机变量,他们就没有线性关系。为了界定方程(2.1)中的u和x没有关系而作出u和x不相关(或没有相关关系)的假定,虽然迈出了一大步,但还走得不够远。因为相关关系只是度量u和x之间的线性相依性。而相关关系有着与我们的直觉相违的性质,如:u与x不相关,但是却可能与x的函数比如说x2相关。对于大部分做回归的目的来说,这种可能性是不可接受的,因为它会在解释模型和推导统计学性质时出现问题。需要一个关键假设来约定u和x之间的关系。我们希望关于x的信息不会透露关于u的任何信息,也就是说,两者应该是完全无关的。关于关于u和和x的关系的关键性假定的关系的关键性假定关于关于u和和x的关系的关键性假定的关系的关键性假定因为u和x是随机变量,所以我们能够在任何给定的x值下得到u的条件分布。具体地说,对于任何一个x值,我们都能够在x的值所描述的总体剖面上求得u的期望(或平均)值。因此,一种好的方法是对给定x时u的期望值作出假定。故关键的假定是:u的平均值不依赖于x值。也即:E(u|x)=E(u)=0(2.6)也就意味着:E(y|x)=b0+b1x等式(2.6)中的第一个相等关系E(u|x)=E(u)是一个新的假定,叫做零条件均值假定(zeroconditionalmeanassumption)。这就是说,对任何给定的x值,非观测因素的均值是相等的,因此它们必须与整个总体中的u的均值相等。在施肥的例子中,如果施肥的量与该地区的其他条件没有关系,那么(2.6)就能够成立,即:土地的平均质量不会依赖于施肥量。然而,如果更多的肥料被施用在更高质量的土地上,那么u的期望值就会随着肥料的用量而改变,(2.6)也就不成立了。在工资的例子中。令u为天生能力。那么,(2.6)就要求不管受教育的年数为多少,平均能力水平都是一样的。例如,如果E(abil|8)表示所有受过8年教育的人的平均能力,E(abil|16)表示所有受过16年教育的人的平均能力,那么(2.6)就意味着这两者是相同的。事实上,对所有教育水平的人来说,平均能力都必定是相等的。但比方说,如果认为平均能力是随着受教育的年数增加而增长的,那么(2.6)就是错的。(平均来说,如果越有能力的人选择接受越多的教育,这种情形就很有可能出现。)事实上,由于我们观察不到天生的能力,所以我们无法确知对所有的教育水平来说,平均能力是否一样。但在应用简单回归分析之前必须提出这个问题。问题问题假使期末考试的分数(score)决定于出勤率(attend)和影响考试成绩的其他非观测因素(如学生能力)。(2.7)这个模型能够满足(2.6)的假定吗?当学生能力、学习动机、年龄和u中的其他因素与到课率无关时,(2.6)将成立。但这看起来不太像那么回事。总体回归函数总体回归函数假定(2.6)为b1提供了另一种非常有用的解释。取以x为条件的(2.1)式的期望值,并利用E(u|x)=0,得到:E(y|x)=b0+b1x(2.8)等式(2.8)又被称为总体回归函数(populationregressionfunction,PRF),E(y|x)是x的一个线性函数。线性性质意味着x增加一个单位,将使y的期望值改变b1之多。如下图示。对于任何的x,y的分布都以E(y|x)为中心。E(y|x)E(y|x)是是x x的线性方程的线性方程,对于任何的对于任何的x x,y y的分布都以的分布都以E(y|x)E(y|x)为中心为中心.x1x2E(y|x)=b0+b1xyf(y)(2.6)为真时,把y分成两个部分很有用。b0+b1x有时被叫做y的系统部分也就是说,是y被x解释的部分。u,即非系统部分,或者说是y不能被x解释的部分。将利用假定(2.6)对b0和b1进行估计。这个假定对OLS模型的统计学性质分析也非常重要。普通最小二乘法(普通最小二乘法(OLS)OLS)的推导的推导OLS回归的基本思想是从总体中找一个样本,并用其估计总体参数令(xi,yi):i=1,n表示一个从总体中随机抽取的一个样本容量大小为n 的样本。因为这些数据来自于方程(2.1),所以对于样本中的每一个观察我们都可以将其写为:yi=0+1xi+ui(2.9)该式对任何i都成立。在这里,ui是第i次观察的误差项,它包括除了xi之外的所有影响yi的因素。总体回归线、样本数据点和相应的误差项:总体回归线、样本数据点和相应的误差项:.y4y1y2y3x1x2x3x4u1u2u3u4xyPRF:E(y|x)=b b0+b b1x在某特定的年份里,xi是家庭i的年收入,yi是家庭i的年储蓄量。如果我们收集了15个家庭的数据,那么n=15。下图给出了这个数据集合的散点图和(必然为虚构的)总体回归函数。OLS估计量的推导估计量的推导在储蓄对收入的总体回归中,我们必须确定,如何才能运用这些数据来获得截距和斜率的估计值。要导出OLS估计量,需要意识到假定(2.5)和(2.6)的重要内容,即:在总体中,u为零均值而且与x不相关。因此,我们看到,u的期望值为零,x和u之间的协方差为零。E(u)=0(2.10)Cov(x,u)=E(xu)=0(2.11)。为什么?基本的概率论原理:Cov(X,Y)=E(XY)E(X)E(Y)我们可以把上述的两个约束条件用含有x,y,b0和b1的表达式表示,因为u=y b0 b1x。E(y b0 b1x)=0(2.12)Ex(y b0 b1x)=0(2.13)这两个式子被称为:总体的距条件(momentrestrictions)(2.12)和(2.13)指出了对总体中的(x,y)的联合概率分布的两个限制。要估计两个未知参数,我们或许会期望方程(2.12)和(2.13)能为我们带来关于b0 和b1的比较好的估计量。OLS估计量的推导估计量的推导距方法(距方法(Method of Moment)推导推导OLS估计估计量量用距方法进行估计的意思是把总体的距条件加在样本距上。什么意思?记得总体的分布均值E(X)吧,E(X)的样本估计量就是样本的数学平均值。我们希望选择参数的值,使得样本的距满足相应的总体距条件。事实上,(2.12)和(2.13)确实能够做到这一点。给出一组数据,我们就能选择估计值和来解决方程(2.12)和(2.13)的样本对应问题。更多的更多的OLS推导推导样本距满足总体距条件是指:定义分别为y,x的样本均值,我们可以把上述第一个条件写成:更多的更多的OLS推导推导更多的更多的OLS推导推导因此因此斜率斜率的的OLSOLS估计估计值为值为OLSOLS斜率估计总结斜率估计总结方程所表示的斜率的估计值等于x和y的协方差除以x的样本方差。对方程(2.19)用分子和分母同除(n-1),对结果不会有影响。直接的暗示:如果x和y正相关,那么斜率为正如果x和y负相关,那么斜率为负计算特定例子的估计值时,唯一需要的假定是(2.18)。而这几乎不能算作什么假定!因为只要样本中xi的不是完全相等的,(2.18)就一定成立。如果(2.18)不成立,那么我们要么是在从总体中取样时非常不走运,要么就是没有一个值得我们关注的问题(因为x在总体中没有变化。)。例如,令y=wage,x=educ,如果样本中的每一个人都接受了相同年数的教育(比方说每一个人都是高中毕业生,见图),(2.18)便不成立。而只要有一个人受教育的年数不同,(2.18)就仍然成立,并且能把OLS估计值计算出来。对任何给定的截距和斜率和 ,当x=xi时定义y的一个拟合值为,这是当x=xi时我们对y的预测值。对样本中的每一次观测都有一个拟合值。第i次观测的残差项(residual)是yi的实际值和它的拟合值之差:。残差项是误差项u的估计,是拟合线(样本回归方程)和样本点之间的差。(2.17)和(2.19)所给出的估计叫做的普通最小二乘(ordinaryleastsquares,OLS)估计。直观上讲,OLS是用一条线拟合样本点,使得所有残差项的平方和最小这就是“最小二乘”的含义。.y4y1y2y3x1x2x3x41234xy样本回归线、样本点和相应的误差项样本回归线、样本点和相应的误差项其他的推导方法其他的推导方法 在拟合一条线的直观思想的基础上,我们可以建立一个规范的最小化问题。也就是说,我们要选择我们的参数 和 使得下面的式子达到最小:如果用微积分学的办法来解这个最小化问题,我们可以得到下面的一阶条件(firstorderconditions),这一术语来自于运用微积分的最优方法。而这个条件两边同乘以n-1就和前面用距方法得到的条件一模一样:其他的推导方法其他的推导方法OLS回归线回归线(OLS regression line)一旦我们确定了OLS的截距和斜率的估计值,我们就建立了OLS回归线和被理解为是从方程(2.17)和(2.19)中获得的。标记,读作“y-帽”,强调从方程(2.23)得到的预测值是估计值。截距是当x=0时y的预测值,尽管在一些情况下把x设定为0并没有什么意义;就是说,本身并没有什么值得关注的地方。可是,当我们要利用(2.23)来对不同的x值计算y的预测值时,必须考虑到计算式中的截距。样本回归函数样本回归函数方程(2.23)也被叫做样本回归函数(sampleregressionfunction,SRF),因为它是总体回归函数E(y|x)=b0+b1x的一个样本估计。总体回归函数是固定,然而未知的,切记这一点非常重要。因为样本回归函数是从一组给定的数据样本中得来的,所以新的另外的样本会在方程(2.23)中产生不同的斜率和截距。在大多数情况中,斜率估计值可写为:这有重要含义。它告诉我们当x变化一单位时,的改变量。同样地给定一个x的变化值(无论正负),我们都可以通过这个式子计算出y的预期变化。下面给出一些简单回归的例子,这些例子都是通过实际数据得到的。换言之,我们要通过方程(2.17)和(2.19)来得到截距和斜率的估计值。因为这些例子包括许多组观测数据,所以我们要用计量经济学的软件来进行计算。现在,我们还必须非常谨慎,不要指望能从这些回归中发现太多的东西,因为它们不一定能揭露多少因果关系。到现在为止,我们还没有涉及OLS的统计学性质。我们将在明确对总体模型方程(2.1)施加假定之后,再来考虑其统计学性质。问题问题当educ=8时,从(2.27)中得到的估计工资是用1976年的美元表示的$3.42,如果用1997年的美元表示,这个价值是多少?(提示:你可以从例2.4中得到足以回答这个问题的信息。)答案:约9.64美元。为了看出这一点,从1976年以1997年美元度量的平均工资,我们可以得到CPI缩减指数为16.64/5.902.82。将3.42乘以2.82就得到9.64。问题问题在上例中,如果shareA=60(即60%),候选人A能得到的预测票数是多少?这个结果可信吗?将shareA=60代入方程(2.28)就可以看到它等于59.26。这并非不合理:如果候选人A花了总竞选支出的60%,那么预测他或她将得到刚好高于59%的选票。