最新多元回归分析——估计ppt课件.ppt
多元回归分析多元回归分析估计估计引子引子使用简单的回归分析,可以把因变量使用简单的回归分析,可以把因变量y解释成一解释成一个自变量个自变量x的函数。然而在实际的经验研究中使的函数。然而在实际的经验研究中使用简单回归分析的主要缺陷是,它很难得到用简单回归分析的主要缺陷是,它很难得到x在在其他条件不变情况下对其他条件不变情况下对y的影响:因为关键假定的影响:因为关键假定SLR.3(所有其他影响(所有其他影响y的因素都与的因素都与x不相关)通不相关)通常都不现实。常都不现实。 很自然,如果我们在模型中多增加一些有助于很自然,如果我们在模型中多增加一些有助于解释解释y的因素,那么,的因素,那么,y的变动就能更多地得到的变动就能更多地得到解释。因此,多元回归分析可用于建立更好的解释。因此,多元回归分析可用于建立更好的因变量预测模型。因变量预测模型。 机械地看,用普通最小二乘法去估计方机械地看,用普通最小二乘法去估计方程程(3.1)和和(3.4) ,应该没有什么差别。每个,应该没有什么差别。每个方程都可以写成像方程都可以写成像(3.3)那样的方程。但重那样的方程。但重要的差别在于,人们对要的差别在于,人们对参数的解释参数的解释。(3.1)(3.1)中,中,1 1是是educeduc在其他条件不变情况下对在其他条件不变情况下对wagewage的影响。而方程的影响。而方程(3.4)(3.4)中的参数中的参数1 1则没有这则没有这样的解释。换句话说,度量样的解释。换句话说,度量incinc在保持在保持incinc2 2不变不变的情况下对的情况下对conscons的影响是毫无意义的,如果的影响是毫无意义的,如果incinc变化,则变化,则incinc2 2也一定会变化!相反,相对收入变也一定会变化!相反,相对收入变化的消费变化化的消费变化即边际消费倾向即边际消费倾向可近似为:可近似为:换句话说,收入对消费的边际效应取决于换句话说,收入对消费的边际效应取决于2 2、1 1和收入水平。这个例子表明,在任何一个特和收入水平。这个例子表明,在任何一个特定应用中,对自变量的定义都是至关重要的定应用中,对自变量的定义都是至关重要的incinccons212在含有两个自变量的模型中,在含有两个自变量的模型中,u u与与x x1 1和和x x2 2如何如何相关的关键假定是,相关的关键假定是,E(E(u ux x1 1, x, x2 2) )= =0 0 (3.5)意味着,对总体中意味着,对总体中x x1 1和和x x2 2的任何值,非观测因的任何值,非观测因素的平均都等于零。素的平均都等于零。如何解释前面例子中条件均值为零的假定:如何解释前面例子中条件均值为零的假定:n在在( (3.1) 中,这个假定是中,这个假定是E(uE(ueduc,exper)=0educ,exper)=0。意味着,影响意味着,影响wagewage的其他因素都与的其他因素都与educeduc和和experexper无关。因此,如果我们认为天生能力是无关。因此,如果我们认为天生能力是u u的一部的一部分,那我们就需要假定,对工人总体中受教育和分,那我们就需要假定,对工人总体中受教育和工作经历的各种组合,其平均能力水平都相同。工作经历的各种组合,其平均能力水平都相同。这可能正确也可能不正确,但我们将看到,这正这可能正确也可能不正确,但我们将看到,这正是为了判断普通最小二乘法是否导致无偏估计量是为了判断普通最小二乘法是否导致无偏估计量而需要知道的问题。而需要知道的问题。 (3.2)的例子类似于工资方程。其零条件均值的的例子类似于工资方程。其零条件均值的假定为假定为E(uexpend,avginc)=0,它意味着,影,它意味着,影响学生考试成绩的因素响学生考试成绩的因素学校或学生的个人学校或学生的个人特征特征总体上与学生的平均开支和平均家庭总体上与学生的平均开支和平均家庭收入无关。收入无关。在在 (3.4)中的二次消费函数,对零条件均值假中的二次消费函数,对零条件均值假定的解释则略有不同。直接照写,定的解释则略有不同。直接照写, (3.5)就变就变成了成了E(uinc,inc2)=0。因为一旦知道了。因为一旦知道了inc,那,那就会知道就会知道inc2,所以在预期表达式中包括,所以在预期表达式中包括inc2项是多此一举:项是多此一举:E(uinc,inc2)=0等价于等价于E(uinc)=0。虽然在表述这个假定时让。虽然在表述这个假定时让inc2和和inc一一起出现在预期项中并没有错,但起出现在预期项中并没有错,但E(uinc)=0更更简明扼要。简明扼要。问题问题用定罪概率用定罪概率(prbconv)和宣判监禁的平均时间长和宣判监禁的平均时间长度度(avgsen)来解释城市谋杀率来解释城市谋杀率(murdrate)的一个的一个简单模型:简单模型: murdrate=0 0+1 1prbconv +2 2 avgsen+u u中包含了一些什么因素?你认为关键假定中包含了一些什么因素?你认为关键假定(3.5)有可能成立吗?有可能成立吗?因素包括了年龄和性别分布、警力规模因素包括了年龄和性别分布、警力规模(或更或更一般地,投入到与犯罪做斗争的资源一般地,投入到与犯罪做斗争的资源)、人口、人口和一般历史因素。这些因素当然有可能与和一般历史因素。这些因素当然有可能与prbconv和和avgsen相关,这时就意味着相关,这时就意味着(3.5)不成不成立。比如,某些在预防犯罪和执法方面投入较立。比如,某些在预防犯罪和执法方面投入较多气力的城市,其警力规模可能与多气力的城市,其警力规模可能与prbconv和和avgsen都相关。都相关。含有含有K个自变量的模型个自变量的模型一旦开始多元回归,没有必要局限于两个自变一旦开始多元回归,没有必要局限于两个自变量。多元回归分析允许多个可观测因素影响量。多元回归分析允许多个可观测因素影响y。n在上述工资的例子中,我们还可以包括在职在上述工资的例子中,我们还可以包括在职培训的数量、现任工作的任期、个人能力的培训的数量、现任工作的任期、个人能力的某种度量,甚至是像兄弟姐妹的个数或母亲某种度量,甚至是像兄弟姐妹的个数或母亲受教育程度等人口变量。受教育程度等人口变量。n在学校基金的例子中,额外的变量可能包括在学校基金的例子中,额外的变量可能包括对教师质量和学校规模的某种度量。对教师质量和学校规模的某种度量。多元回归分析模型多元回归分析模型y = 0 + 1x1 + 2x2 + . . . kxk + u01 12 211110111,1iiik ikiknnnkknyxxxyxxyxyxxy x 一般的多元线性回归模型一般的多元线性回归模型( (multiple linear regression model,也称为多元回归模型,也称为多元回归模型) )在总在总体中可以写成体中可以写成y=0+1 x1+2 x2+3 x3+k xk +u (3.6)n其中其中0 0为截距为截距(intercept)(intercept),1 1是与是与x x1 1相联系的相联系的参数,参数,2 2是与是与x x2 2相联系的参数,等等。由于有相联系的参数,等等。由于有k k个个自变量和一个截距项,所以方程自变量和一个截距项,所以方程(3.6)(3.6)包含了包含了k k+1+1个个( (未知的未知的) )总体参数。为了表达上的简便,把这总体参数。为了表达上的简便,把这种不同于截距的参数称为斜率参数种不同于截距的参数称为斜率参数( (slope parameter) ),尽管它们并不一定表示斜率。,尽管它们并不一定表示斜率。 如方如方程程(3.4)(3.4),其中,其中1 1和和2 2本身都不是斜率,但它们本身都不是斜率,但它们一起决定了消费与收入之关系的斜率。一起决定了消费与收入之关系的斜率。 多元回归的术语类似于简单回归的术语。恰如多元回归的术语类似于简单回归的术语。恰如简单回归中一样,变量简单回归中一样,变量u u表示误差项表示误差项( (error term) )或干扰项或干扰项( (disturbance)e)。它包括除。它包括除x1,x2,x3,xk之外仍影响之外仍影响y y的一些因素。无论在我的一些因素。无论在我们的模型中包含了多少个解释变量,总有一些们的模型中包含了多少个解释变量,总有一些因素我们无法包括进来,而所有这些因素就包因素我们无法包括进来,而所有这些因素就包括在括在u u中。中。 多元线性回归模型中的多元线性回归模型中的“线性线性”一词,意味着一词,意味着方程方程(3.6)是其诸参数是其诸参数j的一个线性函数。多元的一个线性函数。多元线性回归的许多运用中都涉及到主要变量之间线性回归的许多运用中都涉及到主要变量之间的非线性关系。的非线性关系。多元回归与简单回归的相似点多元回归与简单回归的相似点 0 仍然是截距仍然是截距 1 到到 k 都成为斜率参数都成为斜率参数 u 仍然是误差项(或称扰动项)仍然是误差项(或称扰动项)仍然需要做一个条件期望为仍然需要做一个条件期望为0的假设,现在假的假设,现在假设:设:E(u|x1,x2, ,xk) = 0 仍然最小化残差的平方和,所以现在有仍然最小化残差的平方和,所以现在有k+1 个个一阶条件一阶条件课堂问题课堂问题设想设想CEO的薪水的薪水(salary)与企业的销售量和与企业的销售量和CEO在在这个企业的任期相关:这个企业的任期相关:log(salary)=0+1 log(sales)+2 ceoten+3 ceoten2 +u (3.7)n定义定义y= log(salary),x1= log(sales),x2= ceoten和和x3= ceoten2,得一多元回归模型,得一多元回归模型(k=3)。试解释参数。试解释参数。参数参数1是是(其他条件不变情况下其他条件不变情况下)薪水对销售量的薪水对销售量的弹性。如果弹性。如果3=0,那么在其他条件不变情况下,那么在其他条件不变情况下,1002就表示就表示ceoten增加一年导致增加一年导致salary提高的百提高的百分数。当分数。当30时,时,ceoten对对salary的影响则复杂一的影响则复杂一些。些。 关键假定用条件预期的形式可以表示为关键假定用条件预期的形式可以表示为nE(ux1,x2, , xk)=0(3.8)(3.8)要求不可观测的误差项中所有的因素都与要求不可观测的误差项中所有的因素都与解释变量无关。它还意味着,已经正确地表述解释变量无关。它还意味着,已经正确地表述了被解释变量和解释变量之间的函数关系。了被解释变量和解释变量之间的函数关系。任何一个导致任何一个导致u与某个自变量相关的问题,都与某个自变量相关的问题,都会导致会导致(3.8)式不成立。假定条件式不成立。假定条件(3.8)式还表明式还表明OLS是无偏的,而如果方程中省略了一个关键是无偏的,而如果方程中省略了一个关键变量,所得到的结论便会产生偏误。变量,所得到的结论便会产生偏误。 多元回归模型的关键假定多元回归模型的关键假定 普通最小二乘法的操作和解释普通最小二乘法的操作和解释 即将解决的问题:将普通最小二乘法用于一个即将解决的问题:将普通最小二乘法用于一个特定的数据集时,在计算和代数上会有些什么特定的数据集时,在计算和代数上会有些什么特征及讨论如何解释所估计的方程。特征及讨论如何解释所估计的方程。如何得到如何得到OLS估计值?估计值?n先考虑对含有两个自变量模型的估计。被估先考虑对含有两个自变量模型的估计。被估计的计的OLS方程在形式上与简单回归情况下的方程在形式上与简单回归情况下的方程相似:方程相似:22110 xxy011110111201110111() 0() 0() 0() 0(3.13)niikikiniiikikiniiikikinikiikikiyxxx yxxxyxxx yxx (3.13)通常被称为通常被称为OLS一阶条件一阶条件(first order conditions)。像在简单回归模型中一样,。像在简单回归模型中一样,OLS一一阶条件也可以通过矩法得到:在假定条件阶条件也可以通过矩法得到:在假定条件(3.8)下,下,E(u)=0,E(xju)=0,其中,其中j=1,2,.,k。(3.13) 就是这些总体矩在样本中的对应样本矩。就是这些总体矩在样本中的对应样本矩。易见即便只是对中等大小,通过手算来求解易见即便只是对中等大小,通过手算来求解 (3.13)也是十分繁重的任务。不过,借助现代的也是十分繁重的任务。不过,借助现代的计算机和统计与计量软件,对较大的计算机和统计与计量软件,对较大的n和和k,也,也能很快解出这些方程。能很快解出这些方程。注意:目前必须只能这样假定注意:目前必须只能这样假定(3.13)只能得到的只能得到的唯一解。这是规范设定模型的常见情形。唯一解。这是规范设定模型的常见情形。 与简单回归分析相同,与简单回归分析相同,(3.11)被称为被称为OLS回归线回归线(OLS regression line)或样本回归方程或样本回归方程(sample regression function, 简记为简记为SRF)。把。把 称为称为OLS截截距估计值距估计值(OLS intercept estimate),而把,而把 ,., 称为称为OLS斜率估计值斜率估计值(OLS slope estimate)(与自变(与自变量量 对应)。对应)。 说说“将将y对对x1,x2xk进行了一个进行了一个OLS回归回归”或或“将将y对对x1,x2xk进行回归进行回归”,是使用普通最小,是使用普通最小二乘法而得到二乘法而得到(3.13) OLS方程方程(Equation) 的简单说的简单说法。一般默认是把截距与斜率一起估计。法。一般默认是把截距与斜率一起估计。比在计算比在计算 的背后存在的所有细节都重要的是,的背后存在的所有细节都重要的是,对所估计的方程进行解释。对所估计的方程进行解释。 01kkxxx,21j对对OLS回归方程的解释回归方程的解释01 12 2(3.14)yxx 方程方程 中的截距项中的截距项 是是y在在x1=0和和x2=0情况下的预测值。虽然它在大多情况下的预测值。虽然它在大多数情况下都没有什么意义,但对于设定的总体数情况下都没有什么意义,但对于设定的总体模型而言截距项总是必需的。模型而言截距项总是必需的。估计值和局部效应估计值和局部效应(partial effect)或其他情况不或其他情况不变效应的解释。变效应的解释。n能在给定能在给定x x1 1和和x x2 2的变化的情况下,预测的变化的情况下,预测y y的变化。的变化。特别是当特别是当x x2 2固定,因而固定,因而x x2 2=0=0时,于是有时,于是有02=0112211221:,0 xyxxyxyxx 同同理理可可得得对对OLS回归方程的解释回归方程的解释关键是,通过把关键是,通过把x x2 2包含在模型中,所得到的包含在模型中,所得到的x x1 1的系数,可解释为在其他条件不变下的影的系数,可解释为在其他条件不变下的影响。这正是多元回归分析有用的原因所在。响。这正是多元回归分析有用的原因所在。 含有含有k个自变量的一般情形个自变量的一般情形 012121212211., ()().(), ,., (), 所所以以所所以以保保持持固固定定,意意味味:也也就就是是,每每一一有有一一个个给给定定其其他他条条件件不不变变的的意意义义。kkkkkyxxxyxxxxxyx 因此,在估计因此,在估计x x1 1对对y y的影响时,已经控制了变的影响时,已经控制了变量量x x2 2到到x xk k的影响。其他系数与此相似。的影响。其他系数与此相似。多元回归中多元回归中“保持其他因素不变保持其他因素不变”的含义的含义对多元回归分析中斜率参数的局部效应解释可能对多元回归分析中斜率参数的局部效应解释可能会导致混淆,要尽量避免这个问题。会导致混淆,要尽量避免这个问题。多元回归分析的功能在于,尽管不能在其他条件多元回归分析的功能在于,尽管不能在其他条件不变的情况下搜集数据,但它提供的系数仍可做不变的情况下搜集数据,但它提供的系数仍可做其他条件不变的解释其他条件不变的解释。n例如:在对例如:在对ACT的系数做局部效应解释时,看起来就的系数做局部效应解释时,看起来就好像是在具有同等高中好像是在具有同等高中GPA但但ACT分数可能不同的人分数可能不同的人群中抽样。然而情况并非如此,数据是来自一所很群中抽样。然而情况并非如此,数据是来自一所很大的大学的随机样本:在获得数据的过程中,对大的大学的随机样本:在获得数据的过程中,对hsGPA和和ACT的样本值都没有施加任何限制。在获取的样本值都没有施加任何限制。在获取样本时,很少奢侈到能限制某些变量不变的程度。样本时,很少奢侈到能限制某些变量不变的程度。如果能搜集到具有同等高中如果能搜集到具有同等高中GPA的个人样本,那就能的个人样本,那就能进行一个进行一个colGPA对对ACT的简单回归分析。的简单回归分析。多元回归有效地模拟了对自变量的值不多元回归有效地模拟了对自变量的值不加限制的情况。加限制的情况。多元回归分析使能在非实验环境中,去做自然多元回归分析使能在非实验环境中,去做自然科学家在受控实验中所能做的事情:保持其他科学家在受控实验中所能做的事情:保持其他因素不变。因素不变。同时改变不止一个自变量同时改变不止一个自变量OLS的拟合值和残差的拟合值和残差OLS的拟合值和残差的拟合值和残差规范地讲,对任一观测规范地讲,对任一观测i,实际值都不等于预,实际值都不等于预测值;测值;OLS最小化了预测误差平方的平均值,最小化了预测误差平方的平均值,但对任何一个观测的预测误差都没做说明。第但对任何一个观测的预测误差都没做说明。第i个观测的残差依然被定义为:个观测的残差依然被定义为: 每次观测都有一个残差。每次观测都有一个残差。iiiyyu问题问题 在用高中在用高中GPA和和ACT分数来解释大学分数来解释大学GPA的例的例子中,子中,OLS拟合线为:拟合线为: =1.29+0.453 hsGPA +0.0094 ACT如果平均的高中如果平均的高中GPA为约为约3.4,而平均的,而平均的ACT分分数约为数约为24.2,那么样本中平均的大学,那么样本中平均的大学GPA是多是多少呢?少呢?GPAlco解答解答对多元回归对多元回归“排除其他变量影响排除其他变量影响”的解释的解释1112221121111nnniiniiiiiiiiinnniiiiiiiiniixxyyx yyxx yxxx xxxxxyyxnxx对多元回归对多元回归“排除其他变量影响排除其他变量影响”的解释的解释例题例题通过对通过对工资方程例子的数据工资方程例子的数据WAGE1.RAW进行进行“排除其他影响排除其他影响”的练习,证实对的练习,证实对OLS估计值估计值做做“排除其他影响排除其他影响”解释。首先要求,将解释。首先要求,将educ对对exper和和tenure进行回归,并保留残差进行回归,并保留残差 。然。然后将后将log(wage)对对 进行回归。将进行回归。将 的系数与的系数与将将log(wage)对对educ、exper和和tenure回归中回归中educ的系数相比较。的系数相比较。 1 r1 r1 r将将educ对对exper和和tenure回归得方程:回归得方程:educ=13.57-0.074 exper + 0.048 tenure + n=526, R2=0.101再将再将log(Wage)对对 回归得方程:回归得方程: n n=526, =526, R R2 2 =0.207 =0.207正如所料,第二个估计方程中正如所料,第二个估计方程中 的系数和前面例的系数和前面例子中子中(3.19)(3.19)完全一致。注意,这个估计的完全一致。注意,这个估计的R R2 2小于小于(3.19)(3.19)中的中的R R2 2 。实际上,对。实际上,对 回归只是使用了回归只是使用了educeduc中与中与experexper和和tenuretenure都不相关的部分来解释都不相关的部分来解释log(wage)log(wage)1 r1log()1.620.092wager 1 r1 r1 r