第4章 双变量回归模型估计问题PPT讲稿.ppt
《第4章 双变量回归模型估计问题PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第4章 双变量回归模型估计问题PPT讲稿.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第4章章 双双变量回量回归模型估模型估计问题第1页,共91页,编辑于2022年,星期二 普通最小二乘法普通最小二乘法 最小二乘法的基本假定最小二乘法的基本假定 最小二乘参数估计的精度或标准误差最小二乘参数估计的精度或标准误差 最小二乘估计量的性质:高斯最小二乘估计量的性质:高斯-马尔可夫定马尔可夫定理理 判定系数判定系数r2:拟合优度的一个度量:拟合优度的一个度量 关于蒙特卡罗实验的一个注记关于蒙特卡罗实验的一个注记第2页,共91页,编辑于2022年,星期二一、普通最小二乘法一、普通最小二乘法 前一章我们提到根据样本回归函数尽可能准确地估计总前一章我们提到根据样本回归函数尽可能准确地估计总体
2、回归函数,通常有两种估计方法:体回归函数,通常有两种估计方法:普通最小二乘法普通最小二乘法(Ordinary Least Squares,OLS)和和最大似然法最大似然法(Maximum Likelihood,ML)。普通最小二乘法归功于德国数学家高斯,在回归分析中得到了普通最小二乘法归功于德国数学家高斯,在回归分析中得到了广泛运用。它比最大似然法简单的多。广泛运用。它比最大似然法简单的多。第3页,共91页,编辑于2022年,星期二回顾双变量总体回归函数回顾双变量总体回归函数PRF:该该PRF不可直接观测,同过不可直接观测,同过SRF去估计它:去估计它:(是是 的估计量,的估计量,条件均值)条
3、件均值)为了考察为了考察SRF,把上式化为如下:,把上式化为如下:对于给定的对于给定的Y和和X的的n对观测值,我们希望对观测值,我们希望SRF尽可能靠近实际的尽可能靠近实际的Y。规则之一:选择这样的规则之一:选择这样的SRF,使得残差和,使得残差和 尽可能小。尽可能小。(good or bad?)第4页,共91页,编辑于2022年,星期二图图 最小二乘准则最小二乘准则第5页,共91页,编辑于2022年,星期二最小二乘准则最小二乘准则是要确定是要确定SRF使得下式尽可能的小:使得下式尽可能的小:可以看出,可以看出,给出不同的给出不同的 和和 将会得到不同的将会得到不同的 。第6页,共91页,编辑
4、于2022年,星期二总和:总和:现在做两个实验。在实验现在做两个实验。在实验1中,假设中,假设 ,。在实验在实验2中,假设中,假设 ,。表表3.1 SRF的实验决定法的实验决定法第7页,共91页,编辑于2022年,星期二选择哪一组的选择哪一组的 值?值?第第1个实验的个实验的 值比第值比第2个实验的个实验的 值给出一个更低的值给出一个更低的 。所以说第所以说第1个实验的个实验的 更优。更优。如何知道最优?如何知道最优?E.g.做许多次实验,每次选择不同的做许多次实验,每次选择不同的 值,然后比较所得的值,然后比较所得的 ,并从中选择给出最可能小的并从中选择给出最可能小的 值的那组值的那组 值。
5、花费大量时间。值。花费大量时间。最小二乘法给出了简便的运算。最小二乘法给出了简便的运算。第8页,共91页,编辑于2022年,星期二普通最小二乘法(普通最小二乘法(ordinary least squares,OLS)的)的基本思想基本思想 使样本回归函数尽可能好地拟合样本数据使样本回归函数尽可能好地拟合样本数据 最小二乘法以最小二乘法以表示被解释变量的估计值与实际观察值的偏差总体上最小。表示被解释变量的估计值与实际观察值的偏差总体上最小。双变量情形下即是求得双变量情形下即是求得(4-1)第9页,共91页,编辑于2022年,星期二根据微积分中求极限的原理,要使式根据微积分中求极限的原理,要使式(
6、4-1)达到最小,)达到最小,式式(4-1)对对、的一阶偏导数应等于的一阶偏导数应等于0 0,即,即(4-2)整理得整理得(4-3)解得解得(4-4)这就是参数这就是参数 、的的普通最小二乘估普通最小二乘估计量计量(ordinary least squares estimators)方程组(方程组(4-3)称为)称为正规方程组正规方程组(normal equations)。)。第10页,共91页,编辑于2022年,星期二记记(之后都遵循一个惯例,小写字母表示对均值的离差)(之后都遵循一个惯例,小写字母表示对均值的离差)式(式(4-4)可改写为)可改写为(4-5)称为参数称为参数 、的的普通最小
7、二乘估普通最小二乘估计量的离差形式计量的离差形式(deviation form)第11页,共91页,编辑于2022年,星期二样本回归线通过样本回归线通过Y和和X的样本均值的样本均值第12页,共91页,编辑于2022年,星期二一旦从样本数据得到一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的估计值,便容易画出样本回归线,这样得到的回归线有如下回归线有如下性质:性质:1.它通过它通过Y和和X的样本均值。这是从(的样本均值。这是从(4-5)显见的事实,该式可写成)显见的事实,该式可写成2.估计的估计的 均值等于实测的均值等于实测的Y均值。因为:均值。因为:将最后一个等式两边对样本值求
8、和并除以样本大小将最后一个等式两边对样本值求和并除以样本大小n,即得:,即得:这里利用了等式这里利用了等式 。(Why?)第13页,共91页,编辑于2022年,星期二3.残差残差 的均值等于的均值等于0。由(。由(4-2),第一个方程是:),第一个方程是:因为因为 故上述方程化为故上述方程化为 ,从而,从而 。4残差残差 和解释变量和解释变量 不相关,即不相关,即 5残差残差 和预测的和预测的 值不相关,即值不相关,即(离差形式)(离差形式)第14页,共91页,编辑于2022年,星期二按照离差形式,按照离差形式,SRF可写成:可写成:利用离差形式可以推出:利用离差形式可以推出:第15页,共91
9、页,编辑于2022年,星期二 例例1 对于消费函数,若已知:对于消费函数,若已知:n=10,=23,=20 则有则有因而因而第16页,共91页,编辑于2022年,星期二例例2 设设Y和和X的的5期观测值如下表所示,试估计方程期观测值如下表所示,试估计方程 Yt=+Xt+ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算。计算过程如下:解:我们采用列表法计算。计算过程如下:第17页,共91页,编辑于2022年,星期二序号YtXtyt=Yt-xt=Xt-xt ytxt211410-8-2016040021820-4-104
10、0100323301000425403103010053050820160400n=5110150003901000表表41第18页,共91页,编辑于2022年,星期二二、最小二乘法的基本假定如果我们的目的仅仅是估计如果我们的目的仅仅是估计 和和 ,则,则OLS法足够用。但回归分析的法足够用。但回归分析的目的不仅仅是获得目的不仅仅是获得 和和 ,还要对真实的,还要对真实的 和和 做出推断,即判做出推断,即判断它们离总体值有多接近,或者说断它们离总体值有多接近,或者说 与其期望值与其期望值 有多接近。有多接近。PRF表明表明Yi 依赖于依赖于Xi 和和ui。因此,我们需明确。因此,我们需明确Xi
11、 和和ui 是怎样产是怎样产生的,为了回归估计的有效解释,对生的,为了回归估计的有效解释,对Xi 变量(一个或多个)和误差项变量(一个或多个)和误差项ui 做出假定是极其重要的。做出假定是极其重要的。第19页,共91页,编辑于2022年,星期二假定假定1:线性回归模型。回归模型对参数而言是线性的,如:线性回归模型。回归模型对参数而言是线性的,如假定假定2:在重复抽样中:在重复抽样中X值是固定的。再重复的样本中,回归元所取的数值被认为值是固定的。再重复的样本中,回归元所取的数值被认为是固定的。说的更专业些,假定是固定的。说的更专业些,假定X是非随机的。是非随机的。如第如第3章中的例子,考虑表章中
12、的例子,考虑表2.1中各收入水平对应的各个中各收入水平对应的各个Y总体,把收入总体,把收入值值X固定在固定在80美元的水平上,随机抽取一个家庭,并观测到它的周家庭美元的水平上,随机抽取一个家庭,并观测到它的周家庭消费支出消费支出Y为为60美元。仍然把美元。仍然把X固定在固定在80美元,而随机的另抽取一个家美元,而随机的另抽取一个家庭并观测到它的庭并观测到它的Y值为值为75美元。在每次抽取即重复抽样的过程中,美元。在每次抽取即重复抽样的过程中,X值都固定值都固定在在80美元。可以对表中的全部美元。可以对表中的全部X值重复这一过程。值重复这一过程。第20页,共91页,编辑于2022年,星期二假定假
13、定3:干扰项:干扰项ui 的均值为零。对给定的的均值为零。对给定的X值,随机干扰项值,随机干扰项ui 的均值或期望的均值或期望值为零,专业地讲,值为零,专业地讲,ui 的条件均值为零,符号上记为:的条件均值为零,符号上记为:假定假定3的几何意义可由图的几何意义可由图3.3描绘出来。图中显示了变量描绘出来。图中显示了变量X的几个值以及与的几个值以及与每一每一X值相对应的一个值相对应的一个Y总体。总体。如图所示,对应于给定的如图所示,对应于给定的X,每一个,每一个Y总体都是围绕其均值分布的;一些总体都是围绕其均值分布的;一些Y值位于均值之上,一些值位于均值之上,一些Y值位于均值之下。离开均值的上方
14、和下方的距离就值位于均值之下。离开均值的上方和下方的距离就是是ui。这一假定意味着凡是模型不含的因而归属于这一假定意味着凡是模型不含的因而归属于u 的因素,对的因素,对Y的均值都没有系的均值都没有系统的影响,正的统的影响,正的ui 值抵消了负的值抵消了负的ui 值,以致它们的平均影响为零。值,以致它们的平均影响为零。第21页,共91页,编辑于2022年,星期二图图3.3 干扰项干扰项ui 的条件分布的条件分布第22页,共91页,编辑于2022年,星期二假定假定4:同方差性或:同方差性或ui 的方差相等。给定的方差相等。给定X值,对所有的观测,值,对所有的观测,ui 的方差都的方差都是相同的。就
15、是说是相同的。就是说ui 的条件方差是恒定的,用符号表示:的条件方差是恒定的,用符号表示:对于每个对于每个u 的条件方差都是某个等于的条件方差都是某个等于 的正常数。用专业术语的正常数。用专业术语说,上式代表说,上式代表同方差性同方差性(homoscedasticity)或者说相同的散步或者说相同的散步或相等的方差。这意味着,对应于不同或相等的方差。这意味着,对应于不同X值的值的Y总体均有同样的方总体均有同样的方差。如下图:差。如下图:第23页,共91页,编辑于2022年,星期二图图3.4 同方差性同方差性第24页,共91页,编辑于2022年,星期二图图3.4 异方差性异方差性第25页,共91
16、页,编辑于2022年,星期二图图3.5表示表示Y总体的方差随总体的方差随X而变。这种情形的相应名称是异方差性而变。这种情形的相应名称是异方差性(heteroscedasticity)或者说非相同的散布)或者说非相同的散布(unequal spread)或非或非相等的方差相等的方差(variance)。用符号表示:。用符号表示:注意下标注意下标i,它表示它表示Y总体的方差不再是恒定不变的了。总体的方差不再是恒定不变的了。区分同方差性和异方差性:区分同方差性和异方差性:令令Y代表每周消费支出,代表每周消费支出,X代表每周收入。图代表每周收入。图3.4和和3.5都表示随着收入都表示随着收入增加,平均
17、消费支出也增加。但在图增加,平均消费支出也增加。但在图3.4中,消费支出的方差在所有的收中,消费支出的方差在所有的收入水平上都保持不变,而在图入水平上都保持不变,而在图3.5中,这个方差随着收入的增加而增加,中,这个方差随着收入的增加而增加,换句话说,富有的家庭比贫穷的家庭平均消费更多,但前者的消费支出换句话说,富有的家庭比贫穷的家庭平均消费更多,但前者的消费支出也有更大的变异。也有更大的变异。假定假定4意味着意味着Y 的条件方差也是同方差的,就是说:的条件方差也是同方差的,就是说:第26页,共91页,编辑于2022年,星期二假定假定5:各个干扰项之间无自相关性。给定任意两个:各个干扰项之间无
18、自相关性。给定任意两个X值:值:Xi 和和Xj(i j),ui 和和uj 之间的相关性为零,之间的相关性为零,i和和j为两次不同的观测,用符号表示:为两次不同的观测,用符号表示:假定假定5即是设定即是设定ui 和和uj 不相关。用专门术语来说,这是不相关。用专门术语来说,这是无序列相关无序列相关(no serial correlation)或或无自相关无自相关(no auto correlation)。即是不会表。即是不会表现出如下图现出如下图(a)和图和图(b)的模式。图的模式。图(a)中中u值是值是正相关的正相关的,即正(负)的,即正(负)的u伴随伴随着正(负)的着正(负)的u。图(。图(
19、b)中)中u值是值是负相关的负相关的,即正(负)的,即正(负)的u伴随着负(正)伴随着负(正)的的u。第27页,共91页,编辑于2022年,星期二第28页,共91页,编辑于2022年,星期二在第在第12章例,我们将透彻的解释这一假定的全部涵义。章例,我们将透彻的解释这一假定的全部涵义。直观上,我们可以对此假定做如下解释:直观上,我们可以对此假定做如下解释:设想我们的设想我们的 中,中,ut 和和ut-1 正相关,那么正相关,那么Yt 不仅不仅依赖于依赖于Xt,而且依赖于,而且依赖于ut-1,因为,因为ut-1 在一定程度上决定了在一定程度上决定了ut。所以现阶段我们讨论假定所以现阶段我们讨论假
20、定5,就是说我们只考虑,就是说我们只考虑Xt 对对Yt 的系统性影的系统性影响和是否有影响,而不去担心由于响和是否有影响,而不去担心由于u之间的可能的交互相关而造成的其之间的可能的交互相关而造成的其他可能作用于他可能作用于Y的影响。的影响。第29页,共91页,编辑于2022年,星期二假定假定6:ui 和和Xi 的协方差为零,或的协方差为零,或 。形式上:。形式上:假定假定6是说,干扰是说,干扰u和解释变量和解释变量X是不相关的。当我们把是不相关的。当我们把PRF表述为表述为 时,我们假定了时,我们假定了X和和u对对Y有各自的并且可加的影响。但若有各自的并且可加的影响。但若X和和u是相关的,就不
21、是相关的,就不可能评估它们各自对可能评估它们各自对Y的影响。的影响。例如,若例如,若X和和u正相关,则当正相关,则当u增加时增加时X也增加,而当也增加,而当u减小时减小时X也减小。也减小。要分开要分开X和和u对对Y的影响都是困难的。的影响都是困难的。第30页,共91页,编辑于2022年,星期二如果如果X是非随机的,并且有假定是非随机的,并且有假定3干扰项干扰项ui 的均值为零,假定的均值为零,假定6就自动得到满就自动得到满足。足。我们已经假定我们已经假定X变量不仅是非随机的,而且在重复样本中取固定值,故假定变量不仅是非随机的,而且在重复样本中取固定值,故假定6对我们来说并不是关键性的假定。这里
22、只是为了表明,即使这些对我们来说并不是关键性的假定。这里只是为了表明,即使这些X是随机的,只要是随机的,只要它们独立于干扰项它们独立于干扰项ui 或至少与或至少与ui 无关,下面讲的回归理论就是真实的。无关,下面讲的回归理论就是真实的。第31页,共91页,编辑于2022年,星期二假定假定7:观测次数:观测次数n必须大于待估计的参数个数。另一种说法是,观测次数必须大于待估计的参数个数。另一种说法是,观测次数n必须必须大于解释变量的个数。大于解释变量的个数。不妨设想我们只有一对不妨设想我们只有一对Y和和X的观测值,则无法估计两个未知数。的观测值,则无法估计两个未知数。假定假定8:X值要有变异性。在
23、一个给定的样本中,值要有变异性。在一个给定的样本中,X值不可以全是相同的,值不可以全是相同的,即即var(X)必须是一个有限的正数。必须是一个有限的正数。试想,如果全部试想,如果全部X值都相同,则值都相同,则 。则。则无法估计无法估计。直观上,如果家庭收入很少变动,我们就不怎么能解释消费支出的变化。直观上,如果家庭收入很少变动,我们就不怎么能解释消费支出的变化。变量必须在变!变量必须在变!第32页,共91页,编辑于2022年,星期二假定假定9:正确地设定了回归模型。另一种说法是,在经验分析中所用的:正确地设定了回归模型。另一种说法是,在经验分析中所用的模型没有设定偏误(模型没有设定偏误(spe
24、cification bias or error)。)。在模型的设定中出现的一些重要问题包括:在模型的设定中出现的一些重要问题包括:(1)模型应包括哪些变量?)模型应包括哪些变量?(2)模型的函数形式为何?它是不是对参数,对变量或对两者为线性?)模型的函数形式为何?它是不是对参数,对变量或对两者为线性?(3)进入模型的)进入模型的Yi,Xi 和和ui 要做些什么概率上的假定?要做些什么概率上的假定?例如,菲利普斯曲线例如,菲利普斯曲线假设选择两个模型去描述货币工资变化率和失业率的理论关系:假设选择两个模型去描述货币工资变化率和失业率的理论关系:第33页,共91页,编辑于2022年,星期二回归模
25、型回归模型1对参数和变量都是线性的,回归模型对参数和变量都是线性的,回归模型2则对参数为线性,对变量则对参数为线性,对变量X为非为非线性。假如回归模型线性。假如回归模型1是是“正确正确”模型,则模型模型,则模型2在在A、B两点间高估了真两点间高估了真实的实的Y均值。均值。第34页,共91页,编辑于2022年,星期二除了在选择模型时需要做出判断,假定除了在选择模型时需要做出判断,假定9还为了提醒我们,回归还为了提醒我们,回归分析以及由分析得到的结果,是以所选的模型为条件的,从而警分析以及由分析得到的结果,是以所选的模型为条件的,从而警醒我们,在建立计量经济模型时必须十分审慎,特别是对某些经醒我们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 双变量回归模型估计问题PPT讲稿 变量 回归 模型 估计 问题 PPT 讲稿
限制150内