《多元回归模型讲稿.ppt》由会员分享,可在线阅读,更多相关《多元回归模型讲稿.ppt(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元回归模型第一页,讲稿共七十八页哦第3章 多元回归7、如何预测被解释变量的期望值?8、如何预测被解释变量的值?第二页,讲稿共七十八页哦3.1 三变量线性回归模型1刻划了解释变量X对Y的影响其他影响Y的因素被放入当中一元回归分析的弱点Y=0+1X+第三页,讲稿共七十八页哦一元回归分析的弱点要用OLS法得到1的无偏估计量,必要条件是:与X不相关,或者说,E(|Xi)=0(零条件均值假定)Y=0+1X+第四页,讲稿共七十八页哦案例分析:工资与教育被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)计量模型:wage=0+1 educ+1的含义?1 0第五页,讲稿共七十八页哦E(|Xi)
2、=0不成立的情况案例:影响工资的其他因素例如,工作经验exper初中学历人群的平均工作经验:E(exper|9)大学学历人群的平均工作经验:E(exper|16)第六页,讲稿共七十八页哦如何处理工作经验的影响 wage=0+1 educ+即使我们关心的是教育对工资的影响,如果把exper放在中,就不能得到1的无偏估计量解决的方法:多元回归分析第七页,讲稿共七十八页哦多元回归分析请解释1在上述二元回归模型中的含义给定保持x2不变Y=0+1x1+2 x2+第八页,讲稿共七十八页哦二元回归模型1、确定性部分:0+1x1+2x2 E(Y|X1,X2)2、随机性部分:Var(Y)Y=0+1x1+2x2+
3、第九页,讲稿共七十八页哦被解释变量的期望值1表示给定x2保持不变,x1变化一个单位,引起的Y的均值的改变量多元回归分析可以使我们明确控制其他影响因素E(Y|X1,X2)=0+1x1+2x2第十页,讲稿共七十八页哦案例:教育对工资的影响wage=0+1 educ+2 exper+请解释1的含义采用一元回归模型和二元回归模型估计出的1相等吗?wage=0+1 educ+wage=0+1 educ+2 exper+运行eviews验证第十一页,讲稿共七十八页哦多元回归分析的优势1、更准确地估计斜率:无偏估计量2、更好地说明被解释变量的变化:引入了更多的解释变量第十二页,讲稿共七十八页哦多元回归模型1
4、、K个解释变量2、k1个待估参数3、0称为截距,1 到 k称为斜率Y=0+1x1+2x2+.kxk+第十三页,讲稿共七十八页哦3.2 多元线性回归模型的第6个假设一元线性回归模型关于随机误差项的五个假设新增的关于多个解释变量之间关系的假设第十四页,讲稿共七十八页哦 假设1、随机误差项与各解释变量X之间不相关(更强的假设是各个解释变量X都是确定性变量,不是随机变量,这样假设1自动满足)Y=0+1x1+2x2+.kxk+第十五页,讲稿共七十八页哦假设2、随机误差项具有零均值 E(i)=0 i=1,2,n Y=0+1x1+2x2+.kxk+第十六页,讲稿共七十八页哦假设3、随机误差项同方差 Var(
5、i)=2 i=1,2,n Y=0+1x1+2x2+.kxk+第十七页,讲稿共七十八页哦假设4、随机误差项无序列相关 Cov(i,j)=0 ij i,j=1,2,n Y=0+1x1+2x2+.kxk+第十八页,讲稿共七十八页哦假设5、服从正态分布 iN(0,2)i=1,2,nY=0+1x1+2x2+.kxk+第十九页,讲稿共七十八页哦假设6、Xi之间无完全的线性相关关系(完全共线性)即任何一个Xi都不能被表示成其他解释变量的线性函数例如,X1 aX2+bX3+cX4 Y=0+1x1+2x2+.kxk+第二十页,讲稿共七十八页哦3.3 多元回归参数的估计双变量模型OLS法:残差平方和最小第二十一页
6、,讲稿共七十八页哦对于随机抽取的n组观测值可以得到Y的拟合值:i=1,2n根据最小二乘原理最小二乘原理,参数估计值应该是下列方程组的解 其中OLS估计法的基本原理第二十二页,讲稿共七十八页哦案例分析:大学平均成绩被解释变量:大学平均成绩colGPA解释变量:(1)高中平均成绩hsGPA;(2)大学能力测验分数ACT计量模型:colGPA=0+1hsGPA+2ACT+1的含义?第二十三页,讲稿共七十八页哦Eviews运用Eviews,得到如下估计结果:colGPA=1.29+0.45hsGPA+0.0094ACT请解释:1、1.292、0.453、0.0094第二十四页,讲稿共七十八页哦错误的简
7、单回归分析被解释变量:大学平均成绩colGPA解释变量:大学能力测验分数ACTcolGPA=2.40+0.027ACT请比较:多元回归分析:0.0094一元回归分析:0.027第二十五页,讲稿共七十八页哦OLS估计量的性质1、无偏性含义?E(i i)=i i 2、有效性含义?第二十六页,讲稿共七十八页哦斜率估计量的方差.其中,j为第j个解释变量的离差平方和Rj 为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系Var(j j)(1Rj)xj j第二十七页,讲稿共七十八页哦影响斜率估计量方差的因素1、总体的方差VarVar(Y Y)2 2、解释变量
8、的变化程度、解释变量的变化程度j3 3、和其他解释变量的线性相关程度、和其他解释变量的线性相关程度Rj 第二十八页,讲稿共七十八页哦Var(i i)其中,Rj 为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系Var(j j)(1Rj)xj j第二十九页,讲稿共七十八页哦多重共线性1、完全共线性Rj 1如果存在完全共线性,则不能应用OLS估计法2、多重共线性Rj 接近于1后果:估计量的方差较大,导致估计结果不准确第三十页,讲稿共七十八页哦3.4 3.4 多元判定系数多元判定系数则 总离差平方和的分解总离差平方和的分解第三十一页,讲稿共七十八页哦
9、判定系数判定系数该统计量越接近于1,模型的拟合优度越高。评分标准:截面数据:50%时间序列数据:90%第三十二页,讲稿共七十八页哦 回归分析回归分析是要判断解释变量解释变量X是否是被解释变被解释变量量Y的一个显著性的影响因素。计量经计学中计量经计学中,主要是针对变量的参数真值是,主要是针对变量的参数真值是否为零来进行显著性检验的。否为零来进行显著性检验的。稻草人假设:斜率参数为零稻草人假设:斜率参数为零 3.5多元回归的假设检验第三十三页,讲稿共七十八页哦解释变量的显著性如果1等于零,则X1对Y没有影响1的估计值不等于零但是1真的不等于零吗?Y=0+1x1+2x2+第三十四页,讲稿共七十八页哦
10、假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易发生小概率事件不易发生”这一原理的。这一原理的。如果结果是个小概率事件,那我们认为这是不可能发生如果结果是个小概率事件,那我们认为这是不可能发生的。会发生不可能发生的事情,一定是假设前提错了。的。会发生不可能发生的事情,一定是假设前提错了。上述上述“小概率事件小概率事件”的概率被称为检验的的概率被称为检验的“显著性水平显著性水平”,或者,或者“犯第一类错误的概率犯第一
11、类错误的概率”(拒绝了正确的虚拟假(拒绝了正确的虚拟假设)设)第三十五页,讲稿共七十八页哦(1R1)x1 1)tk-1)3.6 对偏回归系数进行假设检验第三十六页,讲稿共七十八页哦斜率1的显著性检验在上述t统计量中假设1等于零,得到 t=第三十七页,讲稿共七十八页哦统计量t的解释t是一个随机变量,对应于不同的样本,t取不同的值给定一个具体样本,t是斜率的估计值和斜率的样本标准差的比率。被称为t比率 t=第三十八页,讲稿共七十八页哦案例分析:工资被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)工作经验(年数)现职任期(年数)计量模型:wage=0+1educ+2exper+3te
12、nure+请解释稻草人假设:20 的含义第三十九页,讲稿共七十八页哦c(1-)t分布临界值c|t|c的概率?在实践中,一般取5,确定一个小概率事件tt(n-2)给定样本容量n和显著性水平,就可以计算c0/2(1-)-c/2第四十页,讲稿共七十八页哦H0:1=0 H1:1 0c0/2(1-)-c/2双侧检验拒绝域拒绝域Y=0+1x1+2x2+.kxk+第四十一页,讲稿共七十八页哦 双侧检验的步骤 (1)对总体参数提出假设 H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值ct/2(n-2)(4)比较,判断 若|t|t/2(n-2),
13、则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;第四十二页,讲稿共七十八页哦第四十三页,讲稿共七十八页哦简易判断法则当n 30时,t分布近似于标准正态分布给定显著性水平为5,临界值c约为2如果t的绝对值大于2,就可以拒绝稻草人假设,说明斜率1显著地不等于零因此,解释变量X对被解释变量Y具有影响第四十四页,讲稿共七十八页哦p值p值是给定t比率后,能拒绝稻草人假设的最小显著性水平即给定显著性水平为p,根据样本计算的t比率刚好可以拒绝稻草人假设如果显著性水平大于p,则仍然可以拒绝如果显著性水平小于p,则不可以拒绝问题:对于计量研究而言,p值越大还是越小好?第四十五页,讲稿共七十
14、八页哦案例分析:大学GPA的决定因素被解释变量:大学平均成绩colGPA解释变量:1、高中平均成绩hsGPA2、大学能力测验成绩ACT3、平均每周旷课次数skipped计量模型:colGPA=0+1hsGPA+2ACT+3skipped+Eviews的结果第四十六页,讲稿共七十八页哦3.7 检验联合假设如果某些解释变量没有通过t检验,是否他们就没有影响力呢?t=问题:如果该解释变量和其他某些解释变量高度相关,会导致什么结果?Var(j j)(1Rj)xj jjj第四十七页,讲稿共七十八页哦案例分析棒球运动员的薪水被解释变量:棒球运动员的薪水解释变量:、加入俱乐部的年数years、平均每年的比赛
15、次数gamesyr、平均每年击球次数bavg、平均每年本垒打次数hrunsyr、平均每年的击球跑垒得分rbisyr第四十八页,讲稿共七十八页哦案例分析棒球运动员的薪水计量模型为:其中,第三到第五个解释变量都是度量球员表现的指标运行Eviews,进行t检验第四十九页,讲稿共七十八页哦Eviews的结果Log(SALARY)=11.19+0.07*YEARS+0.01*GAMESYR+0.0009786038654*BAVG+0.01*HRUNSYR+0.01*RBISYRVariableCoefficientStd.Errort-StatisticProb.C 11.192420.288823
16、38.75184 0.0000YEARS 0.0688630.0121155.6842950.0000GAMESYR0.0125520.0026474.7424420.0000BAVG 0.000979 0.0011040.8868110.3758HRUNSYR0.0144290.0160570.8986420.3695RBISYR0.0107660.0071751.5004580.1344第五十页,讲稿共七十八页哦同时检验多个假设:同时检验多个假设:F检验检验 检验只适用于检验单个解释变量的显著性;对检验只适用于检验单个解释变量的显著性;对多个解释变量的联合影响进行检验,需要运用随机多个解释
17、变量的联合影响进行检验,需要运用随机变量。检验是检验的特例变量。检验是检验的特例 给定计量模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 可提出如下原假设与备择假设:H0:1=2=0 H1:1和2不全为0第五十一页,讲稿共七十八页哦第五十二页,讲稿共七十八页哦检验的基本思想、根据斜率为零的假设,得到新的计量模型(受限模型):Yi=0+3X31i+4X42i+kXki+i i=3,4,n2、可以证明:其中,RSSR表示新(受限)模型的残差平方和RSSU表示原(非受限)模型的残差平方和第五十三页,讲稿共七十八页哦检验的基本思想、设定显著性水平,得到临界值、根据样本数据,以稻草人假
18、设为前提,计算的取值、如果,则拒绝原假设说明:也可以计算p值,得到最低的显著性水平。原理同t检验第五十四页,讲稿共七十八页哦案例分析棒球运动员的薪水计量模型为:其中,第三到第五个解释变量都是度量球员表现的指标运行Eviews,对上述三个解释变量进行F检验第五十五页,讲稿共七十八页哦Eviews稻草人假设:H0:3=4=5=01、运行eviews完成估计2、viewcoefficient testswald3、在对话框中依次输入假设为零的斜率,以逗号进行分隔第五十六页,讲稿共七十八页哦回归整体显著性的检验 即检验模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n中的所有斜率参数j是
19、否显著不为0。可提出如下原假设与备择假设:H0:1=2=k=0 H1:j不全为0,j=1,2,,k第五十七页,讲稿共七十八页哦回归整体显著性的检验 给定显著性水平,可得到临界值c,由样本求出统计量F的数值,通过 F c来拒绝原假设H0。)1/(/-=knRSSkESSF可以证明:统计量为第五十八页,讲稿共七十八页哦案例分析棒球运动员的薪水计量模型为:运行Eviews,对回归的整体显著性进行F检验第五十九页,讲稿共七十八页哦R与解释变量的个数wage=0+1 educ+wage=0+1 educ+2 exper+3.8 校正的判定系数第六十页,讲稿共七十八页哦 问题:如何比较不同数量解释变量的计
20、量模型?R与解释变量的个数R2K变量个数第六十一页,讲稿共七十八页哦惩罚新增的解释变量第六十二页,讲稿共七十八页哦R2K变量个数惩罚新增的解释变量第六十三页,讲稿共七十八页哦8.9 什么时候增加新的解释变量提高校正的判定系数VS显著的解释变量(通过t检验)t 1VSt 2第六十四页,讲稿共七十八页哦3.10 预测预测的含义:给定解释变量X的取值,推测被解释变量Y的取值预测要面对的四大问题:1、X的取值:已知;未知(需要预测)2、模型中的参数:估计3、Y的随机性4、模型本身的正确性Y=0+1x1+2x2+第六十五页,讲稿共七十八页哦1、期望值的预测确定性部分:0+1x1+2x2 E(Y|X1,X
21、2)1)通过样本估计,得到Y=0+1x1+2x2+Y=0+1x1+2x22)根据给定的 X 估计E(Y),即计算Y第六十六页,讲稿共七十八页哦期望值的预测给定解释变量X的取值,被解释变量Y的期望值是唯一的但是,对Y期望值的估计值不是唯一的OLS估计量Y样本数据Y期望值的估计值X的取值第六十七页,讲稿共七十八页哦2、预测被解释变量Y的值:点预测Y是一个随机变量问题:一定要用一个值来作为Y的代表,应该选用哪一个值?E(Y)Y因此,对Y的点预测等同于对Y期望值的预测Y=0+1x1+2x2+第六十八页,讲稿共七十八页哦Eviews1、完成参数估计2、设定X的取值:1)Procstructure;sam
22、ple2)在对话框中增加样本容量3)打开解释变量,输入设定的X的取值3、forcast4、在对话框中增加样本容量5、打开Y的预测值Yf第六十九页,讲稿共七十八页哦3、以95的概率预测Y的取值区间给定已知的X0,对Y0的点预测Y0和Y0并不相等,用“预测误差”表示二者的差异预测误差Y0Y0预测误差服从如下的正态分布当X的取值为多少时,预测误差最小?第七十页,讲稿共七十八页哦以概率为基础预测被解释变量:区间预测从实践上看,随机变量t的取值一定在区间(2,2)上2(1-)t分布02.5%95%-22.5%第七十一页,讲稿共七十八页哦区间预测被解释变量Y作为一个随机变量,其取值虽然不确定,但是,我们可
23、以构造一个区间,使得Y落在该区间上的概率为95。从实践上看,我们可以肯定Y的取值会落在上述区间内。以上述区间预测被解释变量Y的取值,被称为区间预测,该区间被称为置信区间第七十二页,讲稿共七十八页哦被解释变量的置信区间以一元回归为例,当X取值为X0时,Y0是服从正态分布的随机变量因此,Y0 的取值落在某个区间内的概率可以计算 反过来,给定概率,就可以构造Y0的置信区间第七十三页,讲稿共七十八页哦正态分布正态分布随机变量落在距离期望值两个标准差之内的概率为95第七十四页,讲稿共七十八页哦被解释变量的置信区间用估计量代替未知参数后,可以证明:当解释变量X的取值为X0时,Y0的取值以95的概率落在下列以点预测值为中心的对称区间上:(Y02Sf,Y0+2Sf)其中Sf为预测误差(Y0Y0)的样本标准差第七十五页,讲稿共七十八页哦预测区间的宽度第七十六页,讲稿共七十八页哦Eviews1、同对Y期望值的预测2、输入预测误差的样本标准差的名称Sf3、打开Y的预测值Yf和预测误差的样本标准差sf4、构建具有95置信度的预测区间:(Yf 2Sf,Yf+2Sf)第七十七页,讲稿共七十八页哦一元回归模型中斜率估计量的方差.Var(1 1)x1 1Var(j j)(1Rj)xj j第七十八页,讲稿共七十八页哦
限制150内