总结线性回归分析的基本步骤.wps
线性回归分析的基本步骤步骤一、建立模型步骤一、建立模型知识点:知识点:1、总体回归模型、总体回归方程、样本回归模型、样本回归方程、总体回归模型、总体回归方程、样本回归模型、样本回归方程总体回归模型:总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。YXU 特点:由于随机误差项特点:由于随机误差项 U 的存在,使得的存在,使得 Y 和和 X 不在一条直线不在一条直线/平面上。平面上。例例 1:某镇共有:某镇共有 60 个家庭,经普查,个家庭,经普查,60 个家庭的每周收入(个家庭的每周收入(X)与每周消费()与每周消费(Y)数据如下:)数据如下:每周收入(每周收入(X)每周消费支出(每周消费支出(Y)8055606570751006570748085881207984909498140809395103108113115160102107110116118125180110115120130135140200120136140144145220135137140152157160162240137145155165175189260150152175178180185191作出其散点图如下:作出其散点图如下:4060801001201401601802004080120160200240280XY总体回归方程(线):总体回归方程(线):由于假定由于假定0EU ,因此因变量的均值与自变量总处于一条直线上,这条直线,因此因变量的均值与自变量总处于一条直线上,这条直线|E Y XX 就称为总体回归线(方程)。就称为总体回归线(方程)。总体回归方程的求法:以例总体回归方程的求法:以例 1 的数据为例的数据为例1)对第一个)对第一个 Xi,求出,求出 E(Y|Xi)。每周收入(每周收入(X)每周消费支出(每周消费支出(Y)E(Y|Xi)8055606570756510065707480858877120798490949889140809395103108113115101160102107110116118125113180110115120130135140125200120136140144145137220135137140152157160162149240137145155165175189161260150152175178180185191173由于,因此任意带入两个由于,因此任意带入两个 Xi和其对应的和其对应的 E(Y|Xi)值,即可求出,并进而得到总体回归方程。值,即可求出,并进而得到总体回归方程。如将如将 222777100,|77200,|137XE YXXE YX 和和代入可得:代入可得:以上求出反映了以上求出反映了 E(Y|Xi)和和 Xi之间的真实关系,即所求的总体回归方程为:,其图形为:之间的真实关系,即所求的总体回归方程为:,其图形为:01|iiiE YXX 01 和和 01|iiiE YXX 01001177100171372000.6 01 和和|170.6iiiE YXX 4060801001201401601802004080120160200240280XYY vs.X样本回归模型:样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例总体通常难以得到,因此只能通过抽样得到样本数据。如在例 1 中,通过抽样考察,我们得到了中,通过抽样考察,我们得到了 20 个家庭的样本数据:个家庭的样本数据:每周收入(每周收入(X)每周消费支出(每周消费支出(Y)8055100657012079841408093160102107110180110200120136220135137240137145260150152175那么描述样本数据中因变量那么描述样本数据中因变量 Y 和自变量和自变量 X 之间非确定依赖关系的模型就称为样本回归模型。之间非确定依赖关系的模型就称为样本回归模型。样本回归方程(线)样本回归方程(线):通过样本数据估计出:通过样本数据估计出,得到样本观测值的拟合值与解释变量之间的关系方程,得到样本观测值的拟合值与解释变量之间的关系方程YX 称为样本回归方程。如下图所示:称为样本回归方程。如下图所示:四者之间的关系:四者之间的关系:总体回归模型建立在总体数据之上,它描述的是因变量:总体回归模型建立在总体数据之上,它描述的是因变量 Y 和自变量和自变量 X之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,YXe 4060801001201401601804080120160200240280XYY vs.X它描述的是因变量它描述的是因变量 Y 和自变量和自变量 X 之间的近似于真实的非确定型依赖关系。这种近似表现在两个方面:一是结构参数是其真实值的一种近似估计;二是残差之间的近似于真实的非确定型依赖关系。这种近似表现在两个方面:一是结构参数是其真实值的一种近似估计;二是残差e是随机误差项是随机误差项 U 的一个近似估计;的一个近似估计;:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量与自变量 X 之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量 Y 样本预测值的拟合值样本预测值的拟合值Y与自变量与自变量 X 之间的线性关系。之间的线性关系。:回归分析的目的是试图通过样本数据得到真实结构参数的估计值,并要求估计结果足够接近真实值。由于抽样数据有多种可能,每一次抽样所得到的估计值都不会相同,即:回归分析的目的是试图通过样本数据得到真实结构参数的估计值,并要求估计结果足够接近真实值。由于抽样数据有多种可能,每一次抽样所得到的估计值都不会相同,即 的估计量是一个随机变量。因此必须选择合适的参数估计方法,使其具有良好的统计性质。的估计量是一个随机变量。因此必须选择合适的参数估计方法,使其具有良好的统计性质。2、随机误差项、随机误差项 U 存在的原因:存在的原因:非重要解释变量的省略非重要解释变量的省略人的随机行为人的随机行为数学模型形式欠妥数学模型形式欠妥归并误差(如一国归并误差(如一国 GDP 的计算)的计算)测量误差等测量误差等3、多元回归模型的基本假定、多元回归模型的基本假定随机误差项的期望值为零随机误差项的期望值为零()0iE U 随机误差项具有同方差性随机误差项具有同方差性随机误差项彼此之间不相关随机误差项彼此之间不相关(,)0 ;,1,2,ijCov u uiji jn L L解释就变量解释就变量 X1,X2,Xk为确定型变量,与随机误差项彼此不相关。为确定型变量,与随机误差项彼此不相关。(,)0 1,2,1,2,ijjCov Xuikjn L LL L 2()1,2,iVar uin L L解释就变量解释就变量 X1,X2,Xk之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵 X 为满秩矩阵:为满秩矩阵:rank(X)=k+1n随机误差项服从正态分布,即:随机误差项服从正态分布,即:uiN(0,2),i=1,2,n步骤二、参数估计步骤二、参数估计知识点:知识点:1、最小二乘估计的基本原理:残差平方和最小化。、最小二乘估计的基本原理:残差平方和最小化。2、参数估计量:、参数估计量:一元回归:一元回归:1201iiix yxYX 多元回归:多元回归:1TX XX Y 3、最小二乘估计量的性质(、最小二乘估计量的性质(Gauss-Markov 定理):定理):在满足基本假设的情况下,最小二乘估计量在满足基本假设的情况下,最小二乘估计量 是是 的最优线性无偏估计量(的最优线性无偏估计量(BLUE 估计量)估计量)步骤三、模型检验步骤三、模型检验1、经济计量检验(后三章内容)、经济计量检验(后三章内容)2、统计检验、统计检验拟合优度检验拟合优度检验知识点:知识点:拟合优度检验的作用:检验回归方程对样本点的拟合程度:拟合优度检验的作用:检验回归方程对样本点的拟合程度:拟合优度的检验方法:计算(调整的)样本可决系数:拟合优度的检验方法:计算(调整的)样本可决系数22/RR,注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们21RSSESSRTSSTSS 2/11/1ESS nkRTSS n 的自由度。的自由度。计算方法:通过方差分析表计算计算方法:通过方差分析表计算方差来源方差来源符号符号计算公式计算公式自由度自由度(d.f.)均方值均方值(MSS)离差平方和离差平方和TSS 2iiYY n-1 2iiYY /n-1回归平方和回归平方和RSS 2iiYY k 2iiYY /k残差平方和残差平方和ESS 2iiYY n-k-1 2iiYY /n-k-1例例 2:下表列出了三变量(二元)模型的回归结果:下表列出了三变量(二元)模型的回归结果:方差来源方差来源平方和(平方和(SS)自由度自由度均方值均方值离差平方和离差平方和 TSS6604214回归平方和回归平方和 RSS65965残差平方和残差平方和 ESS1)样本容量为多少?)样本容量为多少?解:由于解:由于 TSS 的自由度为的自由度为 n-1,由上表知,由上表知 n-114,因此样本容量,因此样本容量 n=15。2)求)求 ESS解:由于解:由于 TSSESSRSS,故,故 ESSTSSRSS773)ESS 和和 RSS 的自由度各为多少?的自由度各为多少?解:对三变量模型而言,解:对三变量模型而言,k=2,故,故 ESS 的自由度为的自由度为 n-k-112RSS 的自由度为的自由度为 k24)求)求解:解:2659650.998866042RSSRTSS ,2/110.9986/1ESS nkRTSS n 22RR和和回归方程的显著性检验(回归方程的显著性检验(F 检验)检验)目的:检验模型中的因变量与自变量之间是否存在显著的线性关系目的:检验模型中的因变量与自变量之间是否存在显著的线性关系步骤:步骤:1、提出假设:、提出假设:0121:.0:0,1,2,.,kjHHjk 至至少少有有一一2、构造统计量:、构造统计量:3、给定显著性水平、给定显著性水平,确定拒绝域,确定拒绝域4、计算统计量值,并判断是否拒绝原假设、计算统计量值,并判断是否拒绝原假设例例 3:就例:就例 2 中的数据,给定显著性水平中的数据,给定显著性水平1%,对回归方程进行显著性检验。,对回归方程进行显著性检验。解:由于统计量值,解:由于统计量值,又又 0.012,126.93F,而,而 0.015140.132,126.93FF 故拒绝原假设,即在故拒绝原假设,即在 1%的显著性水平下可以认为回归方程存在显著的线性关系。的显著性水平下可以认为回归方程存在显著的线性关系。附:附:2RF与与检验的关系:检验的关系:由于由于 22222/1/1/1/1RSSRSSRRRSSESSRkTSSESSRSSRFRSS kRnkFESS nk 又又解释变量的显著性检验(解释变量的显著性检验(t 检验)检验)目的:检验模型中的自变量是否对因变量存在显著影响。目的:检验模型中的自变量是否对因变量存在显著影响。知识点:知识点:多元回归:多元回归:21,11iiiieSCnk ,其中,其中1,1iiC 为为 1X X 中位于第中位于第 i+1 行和行和 i+1 列的元素;列的元素;/(,1)/1RSS kFF k nkESS nk ,1FFk nk /65965/25140.13/177/12RSS kFESS nk 一元回归:一元回归:0122222,22iiiiieXeSSn nxnx 变量显著性检验的基本步骤:变量显著性检验的基本步骤:1、提出假设:、提出假设:01:0 :0iiHH 2、构造统计量:、构造统计量:(1)iitt nkS 3、给定显著性水平、给定显著性水平,确定拒绝域,确定拒绝域/2(1)ttnk 4、计算统计量值,并判断是否拒绝原假设、计算统计量值,并判断是否拒绝原假设例例 4:根据:根据 19 个样本数据得到某一回归方程如下:个样本数据得到某一回归方程如下:1258.90.20.1 (0.0092)(0.084)YXXse 试在试在 5%的显著性水平下对变量的显著性水平下对变量12XX和和的显著性进行检验。的显著性进行检验。解:由于解:由于/20.025(1)(16)2.12tnkt ,故,故 t 检验的拒绝域为检验的拒绝域为2.12t 。对自变量。对自变量1X而言,其而言,其 t 统计量值为统计量值为110.221.742.120.0092tS ,落入,落入拒绝域,故拒绝拒绝域,故拒绝10 的原假设,即在的原假设,即在 5%的显著性水平下,可以认为自变量的显著性水平下,可以认为自变量1X对因变量有显著影响;对因变量有显著影响;对自变量对自变量2X而言,其而言,其 t 统计量值为统计量值为220.11.192.120.084tS ,未落入拒绝域,故不能拒绝,未落入拒绝域,故不能拒绝20 的原假设,即在的原假设,即在 5%的显著性水平下,可以认为自变量的显著性水平下,可以认为自变量2X对因变量对因变量 Y 的影响并不显著。的影响并不显著。回归系数的置信区间回归系数的置信区间目的:给定某一置信水平目的:给定某一置信水平1 ,构造某一回归参数,构造某一回归参数i 的一个置信区间,使的一个置信区间,使i 落在该区间内的概率为落在该区间内的概率为1 基本步骤:基本步骤:1、构造统计量、构造统计量(1)iiitt nkS 2、给定置信水平、给定置信水平1 ,查表求出,查表求出 水平的双侧分位数水平的双侧分位数/2(1)tnk 3、求出、求出i 的置信度为的置信度为1 的置信区间的置信区间 /2/2,iiiitStS 例例 5:根据例:根据例 4 的数据,求出的数据,求出1 的置信度为的置信度为 95%的置信区间。的置信区间。解:由于解:由于0.025(16)2.12t,故,故1 的置信度为的置信度为 95%的置信区间为:的置信区间为:0.22.12 0.0092,0.22.12 0.00920.18,0.22 3、经济意义检验、经济意义检验目的:检验回归参数的符号及数值是否与经济理论的预期相符。目的:检验回归参数的符号及数值是否与经济理论的预期相符。例例 6:根据:根据 26 个样本数据建立了以下回归方程用于解释美国居民的个人消费支出:个样本数据建立了以下回归方程用于解释美国居民的个人消费支出:12210.960.932.09 (3.33)(249.06)(3.09)0.9996 YXXtR 其中:其中:Y 为个人消费支出(亿元);为个人消费支出(亿元);X1为居民可支配收入(亿元);为居民可支配收入(亿元);X2为利率(为利率(%)1)先验估计)先验估计12 和和的符号;的符号;解:由于居民可支配收入越高,其个人消费水平也会越高,因此预期自变量解:由于居民可支配收入越高,其个人消费水平也会越高,因此预期自变量 X1回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即2 应为负。应为负。2)解释两个自变量回归系数的经济含义;)解释两个自变量回归系数的经济含义;解:解:10.93 表示,居民可支配收入每增加表示,居民可支配收入每增加 1 亿元,其个人消费支出相应会增加亿元,其个人消费支出相应会增加 0.93 亿元,即居民的边际消费倾向亿元,即居民的边际消费倾向 MPC0.93;22.09 表示,利率提高表示,利率提高 1 个百分点,个人消费支出将减少个百分点,个人消费支出将减少 2.09 亿元。亿元。截距项表示居民可支配收入和利率为零时的个人消费支出为截距项表示居民可支配收入和利率为零时的个人消费支出为-10.96亿元,它没有明确的经济含义。亿元,它没有明确的经济含义。3)检验)检验1 是否显著不为是否显著不为 1;(;(5%)解:解:1)提出假设:)提出假设:0111:1 :1HH 2)构造统计量:)构造统计量:111(1)tt nkS 3)给定显著性水平)给定显著性水平5%,查表得,查表得/20.025(1)(23)2.07tnkt ,故拒绝域为,故拒绝域为2.07t 4)计算统计量值:由于)计算统计量值:由于1111110.93()0.003734249.06()tSSt 则则1110.0718.752.070.003734tS ,落入拒绝域。故拒绝,落入拒绝域。故拒绝11 的原假设。即在的原假设。即在 5%的显著性水平下,可认为边际消费倾向的显著性水平下,可认为边际消费倾向 MPC 显著不为显著不为 1。4)检验)检验2 显否显著不为零;(显否显著不为零;(5%)解:解:1)提出假设:)提出假设:0212:0 :0HH 2)构造统计量:)构造统计量:22(1)tt nkS 3)给定显著性水平)给定显著性水平5%,查表得,查表得/20.025(1)(23)2.07tnkt ,故拒绝域为,故拒绝域为2.07t 4)计算统计量值:由于)计算统计量值:由于2()3.092.07t ,落入拒绝域,故拒绝原假设。即在,落入拒绝域,故拒绝原假设。即在 5%的显著性水平下,可以认为的显著性水平下,可以认为2 显著异于零。显著异于零。5)计算)计算2R值;值;解:由于解:由于 22/1111111/111261110.99960.999572621ESS nkESSnnRRTSS nTSSnknk 6)计算每个回归系数的标准差;)计算每个回归系数的标准差;解:由于解:由于01200112210.963.293.33()0.93()0.00373249.06()()2.090.67643.09()iiiiiiSttSSSttSt 7)给出)给出2 置信水平为置信水平为 95%的置信区间;的置信区间;解:由于解:由于220.0252.09,0.6764,(23)2.07St ,故,故2 置信水平为置信水平为 95%的置信区间为的置信区间为 2.092.07 0.6764,2.092.07 0.6764-3.49,-0.69 8)对回归方程进行显著性检验;)对回归方程进行显著性检验;解:提出假设:解:提出假设:012112:0 :0HH 或或构造统计量构造统计量/(,1)/1RSS kFF k nkESS nk 确定拒绝域:确定拒绝域:0.05(.1)(2,23)3.42FFk nkF 计算统计量并进行判断:计算统计量并进行判断:由于由于 22/0.9996/228738.53.420.0004/231/1RkFRnk 故拒绝原假设,即在故拒绝原假设,即在 5%的显著性水平下认为回归方程的线性关系显著成立。的显著性水平下认为回归方程的线性关系显著成立。步骤四:经济预测步骤四:经济预测点预测:点预测:00YX 可以看着是可以看着是 Y 的条件均值的条件均值 00|E YX和个别值和个别值0Y的预测值,分别称为均值预测和个值预测;的预测值,分别称为均值预测和个值预测;性质:性质:00YX 是是 00|E YX和和0Y的一个无偏估计量。的一个无偏估计量。区间预测:均值区间预测:均值 00|E YX的区间预测的区间预测预测步骤:预测步骤:1)确定统计量:)确定统计量:0000|(1)YYE YXtt nkS 其中其中 021001iYeSXX XXnk 2)给定置信水平)给定置信水平1 ,确定,确定 00|E YX的预测区间为:的预测区间为:000/20/2(1),(1)YYYtnkSYtnkS 个值个值0Y的区间预测的区间预测预测步骤:预测步骤:1)确定统计量:)确定统计量:00000(1)eeeYYtt nkSS 其中其中 0210011ieeSXX XXnk 2)给定置信水平)给定置信水平1 ,确定,确定0Y的预测区间为:的预测区间为:000/20/2(1),(1)eeYtnkSYtnkS 作业:作业:为解释某地对酒的消费,根据为解释某地对酒的消费,根据 20 年的样本数据得到了如下回归方程:年的样本数据得到了如下回归方程:12340.0140.3540.0180.6570.059YXXXX 其中:其中:Y:每一成年人每年对酒的消费量(升);:每一成年人每年对酒的消费量(升);1X:酒类的平均价格(元);:酒类的平均价格(元);2X:个人可支配收入(元):个人可支配收入(元)3X:酒类经营许可证数量(张):酒类经营许可证数量(张)4X:酒类广告投入(万元):酒类广告投入(万元)已 知已 知20.689R ,1X X 对 角 线 上 的 元 素 分 别 为对 角 线 上 的 元 素 分 别 为1,10.0576C,2,228.9014C,3,30.01C,4,428.3042C,5,50.4624C,回 归 方 程 的 残 差 平 方 和,回 归 方 程 的 残 差 平 方 和0.0375ESS 1)先验地,你认为各自变量回归系数的符号为什么?)先验地,你认为各自变量回归系数的符号为什么?2)请完成以下方差分析表:)请完成以下方差分析表:方差来源方差来源平方和(平方和(SS)自由度自由度均方值均方值离差平方和离差平方和 TSS回归平方和回归平方和 RSS残差平方和残差平方和 ESS0.03753)计算)计算2R值值4)对)对 4 个自变量进行显著性检验,并分析其经济含义;个自变量进行显著性检验,并分析其经济含义;5)给出)给出2 置信水平为置信水平为 95%的区间估计;的区间估计;6)对方程进行显著性检验;)对方程进行显著性检验;