[数学]多元线性回归模型.ppt
《[数学]多元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《[数学]多元线性回归模型.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学多元线性回归模型3.1 模型的建立及其假定条件模型的建立及其假定条件 1 基本的概念基本的概念 在许多实际问题中,我们所研究的因变量的变动在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即线性模型的更一般形式,即多元线性回归模型多元线性回归模型: t=1,2,n 在这个模型中,在这个模型中,Y由由X1,X2,X3, XK所解释,有所解释,有K+1个未知参数个未知参数0 0、1 1、2 2、K K 。 这里,这里,“斜率斜率”j j的含义是其它变量不变的情况的含义是其它变量不变的情况下,下
2、,X Xj j改变一个单位对因变量所产生的影响。改变一个单位对因变量所产生的影响。u.22110kkXXXY 例例1 1: 其中,其中,Y=在食品上的总支出在食品上的总支出 X=个人可支配收入个人可支配收入 P=食品价格指数食品价格指数 用美国用美国1959-1983年的数据,得到如下回归结果(括号中数年的数据,得到如下回归结果(括号中数字为标准误差):字为标准误差): Y和和X的计量单位为的计量单位为10亿美元亿美元 (按按1972不变价格计算不变价格计算). u210PXY)114. 0()003. 0()6 . 9(99. 0739. 0112. 07 .1162RPXY多元线性回归模型
3、中斜率系数的含义多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下:上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升价格不变的情况下,个人可支配收入每上升10亿美元(亿美元(1个个billion),食品消费支出增加),食品消费支出增加1.12亿亿元(元(0.112个个 billion)。)。 收入不变的情况下,价格指数每上升一个点,收入不变的情况下,价格指数每上升一个点, 食品消费支出减少食品消费支出减少7.39亿元(亿元(0.739个个billion)回到一般模型回到一般模型 描 述 被 解 释 变 量描 述 被 解 释 变 量 Y 的 期 望 值 与 解 释
4、 变 量的 期 望 值 与 解 释 变 量X1,X2,XK线性关系的方程为线性关系的方程为这个式子为多元线性回归方程这个式子为多元线性回归方程,简称简称总体回归方程总体回归方程u.22110kkXXXY01122( )kkE YXXX对于对于n组观测值,有组观测值,有nKnKnnnnKKKKuXXXXYuXXXXYuXXXXY.332211022323222121021131321211101其矩阵形式为: 其中 nYYYY.21KnnKKXXXXXXX.1.1.11212111uXYnKuuuu.,.21210由于总体回归模型的参数由于总体回归模型的参数 都是未知都是未知的的,我们可以利用样
5、本观测值对它们进行估计我们可以利用样本观测值对它们进行估计,得到相应的估计的回归方程得到相应的估计的回归方程 上式为多元线性回归方程上式为多元线性回归方程,简称简称样本回归方程样本回归方程.估计的回归方程的矩阵表达形式为估计的回归方程的矩阵表达形式为01,k01122iiikkiYXXXYX2模型的假定模型的假定E(ui)=0, i=1,2,n 其矩阵表达形式为其矩阵表达形式为:E(U)=0(2)随机误差项有相同的方差随机误差项有相同的方差22( )()iiVar uE u (3)随机误差项彼此之间不相关随机误差项彼此之间不相关 ij将条件将条件(2)和和(3)结合起来结合起来,其相应的矩阵表
6、达形式其相应的矩阵表达形式为为(4)解释变量与随机误差项彼此不相关解释变量与随机误差项彼此不相关 i=1,2k j=1,2,.,n ( ,)()0ijijCov u uE u u( )( )( )()Var UE UE UUE UE UU2nI(,)0ijjCov Xu(5)解释变量解释变量X1,X2,Xk之间不存在精确的之间不存在精确的(完完全的全的)线性关系线性关系,即即rank(X)=k+1n 观测值的数目要大于待估计的参数的个数观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。(要有足够数量的数据来拟合回归线)。(6)随机误差项服从正态分布随机误差项服从正态分布
7、,即即 i=1,2,n2(0,)iuN 3.2最小二乘法最小二乘法我们的多元线性回归模型是:我们的多元线性回归模型是: t=1,2,n问题是选择问题是选择 ,使得残差平方和最小。,使得残差平方和最小。 残差为残差为:k,.,10KtKtttttXXYYYe.110tktktttXXXYu.22110要使残差平方和要使残差平方和 为最小,则应有:为最小,则应有:我们得到如下我们得到如下K+1个方程(个方程(即正规方程):即正规方程): 21102.KtKtttXXYeQ0.,0,010KQQQ按矩阵形式,上述方程组可表示为按矩阵形式,上述方程组可表示为:tktKtKtktktttKttKtttt
8、tKttKtttKtKtYXXXXXYXXXXXXYXXXXXYXXn211022121201121110110.=)(XXXY即即YXXXYXXX1)()(的最小二乘估计量由上式得到2112111.KttKtKtKttttKttXXXXXXXXXXnK.10nKnKKnYYYXXXXXX.1.11212111211 上述结果,亦可从矩阵表示的模型上述结果,亦可从矩阵表示的模型 出发,出发, 完全用矩阵代数推导出来。完全用矩阵代数推导出来。 残差可用矩阵表示为:残差可用矩阵表示为: 其中:其中:XY YYeeeen.21UXY残差平方和残差平方和 )()(YYYY)()(XYXY)(XYXYX
9、XXYYXYYeeeSt2注意到上式中所有项都是标量,且注意到上式中所有项都是标量,且 故故令令用矩阵微分法,我们可得到用矩阵微分法,我们可得到 与采用标量式推导所得结果相同。由上述结果,我们有与采用标量式推导所得结果相同。由上述结果,我们有 )(XYYX2XXYXYYQ0)(QYXXXYXXX1)(离差形式的最小二乘估计量离差形式的最小二乘估计量多元线性回归模型的样本容量为多元线性回归模型的样本容量为n的样本观测的样本观测值的均值为值的均值为:得到多元线性回归模型的离差形式:得到多元线性回归模型的离差形式:01122kkYXXXu1 122iiikkiiyxxxuuyxv其相应的矩阵表达形式
10、为:其相应的矩阵表达形式为:得到其正规方程组:得到其正规方程组:并得到的最小二乘估计量:并得到的最小二乘估计量:x xx y1()x xx y2022-7-10中山学院经济与管理系中山学院经济与管理系213随机误差项的方差随机误差项的方差 的估计量的估计量 的无偏估计量是的无偏估计量是这是因为我们在估计这是因为我们在估计 的过程的过程中,失去了(中,失去了(K+1)个自由度。)个自由度。22) 1(22Kneik,. ,102022-7-10中山学院经济与管理系中山学院经济与管理系223.3最小二乘估计量的特性最小二乘估计量的特性1 线性性线性性2 无偏性无偏性3 最小方差性(有效性)最小方差
11、性(有效性)高斯高斯-马尔科夫(马尔科夫(Gauss-Markov)定理:)定理: 对于对于 以及标准假设条件(以及标准假设条件(1)-(5),普通最小二乘估计量是最佳线性无偏),普通最小二乘估计量是最佳线性无偏估计量(估计量(BLUE)u XY233.4 可决系数可决系数一可决系数一可决系数 对于一元线性回归模型对于一元线性回归模型 我们有我们有其中,其中, =残差平方和残差平方和2221YYeRi2ie01YXU24对于多元线性模型对于多元线性模型 我们可用同样的方法定义可决系数:我们可用同样的方法定义可决系数:为方便计算,我们也可以用矩阵形式表示为方便计算,我们也可以用矩阵形式表示uXX
12、YKK.110TSSESSTSSRSSRYYeRi112222或总离差平方和回归平方和2R25我们有:残差我们有:残差 ,其中,其中,残差平方和:残差平方和: YYeeene.21XY)()(2YYYYeeet)()(XYXY)(XYXYXXXYYXYYYXXXXXXYYXYY1)(XYYYYXXYYXYY26而而将上述结果代入将上述结果代入 的公式,得到:的公式,得到:2222YnYYYnYYY这就是决定系数这就是决定系数 的矩阵形式。的矩阵形式。2221YYeR222YYeYY22)(YnYYXYYYYnYY22YnYYYnXY2R2R27二修正决定系数:二修正决定系数: 残差平方和的一个
13、特点是,每当模型增加一个解释变量,残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。并用改变后的模型重新进行估计,残差平方和的值会减小。 由此可以推论,决定系数是一个与解释变量的个数有关由此可以推论,决定系数是一个与解释变量的个数有关的量:的量: 解释变量个数增加解释变量个数增加 减小减小 增大增大 也就是说,人们总是可以通过增加模型中解释变量的方法也就是说,人们总是可以通过增加模型中解释变量的方法来增大来增大 的值。因此,用的值。因此,用 来作为拟合优度的测度,不是来作为拟合优度的测度,不是十分令人满意的。十分令人满意的。 为此,我们定义修
14、正决定系数为此,我们定义修正决定系数 (Adjusted )如下:)如下:2R2e2R2R2R2R2R28 是经过自由度调整的可决系数,称为修正可决系数。是经过自由度调整的可决系数,称为修正可决系数。我们有:(我们有:(1) (2)仅当)仅当K=0时,等号成立。即时,等号成立。即 (3)当)当K增大时,二者的差异也随之增大。增大时,二者的差异也随之增大。 (4) 可能出现负值。可能出现负值。2R22RR22RR 2R) 1() 1(1222nYYKneR22) 1() 1(1YYKnen1)1)(1(12KnRn2022-7-10中山学院经济与管理系中山学院经济与管理系29例例1. 设设 n
15、= 20, k = 3, = 0.70 求求 。当。当n=10、n=5时,时, 分别等于多分别等于多少少2R2R2R30解:解: 下面改变下面改变n的值,看一看的值,看一看 的值如何变化。我们有的值如何变化。我们有 若若n = 10,则,则 = 0.55 若若n = 5, 则则 = - 0.20由本例可看出,由本例可看出, 有可能为负值。这与有可能为负值。这与 不同不同 ( )。)。644. 0)420()70. 01 (191) 1()1)(1(122knRnR2R102 R2R2R2R2R 3.5 3.5 显著性检验与置信区间显著性检验与置信区间 方程的方程的F F 检验,旨在对模型中被解
16、释变量与检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立解释变量之间的线性关系在总体上是否显著成立作出推断。作出推断。 1、方程显著性的、方程显著性的F检验检验 即检验模型即检验模型 Yi= 0+ 1X1i+ 2X2i+ + kXki+ i i=1,2, ,n中的参数中的参数 j是否显著不为是否显著不为0。 可提出如下原假设与备择假设:可提出如下原假设与备择假设: H0: 0= 1= 2= = k=0 H1: j不全为不全为0 根据数理统计学中的知识,在原假设根据数理统计学中的知识,在原假设H0成立成立的条件下,统计量的条件下,统计量 服从自由度为服从自由度为( (k
17、, n-k-1)1)的的F分布分布 给定显著性水平给定显著性水平 ,可得到临界值,可得到临界值F ( (k,n-k-1) ),由样本求出统计量由样本求出统计量F的数值,通过的数值,通过 F F F ( (k,n-k-1) ) 或或 F F F ( (k,n-k-1) )来拒绝或接受原假设来拒绝或接受原假设H0,以判定原方程总体上的,以判定原方程总体上的线性关系是否显著成立。线性关系是否显著成立。 (1)RSS kFESSnk2022-7-10中山学院经济与管理系中山学院经济与管理系33F ( (k,n-k-1) ) 2022-7-10中山学院经济与管理系中山学院经济与管理系34方差来源平方和自
18、由度均方回归RSSk RSS / (k)误差ESSn-k-1ESS / (n-k-1)总离差 TSSn-1YY yu u y 2 2、 t检验(变量的显著性检验)检验(变量的显著性检验) 方程的方程的总体线性总体线性关系显著关系显著 每个解释变量每个解释变量对对被解释变量的影响都是显著的被解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验,因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的这一检验是由对变量的 t t 检验完成的。检验完成的。 t检验检验 1 1、 设计原假设与备择假设:设计原
19、假设与备择假设: H1: i 0 0 H0: i=0=0 i=1,2k) 2、构造、构造t统计量:统计量:2(1)jjjtt nkS2jS221()1niiijjujjyyCCnk 其中:其中: =(i=1,2k) 3 3、 给定显著性水平给定显著性水平 ,可得到临界值,可得到临界值t /2( (n-k-1) ),由样本求出统计量由样本求出统计量t的数值。的数值。 4 4、做出判断:、做出判断: 通过通过 |t|t| t /2( (n-k-1) ) 或或 |t|t| t /2( (n-k-1) )来拒绝或接受原假设来拒绝或接受原假设H0,从而,从而判定对应的解释变量是否判定对应的解释变量是否应
20、包括在模型中。应包括在模型中。 1122knkneiee2022-7-10中山学院经济与管理系中山学院经济与管理系38-t /2( (n-k-1) ) t /2( (n-k-1) ) 2022-7-10中山学院经济与管理系中山学院经济与管理系39下表给出了三变量模型的回归的结果:下表给出了三变量模型的回归的结果:方差来源平方和( S S )自由度( d . f . )平方和的均值( M S S )来自回归( R S S )65 965来自残差( E S S )总离差( T S S ) 6 6 0 4 21 4w回答以下问题:回答以下问题:1)样本容量是多少?)样本容量是多少?2) 求求ES S
21、?3) E S S与与R S S的自由度各是多少?的自由度各是多少?4) 求求R-square与与Adjusted R-square?2022-7-10中山学院经济与管理系中山学院经济与管理系40模型中的一些特殊解释变量模型中的一些特殊解释变量2022-7-10中山学院经济与管理系中山学院经济与管理系41 在很多情况下,人们用时间序列的观测在很多情况下,人们用时间序列的观测时期所代表的时间作为模型的解释变量,时期所代表的时间作为模型的解释变量,用来表示被解释变量随时间推移的自发用来表示被解释变量随时间推移的自发 变变化趋势。这种变量称为化趋势。这种变量称为时间变量时间变量,也叫做,也叫做趋势变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 多元 线性 回归 模型
限制150内