多元线性回归模型的参数估计.ppt
多元线性回归模型的参数估计9/5/2022现在学习的是第1页,共30页相关分析:提供了相关分析:提供了现象之间相关关系的方向和相关的密切程现象之间相关关系的方向和相关的密切程度方面的信息,但不提供现象之间如何关联方度方面的信息,但不提供现象之间如何关联方面的信息面的信息回归分析:提供现象之间如何关联的信息回归分析:提供现象之间如何关联的信息 原则上:回归分析是在相关分析的基础上进行的原则上:回归分析是在相关分析的基础上进行的 一、回归分析与相关分析9/5/2022现在学习的是第2页,共30页19世纪末,英国著名统计学家世纪末,英国著名统计学家Francis Galton研究孩子及他们研究孩子及他们父母的身高时发现,身材高的父母,他们的孩子也高,但这些孩子父母的身高时发现,身材高的父母,他们的孩子也高,但这些孩子平均起来并不像他们的父母那样高;对于比较矮的父母,他们的孩平均起来并不像他们的父母那样高;对于比较矮的父母,他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应。回把这种孩子的身高向中间值靠近的趋势称之为一种回归效应。回归这个术语便开始传播开来。归这个术语便开始传播开来。现在的回归分析已经没有原来的含义,但这种说法一直沿袭下来,现在的回归分析已经没有原来的含义,但这种说法一直沿袭下来,重在表明这是研究数值变量之间关系的方法。重在表明这是研究数值变量之间关系的方法。回归的来历:回归的来历:9/5/2022现在学习的是第3页,共30页123(,)pyf x xxxL“因变量因变量”或或“被解释被解释变量变量”(dependent variable)“解释变量解释变量”或或“自变自变量量”(independent variables)随机变量随机变量回归的方法:建立回归模型回归的方法:建立回归模型 用一个恰当的代数式来表达变量用一个恰当的代数式来表达变量 与随机变量与随机变量 的的依存关系:依存关系:ixy9/5/2022现在学习的是第4页,共30页回归模型回归模型多元回归多元回归一元回归一元回归线性回线性回归归非线性非线性回归回归线性回线性回归归非线性非线性回归回归回归模型的类型:回归模型的类型:9/5/2022现在学习的是第5页,共30页二、多元线性回归模型二、多元线性回归模型n解释变量 xi 是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。n随机误差项具有0均值和同方差01 122kkybbxb xb xL1.模型的假设特殊的:随机误差项服从0均值、同方差的正态分布9/5/2022现在学习的是第6页,共30页2.多元模型的解析表达式0iiiiExEx E其中随机误差项与解释变量之间不相关,2=0=iii是独立同分布,即i,i,d,而且E,,D(一个常数,方差的齐次性)01 122120122(,)1,2,kkiiiikiiikikiybb xb xb xny xxxinybbxb xb x个样本观测值得:LLLL1011121211201212222201122kkkknnnknknybb xb xb xybb xb xb xybb xb xb xLLL L L L L LL(1,2)0iijinE 互不相关,即L行坐标表示第几次观察列坐标表示第几个自变量n解释变量 xi 是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。9/5/2022现在学习的是第7页,共30页线性回归模型”中的“线性”一词在这里有两重含义:一是被解释变量y与解释变量x之间为线性关系,即解释变量x仅以一次方的形式出现在模型之中。用数学语言表示为:jjyx220jyx二是被解释变量y与参数 之间为线性关系,即参数仅以一次方的形式出现在模型之中。用数学语言表示为:01y2200yjjyx2210y9/5/2022现在学习的是第8页,共30页0111121112122222212111kknnnknnkbyxxxbyxxxbxxxybLLMMMMMMML3.多元模型的矩阵表达式YXB1111212122221201122111kknnnknnkYXByxxxyxxxxxxybbbbLLMMMMMLMM9/5/2022现在学习的是第9页,共30页三.多元线性回归模型的参数估计(OLS)n参数值估计n参数估计量的性质n偏回归系数的含义n正规方程n样本容量问题9/5/2022现在学习的是第10页,共30页1.参数值估计(最小二乘估计-OLS)012211211iiiknniiiniQyyybbbiikexxL012000.0kQbQbQbQb 1.剩余平方和:2.最小二乘估计原理:剩余平方和达到最小值9/5/2022现在学习的是第11页,共30页3.得到下列方程组求参数估计值的实质是求一个k+1元方程组10112220i122111201122iikiikikiiiikikiiiikiikiikkikinbbxbxbxybxbxbx xbx xx ybxbx xbx xbxx yLLL LL9/5/2022现在学习的是第12页,共30页2=11TTTYeYXenYknk4.剩余平方和表示成矩阵形式2iYXBYXBD2211()()iinniiiQe Y YYXByyeeYXB YXBe()()()2QYBX YXBYY YXB BXY BXXBYXB BXYYYBXY BXXB 为什么?100QX YX XBBX XX YB9/5/2022现在学习的是第13页,共30页7.最小二乘估计量的性质n(1)线性(估计量都是被解释变量观测值的线性组合)1X XX Y2()()11e eYXYXnknk=1TTTY YXkYn()1TnYIH Ynk9/5/2022现在学习的是第14页,共30页(2)无偏性(估计量的数学期望=被估计的真值)111()EEX XX YEX XX XX XX1()IX X XX11()()()()YXYXIXX XXIXX XX1()IXX XX111()()()eYXYXX XX YIXX XX YIXX XXX9/5/2022现在学习的是第15页,共30页11()()()EIXX XXEEXX XX 1222()(1)ntr XX XXnk22()()11e eYXYXEEnknkEn(3)有效性(估计量的方差是所有线性无偏估计中最小的)2,iijijii jEa E 9/5/2022现在学习的是第16页,共30页21(4)(,(),1,2,.,(),X Xj+1j+1 jjjjjjjjNVarjkVarcc在古典假定下,其中,是()中对角线上第行第列元素。2(0,)iN1111BX XX YX XX XX XXX XX因为:1111111(1)(1)2()()()()()()()()()()()()kkCovEEBEEE X XXXX X XX XX EX X XEX XX X X XdiagX X这一性质表明系数向量的各个分量间一般也是相关的9/5/2022现在学习的是第17页,共30页2(5).(),cov()()()E eOediagIHeYYYXB1()IX X XXEeO11111112()()()()()()()()()()()()()Cov eE eE e eE eE IX X XXIX X XXIX X XX EIX X XXEIX X XXIX X XXdiagIX X XX1HX X XX其中这一性质表明残差向量的各个分量间一般也是相关的9/5/2022现在学习的是第18页,共30页注解:k k与k+1k+1n 凡是按解释变量的个数为k的,那么共有k+1个参数要估计。而按参数个数为k的,则实际有k-1个解释变量。总之两者相差1而已!要小心所用的k是什么意思!n 所以如果本来是用解释变量个数的k表示的要转换成参数个数的k则用k-1代换原来的k就可以了!9/5/2022现在学习的是第19页,共30页6.偏回归系数的意义n 偏回归系数的含义是,在其他解释变量保持不变的条件下,该变量变化一个单位,被解释变量将平均发生偏回归系数大小的变动n多元回归模型中的回归系数称为偏回归系数9/5/2022现在学习的是第20页,共30页7.正规方程n 由最小二乘法得到的用以估计回归系数的线性方程组,称为正规方程10112220i122111201122iikiikikiiiikikiiiikiikiikkikinxxxyxxx xx xx yxx xx xxx yLLLLYXBXX9/5/2022现在学习的是第21页,共30页正规方程的结构正规方程的结构(k1)x 1 回归系数矩阵()1()X X高斯乘数矩阵,设计矩阵的逆n x 1e残差向量()n x 1y被解释变量的拟合(预测)向量nY 被解释变量观测值 n x 1X 解释变量观测值(含虚拟变量n x(k+1))XX 设计矩阵(实对称(k+1)x(k+1)矩阵)nXY 正规方程右端 (k+1)x 19/5/2022现在学习的是第22页,共30页8.最小二乘估计(OLS)下回归线的性质12323011.iiiikkyxxxx()回归线过样本均值01122iikikinxxxy由正规方程的第一个式子:得证(2)iiYY估计值的均值等于实际观测值 的均值2301123.kiiiiikyxxxx9/5/2022现在学习的是第23页,共30页1()eYYYXBIX X XX5iiXe()解释变量与残差 不相关(3)0ie剩余项(残差)的均值为4iiYe()应变量估计值与残差 不相关;YXBee为扰动,为残差,可以用 来估计扰动。1(,)(),)Cov eCov IHX XX 11()()IX XX EX X XX0(,)(),)Cov e yCov IHX09/5/2022现在学习的是第24页,共30页9.9.多元回归模型参数估计中的样本容量问题n样本是一个重要的实际问题,模型依赖于实际样本。n获取样本需要成本,企图通过样本容量的确定减轻收集数据的困难。n 最小样本容量:满足基本要求的样本容量9/5/2022现在学习的是第25页,共30页最小样本容量最小样本容量 n n k+1 k+11()|01X XX XX Xk存在为满秩矩阵YXXXB1)()min(),()R ABR A R B()1,1R Xknk所以,因此9/5/2022现在学习的是第26页,共30页满足基本要求的样本容量n一般经验认为:nn 30或者n 3(k+1)才能满足模型估计的基本要求。nn 3(k+1)时,t分布才稳定,检验才较为有效9/5/2022现在学习的是第27页,共30页9/5/2022现在学习的是第28页,共30页1213251,91168TTX XX Y显然:TTTTe eY YX Y23319281.91133TTY Ye enk 9/5/2022现在学习的是第29页,共30页9/5/2022现在学习的是第30页,共30页