第十一讲多元线性回归模型.ppt
第十一讲多元线性回第十一讲多元线性回归模型归模型现在学习的是第1页,共15页现在学习的是第2页,共15页回归分析就是根据实验数据或历史数据,研究变量之回归分析就是根据实验数据或历史数据,研究变量之间的相关关系,建立起一个数学模型,进而将此模型间的相关关系,建立起一个数学模型,进而将此模型用于预测或控制用于预测或控制.一一般般:设设Y Y是是一一个个为为因因变变量量(内内生生变变量量、被被解解释释变变量),量),为自变量(解释变量)如果为自变量(解释变量)如果 ,其其中中 是是随随机机误误差,称上述表达式为多元线性回归模型差,称上述表达式为多元线性回归模型.现在学习的是第3页,共15页利用多元回归模型解决实际问题有以下几个步骤:利用多元回归模型解决实际问题有以下几个步骤:(1 1)作作出出各各解解释释变变量量与与因因变变量量的的散散点点图图,根根据据散散点点图图的形状决定是否可以进行线性回归的形状决定是否可以进行线性回归 ;(2 2)建建立立模模型型求求解解回回归归系系数数,并并对对其其进进行行检检验验,如如果果原原始始数数据据含含有有异异常常点点,则则应应删删除除异异常常点点或或者者引引入入虚虚拟拟变变量量加加以改进模型;以改进模型;(3 3)对对模模型型的的残残差差进进行行分分析析,如如果果存存在在异异方方差差,则则应应对模型进行调整;对模型进行调整;(4 4)对对模模型型的的残残差差进进行行自自相相关关性性的的DWDW检检验验,如如果果存存在在自自相关,则通过广义差分变换消除自相关性;相关,则通过广义差分变换消除自相关性;(5 5)对模型的结果给出合理的解释)对模型的结果给出合理的解释.现在学习的是第4页,共15页多元线性回归模型的多元线性回归模型的Matlab实现实现 多元线性回归的命令多元线性回归的命令:b,bint,r,rint,s=regress(y,X,alpha)其中其中:输入输入 y:因变量因变量(列向量列向量),X:1与自变量组成的矩阵,与自变量组成的矩阵,Alpha:显著性水平显著性水平(缺省时设定为(缺省时设定为0.05)s:4个统计量:可个统计量:可决系数决系数R2,F值值,F(1,n-2)分布大于分布大于F值的概率值的概率p,残差的误差平方和残差的误差平方和S2输出输出:b=(),),bint:b的置信区间,的置信区间,r:残差残差(列向量列向量),rint:r的置信区间的置信区间R2,越接近,越接近1越好;越好;p 时时回归模型有效,回归模型有效,S2越小越好越小越好现在学习的是第5页,共15页rcoplot(r,rint)然后作出残差及其置信区间图形,命令为:然后作出残差及其置信区间图形,命令为:根据图形,如果有异常点(该点为红色),剔除异常点根据图形,如果有异常点(该点为红色),剔除异常点后后再次进行回归。再次进行回归。最后最后对模型进行检验:对模型进行检验:(1 1)残差的正态检验:)残差的正态检验:由由jbtestjbtest检检验验,h=0h=0表表明明残残差差服服从从正正态态分分布布,h=1h=1表表明明残差不服从正态分布残差不服从正态分布(2 2)残差的异方差检验)残差的异方差检验 (3)残差的自相关性检验)残差的自相关性检验(后续课程介绍)(后续课程介绍)现在学习的是第6页,共15页 例例1:根据下面的数据建立血压与年龄、体重指根据下面的数据建立血压与年龄、体重指数、吸烟习惯之间的回归模型数、吸烟习惯之间的回归模型 序号 血压年龄体重指数吸烟习惯 序号 血压年龄体重指数吸烟习惯11443924.20211363625.0022154731.11221425026.2131384522.60231203923.50101545619.30301756927.41(完整数据详细见后面的程序中)(完整数据详细见后面的程序中)现在学习的是第7页,共15页说明:体重指数说明:体重指数=体重(体重(kg)/身高(身高(m)的平方)的平方 吸烟习惯吸烟习惯:0表示不吸烟,表示不吸烟,1表示吸烟表示吸烟首先首先做出血压与年龄,血压与体重指数之间的散点图做出血压与年龄,血压与体重指数之间的散点图 散点图命令为:散点图命令为:y=144215138145162142170124158154 162150140110128130135114116124 136142120120160158144130125175;x1=39474547654667426756 64565934424845182019 36503921445363292569;现在学习的是第8页,共15页x2=24.2 31.1 22.6 24.0 25.9 25.1 29.5 19.7 27.2 19.3 28.0 25.8 27.3 20.1 21.7 22.2 27.4 18.8 22.6 21.5 25.0 26.2 23.5 20.3 27.1 28.6 28.3 22.0 25.3 27.4;x3=0 1 0 1 1 0 1 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 1 0 1;plot(x1,y,*)figure(2);plot(x2,y,or)可见血压与年龄、血压与体重指数存在一定的线性相关可见血压与年龄、血压与体重指数存在一定的线性相关性,所以建立多元线性回归模型:性,所以建立多元线性回归模型:y与与x1的散点图的散点图y与与x2的散点图的散点图现在学习的是第9页,共15页其次其次建立模型(继续输入):建立模型(继续输入):Y=y;X=ones(30,1),x1,x2,x3;%1与自变量组成的矩阵与自变量组成的矩阵 b,bint,r,rint,s=regress(y,X);%多元线性回归多元线性回归b,bint,srcoplot(r,rint)%作出作出残差及其置信区间图形残差及其置信区间图形回归系数回归系数回归系数回归系数估计值(估计值(b)回归系数回归系数置信区间(置信区间(bint)045.36363.5537 87.173610.3604-0.0758 0.7965 23.09061.0530 5.1281311.8246-0.1482 23.7973R2=0.6855 F=18.8906 p0.0001 s2=169.7917输出结果:输出结果:现在学习的是第10页,共15页第三第三模型的改进。模型的改进。的置信区间包含零点,残差与的置信区间包含零点,残差与残差置信区间的图形(如下图)也有异常点,残差置信区间的图形(如下图)也有异常点,利用索引向量删除第二与第十点。再次进行回归利用索引向量删除第二与第十点。再次进行回归现在学习的是第11页,共15页a=1,3:9,11:30;Y1=Y(a,:);X1=X(a,:);b1,bint1,r1,rint1,s1=regress(Y1,X1);b1,bint1,s1命令如下:命令如下:回归系数回归系数估计值回归系数置信区间058.510129.9064 87.113810.43030.1273 0.733222.34490.8509 3.8389310.30653.3878 17.2253R2=0.8462 F=44.0087 p0.0001 s2=53.6604这时置信区间不包含零点,这时置信区间不包含零点,F统计量增大,可决系数从统计量增大,可决系数从0.6855增大到增大到0.8462,S2从从169.7减少到减少到53.6现在学习的是第12页,共15页最后最后得到回归模型为:得到回归模型为:模型的检验(残差的正态检验模型的检验(残差的正态检验 )输入命令:输入命令:h=jbtest(r1)h=jbtest(r1)结果:结果:h=0h=0表明残差服从正态分布表明残差服从正态分布 说明说明血压与吸烟习惯的相关性最大,与体重指数的相关性血压与吸烟习惯的相关性最大,与体重指数的相关性次之,与年龄的相关性最小。次之,与年龄的相关性最小。现在学习的是第13页,共15页对于实际问题建立的模型应该注意:对于实际问题建立的模型应该注意:(1 1)模型中是否应该具有常数项,这取决于该常数的)模型中是否应该具有常数项,这取决于该常数的实际意义是什么?实际意义是什么?(2 2)对于牵涉到有关专业的问题,必须请教有关专家)对于牵涉到有关专业的问题,必须请教有关专家决定自变量的取舍决定自变量的取舍.对于此题的结果医学院的专家认为:模型中的常数无法对于此题的结果医学院的专家认为:模型中的常数无法给出合理的解释,此外吸烟与血压的高低没有关系给出合理的解释,此外吸烟与血压的高低没有关系.因此,因此,可以考虑建立血压与年龄、体重指数之间的二元回归模可以考虑建立血压与年龄、体重指数之间的二元回归模型型.现在学习的是第14页,共15页X1=75.2 77.6 80.7 76 79.5 81.8 98.3 67.7 74 151 90.8 102.3 115.6 125 137.8 175.6 155.2;X2=30.6 31.3 33.9 29.6 32.5 27.9 24.8 23.6 33.9 27.7 45.5 42.6 40 45.8 51.7 67.2 65;X3=21.1 21.4 22.9 21.4 21.5 21.7 21.5 21 22.4 24.7 23.2 24.3 23.1 29.1 24.6 27.5 26.5;y=1090.4 1133 1242.1 1003.2 1283.2 1012.2 1098.8 826.3 1003.3 1554.6 1199 1483.1 1407.1 1551.3 1601.2 2311.7 2126.7;练习:练习:某零售企业若干月的库存占用资金(某零售企业若干月的库存占用资金(x1x1)、广告)、广告投入的费用(投入的费用(x2x2)、员工薪酬()、员工薪酬(x3x3)以及销售额()以及销售额(y y)等)等数据如下,根据这些数据建立销售额与其它三个变量之数据如下,根据这些数据建立销售额与其它三个变量之间的线性回归模型。间的线性回归模型。现在学习的是第15页,共15页