《刘杰20120512013第9章:多元回归分析.doc》由会员分享,可在线阅读,更多相关《刘杰20120512013第9章:多元回归分析.doc(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流刘杰20120512013第9章:多元回归分析.精品文档.第9章:多元回归分析实验目的:1.直观了解多元回归分析的基本内容;2.掌握用数学软件求解多元回归分析问题。实验内容:1.多元回归分析的基本理论;2.用数学软件求解多元回归分析问题;3.课堂实验练习。一、多元线性回归(一)回归模型 称如下模型为多元线性回归模型(高斯-马尔可夫线性模型)其中 , , , 。称为回归平面方程。 %Y必须是列向量多元线性回归分析的主要任务是:(1) 用样本值对未知参数和作点估计;(2) 对回归系数作假设检验;(3) 在处对y作预测与控制,并对y作区间估计。(二
2、)模型参数估计1.回归系数的最小二乘估计作离差平方和:最小二乘法就是选择的估计,使得称为的最小二乘估计(LS估计)。2. 的无偏估计残差平方和: 则,称为剩余方差,它是的无偏估计。(三)检验、预测与控制1.回归方程的显著性检验 对回归方程的显著性检验,可提出如下原假设:若假设被拒绝,则回归显著,认为与之间确有线性关系,所求的线性回归方程有意义;否则回归不显著。 2.预测(1)点预测:根据回归方程,给定自变量,预测.(2)区间预测:给定自变量,预测的置信区间. (四)回归分析的相关命令1.确定回归系数的点估计: b=regress(Y, X)2.求回归系数的点估计和区间估计、并检验回归模型:残差
3、的点估计 回归系数的区间估计 残差的区间估计 用于检验回归模型的四个数:相关系数r2、F值、接受原假设的概率p、残差方差的估计。回归系数的点估计 显著性水平 b, bint, r, rint, stats=regress(Y, X, alpha)(1)相关系数越接近1,说明回归方程越显著;(2)时拒绝,值越大,说明回归方程越显著;(3)时,拒绝,说明回归模型成立。3.画出残差及置信区间: rcoplot(r, rint) %筛选不符合的数据4.方程回归系数的检验: stepwise(X,Y)【例9-1】火柴消费与各因素之间的关系分析 火柴公司的火柴销售量与各方面因素有很大联系,根据往年的销售情
4、况,收集到了以下的一些数据:年份火柴销售量y/万件煤气、液化气用户x1/万户卷烟销售量x2/万箱蚊香销售量x3/十万盒打火石销售量X4/万粒197117.8427.4321.4311.0925.78197218.2729.9524.9614.4828.16197320.2933.5328.3716.9724.26197422.6137.3142.5720.1630.18197526.7141.1645.1626.3917.08197631.1945.7352.4627.047.39197730.5050.5945.323.083.88197829.6358.8246.8024.4610.531
5、97929.6965.2851.1133.8220.09198029.2571.2553.2933.5721.22198131.0573.3755.3639.5912.63198232.2876.6854.0048.4911.17试分析火柴的销售量与各个因素之间的关系。1. 回归分析及其检验运行结果如下:从上述分析结果可得:回归方程: 相关系数: ,说明线性程度较好;检验统计量: ,说明回归方程显著;接受原假设的概率:,说明回归方程显著。2. 残差分析,作残差图从上图可以看出,第9个点和第11个点为奇异点,可以舍弃后重新求解回归方程。3. 对系数进行逐步检验从上表可以看出系数对影响不显著,可以
6、认为蚊香的销售量与火柴的销售量基本无关,删除该变量,重新计算如下:经过重新计算,可得回归方程如下:二、一元多项式回归(一)回归1.确定多项式系数格式:p,s=polyfit(x,y,m)功能:利用m次多项式对数据x,y进行曲线拟合,p为多项式系数,s为一个矩阵,用来估计预测误差。2.一元多项式回归命令格式:polytool(x,y,m)功能:此命令产生一个交互式的画面,画面中有拟合曲线和y的置信区间。(二)预测和预测误差估计格式1: Y=polyval(p,x)功能:求回归多项式p在x处的预测值Y。格式2:Y,delta=polyconf(p,x,s,alpha)功能:求回归多项式p在x处的预
7、测值Y,以及预测值Y的置信区间Ydelta.【例9-2】观测物体降落的距离s与时间t的关系,得到数据如下表:t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.481.作二次多项式回归运行结果:即回归模型为:2.预测与作图 上图的结果表明二次多项式回归方程效果显著。思考:可否将上例中的一元多项式回归转化为多元线性回归进行分析?【课堂练习】1.(人口预
8、测)以下是美国人口两个世纪以来的统计数据:(单位:百万)年份18001810182018301840185018601870188018901900人口5.37.29.612.917.123.231.438.650.262.976.0年份1910192019301940195019601970198019902000人口92.0106.5123.2131.7150.7179.3204.0226.5251.4275.0(1)请利用一元多项式回归方法建立美国人口预测模型;(2)试预测2020年的美国人口数量。2. 世界卫生组织推荐的“体质指数”BMI(Body Mass Index)的定义为BMI
9、=W/H,其中W表示体重(单位:kg),H表示身高(单位:m)。显然它比体重本身更能反映人的胖瘦,对30个人测量他(她)们的血压和体质指数,如下表所示:序号血压/mmHg年龄体质指数吸烟习惯序号血压/mmHg年龄体质指数吸烟习惯11443924.20161304822.2122154731.11171354527.4031384522.60181141818.8041454724.01191162022.6051626525.91201241921.5061424625.10211363625.0071706729.51221425026.2181244219.70231203923.5091
10、586727.21241202120.30101545619.30251604427.11111626428.01261585328.61121505625.80271446328.30131405927.30281302922.01141103420.10291252525.30151284221.70301756927.41(1) 请建立血压与年龄以及体质指数之间的模型,并作回归分析;输入的程序:x=144 39 24.2 0;215 47 31.1 1;138 45 22.6 0;145 47 24.0 1;162 65 25.9 1;142 46 25.1 0;170 67 29.5
11、1;124 42 19.7 0;158 67 27.2 1;154 56 19.3 0;162 64 28.0 1;150 56 25.8 0;140 59 27.3 0;110 34 20.1 0;128 42 21.7 0;130 48 22.2 1;135 45 27.4 0;114 18 18.8 0;116 20 22.6 0;124 19 21.5 0;136 36 25.0 0;142 50 26.2 1;120 39 23.5 0;120 21 20.3 0;160 44 27.1 1;158 53 28.6 1;144 63 28.3 0;130 29 22.0 1;125
12、25 25.3 0;175 69 27.4 1;X=ones(size(x(:,1),x(:,2:3);Y=x(:,1);b, bint, r, rint, stats=regress(Y,X)输出的结果:b = 30.7550 0.47013.6754bint = -10.4752 71.9852 0.0255 0.9147 1.6199 5.7309r = 5.9657 47.8444 3.0258 3.9400 5.4949 -2.6329 -0.6769 1.0948 -4.2234 25.9836 -1.7534 -1.9067 -18.8301 -10.6145 -2.2560 -
13、4.9143 -17.6163 5.6851 -7.2217 5.2914 -3.5643 -8.5563 -15.4615 4.7617 8.9565 -2.7876 -20.3860 4.7526 -10.4959 11.1013rint = -22.1266 34.0580 31.7956 63.8933 -24.9396 30.9911 -24.2468 32.1268 -21.6816 32.6713 -30.8929 25.6272 -27.6136 26.2598 -25.5877 27.7774 -31.3957 22.9489 4.1781 47.7891 -29.2004
14、25.6935 -29.9275 26.1141 -45.6002 7.9399 -37.6045 16.3754 -30.0408 25.5287 -32.5145 22.6858 -44.3569 9.1244 -20.4995 31.8697 -33.7704 19.3270 -21.3668 31.9495 -31.4205 24.2918 -36.5178 19.4053 -42.9728 12.0498 -22.0850 31.6083 -18.5408 36.4537 -30.2439 24.6688 -46.5971 5.8252 -22.8893 32.3946 -36.56
15、84 15.5767 -15.5399 37.7426stats =0.6357 23.5525 0.0000 189.4198(2) 如果他(她)们还有吸烟习惯的纪录,怎样在模型中考虑这个因素,吸烟会使血压升高吗?;输入的程序:x=144 39 24.2 0;215 47 31.1 1;138 45 22.6 0;145 47 24.0 1;162 65 25.9 1;142 46 25.1 0;170 67 29.5 1;124 42 19.7 0;158 67 27.2 1;154 56 19.3 0;162 64 28.0 1;150 56 25.8 0;140 59 27.3 0;1
16、10 34 20.1 0;128 42 21.7 0;130 48 22.2 1;135 45 27.4 0;114 18 18.8 0;116 20 22.6 0;124 19 21.5 0;136 36 25.0 0;142 50 26.2 1;120 39 23.5 0;120 21 20.3 0;160 44 27.1 1;158 53 28.6 1;144 63 28.3 0;130 29 22.0 1;125 25 25.3 0;175 69 27.4 1;X1=ones(size(x(:,1),x(:,2:4);Y=x(:,1);b, bint, r, rint, stats=r
17、egress(Y,X1)输入的结果:b = 45.3636 0.3604 3.0906 11.8246bint = 3.5537 87.1736 -0.0758 0.7965 1.0530 5.1281 -0.1482 23.7973r = 9.7907 44.7583 6.5734 -3.2986 1.3429 2.4867 -2.5039 2.6172 -7.3956 28.8084 -4.7870 4.7197 -10.9972 -9.7362 0.4360 -13.0960 -11.2613 4.0473 -6.4176 5.3424 0.3993 -14.1789 -12.0459
18、4.3303 3.2017 -6.6774 -11.5292 -5.6311 -7.5639 8.2656rint = -16.3703 35.9517 30.0184 59.4982 -19.6030 32.7499 -28.9960 22.3987 -24.1742 26.8599 -23.8105 28.7839 -27.9825 22.9747 -22.6411 27.8754 -32.8481 18.0569 9.3635 48.2532 -30.5838 21.0099 -20.9189 30.3583 -35.7261 13.7317 -35.3466 15.8742 -25.8
19、033 26.6754 -37.3751 11.1832 -36.2615 13.7389 -20.7883 28.8828 -31.6163 18.7811 -19.9463 30.6311 -25.7575 26.5561 -39.6230 11.2651 -38.1191 14.0273 -21.1508 29.8115 -22.4081 28.8115 -32.3024 18.9477 -35.4770 12.4186 -29.5343 18.2722 -32.2556 17.1277 -16.9794 33.5106stats = 0.6855 18.8906 0.0000 169.7917(3) 画残差图,并作残差分析;输入的程序:rcoplot(r,rint)stepwise(x(:,2:4),x(:,1)输出的结果:回归方程:y=58.5101+0.4302*x1+2.3449*x2+10.3065*x3(4) 请对50岁且体质指数为25的吸烟者的血压做预测。输入:x1=50;x2=25;x3=1;y=58.5101+0.4302*x1+2.3449*x2+10.3065*x3输出:y = 148.9491
限制150内