多元统计分析---回归分析.ppt
引例:消费支出与可支配收入的观测值一、一元线性回归模型一、一元线性回归模型 定义:假设有两个变量x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数;为各组观测数据的下标;为随机变量。(2.1)记 和 分别为参数a与b的拟合值,则一元线性回归模型为 (2.2)式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。(2.2)一般情况下的总体回归模型假定条件下的总体回归模型真实的总体回归直线与估计的样本回归直线样本回归直线是对总体回归直线的近似反映。回归分析的主要任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。所估计的样本回归直线都不可能与真实的总体回归直线完全一致。观测值的散点图及其拟合直线 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有(2.4)(一)参数(一)参数a、b的最小二乘估计的最小二乘估计 (2.3)(2.5)解上述正规方程组(2.4)式,得到参数a与b的拟合值一元线性回归模型检验的种类一元线性回归模型检验的种类(二)一元线性回归模型的显著性检验(二)一元线性回归模型的显著性检验u实际意义检验实际意义检验参数估计值的符号和取值范围参数估计值的符号和取值范围消费支出与可支配收入:如果估计出来的 b小于 0 或大于 1,收入支出u统计检验统计检验检验样本回归方程的可靠性检验样本回归方程的可靠性拟合程度检验;拟合程度检验;相关系数检验;相关系数检验;参数显著性检验参数显著性检验(t检验检验);回归方程显著性检验(回归方程显著性检验(F 检验)检验)u计量检验计量检验假定条件是否满足假定条件是否满足序列相关检验序列相关检验异方差性检验异方差性检验1 拟合优度检验拟合优度检验所谓拟合程度,是指样本观测值聚集在样本回归直线周所谓拟合程度,是指样本观测值聚集在样本回归直线周围的紧密程度。判断回归模型拟合程度优劣最常用的数围的紧密程度。判断回归模型拟合程度优劣最常用的数量指标是量指标是判定系数判定系数(Coefficient of Determination)总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明(2.9)(2.8)Q 称为误差平方和,或剩余平方和U 回归平方和 显而易见,各个样本观测点与样本回归直线靠得越紧,U 在S中所占的比例就越大。因此,可定义这一比例为判定系数,即有:性质:1、具有非负性,分子分母均是不可能为负值2、判定系数的取值范围为3、判定系数是样本观测值的函数,它也是一个统计量。2 相关系数的显著性检验相关系数的显著性检验 X和和 Y之间真实的线性相关程度用总体相关系数之间真实的线性相关程度用总体相关系数来表示来表示由于总体未知,由于总体未知,无法计算,我们利用相本相关系数无法计算,我们利用相本相关系数(1)计算样本相关系数)计算样本相关系数 r;(2)根据给定的显著性水平)根据给定的显著性水平和样本容量和样本容量 n,查相关系数表得到,查相关系数表得到临界值临界值 r。(3)若)若|r|大于临界值大于临界值,则,则 X与与 Y有显著的线性关系,否则有显著的线性关系,否则 X 与与Y 的线性相关关系不显著。的线性相关关系不显著。3 回归参数的显著性检验(回归参数的显著性检验(t检验检验)根据样本估计的结果对总体回归参数的有关假设进行检验根据样本估计的结果对总体回归参数的有关假设进行检验3、根据给定的显著水平确定临界值,或者计算 t 值所对应的 p 值。4、做出判断。方法:F 检验法。总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明(2.9)(2.8)4回归方程的显著性检验回归方程的显著性检验 统计量F F越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。(2.10)二、多元线性回归模型1 1 多元线性回归模型的结构形式为多元线性回归模型的结构形式为 (2.11)式中:为待定参数;为随机变量。2 多元线性回归模型的基本假定多元线性回归模型的基本假定 如果 分别为的拟和值,则回归方程为 b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。(2.12)3 回归方程的估计:偏回归系数的推导过程:根据最小二乘法原理,的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得(.2.13)(.2.14)方程组(2.15)式称为正规方程组。引入矩阵(.2.15)则正规方程组(2.15)式可以进一步写成矩阵形式求解得引入记号 (2.16)正规方程组也可以写成n回归模型的显著性检验回归模型的显著性检验 回归平方和U与剩余平方和Q:回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。R=0.950,说明,说明 Y 与自变量与自变量 X1、X2 之间的相关程度为之间的相关程度为 95.0%。样本判定系数样本判定系数0.902 说明说明 Y的变动有的变动有 90.2%可以由自变量可以由自变量 X1 和和 X2 解释。解释。三、非线性回归模型 非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,令 ,可以将其转化为直线形式:,其中,;对于对数曲线 ,令 ,可以将其转化为直线形式:;对于幂函数曲线 ,令 ,可以将其转化为直线形式:其中,;对于双曲线 ,令 ,转化为直线形式:;对于S型曲线 ,可 转化为直线形式:;对于幂乘积 ,只要令 ,就可以将其转化为线性形式 其中,;对于对数函数和 只要令 ,就可以将其化为线性形式 例例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。序号面积A周长P序号面积A周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276 891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m)15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.1271971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.355503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 638.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.750712.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410解解:(1)作变量替换,令:,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。序号y=lnAx=LnP序号y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362 1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977 3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 653538.140 9385.534 711139.034 8716.385 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.347 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.118 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128 478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.670 627.065 966769.548 2256.458 6143610.961 037.729 906779.135 3126.759 3583710.248 997.187 502789.524 0376.569 1823813.116 879.167 568797.575 1565.431 1123910.096 386.902 648808.485 9125.782 227407.516 275.435 4718113.164 388.908 416417.383 1355.419 8378213.243 479.410 208 (2)以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。图3.2.2 林地景观斑块面积(A)与周长(P)之间的双对数关系 (3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到 对应于(3.2.19)式,x与y的相关系数高 达 =0.966 5。(4)将(3.2.19)还原成双对数曲线,即(3.2.19)(3.2.20)