《岭回归分析的SAS程序设计.pdf》由会员分享,可在线阅读,更多相关《岭回归分析的SAS程序设计.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、岭回归分析的 SAS 程序设计?田俊(福建医科大学,福州,350004)摘要田俊.岭回归分析的SAS 程序设计.岭回归分析方法是传统的多元回归分析方法的一个补充,在实际工作中经常使用。但是在标准统计软件 SAS 中没有专门的岭回归分析过程,本文介绍如何通过设置伪样品后使用SAS进行岭回归分析。关键词岭回归标准统计软件程序设计岭回归分析是一种改进的最小二乘法。当自变量x1,x2,xm间相关性强时,或某些变量的变化范围太小时,用传统的基于最小二乘法估计参数的多元回归、逐步回归方法往往不能得到令人满意的结果,甚至有些回归系数的符号与专业知识不一致,在这种情况下往往可以采用岭回归分析方法。在国际著名的
2、标准统计软件 SAS 中没有专门的岭回归分析过程,但可以通过设置伪样品后使用 SAS 中的 REG 过程来估计岭回归系数。一、程序设计步骤设有n 个观察单位,每个观察单位测定 m 个变量x1,x2,xm,对于岭参数 k,当 k 取定01 之间的某个值后,估计岭回归系数的步骤为:(1)先用 SAS 中的 ST ANDARD 过程把 x1,x2,xm,y 作标准化转换,转换后的标准化变量均数为 0,标准差为1。(2)根据 k 值求k(n-1)。(3)对原样本增加m+1 个伪样品,每个伪样品有 m+1 个值。第 i 个伪样品的 m+1 个值记为 xi=(xi1,xi2,xim,yi),其中,xii=
3、k(n-1),xij=0,ji。(4)以原来n 个观察单位的m+1 个测定值再加上 m+1个伪样品的数据,样本含量为 n+m,对其采用SAS 中的 REG 过程拟合过原点的多元回归方程,所估计出的回归系数即为岭回归系数 bi(k),i=1,2,m。通过直观分析 bi(k)随 k 变化的趋势,决定选择哪一个 k 值下的 bi(k)作为最后的结果。二、程序福建省 1991 年 9 个地区的婴儿死亡率及有关指标见表 1,采用岭回归分析来比较各种因素对婴儿死亡率的相关次序及数量程度。53岭回归分析的 SAS 程序设计?收稿日期:1998 年 6 月 27日,1999 年 1 月 10 日收到修改稿.表
4、 11991 年福建省 9 个地区的婴儿死亡率及相关指标地区编号x1x2x3x4x5x6y171.3522.903.761158.1812.2055.8728.46267.9234.4817.111494.3819.8256.6027.76379.3824.9133.60691.5616.1792.7826.02487.9710.180.73923.0412.1524.6633.29559.037.713.58696.9213.5061.8140.84655.2322.941.341083.8410.7649.7944.50758.3012.785.251180.369.5857.0228.0
5、9867.439.592.92797.7216.8238.2946.24976.6315.122.55919.4917.7932.0745.21其中 x1:从事乡妇儿保工作年限 2 年以上的人员占乡妇儿保人员比重(%);x2;7 岁以下儿童系统管理率(%);x3:3 岁以下儿童生长发育监测率(%);x4:年人均收入(元);x5:文盲、半文盲率(%);x6:乡级妇儿保人员培训比例(%);y:婴儿死亡率()。(1)先取 k=0.1,则k(n-1)=0.1(9-1)=0.8944。编写如图 1 的 SAS 程序。data datal;input x1-x6 y;input x1-x6 y;cards
6、;cards;0.8944 0 0 0 0 0 071.35 22.90 3.76 1158.18 12.20 55.87 28.460 0.8944 0 0 0 0 067.92 34.48 17.11 1494.38 19.82 56.60 27.760 0 0.8944 0 0 0 079.38 24.91 33.60 691.56 16.17 92.78 26.020 0 0 0.8944 0 0 087.97 10.18 0.73 923.04 12.15 24.66 33.290 0 0 0 0.8944 0 059.03 7.71 3.58 696.92 13.50 61.81
7、40.840 0 0 0 0 0.8944 055.23 22.94 1.34 1083.84 10.76 49.79 44.500 0 0 0 0 0 0.894458.30 12.78 5.25 1180.36 9.58 57.02 28.09;67.43 9.59 2.92 797.72 16.82 38.29 46.24run;76.63 15.12 2.55 919.49 17.79 32.07 45.21proc append base=data2 data=data3;proc reg data=data2;proc standard m=0 s=1 out=data2;mode
8、l y=x1-x6/noint;data data3;run;图 1岭回归分析的 SAS 程序表 2不同 k 值时的岭回归系数k 值x1x2x3x4x5x60.1-0.4818040.209310-0.333095-0.6734040.318496-0.5108630.2-0.3871410.054384-0.316630-0.5021780.299228-0.3876260.3-0.329846-0.015349-0.293633-0.4113430.269860-0.3297410.4-0.289009-0.052509-0.273888-0.3532410.242308-0.293924
9、0.5-0.257764-0.074145-0.257320-0.3120660.218243-0.2685450.6-0.232887-0.087366-0.243237-0.2809880.197568-0.2491030.7-0.212529-0.095601-0.231065-0.2564810.179818-0.2334340.8-0.195516-0.100724-0.220378-0.2365200.164506-0.2203490.9-0.181070-0.103810-0.210879-0.2198660.151219-0.2091441.0-0.168650-0.10552
10、0-0.202354-0.2057170.139625-0.19937454数理统计与管理18 卷3 期1999年 3 月图 1 中的程序运行结果见图 2。NAME EANST D Nx169.24888888910.8277553599x217.8455555568.95017333799x37.871111111110.8166335399x4993.94333333261.957974499x5 14.313.48172730129x652.098888889 19.868387239Y 35.6011111118.50137554239Analysis of VarianceSum o
11、f MeanSource DFSquaresSquareF ValueProb FModel6 6.29126 1.048544.1800.0230Error10 2.50869 0.25087U T otal16 8.79995Root MSE0.50087R-square0.7149Dep Mean0.05590Adj R-sq0.5439C.V.896.00767Parameter EstimatesParameterStandardT for HO:VariableDFEstimateErrorParameter=0Prob?T?x11-0.4818040.21750274-2.215
12、0.0511x210.2093100.301391100.6940.5032x31-0.3330950.36039390-0.9240.3771x41-0.6734040.26145878-2.5760.0276x510.3184960.208837871.5250.1582x61-0.5108630.33845128-1.5090.1621图 2SAS 程序的结果输出从图 2 的结果输出中,可以得到 k=0.1 时,岭回归系数 bi(k)的估计值(Parameter Esti-mates),从而建立回归方程:y?=-0.481804x1+0.209310 x2-0.333095x3-0.67
13、3404x4+0.318496x5-0.510863x6(2)对 k=0.2、0.3、0.9、1 重复(1)的步骤,所用的程序也相同,只是将程序中第 18 行第 24 行的 0.8944改为相应的k(n-1)值,则可得到不同 k 值时的岭回归系数(见表 2)。岭回归分析主要用于解释,即用岭回归系数 bi(k)(i=1,2,m)说明各自变量与应变量的数量关系。从表2 可见,当 k0.7 之后每个变量相应的岭回归系数变化较为稳定,因而可选k=0.7,建立岭回归方程:y?=-0.212529x1-0.095601x2-0.231065x3-0.256481x4+0.179818x5-0.233434
14、x6从该岭回归方程中,可以得出结论:(1)x5(文盲、半文盲率)与婴儿死亡率之间呈正相关,其它变量与婴儿死亡率呈负相关;(2)对婴儿死亡率影响最大的是 x4(年人均收入),其次是 x6(乡级妇儿保人员培训比例)、x3(3 岁以下儿童生长发育监测率)及 x1(从事乡妇儿保工作年限 2 年以上的人员占乡妇儿保人员比重)。(下转第 51页)55岭回归分析的 SAS 程序设计附录:均匀正交设计表附表 1UL9(34)1234111122123131323421335222262311731218321393332附表 3 UL16(45)12345111312212444313221414133521
15、1246222327234138243419314311032323113314212342141341243144211115433341644422附表 2UL27(313)1234567891011121311112232333332211223231131233113211122321141213113231122512232313112136123332212133171311321132212813211122123339133123332212110 211122321131111 212131132113212 213113213122313 221213111213114 2
16、22222222222215 223231333231316 231331231322117 232313312331218 233322123313319 311321112232320 312333223211121 313312331223222 321112232311323 322121313323124 323133121332225 331233322123326 332212133132127 3332212111112(上接第 55页)参考文献 1 陈希孺,王松桂(1984),近代实用回归分析,广西人民出版社。2 田俊(1987),多因素分析与SAS应用,福建科技出版社。On
17、 SAS Program of Ridge RegressionTian Jun(Fujian Medical University)AbstractRidge regression is a method for multi-variate analysis and often applied in practical dataanalysis.Since there is no ridge regression procedure available in SAS,the presented papergives a practical method to estimate coefficients of ridge regression equations with SAS byadding pseudo variates.Key words:Ridge regression,SAS,program design51正交设计的最新发展和应用()均匀正交设计
限制150内