02回归、方差分析.pdf
1实验二 回归分析、方差分析 实验名称:回归分析、方差分析 实验类型:验证性实验 学 时:2 适用对象:信息与计算科学 一、实验目的与要求 1理解线性回归分析和方差分析的模型、统计推断等方法。2能够使用 SAS 做回归分析和方差分析。二、线性回归分析的基本理论与方法 2.1 线性回归模型 2.1.1 线性回归模型的矩阵表示 设Y是一个可观测的随机变量,它受到p-1个非随机因素X1,X2,Xp-1和随机误差的影响。若Y与X1,X2,Xp-1有如下线性关系:011-1-1ppYXX=+?,(1)其中01-1p?,是未知参数,()20N,。该模型称为线性回归模型线性回归模型。我们进行n(np)次独立观测,得到n组样本()12-112iiipixxxyin=?,;,应满足(1)式:()011-1-1 12iipipiyxxin=+=?,,,,(2)其中12,n 相互独立均服从2(0,)N分布。简写为矩阵形式:Y=X +,Y=X +,(3)其中Y Y为观测变量,X X为设计矩阵,它们由观测数据得到,是已知的,并假定 Rank(X X)=p。是待估计的未知参数向量,是不可观测的随机误差向量。式(3)称为线性回归模型的矩阵形式线性回归模型的矩阵形式。2.1.2 及2的估计(1)的最小二乘估计 选择使误差项的平方和 2()()()21210pnTTiijjiijSYXYXyx=达到最小,其中01 (1,2,)ixin=,则为此分别对求偏导并令其等于零,得 1100,0,1,1pniijjikijkSyxxkp=?,即 11110010,1,1ppnnniikijikjijikjiijjiy xx xx xkp=?,。其矩阵形式 X X T X =X X =X T Y Y,称此方程为正规方程正规方程。解此方程,即得的最小二乘估计为 =(X X T X X)T X X T Y Y,将其代入式(1)并略去误差,则称011-1-1ppYXX=+?为回归方程回归方程。利用回归方程,可由自变量X1,X2,Xp-1的观测值求出因变量Y的估计值。(2)误差方差2的估计 残差向量残差向量:()()1TTeYYYXIX X XXYIH Y=,其中H=X H=X(X X T X X)-1X X T为对称幂等矩阵,I I为单位向量。残差平方和残差平方和:()TTTTTe eYIH YY YX Y=。由于 E(Y Y)=X X ,(I I H H)X X=0,则由()()()()TTTEEe eYYIHYYIH=解得2的估计2为()2T1E e enp=。2.1.3 有关的统计推断(1)回归关系的统计推断 离差平方和:离差平方和:()21niiSSTyy=,反映了数据y1,y2,yp-1波动性的大小;残差平方和:残差平方和:()21niiiSSEyy=,反映了回归以外因素引起的波动;回归平方和:回归平方和:()21niiSSRyy=,反映了由变量X1,X2,Xp-1引起的波动。3检验假设:检验假设:()012-1100 1-1piHHip=?:至少有一个 检验统计量:检验统计量:MSRFMSE=,其中1SSRSSEMSRMSEpnp=,。当 H0不真时(回归关系显著),F有偏大趋势;当 H0真时,()1FF pnp,当00HpPFF=时,拒绝 H0,否则接受 H0。(2)回归参数的统计推断 检验假设:检验假设:()0100kkHHk=:某个 检验统计量:检验统计量:()()kktst np=,其中()()1TksMSE X X=当00HpPtt=,,则选择含1kX的回归模型为当前模型;否则,没有自变量进入模型,选择过程结束。这时认为所有自变量对Y的影响不显著。第二步第二步 在第一步选出的含1kX的模型基础上,再将其余M1 个自变量逐个加入此模型中,并计算()()()1121|kkkkkFSSR XXMSE XXkk=,。设()()2122maxkkk kFF=,若()()2E21 n 3kFF,,则选择过程结束。第一步选出的模型为最优模型。若()()2E21 n3kFF,,则将2kX加入到第一步所选的模型中,即有 11220kkkkYXX=+。(*)进一步考察,当2kX进入模型后,1kX是否可被剔除。为此计算,()()()112122|kkkkkFSSR XXMSE XX=,若()()1D21 n3kFF,,则剔除1kX,这时仅含2kX的回归模型为当前模型。否则式(*)为当前模型。第三步 第三步 继续考察其余M2 个变量的逐个加入情况。计算()()()12123312|kkkkkkkSSR XXXFkkkMSE XXX=,,,。5设()()()31233,maxkkk k kFF=,若()()3314EkFFn,则选择结束,(*)为最优;否则,3kX进入模型,即有 1122330kkkkkkYXXX=+。(*)进一步考察1kX、2kX是否因3kX的进入可被剔除,即计算()()()()()()1232131212312333|kkkkkkkkkkkkkkSSR XXXSSR XXXFFMSE XXXMSE XXX=,,,。若()()()12D33min14kkFFFn,则先剔除()()1233kkFF和中较小的一个所对应的变量12kkXX或,再检验另一个是否可被剔除。若12kkXX和不能被剔除,则(*)即为当前模型。重复以上步骤,直到没有变量能进入且模型中变量均不能被剔除,则选择过程结束。最后一个模型即认为是最优的。三、方差分析的基本理论与方法 3.1 单因素方差分析 因素的水平:因素的不同状态;因素A的a个水平:12,aA AA?,等等.例如某农作物产量Y,作物品种A,化肥品种B,123,A A A;1234,B B B B 主要思想为显著性检验,即 Y的总变化量=各因素各水平及交互影响+随误影响 1.单因素方差分析模型 设所关心变量为Y,影响Y的因素为A,有a个水平,假设如下表:(各样本独立,同方差)因素 A 的水平 总 体 样本 12aAAA?21222(,)(,)(,)aNNN?12111212122212,annaaanyyyyyyyyy?令,1ijijiiyjn=,1ia=则有(相当于a个回归模型)2,1,1(0,),ijiijiijijyjn iaN=+=且诸相互独立 (3.1),称 1niinn=为总容量;11niiinn=为总平均;6,1iiia=为水平iA的效应(影响度)且满足10aiiin=,最后归结为 21,1,1(0,),0ijiijiijijaiiiyjn iaNn=+=且诸相互独立(3.2)2.因素效应的显著性检验 对于单因素,目标之一:该因素各水平对Y取值有无显著差异.即检验如下假设 012:aH=?1:(1)iHia=不全相等(3.3)等价地,对模型(3.2),检验假设 012:0aH=?1:H至少有某个0i(3.4)分解影响且设计统计量 令 11iniijjin=i,则2(0,),1iiNian=i 11111inaaijiiijinnn=i,则2(0,)Nn,1111()iinniijiijiijjiiyynn=+=+ii即,11111inaaijiiijiyyn ynn=i,则y=+数据的总变化量 总平方和:211()inaTijijSSyy=分解为 211()inaTijiiijSSyyyy=+ii(展开交叉项=0)221111()()iinnaaijiiijijyyyy=+ii()()EAASSSS+?误差平方和因素 的平方和,基本分析 1)ijiijiijyyy=i,2)ASS随1212,aayyy iii?差异小而小,EASSSS的统计性质 7令2211()1iniijijisyyn=i,则22E()is=,从而 2211E()E(1)(1)aaEiiiiiSSnsn=2()na=,无论0H成立否,ESSna是2的一个无偏估计.另一面,因 21()aAiiiiSSn=+i 22111()2()aaaiiiiiiiiiinnn=+ii 221(1)aiiian=+所以2211E11aAiiiSSnaa=+,从而可知:当0:0,1iHia=为真,1ASSa 是2无偏估计.否则,有偏大趋势,构造统计量/(1)/()AAEEASSaMSFSSnaMS=?(因素 的均方)(误差均方)当0H为真,则F应在 1 波动,否则趋大.因为 22222111()(1)iniiijiijnsyyn=i(1ia=)又由各总体样本的相互独立性、2的可加性,得 22222111(1)()aaiEiiiinSSsnna=另有(参见4)22(1)ASSn=且与ESS独立,故当0H真,(1,)AEMSFF anaMS=检验的p值为 0()(1,)HpPFfP F anaf=对给出的,若p,则拒绝0H,各水平的效应有显著差异;否则,不能拒绝,认为各水平的效应无显 8著差异.3.2 两因素等重复实验下的方差分析=+=且相互独立,:方差分析模型可表示为两因素等重复试验下的),0(),.,2,1,.,2,1,.,2,1(2Nckbjaiyijkijkijijk=+=bjijaiijbjjaiiijkijkijjiijkNckbjaiy11112,0,0,0,0),0(),.,2,1,.,2,1,.,2,1()21.3(且相互独立,等价于:方差分析模型两因素等重复试验下的 如下三个假设检验问题 21112.111222.11112.111()()()()()()()()()abcTijkijkbcaijkijijijijjkiababijijijijijbcaijkijjkiABASSyyyyyyyyyyyybcyyacyycyyyyyySSSSSS=+=+=+BESS+0:0.:1210=jBbBHH至少某个0:0.:1210=iAaAHH至少某个0:0,:10=ijABijABHH至少某个 92.12.12.112.111(),A()B(),(),aAiibBjjabABijijijbcaijkijEjkiSSbcyySSacyySScyyyyyySS=+=因素 的平方和;,因素 的平方和;交互效应平方和;误差平方和。,A1B1,(1)(1)(1)AABBABABEESSMSaSSMSbSSMSabSSMSab c=因素 的均方;,因素 的均方;交互效的均方;,误差均方(1,(1),(1,(1),(1)(1),(1),AAEBBEABABEMSFF aab cMSMSFF bab cMSMSFF abab cMS=当原假成立时:检验 p 值:000(),(),(),ABABAHAABHBBABHABABpPFfpPFfpPFfp=对于显著水平,若 值拒绝原假设,否则不能拒绝。10四、SAS 用于回归、方差分析的过程 4.1 REG过程 4.1.1 语法结构 PROC REGPROC REG;MODELMODEL dependents=;BYBY variables;FREQFREQ variable;IDID variables;VARVAR variables;WEIGHTWEIGHT variable;ADDADD variables;DELETEDELETE variables;MTESTMTEST ;OUTPUTOUTPUT keyword=names;PAINTPAINT|;PLOTPLOT ;PRINTPRINT ;REFITREFIT;RESTRICTRESTRICT equation,.,equation;REWEIGHTREWEIGHT|;TEST equation,;4.1.2 REG输出结果 包括:方差分析的有关结果(方差来源、自由度、平方和、均方、F 值、P 值)、参数估计的有关结果(参数估计、标准差、t 值、p 值)等 4.2 ANOVA过程 语法结构及说明 PROC ANOVA 选项 1;PROC ANOVA 选项 1;CLASS variables;CLASS variables;MODEL dependent=effects/选项 2;MODEL dependent=effects/选项 2;MEANS effects/选项 3;MEANS effects/选项 3;?选项 1 部分指定要分析的 SAS 数据集,若省略,则为最新创建的数据集。?CLASS variables;列出所分析的 SAS 数据集中各因素变量的名称。?MODEL dependent=effects/选项 2;指明数据集中因变量名称和所要考虑的因素效应,如“Y=A B”、“Y=A B C A*B A*C B*C”(其中“*”表示交互效应)?选项 2:(1)INT|INTERCEPT:要求把截距项作为一个效应进行处理,缺省时不输出与其有关的假设检验结果。当截距项在模型中不显著时,用 NOINT 选项去掉它。11(2)NOUNI:不输出单变量分析结果。MEANS effects/选项 3;计算 MEANS 后列出的每个效应所对应的因变量的样本均值和标准差。?选项 3 可以是下列选项中的部分或全部:(1)T(或 LSD least significant difference 最小显著差异)对“effects”列出的各因素在其不同水平上的均值进行两两比较的 t 检验。(2):对“effects”列出的各因素在其不同水平上的均值进行同时两两比较的检验。(3)ALPHA=p:指定进行上述检验的显著水平为 p,默认值为 0.05。(4)CLDIFF:要求输出“effects”中列出的各因素在其不同水平上的两两均值之差的置信区间。若置信区间不包含零(即两水平均值有显著差异),则在输出结果的右端打上“*”号。(5)CLM:要求输出“effects”中列出的各因素在其不同水平上的均值的置信区间 四、实验内容与步骤 例一(教材例2.3)研究科研人员的年工资Y与他的论文质量1X、工作年限2X、获得资助指标3X之间的关系.解:输入 data examp2_3;input y x1-x3;cards;33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.0 31.8 4.9 11 6.4 43.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 1240.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0;run;proc reg data=examp2_3;model y=x1-x3/i;run;输出结果为:从输出结果可知:123 17.847 1.1030.3221.289YXXX=+回归方程为:进一步,若取0.05=,则0.975(20)2.086t=,得 各置信区间为 0123(13.670 9,22.022 9)(0.415 6,1.790 6)(0.244 1,0.398 9)(0.666 2,1.911 6):13关于预测:关于预测:将(5.1,20,7.2)代入回归方程后得039.1828y=;由 MSE=3.072 2,等计算得 100(1()1.8412TTMSE+=xX Xx 置信区间端点为:039.18283.8408y=.例二、下表是一组上市公司在 2001 年的每股收益、流通盘的规模以及 2001 年最后一个交易日的收盘价,希望通过回归分析找出它们之间的关系。一组上市公司的数据表 一组上市公司的数据表 代码(CODE)流通盘(Scale)每股收益(EPS)股票价格(Price)000096 8500 0.059 13.27 000099 6000 0.028 14.2 000150 12600-0.003 7.12 000151 10500 0.0026 10.08 000153 2500 0.056 22.75 000155 13000-0.009 6.85 000156 3600 0.003 14.95 000157 10000 0.06 12.65 000158 10000 0.018 8.38 00159 7000 0.008 12.15 000301 15365 0.04 7.31 000488 7700 0.101 13.26 000725 6000 0.044 12.33 000835 1338 0.07 22.58 000869 3200 0.194 18.29 000877 7800-0.084 12.55 000885 6000-0.073 12.48 000890 16934 0.031 9.12 000892 12000 0.031 7.88 000897 14166 0.002 6.91 000900 21423 0.058 8.59 000901 4800 0.005 27.95 000902 6500-0.031 10.92 000903 6000 0.109 11.79 000905 9500 0.046 9.29 000906 6650 0.007 14.47 000908 8988 0.006 8.28 000909 6000 0.002 9.99 000910 8000 0.036 8.9 14000911 7280 0.067 9.01 000912 15000 0.112 8.06 000913 8450 0.062 11.86 000915 4599 0.001 14.4 000916 34000 0.038 5.15 000917 11800 0.086 16.23 000918 6000-0.045 10.12 一般来讲,股票价格是由它的每股收益决定的,但是在中国证券市场上股票价格往往与流通盘大小有很大关系。所以现在分析的变量就是流通盘、每股收益、股票价格,其中每股收益、流通盘是自变量,价格是因变量。首先,将数据读入一个数据集(sasuser.stock),然后使用 Reg 过程做回归分析。数据集如下:程序如下:Proc Reg data=sasuser.stock;Var eps scale price;Model price=eps scale;Run;所得结果如下:15 回归结果在最后一部分,第 1 行是常数项,也叫做截距项,估计值为 16.14557,P 值为0.0001。第 2 行是某股收益的系数,估计值是 18.29123,P 值是 0.1433。第 3 行是流通盘的系数,估计值为-0.00050688,P 值为 0.0001。因为 EPS 的 P 值大于 0.05,所以不能拒绝零假设,即 EPS 变量的作用是不显著的。为了得到更好的拟和结果应该去掉 EPS 变量,重新进行回归。程序如下:Proc Reg data=sasuser.stock;Var scale price;Model price=scale;Run;所得结果如下:这样就得到了新的回归结果。实际上,REG 过程提供了自动选择最优自变量的选项。在Model 语句中加上“Selection=优化方法”就可以自动挑选变量,可供选择的优化方法有 NONE(全用)、Forward(逐步引入法)、Backward(逐步消去法)、Stepwise(智能消除法)等等。如果对上面的问题使用 Stepwise 方法:Proc Reg data=sasuser.stock;Var eps scale price;Model price=eps scale/selection=stepwise;Run;得到的结果如下:16 可以看到回归是逐步进行的,在第 1 步进入回归的是 scale,第 2 步进入回归的是 eps。在 0.15 水平下,所有变量都进入了回归模型。这个结果似乎与前面的不同,这是因为我们选择的置信水平不同。请修改上述程序,并回答以下问题:设请修改上述程序,并回答以下问题:设,ED分别表示用作选取变量和剔除变量的两个显著性水平,试取分别表示用作选取变量和剔除变量的两个显著性水平,试取0.05ED=重新分析上述问题,其结果如何?(使用 slentry=0.05 slstay=0.05 选择项)重新分析上述问题,其结果如何?(使用 slentry=0.05 slstay=0.05 选择项)17例三、为了对作过某一类型的肝手术病人的生存时间作预报,某医院外科随机地选取了 54 位需要做此类手术的病人为研究对象。对每一位病人,手术前考察了下列四个指标:X1:凝血值;X2:预后指数(与年龄有关);X3:酵素化验值;X4:肝功能化验值。手术后跟踪观测各病人的生存时间,得到如下表中的 54 组数据。用逐步回归法选取最优回归方程。54 位肝手术病人的观测数据 54 位肝手术病人的观测数据 ID X1 X2 X3 X4 Y 1 6.7 62 81 2.59 200 2 5.1 59 66 1.70 101 3 7.4 57 83 2.16 204 4 6.5 73 41 2.01 101 5 7.8 65 115 4.30 509 6 5.8 38 72 1.42 80 7 5.7 46 63 1.91 80 8 3.7 68 81 2.57 127 9 6.0 67 93 2.50 202 10 3.7 76 94 2.40 203 11 6.3 84 83 4.13 329 12 6.7 51 43 1.86 65 13 5.8 96 114 3.95 830 14 5.8 83 88 3.95 330 15 7.7 62 67 3.40 168 16 7.4 74 68 2.40 217 17 6.0 85 28 2.98 87 18 3.7 51 41 1.55 34 19 7.3 68 74 3.56 215 20 5.6 57 87 3.02 172 21 5.2 52 76 2.85 109 22 3.4 83 53 1.12 136 23 6.7 26 68 2.10 70 24 5.8 67 86 3.40 220 25 6.3 59 100 2.95 276 26 5.8 61 73 3.50 144 27 5.2 52 86 2.45 181 28 11.2 76 90 5.59 574 29 5.2 54 56 2.71 72 30 5.8 76 59 2.58 178 31 3.2 64 65 0.74 71 32 8.7 45 23 2.52 58 33 5.0 59 73 3.50 116 34 5.8 72 93 3.30 295 1835 5.4 58 70 2.64 115 36 5.3 51 99 2.60 184 37 2.6 74 86 2.05 118 38 4.3 8 119 2.85 120 39 4.8 61 76 2.45 151 40 5.4 52 88 1.81 148 41 5.2 49 72 1.84 95 42 3.6 28 99 1.30 75 43 8.8 86 88 6.40 483 44 6.5 56 77 2.85 153 45 3.4 77 93 1.48 191 46 6.5 40 84 3.00 123 47 4.5 73 106 3.05 311 48 4.8 86 101 4.10 398 49 5.1 67 77 2.86 158 50 3.9 82 103 4.55 310 51 6.6 77 46 1.95 124 52 6.4 85 40 1.21 125 53 6.4 59 85 2.33 198 54 8.8 78 72 3.20 313 解答:首先,将数据读入一个数据集(sasuser.survival),然后使用 Reg 过程做逐步回归分析。数据集如下:程序如下:Proc REG data=sasuser.survival;Model Y=X1 X2 X3 X4/Selection=StepWise;Run;所得结果如下:19 20 所以得到回归方程 12338.3234.567734.48504659.179yXXX=+请根据 SAS 如上输出结果,分析回归方程的显著性?请根据 SAS 如上输出结果,分析回归方程的显著性?21例四、(教材例3.7)求两专业之间学生成绩的均值之差和各级别学生之间成绩的均值之差的置信度不小于的同时置信区间。解:输入 data examp3_7;input majors$classes$grade;cards;a1 b1 81 a1 b1 78 a1 b1 79 a1 b1 78 a1 b2 75 a1 b2 80 a1 b2 78 a1 b2 73 a1 b3 82 a1 b3 80 a1 b3 85 a1 b3 88 a2 b1 89 a2 b1 82 a2 b1 77 a2 b1 90 a2 b2 79 a2 b2 80 a2 b2 75 a2 b2 78 a2 b3 93 a2 b3 93 a2 b3 86 a2 b3 95;run;proc anova data=examp3_7;class majors classes;model grade=majors classes majors*classes;means majors classes;means majors classes/bon cldiff alpha=0.05;run;所得结果如下:22专业因素:两组平均值差异的 95%置信区间 a1-a2:(-8.168,-1.832),可认为,数学专业学生的人文社科知识显著差于计算机科学专业的学生。学生级别因素:b1-b2:(.,.)b1-b3:(.,.)b2-b3:(.,.)由此结果知:在至少的置信度下可断言两个专业的研究生的人文社科知识强于低年级和高年级学生,而高年级学生与低年级学生的人文社科知识无显著差异。五、作业题 1习题 2.1,2.2 2.习题 2.4-2.6 3.习题 3.1,3.2 4.习题 3.4-3.7