相关分析与多元回归分析.doc
7.4多元线性回归7.4.1方法概述1. 模型的建立:多元线性回归分析是研究一个因变量与多个自变量间关系的统计方法。模型可写成为:截距;bi(i=1,k)称为偏回归系数,表示当其余自变量固定时,Xi变化一个单位时,因变量Y的平均变化量。回归系数的估计仍根据最小二乘原理,求b0,b1,bk使得达到最小。多元回归模型的参数估计不能象直线回归那样可以直接写出表达式,矩阵形式: 由于各自变量的单位不同,为此要运用标准化偏回归系数。先作变量的标准化,即作变换 标准化偏回归系数bi表示当其它自变量固定时,Xi变化一个标准差时,因变量Y变化的标准差单位数。bi没有单位,所以可以用它们的绝对值大小来说明各自变量的重要性,其值越大,对因变量的作用越大。以bi表示Xi的标准化偏回归系数,则2. 假设检验:(1)离均差平方和的分解与直线回归一样,多元回归时亦可将因变量的离均差平方和可分解为两部分: SST(总)=SSR(回归)+SSE(剩余) 回归平方和越大,回归的效果越好。回归平方和与总离均差平方和的比值称为决定系数(coefficient of determination, R2),其计算公式同称为复相关系数,表示多个自变量共同对因变量的相关密切程度。回归平方和SSR是多个自变量共同的贡献,要研究每个自变量对因变量的作用,还需将SSR按个自变量的贡献进行分解: SSR=SSR1+SSRkSSRi称为偏回归平方和,表示扣除其它自变量的作用后,由自变量Xi对因变量Y变异的贡献。显然自变量的偏回归平方和越大,该变量对Y的贡献越大,该变量在回归中所起的作用也越大。偏回归平方和与总离均差平方和的比值,称为偏决定系数。 (2)方差分析法:模型中各回归系数的总体值只要有一个不为零,则模型就有意义。对所有总体回归系数为零的检验需计算检验统计量F: , 求得F值后,按F分布F(k,n-k-1)确定P值,再根据检验水准作出推断结论。 而检验每一个变量作用的显著性,可以计算 (3)偏回归系数的标准误与t检验扣除所有自变量的作用后,因变量的变异称为剩余标准差,记作因而有关于总体偏回归系数为零的t检验:例8.4 (续例8.1) 用回归分析研究因变量肺活量(Y, ml)与自变量(体重X1、胸围X2、胸围的呼吸差X3)的关系,并比较各自变量对Y作用的大小。SAS程序:DATA REG2; INPUT X1 X2 X3 Y;CARDS;35 69 0.7 160040 74 2.5 260042 65 3.0 2500;PROC REG;MODEL Y=X1-X3/STB;RUN;输出结果如下:Model: MODEL1Dependent Variable: Y第一部分 Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 3 1250109.0678 416703.02259 5.617 0.0355Error 6 445140.93222 74190.15537C Total 9 1695250.0000 Root MSE 272.37870 R-square 0.7374 Dep Mean 2315.00000 Adj R-sq 0.6061 C.V. 11.76582第二部分 Parameter EstimatesN = 10 Regression Models for Dependent Variable: Y方差分析结果,F=5.617,P=0.035,说明整个模型有意义。建立回归方程如下: y hat=-3035.54+60.93X1+37.81X2+101.38X3X1、X2、X3的标准化回归系数分别为0.4645、0.3917、0.2540,所以体重对肺活量的影响 最大。值得注意的是,各回归系数的假设检验结果均不显著,这说明方程建立的不是最好,需进一步对变量进行筛选。75逐步回归7.5.1概述上面介绍建立多元回归方程的方法时,将所有的自变量都引入方程。但各自变量的作用有大有小,而我们建立回归方程时既不能丢掉对因变量贡献大的自变量,也不希望引入贡献不显著的自变量,还要避免上述的多重共线性问题。因此,需要在自变量中有所选择,把真正有统计意义的部分找出来,建立较理想的模型。较高的预测、预报精度,模型也不太复杂自变量选择方法(1)所有可能子集回归:。(2)前进法:。(3)后退法:(4)逐步法:该法是前进法与后退法的结合。它对自变量建立一套双向筛选程序:将自变量一个个引入,引入的条件是该变量的偏回归平方和经检验是显著的;同时,每引入一个新变量后,要对老变量逐个检验,剔除偏回归平方和不显著的变量。注意的是:逐步法选出的模型与选择变量的标准有关,而且按前述选择模型的准则,一般只是较优的模型,而不是“最优”的。另外,建立的模型应该符合专业知识。因此,实际应用中,应该将专业上的考虑、自变量选择准则和逐步法结合起来使用,以期得到较为理想、合理的模型。7.5.2实例 例8.6(续例8.4)利用自变量选择准则和逐步回归方法,建立肺活量与体重、胸围以及胸围的呼吸差间的较为合理的模型:编写SAS程序如下 (DATA步略)PROC REG; MODEL Y=X1-X3/SELECTION=CP AIC ADJRSQ;RUN;PROC REG; MODEL Y=X1-X3/SELECTION=STEPWISE;PROC REG; MODEL Y=X1-X3/SELECTION=STEPWISE SLENTRY=0.3 SLSTAY=0.3;RUN;上述程序的第一个REG输出结果如下: Stepwise Procedure for Dependent Variable YStep 1 Variable X3 Entered R-square = 0.53118453 C(p) = 4.71246471DF Sum of Squares Mean Square F Prob>FRegression 1 9.06 0.0168Error 8 Total 9 Parameter Standard Type IIVariable Estimate Error F Prob>FINTERCEP 44.22 0.0002X3 9.06 0.0168Step 2 Variable X1 Entered R-square = 0.61896273 C(p) = 4.70672706DF Sum of Squares Mean Square F Prob>FRegression 2 5.69 0.0341Error 7 Total 9 Parameter Standard Type IIVariable Estimate Error Sum of Squares F Prob>FINTERCEP 0.02 0.9031X1 1.61 0.2447X3 2.51 0.1572Step 3 Variable X2 Entered R-square = 0.73741871 C(p) = 4.00000000DF Sum of Squares Mean Square F Prob>FRegression 3 5.62 0.0355Error 6 Total 9 Parameter Standard Type IIVariable Estimate Error Sum of Squares F Prob>FINTERCEP 1.96 0.2111X1 2.82 0.1442X2 2.71 0.1510X3 0.69 0.4377Step 4 Variable X3 Removed R-square = 0.70718629 C(p) = 2.69081285DF Sum of Squares Mean Square F Prob>FRegression 2 8.45 0.0136Error 7 Total 9 arameter Standard Type IIVariable Estimate Error Sum of Squares F Prob>FINTERCEP 6.59 0.0371X1 8.69 0.0215X2 5.37 0.0535All variables in the model are significant at the 0.3000 level.No other variable met the 0.3000 significance level for entry into the model.Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial ModelStep Entered Removed In R*2 R*2 C(p) F Prob>F1 X3 1 0.5312 0.5312 4.7125 9.0643 0.01682 X1 2 0.0878 0.6190 4.7067 1.6126 0.24473 X2 3 0.1185 0.7374 4.0000 2.7067 0.15104 X3 2 0.0302 0.7072 2.6908 0.6908 0.4377采用逐步法选择自变量,但进入方程和剔除出方程的显著性水平为0.3。结果是:X3、X1、X2依次被选入方程,但X1、X2进入方程后X3的作用变得不显著,因而最后从方程中剔除出去。最终的方程为: y hat=-4187.42+80.27X1+46.45X2, R2=0.7072。这个方程的回归效果与用三个变量建立的方程效果相差无几,应是较为理想的选择。7.6 相关分析:描述两个变量间相关关系的统计指标称为相关系数。现以两个变量的直线相关分析为例,说明相关系数的意义。研究变量X和Y的直线相关关系用直线相关系数(记为r),其计算公式为:1r1 r为总体相关系数的样本估计值,所以一般还要需做=0的假设检验。7.6.1 CORR过程1. CORR过程的语句组成。 *PROC CORR options; *VAR 变量表; WITH 变量表; PARTIAL 变量表; WEIGHT 变量; BY 变量表; END;2. CORR过程的语句说明。(1) PROC CORR语句格式: PROC CORR options;选择项主要有: PEARSON 计算通常的Pearson相关系数,即直线相关系数,是缺省值。 OUT=dataset 产生含有Pearson相关系数的一个新数据集。 NOMISS 将带有某一变量缺失值的观测值从所有计算中除去。 NOSIMPLE 取消打印每个变量的描述统计量。(2) WITH语句 指明配对的变量名。与VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。使用WITH语句后,把变量分成WITH组和非WITH组,只计算两组间两两变量的相关系数。(3) PARTIAL语句作偏相关分析时,指定相对固定的那些变量,此时将自动激活NOMISS选择项。注意PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。7.6.2实例例 研究肺活量时测得10名女中学生体重x1(kg)、胸围x2(cm)、呼吸差x3(cm)及肺活量y(ml),数据如下:DATA CORR1;INPUT X1 X2 X3 Y;CARDS;35 69 0.7 160040 74 2.5 260042 65 3.0 2500;PROC CORR; VAR X1 X2 X3 Y;RUN;PROC CORR NOSIMPLE;VAR Y;WITH X2 X3;PARTIAL X1;RUN;结果如下: CORRELATION ANALYSIS 4 'VAR' Variables: X1 X2 X3 Y Simple StatisticsVariable N Mean Std Dev Sum Minimum MaximumX1 X2 X3 Y CORRELATION ANALYSISPearson Correlation Coefficients / Prob>|R| under Ho: Rho=0 / N = 10 X1 X2 X3 Y X1 1.00000 0.43195 0.64093 0.69454 0.0 0.2125 0.0458 0.0258 X2 0.43195 1.00000 0.62927 0.76165 0.2125 0.0 0.0513 0.0105 X3 0.64093 0.62927 1.00000 0.72882 0.0458 0.0513 0.0 0.0168 Y 0.69454 0.76165 0.72882 1.00000 0.0258 0.0105 0.0168 0.0当需要计算数据集中所有变量两两之间的相关系数时,VAR语句可以省略。下面的结果反映了体重固定时,肺活量与胸围、呼吸差之间的偏相关系数。 CORRELATION ANALYSIS 1 'PARTIAL' Variables: X1 2 'WITH' Variables: X2 X3 1 'VAR' Variables: Y Pearson Partial Correlation Coefficients / Prob > |R| under Ho: Partial Rho=0 / N = 10 Y X2 0.71146 0.0316 X3 0.51366 0.1572NOSIMPLE选择项,不打印有关变量的描述性统计量。VAR语句与WITH语句结合使用,输出结果中只包含Y与X2、X3之间的偏相关系数。用ry1、ry2和r21表示分别y与x1、x2,x2与x1之间的相关系数,ry2·1表示固定x1时y与x2之间的偏相关系数。实际上,在研究多个变量中两两之间的相关性时,把两变量之外的其它变量作为固定变量所求得的偏相关系数更能真实地反映两变量之间的相关程度。