SAS备课记录材料简单线性回归多元线性回归.doc
《SAS备课记录材料简单线性回归多元线性回归.doc》由会员分享,可在线阅读,更多相关《SAS备课记录材料简单线性回归多元线性回归.doc(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-/回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。这类统计方法的特点是所考察的指标(因变量)Y是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。试验的目的是找出影响指标的主要因子及水平。在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y有影响为因素(也称自变量或回归变量),并建立用预报Y的经验公式。对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于商家是
2、至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(x也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent var
3、iable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable,explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计,它并不一定涉及先后的概念,更不必要有因果关系。回归分析是统计分析的一项重要内容,它可以帮助我们找出变量之间的数量关系。例如,影响
4、企业盈利情况的因素可能包括企业的资产负债率、银行的利率水平、所在国的GDP增长率。对一些企业进行调查之后,我们可以获得企业的盈利情况、资产负债率、利率水平、GDP增长率的数据。使用回归分析就可以得出由资产负债率、银行的利率水平、所在国的GDP增长率三个变量表示的企业盈利水平。作得到了回归结果后,就可以对企业的经营作出一些有用的决策。SAS/STAT中提供的关于回归的过程很多,包括REG(回归)过程、RSREG(二次响应面回归)过程、ORTHOREG(病态数据回归)过程、NLIN(非线性回归)过程、TRAANSREG(变换同归)过程、CALIS(线性结构方程和路径分析)过程、GLM(一般线性回归
5、)过程、GENMOD(广义线性回归)过程等等。一、回归分析知识点1. 一元线性回归分析这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。【例题1】 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见下表,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。(数据编号:data7_01)10名孕妇及其分娩时脐带血TSH水平母血TSH1.211.301.391.421.
6、471.561.681.721.982.10脐带血TSH3.904.504.204.834.164.934.324.994.705.20此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。【SAS程序】data sasuser.data7_01; input x y; datalines; 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ;proc reg; model
7、 y=x;run;虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。2. 多元线性回归多元线性回归(multiple linear regression)为线性回归中自变量在两个以上的情形,此时回归模型的选择具有很大的灵活性。对于全部自变量,可以将它们全部放在模型中,也可以只选择其
8、中一部分进行回归分析,而选择变量的途径也有多种,一般常用的有前进法(forward)、后退法(backward)以及逐步回归法(stepwise)。我们先来看看全模型(将所有变量纳入模型)的回归分析方法。【例题2】某学校20名一年级女大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如下表所示,试对影响女大学生肺活量的有关因素作多元回归分析。(数据编号:data7_02)20名一年级女大学生肺活量及有关变量测量结果编号体重X1(公斤)胸围X2(厘米)肩宽X3(厘米)肺活量Y(升)151.373.636.42.99248.983.934.03.11342.878.331.01.9
9、1455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.274.732.11.9
10、2【SAS程序】(先建立一个SAS数据集,存放上述数据,然后程序可以直接调用。)proc reg data=sasuser.data7_02; model y=x1 x2 x3;run; 从此例的结果中,我们看到并不是所有自变量的回归作用都具有统计学意义,这时我们需要建立一个最优模型,这就要涉及到自变量的选择问题。有关自变量的选择方法有许多种,这些方法也都有各自所依据的评优标准,我们所常用的就是前述的三种方法,其中逐步回归法更是最为常用。逐步回归法的SAS程序只需在上述程序的model语句后添加“selection=stepwise”选项以及“slentry=”和“slstay=”选项即可。此
11、处我们将进入模型和剔除出模型的门槛都定为=0.05,model语句如下。model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;【SAS程序】proc reg data=sasuser.data7_02; model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;run;【SAS程序运行结果】逐步回归的结果内容较多,涉及到每一步回归分析的详细信息。每一步的信息都有相应的标志来标识,如“Stepwise Selection: Step 1”表示逐步回归的第一步,每
12、一步都对当前的模型进行方差分析和参数的估计并对参数进行检验,这样整个模型选择的过程我们就会一目了然。最后给出模型选择的结果和选择过程的概略信息,籍此可以确定最终的回归方程。【例题3】下表是对32个企业的年赔偿费用y(单位:千元),年销售额x1(单位:百万元),年利润x2(单位:百万元)和雇佣人数x3的调查数据。 考虑建立如下模型:y=0+1 ln x1+2 ln x2+3 ln x3+i (数据编号:data7_03) No.yx1x2x3No.yx1x2x314504600.6128.1480017324724.790.339123879255.4733.9559018225578.963.
13、341433681526.2136.0137819254966.842.862642771683.2179.0277720208591.048.5106156762752.8231.53400215184933.1310.6653964542205.8329.52650224067613.2491.6894075072334.6331.83030233323457.4228.0552084962746.0237.9410024340545.354.678094871434.0222.325902569822862.83011.33371210383470.663.7860263062361.0
14、203.05200113111508.0149.52108276132611.1201.0505012271464.430.0687283021013.2121.31863135249329.3577.33900205404560.3194.69794144982377.5250.7343030203855.763.41230153431174.382.61941315281211.6352.1718016354724.761.5359324565440.1655.28770【SAS程序】二、回归分析SAS编程reg过程reg过程只是SAS中众多关于回归的过程之一,reg是用于一般目的回归分析
15、的过程,而其它过程则具有各自特殊的用途。reg过程涉及到较多的语句和选项,所以显得稍微复杂一些。下面我们来看看reg过程的语句和基本格式。PROC REG ; MODEL 应变量列表= ; BY 变量名列表 ; FREQ 变量名 ; ID 变量名列表 ; VAR 变量名列表 ; WEIGHT 变量名 ; ADD 变量名列表 ; DELETE 变量名列表 ; MTEST 方程式 ; OUTPUT keyword=变量名列表 ;PAINT | ; PLOT ; PRINT ; REFIT; RESTRICT 条件表达式, . , 条件表达式; REWEIGHT | ; TEST 变量表达式, ;P
16、roc reg语句标志reg过程的开始,其后的选项条目较多,功能复杂,这里的选项所具有的功能将会影响到此过程中的所有model语句。各选项及其功能详见下表。Proc reg语句各选项及其功能选项(依字母顺序)功能描述all执行所有选项的功能(特定语句环境下合法的选项)alpha=数值以指定的数值为水准计算各种可信区间annotate=数据集名指定包含注释信息的数据集用以向plot语句所绘图形添加特定信息corr指定SAS对model语句和var语句中的所有变量输出相关矩阵covout向outest选项指定的输出数据集输出协方差矩阵data=数据集名指定用于进行回归分析的数据集edf向outes
17、t选项指定的数据集输出自变量个数、误差自由度、R2等gout=图形目录指定输出图形元素保存的路径,默认值为work.gseglineprinter | lp以点阵方式(行式打印机方式)输出plot语句绘制的图形noprint禁止分析结果的输出outest=数据集名将参数估计值以及模型拟合过程统计量(可选)输出到指定的数据集outseb输出参数估计值的标准误到outest选项所指定的数据集outsscp=数据集名将SSCP矩阵内容输出到指定的数据集中outstb将标准化的参数估计值输出到outest选项指定的数据集中outvif将VIF(方差膨胀因子)输出到outest选项指定的数据集中pcom
18、it=数值列表对列表中每一个数值进行非完全主成分分析,并输出到outest数据集press计算并输出Press统计量到outest数据集ridge=数值列表以列表中的每一个数值为ridge常数K进行ridge回归分析,结果输出到outest数据集rsquare向outest选项指定的数据集输出自变量个数、误差自由度、R2等simple将合计、均数、方差、标准差、离均差平方和等输出到结果中singular=n控制用来检验变量奇异性的参数n,此选项较少用到tableout将参数估计值的标准误、可信区间、t值、P值输出到outest数据集usscp将reg过程中用到的所有变量的未校正的SSCP矩阵输
19、出到结果中model语句model语句用以指定所要拟合的回归模型。其最前面的标签为可选项,可以是不超过8个字符的字符串,用来对定义的模型进行标识,以便于在结果中分辨不同的模型,一般情况下系统会以默认的方式对模型进行标识,你可以省略此项。关键字model后所列的是模型表达式,和方差分析中anova过程的model语句相似。模型表达式中等号的左边为反应变量,等号的右边为自变量列表,自变量间以空格相分隔。这里所用到的所有变量必须存在于所分析的数据集中,而且是数值型的。如果要用到几个变量产生的综合变量,必须在数据步完成新变量的创建过程,model语句中的组合型变量将被视为非法。Model语句后可设定众
20、多的选项,选项数目比proc reg语句的要多,这里不再一一列出。不过大家不用担心,这里的选项相当一部分和proc reg语句的完全相同,功能也一样,只是作用的范围有所差别,这里的选项只作用于model语句所涉及的功能范围。但有一些选项这里需要介绍一下,因为他们非常常用并且行使重要的功能,见下表。Model语句常用选项及其功能选项(依字母顺序)功能描述adjrsq对每一个所选择的模型计算其自由度校正的R2b对于以R2、校正R2、Cp值为参数的选择模型,计算其回归系数clb计算并输出参数估计值的可信区间上、下限cli计算并输出单个预测值的可信区间上、下限clm计算并输出每条观测下应变量期望值(均
21、数)的可信区间上、下限collin对自变量之间的共线性进行分析collinoint对自变量之间的共线性进行分析,不包括截距项cp对每一个模型计算Mallows Cp统计量include=n指定每次模型拟合必须包含自变量中的前n个influence针对每一条观测,分析其对参数估计和预测值的影响maxstep=n限定逐步回归分析时最多进行的步数为nnoint要求模型拟合时不包含截距项p计算每一条观测应变量的预测值并输出到结果partial对每一个自变量(包括截距项)绘制对于应变量的偏回归残差图r进行残差分析并显示在结果中sbc计算每个模型的SBC统计量并显示在结果中selection=指定模型选择
22、的方法,可以是前进法(forward)、后退法(backward)、逐步法(stepwise)等等slentry=指定前进法和逐步法时变量进入模型的显著性水平,默认值前进法为0.5,逐步法为0.15slstay指定后退法和逐步法时变量留在模型内的显著性水平,默认值后退法为0.1,逐步法为0.15sp对每个模型计算Sp统计量ss1将I型平方和(SS1)与各参数估计值一并列出ss2将II型平方和(SS2)与各参数估计值一并列出sse计算并显示每个模型的误差平方和start=s在模型选择模式下,指定开始时包含在模型中的自变量个数(s个)stop=s指定包含在模型中的自变量个数为s个时停止模型选择过程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas 备课 记录 材料 简单 线性 回归 多元
限制150内