最新多元线性回归11ppt课件.ppt
进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着“怎么这么热怎么这么热”,于是三,于是三五成群,聚在大树下,或站着,或随即坐在石头上,手持那把扇子,边唠嗑五成群,聚在大树下,或站着,或随即坐在石头上,手持那把扇子,边唠嗑边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到“强子,别跑强子,别跑了,快来我给你扇扇了,快来我给你扇扇”。孩子们才不听这一套,跑个没完,直到累气喘吁吁,。孩子们才不听这一套,跑个没完,直到累气喘吁吁,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,“你你看热的,跑什么?看热的,跑什么?”此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲的味道!蒲扇是中国传统工艺品,在我国已有三千年多年的历史。取材的味道!蒲扇是中国传统工艺品,在我国已有三千年多年的历史。取材于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过了我们的扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过了我们的半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧道,袅道,袅多变量分析方法的提出多变量分析方法的提出统计学处理方法的选择统计学处理方法的选择两个或以上自变量资料的统计学分析方法两个或以上自变量资料的统计学分析方法自变量自变量 因变量因变量 统计方法统计方法属性(有混杂)属性(有混杂) 数值数值 协方差分析协方差分析属性或数值属性或数值 数值数值 多元回归多元回归属性或数值属性或数值 属性(二分)属性(二分) logistic回归回归数值或属性数值或属性 二分(属性)二分(属性) 发生的风险(有截缩)发生的风险(有截缩) Cox(比例风险)回归(比例风险)回归属性属性 属性属性 对数对数-线性线性属性或数值属性或数值 属性(多分)属性(多分) 判别分析判别分析数值数值 因子分析或聚类分析因子分析或聚类分析出生体重危险因素研究出生体重危险因素研究ID ID 编号编号LOW LOW 出生低体重出生低体重(bwt=2500=0)(bwt=2500=0)AGE AGE 母亲年龄母亲年龄( (岁岁) )LWT LWT 母亲末次月经时的体重母亲末次月经时的体重RACE RACE 种族种族: 1 : 1 白种人白种人 2 2 黄种人黄种人 3 3 黑人黑人SMOKE SMOKE 吸烟史吸烟史: 1 : 1 吸烟吸烟 0 0 否否PTL PTL 早产史早产史: 1 : 1 有有 0 0 无无HT HT 妊娠高血压妊娠高血压: 1 : 1 有有 0 0 无无UI UI 频繁宫缩频繁宫缩: 1 : 1 有有 0 0 无无FTV FTV 产前访视次数产前访视次数BWT BWT 出生体重出生体重( (克克) )探讨的问题婴儿的出生低体重(low)是否与母亲的种族(race)有关?黑人母亲和非黑人母亲的婴儿出生体重是否有显著性差别?黑人、白人及黄种人母亲,其婴儿的出生体重是否有显著性差别?母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史是否分别与婴儿的出生体重有关?母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生体重有关?在控制了年龄、目前吸烟史、既往早产史、妊娠高血压史,频繁宫缩史之后,婴儿的出生体重是否依旧与种族有关?亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生低体重有关?一、概念一、概念回归是研究变量与变量之间关系的一种回归是研究变量与变量之间关系的一种手段,通过回归方程表达变量与变量之手段,通过回归方程表达变量与变量之间的一种间的一种依存关系依存关系。当研究变量之间的线性关系时就是直线当研究变量之间的线性关系时就是直线回归(回归(linear regression)如:如:UCSF大学的妇产科学及生殖研究所收集大学的妇产科学及生殖研究所收集1980年年-1990年在该生殖中心出生的婴儿及其母年在该生殖中心出生的婴儿及其母亲的资料。亲的资料。母亲的信息:怀孕时的年龄、吸烟史、怀孕前的母亲的信息:怀孕时的年龄、吸烟史、怀孕前的体重、早产史、是否有妊娠高血压、怀孕期间是体重、早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。新生儿的信息:出生时的体重新生儿的信息:出生时的体重要回答的问题:用回归方程定量的刻画一个新生要回答的问题:用回归方程定量的刻画一个新生儿出生体重(因变量儿出生体重(因变量Y)与母亲孕期的多个自变量与母亲孕期的多个自变量X1,X2,.间的线性间的线性依存关系依存关系 出生体重危险因素研究数据库字段注释出生体重危险因素研究数据库字段注释变量名变量名 字段注释字段注释ID 编号编号BWT 出生体重(克)出生体重(克)AGE 母亲年龄(岁)母亲年龄(岁)LWT 母亲末次月经时的体重(磅)母亲末次月经时的体重(磅)RACE 种族:种族:1白种人白种人 2黄种人黄种人 3黑人黑人SMOKE 吸烟史:吸烟史:1吸烟吸烟 0否否PTL 早产史早产史 :1有有 0否否HT 妊娠高血压:妊娠高血压:1有有 0否否UI 频繁宫缩:频繁宫缩:1有有 0否否FTV 产前访试次数:产前访试次数:1一次一次 2二次及以上二次及以上 0无无设有设有p个自变量个自变量X1,X2,,Xp,一个因变量一个因变量Y,以及一份由以及一份由n个个体构成的随机样本(个个体构成的随机样本(xi1,xi2,xip,yi),),i=1,2,,n a:回归方程常数项:回归方程常数项 bp:偏回归系数,指其它自变量固定的条件:偏回归系数,指其它自变量固定的条件 下,某自变量下,某自变量Xp每改变一个单位时,因每改变一个单位时,因 变量变量Y的平均变化量。的平均变化量。 :在给定自变量取值条件下:在给定自变量取值条件下y的均数的一的均数的一 个点估计。个点估计。1212.ppYabbbXXX Y 新生儿出生体重与母亲怀孕时相关因素的关系:新生儿出生体重与母亲怀孕时相关因素的关系:对每一个新生儿而言:对每一个新生儿而言:Yi=b0+b1*agei+b2*smokei+b3*lwti+ 根据所有新生儿及其母亲的观测值,可以得到新生根据所有新生儿及其母亲的观测值,可以得到新生儿出生体重与母亲相关因素的回归方程:儿出生体重与母亲相关因素的回归方程: i =b0+b1*agei+b2*smokei+b3*lwti+.残差:残差:Y二、线性回归方程线性回归方程 需满足的条件需满足的条件(一)(一) LINE LINE 原则原则L(linear):): 自变量和因变量呈线性关系;自变量和因变量呈线性关系;I (independence):): 某某xi值改变对值改变对y的影响与另一的影响与另一xi的水平无关;的水平无关; y呈独立性,即任一个体的呈独立性,即任一个体的y值对另一个体的值对另一个体的y值值 不提供任何信息;不提供任何信息;N(normality):): xi分别取某定值时得到的一组分别取某定值时得到的一组y值呈正态分布;值呈正态分布;E (equal variance):): 各各y值的方差相等,即各值的方差相等,即各xi取不同值时取不同值时y的不同分布的不同分布服从方差齐性,即其方差为常数服从方差齐性,即其方差为常数(二)因变量的选择(二)因变量的选择 因变量必须是定量指标,同时必须满足以上关于因变量必须是定量指标,同时必须满足以上关于线性回归的条件要求,即线性回归的条件要求,即LINE。(三)自变量的选择(三)自变量的选择 对于自变量没有强制性要求,但自变量和因对于自变量没有强制性要求,但自变量和因变量之间必须是线性关系。变量之间必须是线性关系。 自变量可以为定量指标、定性指标以及等级自变量可以为定量指标、定性指标以及等级变量中的任何一种。变量中的任何一种。 如果自变量为定量指标:如果自变量为定量指标:(1)同时自变量与因变量之间为线性关系,则)同时自变量与因变量之间为线性关系,则可以直接以原变量的形式进入分析;可以直接以原变量的形式进入分析;(2)如果自变量与因变量之间为非线性关系,)如果自变量与因变量之间为非线性关系,则需做适当转换,如则需做适当转换,如x2,log(x),),ex等。等。 自变量为定性或等级指标:自变量为定性或等级指标: 不需要做自变量与因变量的线性关系检验不需要做自变量与因变量的线性关系检验自变量为定性指标:自变量为定性指标: 为二分类变量,常用为二分类变量,常用0,1或或1,2表示。如表示。如x为性别为性别指标,指标,0代表女性,代表女性,1代表男性,回归方程中对应的代表男性,回归方程中对应的回归系数回归系数b表示男性比女性的表示男性比女性的y平均多平均多b。为多分类指标,需要专业判定指标的意义为多分类指标,需要专业判定指标的意义等级变量:直接带入分析等级变量:直接带入分析定性变量:亚变量(定性变量:亚变量(dummy)亚(哑)变量的设置引入引入的目的在于区分某个变量的不同属的目的在于区分某个变量的不同属性。性。当自变量为属性变量,特别是不同属性之间无等级高当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需低之分,为说明不同属性对因变量的影响大小,常需引入亚(哑)引入亚(哑)。亚变量的设置:例亚变量的设置:例1 1一项探讨影响新生儿出生体重的研究:一项探讨影响新生儿出生体重的研究:因变量即结局变量为新生儿出生时的体重;因变量即结局变量为新生儿出生时的体重;研究的因素包括母亲怀孕时的年龄、母亲末次研究的因素包括母亲怀孕时的年龄、母亲末次月经时的体重、母亲的种族、是否吸烟、是否月经时的体重、母亲的种族、是否吸烟、是否有过早产史、是否有妊娠高血压、怀孕期间是有过早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。亚变量的设置例亚变量的设置例1 1:出生体重危险因素研究:出生体重危险因素研究变量名变量名 字段注释字段注释ID 编号编号BWT 出生体重(克)出生体重(克)AGE 母亲年龄(岁)母亲年龄(岁)LWT 母亲末次月经时的体重(磅)母亲末次月经时的体重(磅)RACE 种族:种族:1白种人白种人 2黄种人黄种人 3黑人黑人SMOKE 吸烟史:吸烟史:1吸烟吸烟 0否否PTL 早产史早产史 :1有有 0否否HT 妊娠高血压:妊娠高血压:1有有 0否否UI 频繁宫缩:频繁宫缩:1有有 0否否FTV 产前访试次数:产前访试次数:1一次一次 2二次及以上二次及以上 0无无亚变量的设置:例亚变量的设置:例1 1将种族分成白人、黑人和黄种人将种族分成白人、黑人和黄种人3种属性,可引入种属性,可引入2(= 3- -1)个亚变量,分别表示各种族,选择其中之)个亚变量,分别表示各种族,选择其中之一(例如,白人)作为参照一(例如,白人)作为参照变量 x1 x2 白人 0 0 ( 黑人 1 0 黄种人 0 1 亚变量的设置:例亚变量的设置:例2 2Framingham心脏病研究,随访心脏病研究,随访1,406人人18年年探讨冠心病发生率与年龄、性别、收缩血压关系探讨冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归的多变量线性回归如何处理年龄与冠心病发生率的关系?如何处理年龄与冠心病发生率的关系?连续变量?连续变量?其他?其他?亚变量的设置:例亚变量的设置:例2 2(续)(续)x1 = 0,x2 = 0,x3 = 0,为,为4049岁(参照)岁(参照)x1 = 1,x2 = 0,x3 = 0,为,为5054岁岁x2 = 1,x1 = 0,x3 = 0,为,为5559岁岁x3 = 1,x1 = 0,x2 = 0,为,为6062岁岁 年龄(岁)年龄(岁) x1 x2 x3 4049(参照)(参照) 0 0 0 5054 1 0 0 5559 0 1 0 6062 0 0 1 亚变量的设置:例亚变量的设置:例2 2(续)(续)得到冠心病发生率与年龄、性别、收缩血压关系的多变量线得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程如下:性回归方程如下:y = 0.0613 + 0.0277x1 + 0.0826x2 + 0.0845x3 + 0.1273x4 + 0.1680 x5上式中上式中y = log(冠心病发生率(冠心病发生率/(1-冠心病发生率)冠心病发生率)亚变量的设置:例亚变量的设置:例2 2(续)(续)有时自变量(如年龄)虽然是连续变量,但按其每改有时自变量(如年龄)虽然是连续变量,但按其每改变一个单位(一岁),来估计其对因变量的影响很微变一个单位(一岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立亚弱,如将其划分成大小不同的几种属性,并设立亚,则可看出不同属性对因变量的影响大小。,则可看出不同属性对因变量的影响大小。这种这种的优点是有助于分清究竟哪种属性的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大,也便于研究因素间对所研究疾病危险性的作用较大,也便于研究因素间的交互作用。的交互作用。三、线性回归基本三、线性回归基本SASSAS程序程序PROC REG data=文件名文件名; 调用调用REG过程并指明对哪个文件执行分析过程并指明对哪个文件执行分析,若省略若省略“data= data= “ ,则则SASSAS会自动找出在会自动找出在本程序之前最后形成的本程序之前最后形成的SASSAS语句语句。 Model 因变量因变量=自变量自变量/选择项选择项;每次调用每次调用REG过程至少要有一个过程至少要有一个MODEL语语句。句。MODEL Y=X; 一个应变量对一个自变量一个应变量对一个自变量的回归的回归MODEL Y=X1 X2 X3; 一个应变量对多个一个应变量对多个自变量的回归自变量的回归MODEL Y1 Y2=X1 X2 X3; 多个应变量对多个应变量对多个自变量的回归多个自变量的回归 MODEL语句中的选择项之一:语句中的选择项之一: 界定有关参数估计值的有关选项:界定有关参数估计值的有关选项:/STB:要求计算模型中各自变量的标准回归:要求计算模型中各自变量的标准回归系数;系数;/CLM/CLM:计算出预测值平均数的:计算出预测值平均数的95%95%可信区间的可信区间的 上、下限;上、下限;/CLI/CLI:计算出各预测值的:计算出各预测值的95%95%可信区间的上、可信区间的上、下限;下限;多元回归基本多元回归基本SASSAS程序程序proc reg;proc reg; model y=x1 x2/stb; model y=x1 x2/stb;run;run;四、几个重要的概念四、几个重要的概念偏回归系数:偏回归系数:标准回归系数:标准回归系数:决定系数:决定系数:校正复相关系数:校正复相关系数:剩余标准差:剩余标准差:偏回归系数(偏回归系数(b bj j)当方程中其他自变量固定时,当方程中其他自变量固定时,Xj每改变一个每改变一个单位,引起单位,引起Y的平均变化量,也就是说的平均变化量,也就是说bj的的大小反映了大小反映了Xj对对Y的影响程度。的影响程度。 标准回归系数标准回归系数由于各自变量取值的单位及其离散程度通由于各自变量取值的单位及其离散程度通常不同,所以各量纲不同的回归系数之间常不同,所以各量纲不同的回归系数之间不能直接比较大小。为此,需要对偏回归不能直接比较大小。为此,需要对偏回归系数进行标准化以消除量纲的影响。系数进行标准化以消除量纲的影响。 标准回归系数绝对值的大小可用来衡量自标准回归系数绝对值的大小可用来衡量自变量对应变量变量对应变量Y的贡献大小,以说明各变量的贡献大小,以说明各变量在多元回归方程中的重要性。在多元回归方程中的重要性。SSbllbbYjjYYjjjj决定系数(决定系数(R R2 2)R2=SS回回/SS总总取值范围在取值范围在0与与1之间,无单位。反映了回归贡献之间,无单位。反映了回归贡献的相对程度,也就是在的相对程度,也就是在Y的总变异中回归所能解释的总变异中回归所能解释的百分比。的百分比。主要通过决定系数数值的大小来反映回归或相关主要通过决定系数数值的大小来反映回归或相关的实际效果。的实际效果。例如:决定系数例如:决定系数= =0.9587,说明所求的回归方程,说明所求的回归方程能够解释的应变量变异占应变量总变异的能够解释的应变量变异占应变量总变异的95.87%存在的问题:存在的问题:随方程中自变量的增加而加大,即随方程中自变量的增加而加大,即使引入无显著性变量,其值也会略有增加使引入无显著性变量,其值也会略有增加校正决定系数(校正决定系数(R R2 2adjadj)其中其中n为拟合模型的观察单位数;为拟合模型的观察单位数;m为方程中所含变量个数为方程中所含变量个数 1) 1)(1 (122mnnRRadj剩余标准差剩余标准差扣除各自变量扣除各自变量Xj组合对应变量组合对应变量Y的线性关系的线性关系影响后所剩下的变异。影响后所剩下的变异。回归估计精度的指标回归估计精度的指标越小回归方程估计误差也越小,估计精度越小回归方程估计误差也越小,估计精度越高。越高。1.12,mnQSmY剩余标准差一般随方程中自变量的增加而减少剩余标准差一般随方程中自变量的增加而减少但若引入某些对应变量但若引入某些对应变量Y无显著作用的自变量时,由于回无显著作用的自变量时,由于回归平方和增加很小,剩余平方和减少很小,但剩余自由度归平方和增加很小,剩余平方和减少很小,但剩余自由度却减少,故求得的剩余标准差反而加大。却减少,故求得的剩余标准差反而加大。即方程中增加有显著作用的变量时,即方程中增加有显著作用的变量时,R2adj增加,增加,MSE减少;减少;而方程中引入无显著作用变量时,而方程中引入无显著作用变量时,R2adj可能减小,可能减小,MSE反反而加大。而加大。因此,常以因此,常以R2adj越大,越大,MSE越小作为多元回归方程估计效越小作为多元回归方程估计效果评价的指标。果评价的指标。五五、线性回归方程的评价、线性回归方程的评价(一)评价整个方程在(一)评价整个方程在在在SASSAS软件中,对多元线性回归方程的假设检软件中,对多元线性回归方程的假设检验采用方差分析进行验采用方差分析进行 U:回归平方和,反映由于方程中:回归平方和,反映由于方程中m个自变量个自变量与应变量与应变量Y间的线性关系,而使应变量间的线性关系,而使应变量Y变异减变异减小的部分;小的部分; m为回归自由度,即方程中所含自变量的个数;为回归自由度,即方程中所含自变量的个数; Q为剩余平方和,说明除自变量外,其他随机为剩余平方和,说明除自变量外,其他随机因素对因素对Y变异的影响;变异的影响; n-m-1为剩余自由度。为剩余自由度。FmnmmnQmUF) 1,() 1/(/如果整个方程在指定的如果整个方程在指定的水准下有显著性意义时水准下有显著性意义时,并不说明方程中每个自变量并不说明方程中每个自变量xj都对都对yi有显著性影响有显著性影响。还需对各个自变量的偏回归系数逐个进行检验还需对各个自变量的偏回归系数逐个进行检验。但如果整个方程经但如果整个方程经F检验无显著性检验无显著性,就不必对就不必对bj逐逐个进行检验个进行检验。即对方程中的各偏回归系数的假设检验。即对方程中的各偏回归系数的假设检验。对每个偏回归系数的检验,在对每个偏回归系数的检验,在SAS软件中,多软件中,多元线性回归分析以元线性回归分析以t检验方法来表达,逐步回检验方法来表达,逐步回归采用归采用F检验。检验。另外,在多元线性回归分析中,直接建另外,在多元线性回归分析中,直接建立立y与全部自变量之间的线性回归模型通与全部自变量之间的线性回归模型通常是不可取的,在建立回归方程的过程常是不可取的,在建立回归方程的过程中有必要对变量进行筛选。中有必要对变量进行筛选。在建立回归方程时,要遵循一个原则,在建立回归方程时,要遵循一个原则,即即“少而精少而精”。(三)几个重要的评价方程质量的指标(三)几个重要的评价方程质量的指标1. 决定系数(决定系数(determination coefficient)2. 校正复相关系数(校正复相关系数(adjusted multiple correlation coefficient)3. 剩余标准差(剩余标准差(residual standard deviation)4. 赤池信息准则(赤池信息准则(Akaikes Information Criterion,AIC)5. Cp统计量(统计量(Cp statistic)赤池信息准则(赤池信息准则(AICAIC)是日本学者赤池于是日本学者赤池于1973年提出的应用于年提出的应用于时间序列分析中自回归阶数的确定,多时间序列分析中自回归阶数的确定,多元回归、广义线性回归中自变量的筛选,元回归、广义线性回归中自变量的筛选,以及非线性回归模型的比较和选优。以及非线性回归模型的比较和选优。有两种估计方法,一个是用极大似然估有两种估计方法,一个是用极大似然估计,一个是用最小二乘法,均同时考虑计,一个是用最小二乘法,均同时考虑了模型中参数的个数以及样本量的大小,了模型中参数的个数以及样本量的大小,其原则也是越小越好。其原则也是越小越好。 Cp Cp统计量统计量C.L.Mallows(1964)提出了提出了Cp统计量的概统计量的概念。念。选用选用Cp统计量选择模型的准则是:选择统计量选择模型的准则是:选择Cp最接近最接近p(表示选择的模型中参数的个(表示选择的模型中参数的个数)的那个模型。数)的那个模型。注意注意在应用这些准则的时候要注意在应用这些准则的时候要注意:只有对只有对因变量因变量y的假设条件相同的假设条件相同,且估计方法相且估计方法相同时同时,才能相互比较才能相互比较。如用如用AIC判断两个判断两个拟合方程的好坏拟合方程的好坏,一个是用极大似然估一个是用极大似然估计计,一个是用最小二乘法一个是用最小二乘法,则不能直接则不能直接比较比较。在自变量较少时在自变量较少时,可以求出所有可能的可以求出所有可能的回归回归,然后应用上述准则从中选出然后应用上述准则从中选出“最最优优”回归方程回归方程。 如果自变量为如果自变量为m个个,则可能的回归方程则可能的回归方程有有2m-1中中。六六、变量的选择、变量的选择 和最优模型的建立和最优模型的建立变量选择的原则研究假说研究假说最优回归模型最优回归模型全模型及其各参数估计值均有显著性意义全模型及其各参数估计值均有显著性意义如效果相似,模型中所包含的变量数越少越好如效果相似,模型中所包含的变量数越少越好各个变量在专业上都有实际意义各个变量在专业上都有实际意义选择变量的常用方法选择变量的常用方法1、前向回归法、前向回归法/前进法(前进法(Forward Selection)在供选的多个自变量在供选的多个自变量xi中,按其对中,按其对y的作用大小(即偏回归的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程平方和的大小),由大到小将自变量逐个引入方程每引入一个自变量即对其作显著性检验,如呈显著性时才每引入一个自变量即对其作显著性检验,如呈显著性时才正式将其列入方程正式将其列入方程直至没有新的、有显著性的自变量可引入方程时为止。直至没有新的、有显著性的自变量可引入方程时为止。已引入方程的自变量,在引入新的自变量后,无论有无显已引入方程的自变量,在引入新的自变量后,无论有无显著性,不再剔出方程。著性,不再剔出方程。选择变量的常用方法选择变量的常用方法(续)2、后向回归法、后向回归法/后退法(后退法(Backward Dimination)与前进法相反。与前进法相反。即先将供选的多个自变量即先将供选的多个自变量xi按其对按其对y的作用大小(即偏回归平的作用大小(即偏回归平方和的大小),一起引入方程,然后将各个自变量逐一剔除,方和的大小),一起引入方程,然后将各个自变量逐一剔除,并作显著性检验,直至方程中保留的所有变量都有显著性时并作显著性检验,直至方程中保留的所有变量都有显著性时为止。为止。选择变量的常用方法选择变量的常用方法(续)3、逐步回归方法(、逐步回归方法(Stepwise REG)在供选的多个自变量在供选的多个自变量xi中按其对中按其对y的作用大小(即偏回归平的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程,每引入方和的大小),由大到小将自变量逐个引入方程,每引入一个自变量即对其作显著性检验,如有显著性时才正式将一个自变量即对其作显著性检验,如有显著性时才正式将其列入方程其列入方程而每当引入一个新的自变量后对原方程中的原有的自变量而每当引入一个新的自变量后对原方程中的原有的自变量也要重新作显著性检验,将退变为作用无显著性的自变量也要重新作显著性检验,将退变为作用无显著性的自变量剔除出方程。剔除出方程。再引入一个新的自变量,再检验,再剔除,如此逐步循环,再引入一个新的自变量,再检验,再剔除,如此逐步循环,直至没有新的、有显著性的自变量可引入方程、方程中的直至没有新的、有显著性的自变量可引入方程、方程中的所有变量也都呈显著性时为止。所有变量也都呈显著性时为止。选择变量的常用方法选择变量的常用方法(续)(续)4、判定法(、判定法(Rsquare REG)它与多元回归法类似,以它与多元回归法类似,以R2的值的大小来的值的大小来判定某变量入选后对模型贡献大小。判定某变量入选后对模型贡献大小。R2越越大,该变量入选后对模型的贡献也越大。大,该变量入选后对模型的贡献也越大。MODEL语句中的选择项之:语句中的选择项之: 界定回归模型的选项:界定回归模型的选项:(1) selection=Forward;(前进法)(前进法) selection=Backward;(后退法)(后退法) selection=stepwise;(逐步回归法)(逐步回归法) selection=none;(系统默认值,进行全回归分析);(系统默认值,进行全回归分析)(2) Details;include=正整数(如正整数(如3);(这个选项规定将这个选项规定将model指指令前几个(如令前几个(如3个)自变量纳入每一回归模型汇总,个)自变量纳入每一回归模型汇总,此选项不能与此选项不能与selection=none的设定联用。的设定联用。MODEL语句中的选择项之:语句中的选择项之: 界定回归模型的选项:界定回归模型的选项:(4) STOP=正整数正整数(如如5); (REG程序搜寻出一个含程序搜寻出一个含STOP=正整数个数的最佳回归模型后即停止)正整数个数的最佳回归模型后即停止)(5) SLENTRY= ;(或;(或SLE= ;);) 进入模型的显著性水平的设置,其中前进法默认值进入模型的显著性水平的设置,其中前进法默认值为为0.5,逐步回归法默认值为,逐步回归法默认值为0.15(6) SLSTAY= ; (或(或SLS= ;);) 保留在模型中的显著性水平的设置,其中后退法默保留在模型中的显著性水平的设置,其中后退法默认值为认值为0.10,逐步回归法默认值为,逐步回归法默认值为0.15(7) NOINT; 回归模型中不包含截距。回归模型中不包含截距。 练习后小结练习后小结从以上的练习可看到:从以上的练习可看到:不同的逐步回归方法所得到的结果不同;不同的逐步回归方法所得到的结果不同;不同的界值所得到的结果不同;不同的界值所得到的结果不同;方程的优劣与界值的大小无必然联系;方程的优劣与界值的大小无必然联系;逐步回归所得到的结果不一定是真正最优的;逐步回归所得到的结果不一定是真正最优的;如果事先已经确定某自变量对因变量结果如果事先已经确定某自变量对因变量结果有重要影响有重要影响,则该变量必须一直留在方程则该变量必须一直留在方程中中,不参加变量的筛选不参加变量的筛选,不管它是否有显不管它是否有显著性著性。变量筛选接受后变量筛选接受后,再考虑该变量的再考虑该变量的回归系数是否与实际情况相符回归系数是否与实际情况相符。如果模型与实际情况不符如果模型与实际情况不符,则需查找原则需查找原因因。样本量太小或自变量数太多样本量太小或自变量数太多异常值异常值自变量间存在共线性等自变量间存在共线性等六、回归系数反常的原因六、回归系数反常的原因(此部分不做要求(此部分不做要求仅供参考)仅供参考)出现回归系数反常的常见原因出现回归系数反常的常见原因样本量不够,或自变量数太多;样本量不够,或自变量数太多;异常值;异常值;自变量的变异太小;自变量的变异太小;自变量间存在共线性。自变量间存在共线性。(一)(一)样本量问题样本量问题有学者认为,作多元回归分析时所需样有学者认为,作多元回归分析时所需样本量一般是所研究变量数本量一般是所研究变量数m的的1020倍。倍。但这一要求在复相关系数(决定系数的但这一要求在复相关系数(决定系数的平方根)大于平方根)大于0.5时尚可,而对于较小的时尚可,而对于较小的复相关系数则仍然偏小。复相关系数则仍然偏小。(二)(二)异常值及强影响点异常值及强影响点定义:定义:在回归分析应用中在回归分析应用中,数据常含有数据常含有一些异常或极端的观察值一些异常或极端的观察值,即这些观察即这些观察值与其他数据远远分开值与其他数据远远分开,并可产生较大并可产生较大的残差的残差,严重影响了回归函数的拟合严重影响了回归函数的拟合。原因:原因:真实存在真实存在录入错误录入错误异常点判别方法:异常点判别方法:图示法:散点图、残差图图示法:散点图、残差图:适用于:适用于当模型中当模型中所含变量少时所含变量少时。统计学指标:统计学指标:学生化残差(学生化残差(studentized residual):当其):当其大大于于2时,提示所对应的观察值点可能是异常点。时,提示所对应的观察值点可能是异常点。强影响点判别方法:强影响点判别方法:库克氏距离(库克氏距离(CookD):通常认为其):通常认为其大于大于0.5时,可认为第时,可认为第I个观察点对回归函数拟合有较强个观察点对回归函数拟合有较强的影响。的影响。 4.MODEL语句中的选择项之:语句中的选择项之: 界定异常值和强影响点的有关参数:界定异常值和强影响点的有关参数:/R:进行预测值的残差分析;:进行预测值的残差分析;/INFLUENCE:规定对每个观测值进行影响分:规定对每个观测值进行影响分析析,以判断其观测对估计及预测值的影响以判断其观测对估计及预测值的影响。(三)(三)共线性问题共线性问题在回归分析中存在多元共线性是一个十在回归分析中存在多元共线性是一个十分普遍的现象。分普遍的现象。自变量之间的任何相关都标志着多元共自变量之间的任何相关都标志着多元共线性的存在。线性的存在。1.共线性共线性的存在所带来的后果:的存在所带来的后果:回归系数估计值不稳定回归系数估计值不稳定,表现为表现为:回归参数估计值的标准误很大回归参数估计值的标准误很大;原本非常重要的自变量对回归无统计学意义而原本非常重要的自变量对回归无统计学意义而不能进入方程;不能进入方程;严重时可使样本回归系数可大可小严重时可使样本回归系数可大可小,可正可负可正可负,其专业意义无法解释而出现悖论其专业意义无法解释而出现悖论。对这些前提条件和数据可靠性从统计方法对这些前提条件和数据可靠性从统计方法上进行检查即为上进行检查即为回归诊断回归诊断,同时也必须结,同时也必须结合专业考虑。合专业考虑。2. 共线性判别方法:共线性判别方法:2.1 Xj的容许值(的容许值(TOL)TOL(j)=1-R2(j)R2(j)为)为Xj与其余与其余m-1个回归变量间线性相关个回归变量间线性相关的程度,如果的程度,如果Xj与其余与其余m-1个自变量共线性严个自变量共线性严重重,则,则R2(j)=1,则,则TOL=0,反之,反之TOL=1。这个方法简单这个方法简单,但无明确诊断界限但无明确诊断界限,可作为共可作为共线性诊断的参考指标线性诊断的参考指标。2.2 方差膨胀因子(方差膨胀因子(VIF)VIF=1/1-R2(j)Ri 1,自变量共线性严重,自变量共线性严重,VIF非常大,而非常大,而容许值容许值接近接近0(5或或10,或,或容许值容许值10,即可,即可认为有共线关系存在。认为有共线关系存在。共线性严重存在的诊断界值共线性严重存在的诊断界值:条件指数条件指数大于等于大于等于10,且所对应的方差比大于,且所对应的方差比大于0.5解决共线性问题的方法有很多,可以采用解决共线性问题的方法有很多,可以采用岭回归、主成分回归等方法。岭回归、主成分回归等方法。MODEL语句中的选择项之一:语句中的选择项之一: 界定界定共线性共线性的有关的有关参数参数:/TOL(tolerance of Xj):要求计算模型中各自变):要求计算模型中各自变量的容许值;量的容许值;/VIF(variance inflation factors):计算、输出各):计算、输出各自变量的方差膨胀因子;自变量的方差膨胀因子;/COLLIN:对回归模型的自变量(包括回归常数)做:对回归模型的自变量(包括回归常数)做共线性分析;共线性分析;/COLLINNOINT:对回归模型的自变量(不包括回:对回归模型的自变量(不包括回归常数)做共线性分析;归常数)做共线性分析;应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项适用条件适用条件:因变量必须是连续变量因变量必须是连续变量,自变量既可以是自变量既可以是连续变量连续变量、又可以是属性变量又可以是属性变量。多变量回归分析的应用需符合一定假设:多变量回归分析的应用需符合一定假设:LINE应用多变量线性回归分析应用多变量线性回归分析注意事项(续)注意事项(续)应用多变量回归分析时应用多变量回归分析时,最重要的是注意:最重要的是注意: 数据是否符合数学模型的假设数据是否符合数学模型的假设; 是否有代表性是否有代表性; 考虑考虑R2的大小的大小,如如R2很小很小,说明自变量与因变量的相关关说明自变量与因变量的相关关系不大系不大,或是拟合的模型欠妥或是拟合的模型欠妥; 变量变化范围太小变量变化范围太小,回归平方和就小回归平方和就小,不易有显著性不易有显著性; 变量测量误差太大变量测量误差太大,易出现异常值易出现异常值; 是否样本含量过小?是否样本含量过小?应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项(续)如果如果y与与xi之间存在依存关系之间存在依存关系,且有显著性意义且有显著性意义,并并不证明其间存在因果关系不证明其间存在因果关系,必须根据变量的本质必须根据变量的本质,结合专业知识作出正确的因果判断结合专业知识作出正确的因果判断。xi并非随机变量并非随机变量,xi的取值范围不能超出观察值范的取值范围不能超出观察值范围围,故回归方程不能随意外推故回归方程不能随意外推,不适当的外推可导不适当的外推可导致错误的结论致