最新多元线性回归11ppt课件.ppt
《最新多元线性回归11ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新多元线性回归11ppt课件.ppt(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着“怎么这么热怎么这么热”,于是三,于是三五成群,聚在大树下,或站着,或随即坐在石头上,手持那把扇子,边唠嗑五成群,聚在大树下,或站着
2、,或随即坐在石头上,手持那把扇子,边唠嗑边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到“强子,别跑强子,别跑了,快来我给你扇扇了,快来我给你扇扇”。孩子们才不听这一套,跑个没完,直到累气喘吁吁,。孩子们才不听这一套,跑个没完,直到累气喘吁吁,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,“你你看热的,跑什么?看热的,跑什么?”此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲的味道!蒲扇是中国传统工艺品,在我国
3、已有三千年多年的历史。取材的味道!蒲扇是中国传统工艺品,在我国已有三千年多年的历史。取材于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过了我们的扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过
4、了我们的半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧道,袅道,袅多变量分析方法的提出多变量分析方法的提出统计学处理方法的选择统计学处理方法的选择两个或以上自变量资料的统计学分析方法两个或以上自变量资料的统计学分析方法自变量自变量 因变量因变量 统计方法统计方法属性(有混杂)属性(有混杂) 数值数值 协方差分析协方差分析属性或数值属性或数值 数值数值 多元回归多元回归属性或数值属性或数值 属性(二分)属性(二分) logistic回归回归数值或属性数值或属性 二分(属性)二分(属性) 发生的风险(有截缩)发生
5、的风险(有截缩) Cox(比例风险)回归(比例风险)回归属性属性 属性属性 对数对数-线性线性属性或数值属性或数值 属性(多分)属性(多分) 判别分析判别分析数值数值 因子分析或聚类分析因子分析或聚类分析出生体重危险因素研究出生体重危险因素研究ID ID 编号编号LOW LOW 出生低体重出生低体重(bwt=2500=0)(bwt=2500=0)AGE AGE 母亲年龄母亲年龄( (岁岁) )LWT LWT 母亲末次月经时的体重母亲末次月经时的体重RACE RACE 种族种族: 1 : 1 白种人白种人 2 2 黄种人黄种人 3 3 黑人黑人SMOKE SMOKE 吸烟史吸烟史: 1 : 1
6、吸烟吸烟 0 0 否否PTL PTL 早产史早产史: 1 : 1 有有 0 0 无无HT HT 妊娠高血压妊娠高血压: 1 : 1 有有 0 0 无无UI UI 频繁宫缩频繁宫缩: 1 : 1 有有 0 0 无无FTV FTV 产前访视次数产前访视次数BWT BWT 出生体重出生体重( (克克) )探讨的问题婴儿的出生低体重(low)是否与母亲的种族(race)有关?黑人母亲和非黑人母亲的婴儿出生体重是否有显著性差别?黑人、白人及黄种人母亲,其婴儿的出生体重是否有显著性差别?母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史是否分别与婴儿的出生体重有关?母亲的年龄、吸烟史、既往早产史、妊
7、娠高血压史,频繁宫缩史哪些因素与婴儿的出生体重有关?在控制了年龄、目前吸烟史、既往早产史、妊娠高血压史,频繁宫缩史之后,婴儿的出生体重是否依旧与种族有关?亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生低体重有关?一、概念一、概念回归是研究变量与变量之间关系的一种回归是研究变量与变量之间关系的一种手段,通过回归方程表达变量与变量之手段,通过回归方程表达变量与变量之间的一种间的一种依存关系依存关系。当研究变量之间的线性关系时就是直线当研究变量之间的线性关系时就是直线回归(回归(linear regression)如:如:UCSF大学的妇产科学及生殖研究所收集大学的妇产科
8、学及生殖研究所收集1980年年-1990年在该生殖中心出生的婴儿及其母年在该生殖中心出生的婴儿及其母亲的资料。亲的资料。母亲的信息:怀孕时的年龄、吸烟史、怀孕前的母亲的信息:怀孕时的年龄、吸烟史、怀孕前的体重、早产史、是否有妊娠高血压、怀孕期间是体重、早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。新生儿的信息:出生时的体重新生儿的信息:出生时的体重要回答的问题:用回归方程定量的刻画一个新生要回答的问题:用回归方程定量的刻画一个新生儿出生体重(因变量儿出生体重(因变量Y)与母亲孕期的多个自变量与母亲孕期的多个自变量X1,X2,.间
9、的线性间的线性依存关系依存关系 出生体重危险因素研究数据库字段注释出生体重危险因素研究数据库字段注释变量名变量名 字段注释字段注释ID 编号编号BWT 出生体重(克)出生体重(克)AGE 母亲年龄(岁)母亲年龄(岁)LWT 母亲末次月经时的体重(磅)母亲末次月经时的体重(磅)RACE 种族:种族:1白种人白种人 2黄种人黄种人 3黑人黑人SMOKE 吸烟史:吸烟史:1吸烟吸烟 0否否PTL 早产史早产史 :1有有 0否否HT 妊娠高血压:妊娠高血压:1有有 0否否UI 频繁宫缩:频繁宫缩:1有有 0否否FTV 产前访试次数:产前访试次数:1一次一次 2二次及以上二次及以上 0无无设有设有p个自
10、变量个自变量X1,X2,,Xp,一个因变量一个因变量Y,以及一份由以及一份由n个个体构成的随机样本(个个体构成的随机样本(xi1,xi2,xip,yi),),i=1,2,,n a:回归方程常数项:回归方程常数项 bp:偏回归系数,指其它自变量固定的条件:偏回归系数,指其它自变量固定的条件 下,某自变量下,某自变量Xp每改变一个单位时,因每改变一个单位时,因 变量变量Y的平均变化量。的平均变化量。 :在给定自变量取值条件下:在给定自变量取值条件下y的均数的一的均数的一 个点估计。个点估计。1212.ppYabbbXXX Y 新生儿出生体重与母亲怀孕时相关因素的关系:新生儿出生体重与母亲怀孕时相关
11、因素的关系:对每一个新生儿而言:对每一个新生儿而言:Yi=b0+b1*agei+b2*smokei+b3*lwti+ 根据所有新生儿及其母亲的观测值,可以得到新生根据所有新生儿及其母亲的观测值,可以得到新生儿出生体重与母亲相关因素的回归方程:儿出生体重与母亲相关因素的回归方程: i =b0+b1*agei+b2*smokei+b3*lwti+.残差:残差:Y二、线性回归方程线性回归方程 需满足的条件需满足的条件(一)(一) LINE LINE 原则原则L(linear):): 自变量和因变量呈线性关系;自变量和因变量呈线性关系;I (independence):): 某某xi值改变对值改变对y
12、的影响与另一的影响与另一xi的水平无关;的水平无关; y呈独立性,即任一个体的呈独立性,即任一个体的y值对另一个体的值对另一个体的y值值 不提供任何信息;不提供任何信息;N(normality):): xi分别取某定值时得到的一组分别取某定值时得到的一组y值呈正态分布;值呈正态分布;E (equal variance):): 各各y值的方差相等,即各值的方差相等,即各xi取不同值时取不同值时y的不同分布的不同分布服从方差齐性,即其方差为常数服从方差齐性,即其方差为常数(二)因变量的选择(二)因变量的选择 因变量必须是定量指标,同时必须满足以上关于因变量必须是定量指标,同时必须满足以上关于线性回
13、归的条件要求,即线性回归的条件要求,即LINE。(三)自变量的选择(三)自变量的选择 对于自变量没有强制性要求,但自变量和因对于自变量没有强制性要求,但自变量和因变量之间必须是线性关系。变量之间必须是线性关系。 自变量可以为定量指标、定性指标以及等级自变量可以为定量指标、定性指标以及等级变量中的任何一种。变量中的任何一种。 如果自变量为定量指标:如果自变量为定量指标:(1)同时自变量与因变量之间为线性关系,则)同时自变量与因变量之间为线性关系,则可以直接以原变量的形式进入分析;可以直接以原变量的形式进入分析;(2)如果自变量与因变量之间为非线性关系,)如果自变量与因变量之间为非线性关系,则需做
14、适当转换,如则需做适当转换,如x2,log(x),),ex等。等。 自变量为定性或等级指标:自变量为定性或等级指标: 不需要做自变量与因变量的线性关系检验不需要做自变量与因变量的线性关系检验自变量为定性指标:自变量为定性指标: 为二分类变量,常用为二分类变量,常用0,1或或1,2表示。如表示。如x为性别为性别指标,指标,0代表女性,代表女性,1代表男性,回归方程中对应的代表男性,回归方程中对应的回归系数回归系数b表示男性比女性的表示男性比女性的y平均多平均多b。为多分类指标,需要专业判定指标的意义为多分类指标,需要专业判定指标的意义等级变量:直接带入分析等级变量:直接带入分析定性变量:亚变量(
15、定性变量:亚变量(dummy)亚(哑)变量的设置引入引入的目的在于区分某个变量的不同属的目的在于区分某个变量的不同属性。性。当自变量为属性变量,特别是不同属性之间无等级高当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需低之分,为说明不同属性对因变量的影响大小,常需引入亚(哑)引入亚(哑)。亚变量的设置:例亚变量的设置:例1 1一项探讨影响新生儿出生体重的研究:一项探讨影响新生儿出生体重的研究:因变量即结局变量为新生儿出生时的体重;因变量即结局变量为新生儿出生时的体重;研究的因素包括母亲怀孕时的年龄、母亲末次研究的因素包括母亲怀孕时的年龄、母亲末次月经
16、时的体重、母亲的种族、是否吸烟、是否月经时的体重、母亲的种族、是否吸烟、是否有过早产史、是否有妊娠高血压、怀孕期间是有过早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。亚变量的设置例亚变量的设置例1 1:出生体重危险因素研究:出生体重危险因素研究变量名变量名 字段注释字段注释ID 编号编号BWT 出生体重(克)出生体重(克)AGE 母亲年龄(岁)母亲年龄(岁)LWT 母亲末次月经时的体重(磅)母亲末次月经时的体重(磅)RACE 种族:种族:1白种人白种人 2黄种人黄种人 3黑人黑人SMOKE 吸烟史:吸烟史:1吸烟吸烟 0否否PT
17、L 早产史早产史 :1有有 0否否HT 妊娠高血压:妊娠高血压:1有有 0否否UI 频繁宫缩:频繁宫缩:1有有 0否否FTV 产前访试次数:产前访试次数:1一次一次 2二次及以上二次及以上 0无无亚变量的设置:例亚变量的设置:例1 1将种族分成白人、黑人和黄种人将种族分成白人、黑人和黄种人3种属性,可引入种属性,可引入2(= 3- -1)个亚变量,分别表示各种族,选择其中之)个亚变量,分别表示各种族,选择其中之一(例如,白人)作为参照一(例如,白人)作为参照变量 x1 x2 白人 0 0 ( 黑人 1 0 黄种人 0 1 亚变量的设置:例亚变量的设置:例2 2Framingham心脏病研究,随
18、访心脏病研究,随访1,406人人18年年探讨冠心病发生率与年龄、性别、收缩血压关系探讨冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归的多变量线性回归如何处理年龄与冠心病发生率的关系?如何处理年龄与冠心病发生率的关系?连续变量?连续变量?其他?其他?亚变量的设置:例亚变量的设置:例2 2(续)(续)x1 = 0,x2 = 0,x3 = 0,为,为4049岁(参照)岁(参照)x1 = 1,x2 = 0,x3 = 0,为,为5054岁岁x2 = 1,x1 = 0,x3 = 0,为,为5559岁岁x3 = 1,x1 = 0,x2 = 0,为,为6062岁岁 年龄(岁)年龄(岁) x1 x2 x
19、3 4049(参照)(参照) 0 0 0 5054 1 0 0 5559 0 1 0 6062 0 0 1 亚变量的设置:例亚变量的设置:例2 2(续)(续)得到冠心病发生率与年龄、性别、收缩血压关系的多变量线得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程如下:性回归方程如下:y = 0.0613 + 0.0277x1 + 0.0826x2 + 0.0845x3 + 0.1273x4 + 0.1680 x5上式中上式中y = log(冠心病发生率(冠心病发生率/(1-冠心病发生率)冠心病发生率)亚变量的设置:例亚变量的设置:例2 2(续)(续)有时自变量(如年龄)虽然是连续变量
20、,但按其每改有时自变量(如年龄)虽然是连续变量,但按其每改变一个单位(一岁),来估计其对因变量的影响很微变一个单位(一岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立亚弱,如将其划分成大小不同的几种属性,并设立亚,则可看出不同属性对因变量的影响大小。,则可看出不同属性对因变量的影响大小。这种这种的优点是有助于分清究竟哪种属性的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大,也便于研究因素间对所研究疾病危险性的作用较大,也便于研究因素间的交互作用。的交互作用。三、线性回归基本三、线性回归基本SASSAS程序程序PROC REG data=文件名文件名; 调用调
21、用REG过程并指明对哪个文件执行分析过程并指明对哪个文件执行分析,若省略若省略“data= data= “ ,则则SASSAS会自动找出在会自动找出在本程序之前最后形成的本程序之前最后形成的SASSAS语句语句。 Model 因变量因变量=自变量自变量/选择项选择项;每次调用每次调用REG过程至少要有一个过程至少要有一个MODEL语语句。句。MODEL Y=X; 一个应变量对一个自变量一个应变量对一个自变量的回归的回归MODEL Y=X1 X2 X3; 一个应变量对多个一个应变量对多个自变量的回归自变量的回归MODEL Y1 Y2=X1 X2 X3; 多个应变量对多个应变量对多个自变量的回归多
22、个自变量的回归 MODEL语句中的选择项之一:语句中的选择项之一: 界定有关参数估计值的有关选项:界定有关参数估计值的有关选项:/STB:要求计算模型中各自变量的标准回归:要求计算模型中各自变量的标准回归系数;系数;/CLM/CLM:计算出预测值平均数的:计算出预测值平均数的95%95%可信区间的可信区间的 上、下限;上、下限;/CLI/CLI:计算出各预测值的:计算出各预测值的95%95%可信区间的上、可信区间的上、下限;下限;多元回归基本多元回归基本SASSAS程序程序proc reg;proc reg; model y=x1 x2/stb; model y=x1 x2/stb;run;r
23、un;四、几个重要的概念四、几个重要的概念偏回归系数:偏回归系数:标准回归系数:标准回归系数:决定系数:决定系数:校正复相关系数:校正复相关系数:剩余标准差:剩余标准差:偏回归系数(偏回归系数(b bj j)当方程中其他自变量固定时,当方程中其他自变量固定时,Xj每改变一个每改变一个单位,引起单位,引起Y的平均变化量,也就是说的平均变化量,也就是说bj的的大小反映了大小反映了Xj对对Y的影响程度。的影响程度。 标准回归系数标准回归系数由于各自变量取值的单位及其离散程度通由于各自变量取值的单位及其离散程度通常不同,所以各量纲不同的回归系数之间常不同,所以各量纲不同的回归系数之间不能直接比较大小。
24、为此,需要对偏回归不能直接比较大小。为此,需要对偏回归系数进行标准化以消除量纲的影响。系数进行标准化以消除量纲的影响。 标准回归系数绝对值的大小可用来衡量自标准回归系数绝对值的大小可用来衡量自变量对应变量变量对应变量Y的贡献大小,以说明各变量的贡献大小,以说明各变量在多元回归方程中的重要性。在多元回归方程中的重要性。SSbllbbYjjYYjjjj决定系数(决定系数(R R2 2)R2=SS回回/SS总总取值范围在取值范围在0与与1之间,无单位。反映了回归贡献之间,无单位。反映了回归贡献的相对程度,也就是在的相对程度,也就是在Y的总变异中回归所能解释的总变异中回归所能解释的百分比。的百分比。主
25、要通过决定系数数值的大小来反映回归或相关主要通过决定系数数值的大小来反映回归或相关的实际效果。的实际效果。例如:决定系数例如:决定系数= =0.9587,说明所求的回归方程,说明所求的回归方程能够解释的应变量变异占应变量总变异的能够解释的应变量变异占应变量总变异的95.87%存在的问题:存在的问题:随方程中自变量的增加而加大,即随方程中自变量的增加而加大,即使引入无显著性变量,其值也会略有增加使引入无显著性变量,其值也会略有增加校正决定系数(校正决定系数(R R2 2adjadj)其中其中n为拟合模型的观察单位数;为拟合模型的观察单位数;m为方程中所含变量个数为方程中所含变量个数 1) 1)(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 多元 线性 回归 11 ppt 课件
限制150内