《十多变量分析详析模型与多元线性回归.ppt》由会员分享,可在线阅读,更多相关《十多变量分析详析模型与多元线性回归.ppt(109页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十一讲:第十一讲:多变量的统计分析多变量的统计分析-详析分析与统计控制详析分析与统计控制1第一页,编辑于星期六:十九点 八分。n社会现象的复杂性决定了社会中各事物之间的关社会现象的复杂性决定了社会中各事物之间的关系并不是简单的两两相关,两个变量之间的关系系并不是简单的两两相关,两个变量之间的关系也可能受到其他因素(如也可能受到其他因素(如W、T)的影响。因此,)的影响。因此,当前社会学的研究中不仅关注两个变量的关系,当前社会学的研究中不仅关注两个变量的关系,更关注多个变量关系的分析。更关注多个变量关系的分析。2第二页,编辑于星期六:十九点 八分。一、多变量分析的主要类型一、多变量分析的主要类
2、型详析分析详析分析n多项分析多项分析多因分析多因分析多项相互分析多项相互分析多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。3第三页,编辑于星期六:十九点 八分。1、详析分析、详析分析n详析分析是通过引进第三个变量(如详析分析是通过引进第三个变量(如W、T),通),通过分析第三个变量与两个变量(过分析第三个变量与两个变量(X,
3、Y)的关系,)的关系,进一步加深对两个变量之间关系的了解。进一步加深对两个变量之间关系的了解。4第四页,编辑于星期六:十九点 八分。详析分析研究的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,引进其他变量(引进其他变量(引进其他变量(引进其他变量(WW,T T,C C)的目的是要加深了解)的目的是要加深了解)的目的是要加深了解)的目的是要加深了解这两个变量(这两个变量(这两个变量(这两个变量(X X和和和和Y Y)的相关关系)的相关关系)的相关关系)的相关关系 X Y X YW,T,C5第五页,编辑于星期六:十
4、九点 八分。2、多因分析、多因分析 X1 X2 Y X3说明的是多个自变量对某个因变量的共同说明的是多个自变量对某个因变量的共同影响和相对效果影响和相对效果分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响6第六页,编辑于星期六:十九点 八分。3、多项相关、多项相关多个变量之间是如何相互影多个变量之间是如何相互影响的响的X1X2 X4X3 简化众多变量之间的相关关系简化众多变量之间的相关关系简化众多变量之间的相关关系简化众多变量之间的相关关系路径分析路径分析7第七页,编
5、辑于星期六:十九点 八分。二、详析分析二、详析分析详析分析反映的是两个变量之间的关系,根据作用的不详析分析反映的是两个变量之间的关系,根据作用的不同又可以分为三种模式:同又可以分为三种模式:n因果分析:因果分析:X和和Y是否真有因果关系?是否真有因果关系?n阐明分析:阐明分析:X为什么会影响为什么会影响Y?n条件分析:在不同的情况下条件分析:在不同的情况下X与与Y会有不同的关系吗会有不同的关系吗?8第八页,编辑于星期六:十九点 八分。(一)因果分析(一)因果分析n要鉴定要鉴定X和和Y之间是否确实有因果关系之间是否确实有因果关系1、做法:引进其他变量、做法:引进其他变量w(通常称为第三类变项)(
6、通常称为第三类变项),看看是否由于,看看是否由于w既影响了既影响了x,又影响了,又影响了y,而,而使使x和和y的关系发生了变化。的关系发生了变化。9第九页,编辑于星期六:十九点 八分。如:我们发现结婚年数如:我们发现结婚年数(X)越多的人越多的人,发发病率病率(Y)也越高也越高;这是否表示二者有因这是否表示二者有因果关系呢果关系呢?显然不一定显然不一定.结婚年数结婚年数(x)越多的人,越多的人,发病率发病率(y)越高越高年龄(年龄(w)两者之间的因果关系不成立两者之间的因果关系不成立10第十页,编辑于星期六:十九点 八分。n在因果分析中,第三类变项(变量)称为在因果分析中,第三类变项(变量)称
7、为前置变项前置变项因它在因果模型中是先于因它在因果模型中是先于x和和y的的n引进若干引进若干w,辨别辨别x和和y的因果关系是不是虚假的:如果的因果关系是不是虚假的:如果我们能控制我们能控制w,使之不变,而,使之不变,而x变化时变化时y也起变化,那么,也起变化,那么,x和和y的关系的关系可能可能就是真实的。就是真实的。除了除了除了除了W的影响外,还的影响外,还会有其他因素的影响会有其他因素的影响11第十一页,编辑于星期六:十九点 八分。n如果控制如果控制W?n简单地说就是按简单地说就是按W的取值分组,看每一的取值分组,看每一组中组中x和和y的关系的关系.n用分表法(用分表法(p221).n假设假
8、设W有两个值有两个值(1,2),而而X与与Y也是各二也是各二值值,则原表与其分表的关系则原表与其分表的关系,如下图所示如下图所示:12第十二页,编辑于星期六:十九点 八分。原表原表 X XY Y W=1 w=2 x x分表分表Y y步骤步骤:1.分析分析X 与与Y的关系的关系;2.分析分析W1与与与与X,W1与与 Y;然后控制然后控制W1来辩明来辩明X X与与Y的关系的关系.3.分析分析W2与与X,w2与与Y,然后控制然后控制W2W2来辩明来辩明来辩明来辩明X X与与与与Y的因果关系的因果关系的因果关系的因果关系13第十三页,编辑于星期六:十九点 八分。n每个分表的作用就是在每个分表的作用就是
9、在W不变的情不变的情况下分析况下分析X与与Y的关系的关系,而这就是统计而这就是统计控制的基本原理了控制的基本原理了.在原表中在原表中W是变是变项项,但在分表中却受到控制而变为常但在分表中却受到控制而变为常数数.n在控制在控制W后后,研究结果原则上有三种研究结果原则上有三种可能性可能性:14第十四页,编辑于星期六:十九点 八分。n第一第一.X与与Y的关系消失的关系消失,即在各分表即在各分表中中X与与Y都没有关系都没有关系.表示原表中表示原表中X与与Y的因果关系是虚假的的因果关系是虚假的,它们原来的它们原来的关系其实是由于关系其实是由于W所导致的所导致的.n如图所示如图所示:nWX Y15第十五页
10、,编辑于星期六:十九点 八分。n第二第二.X与与Y的关系维持原状的关系维持原状,即在各即在各分表中分表中X与与Y的相关与原表中的相关的相关与原表中的相关是大致上相同的是大致上相同的.这种情况这种情况,表示表示X与与Y的因果关系可能是真实的的因果关系可能是真实的,并非由并非由W所导致。所导致。n如图所示:如图所示:WWX YX Y16第十六页,编辑于星期六:十九点 八分。n第三、第三、X与与Y虽然仍有关系,但其相关程度弱小了,虽然仍有关系,但其相关程度弱小了,即各分表中即各分表中X与与Y的关系不等于的关系不等于0,但相关程度却低,但相关程度却低于原表中的相关。这种情况,表示所控制的第三类于原表中
11、的相关。这种情况,表示所控制的第三类变项产生局部效应,即原表中变项产生局部效应,即原表中X与与Y的因果关系可能的因果关系可能是真实的,但其中某些部分是由是真实的,但其中某些部分是由W所导致。所导致。n如图所示:如图所示:WX Y17第十七页,编辑于星期六:十九点 八分。3、统计结果与研究状况、统计结果与研究状况如果以如果以R表示表示X与与Y的原相关,以的原相关,以R1和和R2分别表示两分别表示两个分表中的个分表中的X与与Y的相关,则上述的三种研究结果可用的相关,则上述的三种研究结果可用下表表示:下表表示:18第十八页,编辑于星期六:十九点 八分。例:在某城镇调查例:在某城镇调查1000户人家,
12、目的是要研究住房户人家,目的是要研究住房的拥挤情况是否会引起夫妻之间的冲突的拥挤情况是否会引起夫妻之间的冲突是否能证明住户拥挤是导致夫妻冲突的原因?是否能证明住户拥挤是导致夫妻冲突的原因?19第十九页,编辑于星期六:十九点 八分。n住户拥挤(住户拥挤(x)与夫妻冲突()与夫妻冲突(y),可能与家),可能与家庭的经济水平有关庭的经济水平有关家庭经济水平家庭经济水平家庭经济水平家庭经济水平住房拥挤住房拥挤住房拥挤住房拥挤夫妻冲突夫妻冲突夫妻冲突夫妻冲突?20第二十页,编辑于星期六:十九点 八分。n因此引进经济水平变量,再进行分析因此引进经济水平变量,再进行分析21第二十一页,编辑于星期六:十九点
13、八分。n住户拥挤(住户拥挤(x)与夫妻冲突()与夫妻冲突(y),没有显著性关系,),没有显著性关系,家庭经济水平影响了住房情况和夫妻冲突状况家庭经济水平影响了住房情况和夫妻冲突状况家庭经济水平家庭经济水平住房拥挤住房拥挤夫妻冲突夫妻冲突22第二十二页,编辑于星期六:十九点 八分。详析分析的一般步骤:详析分析的一般步骤:n1、分析、分析XY,n2、分析、分析WX与与WY,n3、控制、控制W,分析,分析XY的的变化。变化。23第二十三页,编辑于星期六:十九点 八分。(二)阐明分析(二)阐明分析n分析的问题是:为什么分析的问题是:为什么X会影响会影响Y?如:为?如:为什么较为贫困的家庭,少年犯罪率较
14、高什么较为贫困的家庭,少年犯罪率较高呢?是否由于较为贫困的家庭中父母的呢?是否由于较为贫困的家庭中父母的争吵较多,因而使儿女的品性较为恶劣争吵较多,因而使儿女的品性较为恶劣呢?呢?n阐明分析的作用,就是要以事实来验证:阐明分析的作用,就是要以事实来验证:X是通过哪些因素(如是通过哪些因素(如T)来影响)来影响Y的?如下的?如下图所示:图所示:24第二十四页,编辑于星期六:十九点 八分。X YX YT T介入变量介入变量25第二十五页,编辑于星期六:十九点 八分。nX通过通过T影响影响Y意味着:意味着:X变动时引起变动时引起T的变动,而的变动,而T的变动影响的变动影响Y的变动。如果控制的变动。如
15、果控制T使之不变,结使之不变,结果是果是X变动但变动但Y不变,则说明不变,则说明X是通过是通过T影响影响Y;n如果,在控制如果,在控制T以后以后X变而变而Y亦变,则证明亦变,则证明T是无是无关紧要的,即关紧要的,即X不是通过不是通过T而影响而影响Y的。的。n研究的方法:与因果分析相同,通过分解研究的方法:与因果分析相同,通过分解T比较比较X与与Y的关系。的关系。1、X-T-Y的关系:的关系:26第二十六页,编辑于星期六:十九点 八分。n例:调查了近例:调查了近300名年纪相近的妇女,发名年纪相近的妇女,发现教育水平现教育水平(x)越高,子女数目越高,子女数目(y)越少越少(G=-0.70)。为
16、什么?)。为什么?(1)如果以)如果以晚婚晚婚来解释,教育水平越高的来解释,教育水平越高的妇女结婚越晚,因而生的孩子就较少。妇女结婚越晚,因而生的孩子就较少。如要证明这种说法,就要引进如要证明这种说法,就要引进“结婚年结婚年龄龄”作为介入变项(作为介入变项(T),加以控制。),加以控制。27第二十七页,编辑于星期六:十九点 八分。n采用分表法的结果,发现在晚婚的妇女教育采用分表法的结果,发现在晚婚的妇女教育水平与生孩子数目的关系是水平与生孩子数目的关系是G=-0.71,而在早,而在早婚的妇女中婚的妇女中G=-0.68。分表的相关与原相关。分表的相关与原相关非常接近。非常接近。n因此,可以得出结
17、论:晚婚的说法,不能阐明因此,可以得出结论:晚婚的说法,不能阐明教育水平与子女数目的反比关系。也就是说,教育水平与子女数目的反比关系。也就是说,教育水平较高的妇女所生的孩子比较少,不是教育水平较高的妇女所生的孩子比较少,不是由于她们结婚较晚。由于她们结婚较晚。28第二十八页,编辑于星期六:十九点 八分。(2)如果以)如果以“重男轻女重男轻女”来解释,认为教育水来解释,认为教育水平越低的妇女,越是重男轻女,结果会生很多平越低的妇女,越是重男轻女,结果会生很多孩子。孩子。n控制控制“重男轻女重男轻女”这个介入变量之后,发现重男轻这个介入变量之后,发现重男轻女的女性中教育水平与生育子女数量的女的女性
18、中教育水平与生育子女数量的G=-0.45,不,不重男轻女的女性中教育水平与生育子女数量的重男轻女的女性中教育水平与生育子女数量的G=-0.50n虽然教育水平与生育子女数目这两个变量仍然维持虽然教育水平与生育子女数目这两个变量仍然维持反比关系,但在程度上弱于原相关(反比关系,但在程度上弱于原相关(G=-0.70)n结论:教育水平较低的妇女所生的子女比较多,部结论:教育水平较低的妇女所生的子女比较多,部分是由于她们所具有的重男轻女的观念。分是由于她们所具有的重男轻女的观念。教育水平教育水平生育子女数生育子女数生育子女数生育子女数重男轻女重男轻女29第二十九页,编辑于星期六:十九点 八分。2、结果、
19、结果完全阐明:完全阐明:X完全是通过完全是通过T影响影响Y的的不能阐明:不能阐明:X完全不是通过完全不是通过T而影响而影响Y部分阐明:部分阐明:X部分是通过部分是通过T影响影响Y的的30第三十页,编辑于星期六:十九点 八分。(三)条件分析与互动效果(三)条件分析与互动效果关注的是在不同情况下,关注的是在不同情况下,X和和Y的关系会不同吗?的关系会不同吗?n条件分析就是以第三类变项(如条件分析就是以第三类变项(如C)为基础来了解)为基础来了解X与与Y在不同情况下的关系。故在不同情况下的关系。故C也称为也称为条件变项条件变项。n结果:如果在各组中结果:如果在各组中X与与Y的关系大致上相同,则表的关
20、系大致上相同,则表示示X与与Y的关系具有普遍性。相反,如果的关系具有普遍性。相反,如果X与与Y在不同的在不同的C组中有不同的关系,就表示组中有不同的关系,就表示X与与Y的关系具有条件性,的关系具有条件性,也称为也称为C变项产生互动效果。变项产生互动效果。31第三十一页,编辑于星期六:十九点 八分。n我们的假设是,随着计划生育政策的实施,城市我们的假设是,随着计划生育政策的实施,城市独生子女家庭的比例高于农村,这会对人们的生独生子女家庭的比例高于农村,这会对人们的生育意愿产生影响,使得城市中的妇女更倾向于少育意愿产生影响,使得城市中的妇女更倾向于少生孩子,因此我们引进生孩子,因此我们引进“城乡城
21、乡”作为条件变量,作为条件变量,分析城市和农村妇女文化程度与生育意愿的关系。分析城市和农村妇女文化程度与生育意愿的关系。结果发现,城市妇女中文化程度与生育意愿的关结果发现,城市妇女中文化程度与生育意愿的关系是系是G0.78,农村是,农村是G0.76,两者相差,两者相差不大。不大。文化程度与妇女生育意愿的关系是否文化程度与妇女生育意愿的关系是否存在城乡存在城乡(C)差异?)差异?32第三十二页,编辑于星期六:十九点 八分。n不同年龄段不同年龄段妇女的文化程度与生育意愿的妇女的文化程度与生育意愿的关系,发现关系,发现55岁以上妇女中,文化程度与岁以上妇女中,文化程度与生育意愿的关系是生育意愿的关系
22、是G0.18,4555岁者岁者为为G0.35,3545岁者为岁者为G0.68,35岁以下者为岁以下者为G0.89。可见,年龄在妇。可见,年龄在妇女文化程度和生育意愿关系中所起的作用女文化程度和生育意愿关系中所起的作用远大于城乡的影响,远大于城乡的影响,n说明文化程度与生育意愿的关系在不同说明文化程度与生育意愿的关系在不同的条件下表现出不同的情况。的条件下表现出不同的情况。33第三十三页,编辑于星期六:十九点 八分。这里有几种情况:这里有几种情况:n1、压抑分析:即、压抑分析:即X与与Y本来是没有关系的或关本来是没有关系的或关系很弱(如人口密度与精神病率),但在标明系很弱(如人口密度与精神病率)
23、,但在标明了了若干条件若干条件就叫压抑变项就叫压抑变项(如文化异同)以后,(如文化异同)以后,X与与Y显然是有关系或关系强大起来。显然是有关系或关系强大起来。n2、曲解分析:即把原先的负相关(、曲解分析:即把原先的负相关(如教育水平与如教育水平与社区参与成反比,当引入性别变量后发现男、女社区参与成反比,当引入性别变量后发现男、女两组的教育水平与社区参与均成正比两组的教育水平与社区参与均成正比)变为正相)变为正相关,或把原先的正相关变为负相关的分析。而所关,或把原先的正相关变为负相关的分析。而所用的条件(如性别)就叫曲解变项。用的条件(如性别)就叫曲解变项。34第三十四页,编辑于星期六:十九点
24、八分。二、净相关(偏相关分析)二、净相关(偏相关分析)n在前面的分析中,要用分表法,然后再与原表相比,特别是当分表很多时就很难作出结论。因此,如果能以一个统计值来综合和简化所有的分表相关,然后将之与原相关比较,问题就清楚多了。n净相关分析(偏相关分析,净相关分析(偏相关分析,partialanalysis),就是以一个系数值表示控制),就是以一个系数值表示控制第三类变项(第三类变项(W、T)后)后X与与Y的相关程度的相关程度的分析方法,其系数称为净相关系数。的分析方法,其系数称为净相关系数。(partialcorrelationcoefficient)35第三十五页,编辑于星期六:十九点 八分
25、。n因为净相关系数以积矩相关系数(因为净相关系数以积矩相关系数(r)为基)为基础,因此属于对称相关测量法的一种,础,因此属于对称相关测量法的一种,它它要求变项间是直线关系,且所有变项都必须要求变项间是直线关系,且所有变项都必须是定距变项。是定距变项。n净相关系数值是由净相关系数值是由-1至至+1,表示在控制第,表示在控制第三类变项以后三类变项以后X与与Y这两个变项的相关的程这两个变项的相关的程度与方向,而且其平方值具有消减误差比度与方向,而且其平方值具有消减误差比例的意义。例的意义。36第三十六页,编辑于星期六:十九点 八分。n如以如以R表示原关系的强弱,以表示原关系的强弱,以Rp表示净相表示
26、净相关系数的大小,则在因果分析中关系数的大小,则在因果分析中,如果如果:nRp0时,表示原关系是虚假的时,表示原关系是虚假的;nRpR时,表示原关系可能真实时,表示原关系可能真实;nRp0且且RpR时,表示原关系是部分真实的时,表示原关系是部分真实的.37第三十七页,编辑于星期六:十九点 八分。n同样同样,在阐明分析中在阐明分析中,nRp=0则表示原关系是则表示原关系是完全阐明完全阐明.即即X完全完全是通过是通过T影响影响Y的的RpR时则表示原关系是时则表示原关系是不能阐明不能阐明.即即X完完全不是通过全不是通过T而影响而影响YRp0且且RpR时则表示原关系是时则表示原关系是部分阐明部分阐明.
27、即即X部分是通过部分是通过T影响影响Y的的38第三十八页,编辑于星期六:十九点 八分。n根据变量测量层次的不同根据变量测量层次的不同,定类定类定序定序和定距变量偏相关系数的计算方法和定距变量偏相关系数的计算方法也有所不同也有所不同.39第三十九页,编辑于星期六:十九点 八分。(一)定类变量:(一)定类变量:p、tau-ypn如果如果X和和Y两个变量中,至少有一个是定类变两个变量中,至少有一个是定类变量(另一个为定类或定序变量量(另一个为定类或定序变量)计算偏相关时,计算偏相关时,通常通常采用的是偏采用的是偏Lambda系数(系数(partialLambda,记为,记为p)和偏)和偏tau-y系
28、数(系数(partialtau-y,记为,记为tau-yp)n偏偏Lambda系数的计算方法是通过将样本分系数的计算方法是通过将样本分组,分别计算各组的组,分别计算各组的系数,以各组的样本数系数,以各组的样本数与全部样本数的比作为权数计算加权平均与全部样本数的比作为权数计算加权平均,即即:40第四十页,编辑于星期六:十九点 八分。np表示偏表示偏Lambda系数;系数;ni表示每个表示每个组的样本数量;组的样本数量;i表示每个组的表示每个组的X与与Y的的值;值;n表示全部样本数。表示全部样本数。41第四十一页,编辑于星期六:十九点 八分。n同理,同理,tau-y计算偏相关系数的公式为:计算偏相
29、关系数的公式为:ntau-yp表示偏表示偏tau-y系数;系数;ni表示每个组的样表示每个组的样本数量;本数量;tau-yi表示每个组的表示每个组的X与与Y的的tau-y值;值;n表示全部样本数。表示全部样本数。42第四十二页,编辑于星期六:十九点 八分。n性别与工作家庭冲突的相关系数性别与工作家庭冲突的相关系数0.22,如果我们,如果我们认为工作时间可能影响青年的工作家庭冲突,而引进认为工作时间可能影响青年的工作家庭冲突,而引进每天工作时间变量,如下表,每天不同工作时间的青每天工作时间变量,如下表,每天不同工作时间的青年,性别与工作家庭冲突的关系明显减弱。年,性别与工作家庭冲突的关系明显减弱
30、。43第四十三页,编辑于星期六:十九点 八分。n控制每天工作时间后,性别与工作家庭冲突的偏相关程控制每天工作时间后,性别与工作家庭冲突的偏相关程度如何?如果已知度如何?如果已知n1=54,n2=261,n3=38计算可知:计算可知:n性别与工作家庭冲突的原相关系数为性别与工作家庭冲突的原相关系数为0.22,控制每天工作时间后的偏,控制每天工作时间后的偏相关系数为相关系数为0.05,p3.84,所以可以否定虚无假所以可以否定虚无假设设,接受研究假设接受研究假设,即在即在0.05的显著性的显著性水平下水平下,控制了受教育年数后控制了受教育年数后,初始工初始工资与现在工资的相关关系在总体中资与现在工
31、资的相关关系在总体中仍然存在仍然存在.54第五十四页,编辑于星期六:十九点 八分。四四偏相关分析的偏相关分析的SPSS运用运用n如果两个变量如果两个变量受第三个变量的影响受第三个变量的影响,如何排除第三个变量的影响测量这如何排除第三个变量的影响测量这两个变量的相关关系两个变量的相关关系?偏相关分析的偏相关分析的任务就是在测量两个变量相关关系任务就是在测量两个变量相关关系时时,控制可能对其产生影响的变量控制可能对其产生影响的变量,spss操作步骤如下操作步骤如下.55第五十五页,编辑于星期六:十九点 八分。(一一)偏相关的操作过程偏相关的操作过程56第五十六页,编辑于星期六:十九点 八分。1.分
32、析分析_相关分析相关分析_偏相关偏相关57第五十七页,编辑于星期六:十九点 八分。2.选择进行相关分析的变量选择进行相关分析的变量58第五十八页,编辑于星期六:十九点 八分。Descriptive StatisticsMeanStd.Deviation文化程度3.481.012月平均收入6.362.471单位性质4.421.25659第五十九页,编辑于星期六:十九点 八分。这是没有控制变量的零阶这是没有控制变量的零阶pearsonpearson相关结果相关结果,显示的是两个变量的相关系数显示的是两个变量的相关系数,一端检验的显著性一端检验的显著性水平和自由度水平和自由度.偏相关偏相关零阶相关零
33、阶相关零阶相关零阶相关60第六十页,编辑于星期六:十九点 八分。n可以看出可以看出,在控制了在控制了单位性质单位性质之后之后,文化程度与月平均收入的相关系数文化程度与月平均收入的相关系数为为0.268,与没有控制与没有控制单位性质单位性质时的时的相关系数相关系数0.260相比相比,基本相同基本相同,说明月说明月平均收入除受文化程度的影响外平均收入除受文化程度的影响外,还还受单位性质的影响受单位性质的影响.61第六十一页,编辑于星期六:十九点 八分。第十二章 多元线性回归分析62第六十二页,编辑于星期六:十九点 八分。例例12-1 27名糖尿病人的血清总胆名糖尿病人的血清总胆固醇、甘油三脂、空腹
34、胰岛素、糖化固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表12-2中,试分析哪些指标能影响血糖中,试分析哪些指标能影响血糖水平,并建立血糖与其它几项关系指水平,并建立血糖与其它几项关系指标的回归关系。标的回归关系。63第六十三页,编辑于星期六:十九点 八分。64第六十四页,编辑于星期六:十九点 八分。多元线性回归分析一、多元回归方程的概念二、多元回归分析步骤三、标准化偏回归系数四、自变量的筛选五、回归方程的总体评价六、多元线性回归的应用七、应用多元线性回归分析时需注意的事项65第六十五页,编辑于星期六:十九点 八分。b0为回归方程的常数项;为回
35、归方程的常数项;p为自变量的个数;为自变量的个数;b1、b2、bp为偏回归系数(为偏回归系数(Partialregressioncoefficient)意义:如意义:如b1表示在表示在X2、X3Xp固定条件下,固定条件下,X1每增减每增减一个单位对一个单位对Y的效应(的效应(Y增减增减b个单位)。个单位)。表达式:表达式:一.多元回归方程的概念66第六十六页,编辑于星期六:十九点 八分。二.多元回归分析步骤(1)用各变量的数据建立回归方程;67第六十七页,编辑于星期六:十九点 八分。由上表由上表得到如下多元线性回归方程:得到如下多元线性回归方程:68第六十八页,编辑于星期六:十九点 八分。(2
36、)对总的方程进行假设检验n结果无显著性 1)表明所观察的自变量与应变量不存在线性回归关系;2)也可能由于样本例数过少;n结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。69第六十九页,编辑于星期六:十九点 八分。(3)当总的方程有显著性意义时应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。70第七十页,编辑于星期六:十九点 八分。上例资料多元回归方程上例资料多元回归方程1的偏回归系数检验
37、结果如下的偏回归系数检验结果如下:有上表可知,有上表可知,X1被剔除。被剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。由方程中由方程中剔剔除因素的标准(通常除因素的标准(通常 =0.10)71第七十一页,编辑于星期六:十九点 八分。n重新建立不包含剔除因素的回归方程72第七十二页,编辑于星期六:十九点 八分。n对新建立的回归方程进行检验检验结果有显著性意义检验结果有显著性意义73第七十三页,编辑于星期六:十九点 八分。n对新方程的偏回归系数进行检验检验结果有意义,因此回归方程保留因素检验结果有意义,因此回归方程保留因素X2、X3、X4最后获得
38、回归方程为:最后获得回归方程为:74第七十四页,编辑于星期六:十九点 八分。三.标准化偏回归系数n定义:消除测量单位影响后的偏回归系数。n意义:在许多情况下需要比较各自变量对因变量的相对贡献大小。但由于各自变量的测量单位不同,单从各偏回归系数的绝对值大小来评价是不妥的,必须对各偏回归系数进行标准化处理,即消除测量单位的影响后,才能进行比较。75第七十五页,编辑于星期六:十九点 八分。举 例n例 y=14+4X 是17岁儿童以年龄X(岁)估计体重Y(市斤)的回归方程。若体重单位由市斤换成公斤,则回归系数是否发生改变?若年龄单位为月若年龄单位为月?76第七十六页,编辑于星期六:十九点 八分。标准偏
39、回归系数计算 bj=bj Sj /SY bj为X的偏回归系数;Sj为自变量的标准差;SY 为因变量的标准差;n 若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。77第七十七页,编辑于星期六:十九点 八分。上例资料,已知上例资料,已知X2、X3与与X4对血糖有影响,但对血糖有影响,但其对血糖的相对作用大小如何?其对血糖的相对作用大小如何?比较三个标准偏回归系数比较三个标准偏回归系数0.3540.3600.41311.021.17(倍)(倍)糖化血红蛋白对血糖的影响强度约为甘油三脂的糖化血红蛋白对血糖的影响强度约为甘油三脂的1.17倍。倍。78第七十八页,编
40、辑于星期六:十九点 八分。四.自变量的筛选(1)向前筛选法(Forward selection)(2)向后剔除法(Backward elimination)(3)逐步法(Stepwise)79第七十九页,编辑于星期六:十九点 八分。(1)向前筛选法(Forward selection)事先给定一个入选标准(通常=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。优缺点优缺点:可自动去除高度相关的自变量,但后续变量引入:可自动去除高度相关的自变量,但后续变量引入会使得方程中已存在的变量重要性发生改变。会使得
41、方程中已存在的变量重要性发生改变。80第八十页,编辑于星期六:十九点 八分。因变量与各自变量相关系数大小81第八十一页,编辑于星期六:十九点 八分。向前筛选法,=0.0582第八十二页,编辑于星期六:十九点 八分。向前筛选法,=0.10为什么总胆固醇会从有意义因素变为无意义?为什么总胆固醇会从有意义因素变为无意义?83第八十三页,编辑于星期六:十九点 八分。首先建立全部自变量的全回归方程,给定剔除标准(通常=0.10),根据各因素偏回归平方从小到大,依次逐个将无显著性的自变量从回归方程中剔除。(2)向后剔除法(Backward elimination)优缺点优缺点:方程不会保留无意义自变量,但
42、可能存在共线性:方程不会保留无意义自变量,但可能存在共线性问题。问题。84第八十四页,编辑于星期六:十九点 八分。向后筛选法,=0.1085第八十五页,编辑于星期六:十九点 八分。(3)逐步法(Stepwise)给出入选标准(通常 1=0.05)和 剔除标准(通常2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。实际工作中,多采用逐步法。86第八十六页,编辑于星期六:十九点 八分。逐步法入选标准1=0.05和 剔除标准2=0.
43、1087第八十七页,编辑于星期六:十九点 八分。逐步法入选标准1=0.10和 剔除标准2=0.1588第八十八页,编辑于星期六:十九点 八分。89第八十九页,编辑于星期六:十九点 八分。五、回归方程的总体评价以确定系数(R2)越大越优,但由于R2是随自变量的增加而增大,因此,在相近的情况下,以包含的自变量少者为优,也可用校正确定系数(R2a)作为评价标准。R2a不会随无意义的自变量增加而增大。校正确定系数的计算:P为方程中包含的自变量个数。为方程中包含的自变量个数。90第九十页,编辑于星期六:十九点 八分。91第九十一页,编辑于星期六:十九点 八分。六、多元线性回归的应用q影响因素(多因素)分
44、析(1)多因素的筛选;1)哪些是主要因素?)哪些是主要因素?2)各因素的作用大小?)各因素的作用大小?(2)混杂因素的控制。例分析某预防措施对社区人群肠道传染病的防制效果q估计和预测 由于考虑到多个因素,可以显著提高估计和预测的精度。q统计控制92第九十二页,编辑于星期六:十九点 八分。七.应用多元线性回归分析时需注意的事项(1)资料要求:因变量Y为连续变量,服从正态分布。自变量X可为连续或分类变量。Y与X1、X2、Xm之间具有线性关系。残差e服从(0,)正态分布。指观察值与估计值之差。指观察值与估计值之差。93第九十三页,编辑于星期六:十九点 八分。七.应用多元线性回归分析时需注意的事项(2
45、)做预报时,只能在自变量X的观察值范围内进行;例如:建立儿童期体表面积(Y)与身高(X1)、体重(X2)的线性回归方程,但不能利用该方程来推算某一身高、体重的成人的体表面积。(3)注意资料的特异点;94第九十四页,编辑于星期六:十九点 八分。(5)观测值重新量化问题观测值重新量化问题。(4)样本含量样本含量一般应使样本含量是自变量数的一般应使样本含量是自变量数的510倍。倍。95第九十五页,编辑于星期六:十九点 八分。(6)自变量筛选过程中引入和剔除变量时检验的水准确自变量筛选过程中引入和剔除变量时检验的水准确定定1)引入变量检验的水准)引入变量检验的水准小于小于剔除变量时检验的水准剔除变量时
46、检验的水准2)通常引入变量检验的水准为)通常引入变量检验的水准为0.05,剔除变量时,剔除变量时0.10,但不绝对。但不绝对。96第九十六页,编辑于星期六:十九点 八分。(7)自变量的联合作用分析自变量的联合作用分析若要考虑若要考虑X1、X2对应变量对应变量y的联合作用,可设置一的联合作用,可设置一个新变量个新变量X3=X1X2上例中,如考虑胰岛素(上例中,如考虑胰岛素(X3)与糖化血红蛋白()与糖化血红蛋白(X4)存在交互作用,则设置新变量)存在交互作用,则设置新变量X5=X3X4经检验后,有意义,得:经检验后,有意义,得:97第九十七页,编辑于星期六:十九点 八分。98第九十八页,编辑于星
47、期六:十九点 八分。99第九十九页,编辑于星期六:十九点 八分。(8)自变量的共线性 当自变量之间存在较强的相关关系时,称之为共线性,对一组存在共线性的自变量进行多元回归分析时,偏回归系数的估计值容易失真。(9)结果分析1)因变量的变异可由自变量解释的比例(R2)即R2=SS回/SS总 2)正确分析入选方程的自变量与因变量之间的关系3)正确分析未入选方程的自变量与因变量之间的关系100第一百页,编辑于星期六:十九点 八分。(10)残差分析 指观察值与估计值之差。在正常情况下ei服从均值为0的正态分布。对上例资料建立的回归方程作残差图分析101第一百零一页,编辑于星期六:十九点 八分。102第一
48、百零二页,编辑于星期六:十九点 八分。103第一百零三页,编辑于星期六:十九点 八分。第二节 多元线性相关资料要求:Y与p个自变量X都服从正态分布。1.复相关系数(多元相关系数)R如果如果F F(p,n-p-1),则在则在 水平上拒绝水平上拒绝H0 表示表示p个自变量共同对应变量的个自变量共同对应变量的相关密切程度相关密切程度。R 波动范围在波动范围在 01 之间,它与之间,它与r 值不同,没有负值。值不同,没有负值。R值越接近值越接近 1,相关越密切。,相关越密切。R值随引入回归方程内的自变值随引入回归方程内的自变量个数增加而增大。量个数增加而增大。104第一百零四页,编辑于星期六:十九点
49、八分。n确定系数(R2)即R2=SS回/SS总 ,回归变异占总变异的比值.它表明由于引入有显著性相关的自变量,使总平方和减少的部分。105第一百零五页,编辑于星期六:十九点 八分。2.校正复相关系数(校正复相关系数(Ra)和校正确定系数)和校正确定系数(R2a)复相关系数随方程中变量数的增加而增大,即使无复相关系数随方程中变量数的增加而增大,即使无显著性的变量进入方程,其值亦增加。校正复相关系数显著性的变量进入方程,其值亦增加。校正复相关系数和校正确定系数就是针对这一现象提出的一种校正,当和校正确定系数就是针对这一现象提出的一种校正,当方程中增加无显著性变量时,校正复相关系数和校正确方程中增加无显著性变量时,校正复相关系数和校正确定系数就会减少。定系数就会减少。106第一百零六页,编辑于星期六:十九点 八分。107第一百零七页,编辑于星期六:十九点 八分。3.偏相关系数(rjy)它表示在其它自变量固定的条件下,某自变量与应变量之间的相关密切程度和方向。其值也波动在-11 之间。上例资料偏相关系数的计算:108第一百零八页,编辑于星期六:十九点 八分。THEEND109第一百零九页,编辑于星期六:十九点 八分。
限制150内