十、多变量分析详析模型与多元线性回归.ppt
《十、多变量分析详析模型与多元线性回归.ppt》由会员分享,可在线阅读,更多相关《十、多变量分析详析模型与多元线性回归.ppt(109页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十一讲:第十一讲:多变量的统计分析多变量的统计分析-详析分析与统计控制详析分析与统计控制1n社会现象的复杂性决定了社会中各事物之间社会现象的复杂性决定了社会中各事物之间的关系并不是简单的两两相关,两个变量之的关系并不是简单的两两相关,两个变量之间的关系也可能受到其他因素(如间的关系也可能受到其他因素(如W、T)的)的影响。因此,当前社会学的研究中不仅关注影响。因此,当前社会学的研究中不仅关注两个变量的关系,更关注多个变量关系的分两个变量的关系,更关注多个变量关系的分析。析。2一、多变量分析的主要类型一、多变量分析的主要类型详析分析详析分析n多项分析多项分析多因分析多因分析多项相互分析多项相互
2、分析多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:多变量的分析根据研究目的的不同,可以分为三类:详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。详析分析、多因分析和多项相关分析。31、详析分析、详析分析n详析分析是通过引进第三个变量(如详析分析是通过引进第三个变量(如W、T),),通过分析第三个变量与两个变量(通过分析第三个变量与两个变量(X,Y)的)的关系,进一步加深对两个变量之间关系的了解。关系,进一步加深对两个变量之间关系的了解。4详析分析研究
3、的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,详析分析研究的是两个变量之间的关系,引进其他变量(引进其他变量(引进其他变量(引进其他变量(WW,T T,C C)的目的是要加深了解)的目的是要加深了解)的目的是要加深了解)的目的是要加深了解这两个变量(这两个变量(这两个变量(这两个变量(X X和和和和Y Y)的相关关系)的相关关系)的相关关系)的相关关系 X Y X YW,T,CW,T,C52、多因分析、多因分析 X1 X1 X2 Y X2 Y X3 X3说明的是多个自变量对某个因变量的共同说明的是多个自变量对某个因变量的共同说明的是多个自变量对
4、某个因变量的共同说明的是多个自变量对某个因变量的共同影响和相对效果影响和相对效果影响和相对效果影响和相对效果分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响分析两个或两个以上的自变量对一个因变量的影响63、多项相关、多项相关多个变量之间是如何相互多个变量之间是如何相互影响的影响的X1X1X2 X4X2 X4X3 X3 简化众多变量之间的相关关系简化众多变量之间的相关关系简化众多变量之间的相关关系简化众多变量之间的相关关系路径分析路径分析路径分析路径分析7二、详析分析二、详析分析详析分析反映的是两个变量之间的关系
5、,根据作用详析分析反映的是两个变量之间的关系,根据作用的不同又可以分为三种模式:的不同又可以分为三种模式:n因果分析:因果分析:X和和Y是否真有因果关系?是否真有因果关系?n阐明分析:阐明分析:X为什么会影响为什么会影响Y?n条件分析:在不同的情况下条件分析:在不同的情况下X与与Y会有不同的关会有不同的关系吗?系吗?8(一)因果分析(一)因果分析n要鉴定要鉴定X和和Y之间是否确实有因果关系之间是否确实有因果关系1、做法:引进其他变量、做法:引进其他变量w(通常称为第三类(通常称为第三类变项),看看是否由于变项),看看是否由于w既影响了既影响了x,又影响,又影响了了y,而使,而使x和和y的关系发
6、生了变化。的关系发生了变化。9如:我们发现结婚年数如:我们发现结婚年数(X)越多的人越多的人,发病率发病率(Y)也越高也越高;这是否表示二者有这是否表示二者有因果关系呢因果关系呢?显然不一定显然不一定.结婚年数结婚年数(x)越多的人,越多的人,发病率发病率(y)越高越高年龄(年龄(年龄(年龄(ww)两者之间的因果关系不成立两者之间的因果关系不成立两者之间的因果关系不成立两者之间的因果关系不成立10n在因果分析中,第三类变项(变量)称为在因果分析中,第三类变项(变量)称为前置变项前置变项因它在因果模型中是先于因它在因果模型中是先于x和和y的的n引进若干引进若干w,辨别辨别x和和y的因果关系是不是
7、虚假的:如的因果关系是不是虚假的:如果我们能控制果我们能控制w,使之不变,而,使之不变,而x变化时变化时y也起变化,也起变化,那么,那么,x和和y的关系的关系可能可能就是真实的。就是真实的。除了除了除了除了WW的影响外,还的影响外,还的影响外,还的影响外,还会有其他因素的影响会有其他因素的影响会有其他因素的影响会有其他因素的影响11n如果控制如果控制W?n简单地说就是按简单地说就是按W的取值分组,看每一的取值分组,看每一组中组中x和和y的关系的关系.n用分表法(用分表法(p221).n假设假设W有两个值有两个值(1,2),而而X与与Y也是各二也是各二值值,则原表与其分表的关系则原表与其分表的关
8、系,如下图所示如下图所示:12 原表原表原表原表 X XY Y W=1 w=2 W=1 w=2 x x x x分表分表分表分表Y yY y步骤步骤步骤步骤:1.1.分析分析分析分析X X 与与与与Y Y的关系的关系的关系的关系;2.2.分析分析分析分析W1W1与与与与X,W1X,W1与与与与 Y;Y;然后控制然后控制然后控制然后控制W1W1来辩明来辩明来辩明来辩明X X与与与与Y Y的关系的关系的关系的关系.3.3.分析分析分析分析W2W2与与与与X,w2X,w2与与与与Y,Y,然后控制然后控制然后控制然后控制W2W2来辩明来辩明来辩明来辩明X X与与与与Y Y的因果关系的因果关系的因果关系的
9、因果关系13n每个分表的作用就是在每个分表的作用就是在W不变的情不变的情况下分析况下分析X与与Y的关系的关系,而这就是统计而这就是统计控制的基本原理了控制的基本原理了.在原表中在原表中W是变是变项项,但在分表中却受到控制而变为常但在分表中却受到控制而变为常数数.n在控制在控制W后后,研究结果原则上有三种研究结果原则上有三种可能性可能性:14n第一第一.X与与Y的关系消失的关系消失,即在各分表即在各分表中中X与与Y都没有关系都没有关系.表示原表中表示原表中X与与Y的因果关系是虚假的的因果关系是虚假的,它们原来的它们原来的关系其实是由于关系其实是由于W所导致的所导致的.n如图所示如图所示:nWWX
10、 YX Y15n第二第二.X与与Y的关系维持原状的关系维持原状,即在各即在各分表中分表中X与与Y的相关与原表中的相关的相关与原表中的相关是大致上相同的是大致上相同的.这种情况这种情况,表示表示X与与Y的因果关系可能是真实的的因果关系可能是真实的,并非由并非由W所导致。所导致。n如图所示:如图所示:WWX YX Y16n第三、第三、X与与Y虽然仍有关系,但其相关程度弱小虽然仍有关系,但其相关程度弱小了,即各分表中了,即各分表中X与与Y的关系不等于的关系不等于0,但相关程,但相关程度却低于原表中的相关。这种情况,表示所控制度却低于原表中的相关。这种情况,表示所控制的第三类变项产生局部效应,即原表中
11、的第三类变项产生局部效应,即原表中X与与Y的的因果关系可能是真实的,但其中某些部分是由因果关系可能是真实的,但其中某些部分是由W所导致。所导致。n如图所示:如图所示:WWX YX Y173、统计结果与研究状况、统计结果与研究状况如果以如果以R表示表示X与与Y的原相关,以的原相关,以R1和和R2分别表示分别表示两个分表中的两个分表中的X与与Y的相关,则上述的三种研究结的相关,则上述的三种研究结果可用下表表示:果可用下表表示:18例:在某城镇调查例:在某城镇调查1000户人家,目的是要研究住户人家,目的是要研究住房的拥挤情况是否会引起夫妻之间的冲突房的拥挤情况是否会引起夫妻之间的冲突是否能证明住户
12、拥挤是导致夫妻冲突的原因?是否能证明住户拥挤是导致夫妻冲突的原因?是否能证明住户拥挤是导致夫妻冲突的原因?是否能证明住户拥挤是导致夫妻冲突的原因?19n住户拥挤(住户拥挤(x)与夫妻冲突()与夫妻冲突(y),可能),可能与家庭的经济水平有关与家庭的经济水平有关家庭经济水平家庭经济水平家庭经济水平家庭经济水平住房拥挤住房拥挤住房拥挤住房拥挤夫妻冲突夫妻冲突夫妻冲突夫妻冲突?20n因此引进经济水平变量,再进行分析因此引进经济水平变量,再进行分析21n住户拥挤(住户拥挤(x)与夫妻冲突()与夫妻冲突(y),没有显著性),没有显著性关系,家庭经济水平影响了住房情况和夫妻冲关系,家庭经济水平影响了住房情
13、况和夫妻冲突状况突状况家庭经济水平家庭经济水平家庭经济水平家庭经济水平住房拥挤住房拥挤住房拥挤住房拥挤夫妻冲突夫妻冲突夫妻冲突夫妻冲突22详析分析的一般步骤:详析分析的一般步骤:n1、分析、分析XY,n2、分析、分析WX与与WY,n3、控制、控制W,分析,分析XY的的变化。变化。23(二)阐明分析(二)阐明分析n分析的问题是:为什么分析的问题是:为什么X会影响会影响Y?如:?如:为什么较为贫困的家庭,少年犯罪率较为什么较为贫困的家庭,少年犯罪率较高呢?是否由于较为贫困的家庭中父母高呢?是否由于较为贫困的家庭中父母的争吵较多,因而使儿女的品性较为恶的争吵较多,因而使儿女的品性较为恶劣呢?劣呢?n
14、阐明分析的作用,就是要以事实来验证:阐明分析的作用,就是要以事实来验证:X是通过哪些因素(如是通过哪些因素(如T)来影响)来影响Y的?的?如下图所示:如下图所示:24X YX YT T介入变量介入变量25nX通过通过T影响影响Y意味着:意味着:X变动时引起变动时引起T的变动,的变动,而而T的变动影响的变动影响Y的变动。如果控制的变动。如果控制T使之不变,使之不变,结果是结果是X变动但变动但Y不变,则说明不变,则说明X是通过是通过T影响影响Y;n如果,在控制如果,在控制T以后以后X变而变而Y亦变,则证明亦变,则证明T是是无关紧要的,即无关紧要的,即X不是通过不是通过T而影响而影响Y的。的。n研究
15、的方法:与因果分析相同,通过分解研究的方法:与因果分析相同,通过分解T比比较较X与与Y的关系。的关系。1、X-T-Y的关系:的关系:26n例:调查了近例:调查了近300名年纪相近的妇女,发名年纪相近的妇女,发现教育水平现教育水平(x)越高,子女数目越高,子女数目(y)越少越少(G=-0.70)。为什么?)。为什么?(1)如果以)如果以晚婚晚婚来解释,教育水平越高的来解释,教育水平越高的妇女结婚越晚,因而生的孩子就较少。妇女结婚越晚,因而生的孩子就较少。如要证明这种说法,就要引进如要证明这种说法,就要引进“结婚年结婚年龄龄”作为介入变项(作为介入变项(T),加以控制。),加以控制。27n采用分表
16、法的结果,发现在晚婚的妇女教育采用分表法的结果,发现在晚婚的妇女教育水平与生孩子数目的关系是水平与生孩子数目的关系是G=-0.71,而在,而在早婚的妇女中早婚的妇女中G=-0.68。分表的相关与原相。分表的相关与原相关非常接近。关非常接近。n因此,可以得出结论:晚婚的说法,不能阐因此,可以得出结论:晚婚的说法,不能阐明教育水平与子女数目的反比关系。也就是明教育水平与子女数目的反比关系。也就是说,教育水平较高的妇女所生的孩子比较少,说,教育水平较高的妇女所生的孩子比较少,不是由于她们结婚较晚。不是由于她们结婚较晚。28(2)如果以)如果以“重男轻女重男轻女”来解释,认为教育水来解释,认为教育水平
17、越低的妇女,越是重男轻女,结果会生很平越低的妇女,越是重男轻女,结果会生很多孩子。多孩子。n控制控制“重男轻女重男轻女”这个介入变量之后,发现重男轻这个介入变量之后,发现重男轻女的女性中教育水平与生育子女数量的女的女性中教育水平与生育子女数量的G=-0.45,不,不重男轻女的女性中教育水平与生育子女数量的重男轻女的女性中教育水平与生育子女数量的G=-0.50n虽然教育水平与生育子女数目这两个变量仍然维持虽然教育水平与生育子女数目这两个变量仍然维持反比关系,但在程度上弱于原相关(反比关系,但在程度上弱于原相关(G=-0.70)n结论:教育水平较低的妇女所生的子女比较多,部结论:教育水平较低的妇女
18、所生的子女比较多,部分是由于她们所具有的重男轻女的观念。分是由于她们所具有的重男轻女的观念。教育水平教育水平教育水平教育水平生育子女数生育子女数生育子女数生育子女数重男轻女重男轻女重男轻女重男轻女292、结果、结果完全阐明:完全阐明:X完全是通过完全是通过T影响影响Y的的不能阐明:不能阐明:X完全不是通过完全不是通过T而影响而影响Y部分阐明:部分阐明:X部分是通过部分是通过T影响影响Y的的30(三)条件分析与互动效果(三)条件分析与互动效果关注的是在不同情况下,关注的是在不同情况下,X和和Y的关系会不同吗?的关系会不同吗?n条件分析就是以第三类变项(如条件分析就是以第三类变项(如C)为基础来了
19、解)为基础来了解X与与Y在不同情况下的关系。故在不同情况下的关系。故C也称为也称为条件变项条件变项。n结果:如果在各组中结果:如果在各组中X与与Y的关系大致上相同,则表的关系大致上相同,则表示示X与与Y的关系具有普遍性。相反,如果的关系具有普遍性。相反,如果X与与Y在不在不同的同的C组中有不同的关系,就表示组中有不同的关系,就表示X与与Y的关系具有的关系具有条件性,也称为条件性,也称为C变项产生互动效果。变项产生互动效果。31n我们的假设是,随着计划生育政策的实施,城我们的假设是,随着计划生育政策的实施,城市独生子女家庭的比例高于农村,这会对人们市独生子女家庭的比例高于农村,这会对人们的生育意
20、愿产生影响,使得城市中的妇女更倾的生育意愿产生影响,使得城市中的妇女更倾向于少生孩子,因此我们引进向于少生孩子,因此我们引进“城乡城乡”作为条作为条件变量,分析城市和农村妇女文化程度与生育件变量,分析城市和农村妇女文化程度与生育意愿的关系。结果发现,城市妇女中文化程度意愿的关系。结果发现,城市妇女中文化程度与生育意愿的关系是与生育意愿的关系是G0.78,农村是,农村是G0.76,两者相差不大。,两者相差不大。文化程度与妇女生育意愿的关系是否文化程度与妇女生育意愿的关系是否存在城乡存在城乡(C)差异?)差异?32n不同年龄段不同年龄段妇女的文化程度与生育意愿妇女的文化程度与生育意愿的关系,发现的
21、关系,发现55岁以上妇女中,文化程岁以上妇女中,文化程度与生育意愿的关系是度与生育意愿的关系是G0.18,4555岁者为岁者为G0.35,3545岁者为岁者为G0.68,35岁以下者为岁以下者为G0.89。可见,。可见,年龄在妇女文化程度和生育意愿关系中年龄在妇女文化程度和生育意愿关系中所起的作用远大于城乡的影响,所起的作用远大于城乡的影响,n说明文化程度与生育意愿的关系在不同说明文化程度与生育意愿的关系在不同的条件下表现出不同的情况。的条件下表现出不同的情况。33这里有几种情况:这里有几种情况:n1、压抑分析:即、压抑分析:即X与与Y本来是没有关系的或关本来是没有关系的或关系很弱(如人口密度
22、与精神病率),但在标明系很弱(如人口密度与精神病率),但在标明了了若干条件若干条件就叫压抑变项就叫压抑变项(如文化异同)以(如文化异同)以后,后,X与与Y显然是有关系或关系强大起来。显然是有关系或关系强大起来。n2、曲解分析:即把原先的负相关(、曲解分析:即把原先的负相关(如教育水如教育水平与社区参与成反比,当引入性别变量后发现平与社区参与成反比,当引入性别变量后发现男、女两组的教育水平与社区参与均成正比男、女两组的教育水平与社区参与均成正比)变为正相关,或把原先的正相关变为负相关的变为正相关,或把原先的正相关变为负相关的分析。而所用的条件(如性别)就叫曲解变项。分析。而所用的条件(如性别)就
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多变 分析 模型 多元 线性 回归
限制150内