《《相关测量法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关测量法》PPT课件.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三讲统计相关测量法一、选择相关测量法需要注意三个问题一、选择相关测量法需要注意三个问题n n 第第一一、变变量量的的测测量量层层次次:定定类类、定定序序和和定定距距。属属于于不不同同测测量量层层次次的变量,就要用不同的相关测量法。的变量,就要用不同的相关测量法。n n 第第二二、变变量量之之间间关关系系是是对对称称还还是是不不对对称称的的。有有些些相相关关测测量量法法是是假假定变量与变量之间具有对称关系,有些则假定是不具有对称关系。定变量与变量之间具有对称关系,有些则假定是不具有对称关系。n n 第第三三、注注意意统统计计值值的的意意义义。一一般般选选择择具具有有消消减减误误差差比比例例意意
2、义义的的测测量法,即量法,即PREPRE测量法。测量法。n n根据变量层次,有六种相关测量情况:根据变量层次,有六种相关测量情况:n n两个定类变量两个定类变量n n两个定序变量两个定序变量n n两个定距变量两个定距变量n n一个定类变量和一个定距变量一个定类变量和一个定距变量n n一个定类变量和一个定序变量一个定类变量和一个定序变量一个定序变量和一个定距变量一个定序变量和一个定距变量二、两个变量的相关测量法二、两个变量的相关测量法二、两个变量的相关测量法二、两个变量的相关测量法两个变量的两个变量的测量等级测量等级相关系数相关系数是否描述对是否描述对称关系称关系取值范围取值范围有无减少误有无减
3、少误差意义差意义SPSSSPSS上有无上有无该系数该系数定类与定类定类与定类LambdaLambda对称对称00,11有有有有LambdayLambday不对称不对称00,11有有无无TauyTauy不对称不对称00,11有有有有定序与定序定序与定序GammaGamma对称对称-1-1,11有有有有dydy不对称不对称-1-1,11有有有有TauaTaua不对称不对称-1-1,11无无有有TaubTaub对称对称-1-1,11无无有有TaucTauc对称对称-1-1,11无无无无rhorho对称对称-1-1,11有有有有定距与定距定距与定距回归系数回归系数非对称非对称正负无穷大正负无穷大有有有
4、有积矩相关系数积矩相关系数对称对称-1-1,11有有有有定类与定距定类与定距EtaEta非对称非对称00,11有有有有定类与定序定类与定序LambdaLambda,TauyTauy对称对称不对称不对称00,1100,11有有有有有有无无定序与定距定序与定距EtaEta非对称非对称00,11有有有有三、两个定类变量的统计相关三、两个定类变量的统计相关三、两个定类变量的统计相关三、两个定类变量的统计相关n n1 1、LambdaLambda相关测量法相关测量法相关测量法相关测量法n nLambdaLambda相相关关测测量量法法的的基基本本逻逻辑辑是是用用一一个个定定类类变变量量来来解解释释或或预
5、预测测另另一一个个定定类类变变量量时时,以以众众数数作作为为解解释释或或预预测测的的标标准准,可可以以减减除除多多少少预预测测误差。误差。n n LambdaLambda相相关关测测量量法法有有两两种种形形式式。一一种种是是对对称称形形式式,即即两两个个变变量量间间的的关关系系是是对对称称的的,不不分分自自变变量量或或因因变变量量。另另一一种种是是不不对对称称形形式式,即即要要求一个是自变量(求一个是自变量(X X),另一个是因变量(),另一个是因变量(Y Y)。)。(对称形式)(非对称形式)其中:My是Y变量的众数次数。Mx是X变量的众数次数。mx是Y变量的每个值(类别)之下X变量的众值次数
6、。my是X变量的每个值(类别)之下X变量的众值次数。n是全部样本数目。表表表表11001100名青年的人生志愿与性别的关系名青年的人生志愿与性别的关系名青年的人生志愿与性别的关系名青年的人生志愿与性别的关系 性别X总数男女快乐家庭103040理想工作401050增广见闻10010总数6040100资料表明性别与志愿是非对称关系,性别为自变量,志愿为因变量,二者都是定类变量,故要应用LambdaLambda系数来计算相关情况。根据的系数公式和表1的次数资料,可知M=50,m=40+30=70,n=100,该统计量表明,以X解释或预测Y,可以消减40%的误差。2 2、tauYtauY相关测量法相关
7、测量法n n测量方法测量方法测量方法测量方法n n tauYtauY系系数数是是属属于于不不对对称称相相关关测测量量法法,要要求求两两个个定定类类变变量量中中有有一一个个是是自自变变量量(X X),另另一一个个是是因因变变量量(Y Y)。系系数数值值在在0 0与与1 1之之间间,具具有有消消减减误误差差比比例例的的意意义义。该该方方法法与与LamabdaLamabda不不同同在在于于计计算算系系数数时时,包包括括所有的边缘次数和条件次数。所有的边缘次数和条件次数。其中:E1为不知道X而预测Y时的全部误差,E2为知道X预测Y时的误差。n为全部个案数目,f为某条件次数,Fy为Y变量的某个边缘次数,
8、Fx为X变量的某个边缘次数。根据表1的研究资料。全部样本数目(n)是100。性别是自变量(X),边缘次数(Fx)分别是60和40;志愿是因变量(Y),边缘次数(Fy)分别是40、50和10。表内有六个条件次数,每者都代表同属于某项Y值与某项X值的样本数目(f)。这个数值不但能表示性别与志愿的相关程度,而且可以解释为以性别来预测或估计志愿,能够消减22.4%的误差。由于tau-y测量法是考虑全部次数,故其敏感度高于Lambda测量法。tauy=(58-45)/58=22.4%四、两个定序变量的统计相关四、两个定序变量的统计相关n n计算一个定序变量与另一个定序变量的相关系数,可用计算一个定序变量
9、与另一个定序变量的相关系数,可用GammaGamma系数,系数,dydy系数,肯得尔的系数,肯得尔的tautau系数以及斯皮尔曼的系数以及斯皮尔曼的rhorho系系数。数。n n1 1、计算中所用的基本概念(同序对、异序对、同分对)、计算中所用的基本概念(同序对、异序对、同分对)、计算中所用的基本概念(同序对、异序对、同分对)、计算中所用的基本概念(同序对、异序对、同分对)n n同同同同序序序序对对对对。如如果果某某对对样样本本在在两两个个变变量量上上的的相相对对等等级级是是相相同同的的,则则称称为同序对(为同序对(sameorderedpairsameorderedpair)。)。n n异异
10、异异序序序序对对对对。如如果果某某对对样样本本在在两两个个变变量量上上的的相相对对等等级级是是不不相相同同的的,则则称为异序对(称为异序对(different-orderedpairdifferent-orderedpair)。)。n n 同同同同分分分分对对对对。如如果果两两个个样样本本在在某某变变量量上上可可能能是是同同分分(tietie),即即不不能能分分高低,则称为同分对。高低,则称为同分对。n n学生成绩等级数学英文A42B33C21D14四名学生的成绩等级四名学生的成绩等级n nA A与与C C是同序对,因为是同序对,因为A A的数学成绩等级低于的数学成绩等级低于C C,其英文成绩
11、也低于其英文成绩也低于C C同理,同理,B B与与C C也是同序对也是同序对至于至于A A与与B B则是异序对则是异序对,因为因为A A的数学成绩等级的数学成绩等级低于低于B B,但其英文成绩高于,但其英文成绩高于B B同理,同理,A A与与D D,BB与与D D,和,和C C与与D D皆是异序对综合起来,同序对皆是异序对综合起来,同序对有个,异序对有个有个,异序对有个n ns=2,Nd=4s=2,Nd=42 2、GammaGamma相关测量法相关测量法相关测量法相关测量法n n计算公式:计算公式:n nGammaGamma系系数数不不考考虑虑同同分分对对数数。公公式式中中的的分分母母,表表示
12、示在在预预测测或或解解释释任任何何一一个个个个案案的的相相对对等等级级时时可可能能的的最最大大误误差差。公公式式中中的的分分子子,表表示示以以一一对对个个案案在在一一个个变变量量上上的的相相对对等等级级来来预预测测其其在在另另一一变变量量上上的的相相对对等等级级所所能能减减少少的误差。的误差。GammaGamma属于对称相关测量法。属于对称相关测量法。3 3、d d相关测量法相关测量法相关测量法相关测量法n n计算公式:计算公式:n n 其其中中NsNs是是同同序序对对数数,NdNd是是异异序序对对数数,T T是是只只在在因因变变量量Y Y上上同同分分的的对对数数。d d相相关关测测量量法法属
13、属于于非非对对称称相相关关测测量量法。法。G=(Ns-Nd)/(Ns+Nd)D=(Ns-Nd)/(Ns-Nd+Ty)工厂工人积极性与产量积极性等级产量等级A55B33C41D1.53E1.534 4、肯德尔的、肯德尔的tautau系数系数 肯肯德德尔尔的的tautau系系数数可可分分三三种种形形式式,分分别别称称为为tau-atau-a,tau-btau-b,tau-ctau-c,都都是是适适用用于于分分析析对对称称的的关关系系。其其基基本本逻逻辑辑是是计计算算同同序序对对数数与异序对数之差在全部可能对数中所占的比例与异序对数之差在全部可能对数中所占的比例n n如何选用这三种系数呢?如何选用这
14、三种系数呢?n n 1 1、如如果果在在两两个个变变量量上上都都没没有有同同分分对对,则则使使用用tau-atau-a,该该系系数数值是由值是由-1-1+1+1。n n 2 2、如如果果有有同同分分对对,且且在在交交叉叉分分组组表表行行数数与与列列数数相相同同(即即r=cr=c)的情况下,可用)的情况下,可用tau-btau-b,其系数值是由,其系数值是由-1-1+1+1。n n 3 3、tau-ctau-c则则不不考考虑虑是是否否有有同同分分对对,也也不不考考虑虑行行数数与与列列数数是是否否相等,其系数值在相等,其系数值在-1-1+1+1之间。之间。n n Tau-cTau-c系系数数适适合
15、合于于社社会会科科学学研研究究,因因为为社社会会科科学学研研究究在在问问卷卷的的设设计计时时,不不一一定定各各个个问问题题的的选选项项都都相相同同,在在做做交交叉叉分分析析时时,表表的的大小无一定规则,同时表中常有很多同分对。大小无一定规则,同时表中常有很多同分对。n n 其中,Ns是同序对,Nd是异序对,n是全部个案数目,m是交互分类表的行数(r)与列数(c)中的较小者。5 5、斯皮尔曼、斯皮尔曼rhorho系数系数n n 斯斯皮皮尔尔曼曼rhorho系系数数也也称称等等级级相相关关系系数数,其其特特点点是是在在计计算算每每个个个个案案在在两两个个变变量量上上的的等等级级时时,不不仅仅要要区
16、区别别二者的高低差异,而且还要计算二者差异的确切数值。二者的高低差异,而且还要计算二者差异的确切数值。n n 该该方方法法的的特特点点是是:1 1、是是对对称称相相关关测测量量法法,其其统统计值在计值在-1+1-1+1之间;之间;2 2、该值具有消减误差比例的意义。、该值具有消减误差比例的意义。十个乡的经济水平与卫生水平十个乡的经济水平与卫生水平十个乡的经济水平与卫生水平十个乡的经济水平与卫生水平乡名乡名经济经济卫生卫生D DD D平方平方A A1 11 10 00 0B B2 23 3-1-11 1C C3 34 4-1-11 1D D4 45 5-1-11 1E E5 58 8-3-39
17、9F F6 66.56.5-0.5-0.50.250.25G G7 79.59.5-2.5-2.56.256.25H H8.58.56.56.52 24 4I I8.58.59.59.5-1-11 1J J10102 28 86464五、两个定距变量的相关五、两个定距变量的相关n n如如果果所所研研究究的的变变量量都都属属于于定定距距测测量量层层次次,可可以以用用简简单单线线性性回回归归分分析析法法测测算算以以自自变变量量的的数数值值预预测测或或估估计计因因变变量量的的数数值值,也也可可以以用积距相关系数来测量两个变量的相关程度。用积距相关系数来测量两个变量的相关程度。1 1、简单线性回归分析
18、简单线性回归分析简单线性回归分析简单线性回归分析n n 简简单单线线性性回回归归分分析析就就是是根根据据一一个个直直线线方方程程式式,以以一一个个自自变变量量(X X)的的 数数 值值 来来 预预 测测 一一 个个 因因 变变 量量(Y Y)的的 数数 值值。这这 个个 方方 程程 式式 表表 示示 为为:Y1=a+bXY1=a+bX由于实际值是Y,则预测误差便是:e=Y-Y1。将全部样本个案的各个e相加起来就是误差总数,但这样做的结果会引起正负值相抵消的问题。为了克服“正负抵消”问题,我们将e的平方值相加起来,再使之最小,这就是所谓的“最小二乘法准则”。通过求极值得到b解:r=2、积距相关测
19、量法尽管通过b值的作用,使我们能够以X的变化来预测Y的变化。但由于b值没有上限,难以判断变量之间的相关强弱。因此需要应用皮尔逊(pearson)的积距相关系数(r),公式如下:r系数与b系数的区别,是r系数假定X与Y的关系是对称的,而且r的统计值是由-1至+1,同时r的平方值具有消减误差的意义。这个r值,称为决定系数。六、定类与定距、定类与定序、定序与定距六、定类与定距、定类与定序、定序与定距六、定类与定距、定类与定序、定序与定距六、定类与定距、定类与定序、定序与定距 变量的相关变量的相关变量的相关变量的相关n n1 1、定类与定距、定类与定距相关比率测量法相关比率测量法(Eta(Eta)n
20、n相关比率是测量一个定类变量与一个定距变量相相关比率是测量一个定类变量与一个定距变量相关关系的方法。其中定类变量为自变量(关关系的方法。其中定类变量为自变量(X X),定距变),定距变量为因变量(量为因变量(Y Y)。相关比率就是根据自变量的每一个)。相关比率就是根据自变量的每一个值来预测或估计因变量的均值。值来预测或估计因变量的均值。EtaEta系数值是由系数值是由0 0到到1 1,其平方值具有消减误差比例的意义。其平方值具有消减误差比例的意义。n n2 2、定类与定序、定类与定序LambdaLambda,tauytauy系数系数n n3 3、定序与定距、定序与定距相关比率相关比率语语文文水
21、水平平职业种类职业种类干部干部工人工人农民农民78785252838382825959757591917373828290906161787885858080808081815151838364645454样本数样本数7 78 85 5均值均值84.2984.2961.7561.7579.6079.60标准差标准差4.404.409.649.642.872.87例:语文水平与职业的关系上表是研究20名学生的家庭职业背景(分为干部工人和农民三类对其语文能力(由0至100分)的影响.家庭职业背景是自变量,属于定类测量层次.而语文水平是因变量,属于定距测量层次,故可用Eta统计量.六、偏相关系数六、
22、偏相关系数六、偏相关系数六、偏相关系数n n1 1、概念、概念、概念、概念n n 在在多多元元回回归归分分析析中中,其其他他变变量量被被固固定定后后,给给定定的的任意两个变量之间的相关系数,叫偏相关系数。任意两个变量之间的相关系数,叫偏相关系数。n n在在因因果果分分析析中中,控控制制第第三三类类变变量量以以后后,两两个个变变量量的的相相关系数也称偏相关系数。关系数也称偏相关系数。n nn n2 2、计算公式、计算公式、计算公式、计算公式n n 偏偏相相关关系系数数属属于于对对称称相相关关测测量量法法的的一一种种,它它要要求求变变量间是直线关系,且所有变量都必须是定距变量。量间是直线关系,且所
23、有变量都必须是定距变量。n n假定我们所研究的两个变量假定我们所研究的两个变量X X与与Y Y,如果控制一个变,如果控制一个变量量WW,则偏相关系数的计算公式如下,则偏相关系数的计算公式如下:n n公式公式1 1左边的符号表示在控制左边的符号表示在控制WW变量以后,变量以后,X X与与Y Y的的净相关(下标中的小点表示控制),而公式净相关(下标中的小点表示控制),而公式1 1右边的各右边的各个个r r就是两个变量之间的积矩相关。分子中的第一项表就是两个变量之间的积矩相关。分子中的第一项表示示X X与与Y Y的相关程度,第二项分别表示的相关程度,第二项分别表示X X、Y Y与控制变量与控制变量之
24、间的相关关系。公式之间的相关关系。公式2 2、3 3表示同时控制两个或两个表示同时控制两个或两个以上的第三变量,以上的第三变量,X X与与Y Y的净相关。如此类推,可以同的净相关。如此类推,可以同时控制更多的第三类变量。公式时控制更多的第三类变量。公式1 1也称为一阶相关,公也称为一阶相关,公式式2 2称为二阶相关,等等。称为二阶相关,等等。n n例例题题4 4:利利用用偏偏相相关关系系数数分分析析2727个个村村工工业业化化程程度度与与人人均均耕地面积和距离城市远近的关系。耕地面积和距离城市远近的关系。2727个村的工业化程度、耕地人口比例和距城远近个村的工业化程度、耕地人口比例和距城远近个
25、村的工业化程度、耕地人口比例和距城远近个村的工业化程度、耕地人口比例和距城远近村村工业人口(工业人口(%)每人耕地(亩)每人耕地(亩)离城距离离城距离1 117.517.50.750.752.52.52 29.19.11.241.242.72.73 38.98.91.251.254.94.94 47.87.81.151.154.04.05 57.87.81.051.050.70.76 67.87.80.690.692.82.87 77.47.41.211.213.43.48 87.17.11.021.024.34.39 96.56.51.151.151.81.810106.26.21.031.
26、031.01.011115.85.81.541.5410.810.812124.94.91.021.021.51.513134.64.61.481.487.37.314144.34.31.241.246.36.315153.93.91.321.327.87.816163.93.91.361.3613.213.217173.83.81.371.374.54.518183.13.11.301.307.27.219192.82.80.990.994.04.020202.72.71.211.213.43.421212.32.31.071.074.34.322222.32.31.221.227.27.2
27、23232.22.21.341.347.27.224241.81.81.451.456.06.025251.01.01.561.565.75.726260.80.81.391.3910.410.427270.50.51.441.447.27.2n n从理论上讲,村的工业化程度与耕地面积有较强从理论上讲,村的工业化程度与耕地面积有较强的负相关性。如果村中人均耕地面积多,就没有迫切的负相关性。如果村中人均耕地面积多,就没有迫切的需要和剩余的人力来发展工业,相反,如果地少人的需要和剩余的人力来发展工业,相反,如果地少人多,就具有发展工业的迫切性与可能性。二者的相关多,就具有发展工业的迫切性与可能性。
28、二者的相关关系为关系为-0.64-0.64,能够验证理论。,能够验证理论。n n如果考虑到村子距城镇距离远近这个因素,上述如果考虑到村子距城镇距离远近这个因素,上述关系还存在吗?离城越近的村,在信息与市场等要素关系还存在吗?离城越近的村,在信息与市场等要素方面,更具发展工业的条件。因此需要对距城镇远近方面,更具发展工业的条件。因此需要对距城镇远近加以控制,作为进一步考察工业化程度与人均耕地面加以控制,作为进一步考察工业化程度与人均耕地面积的前提条件。计算得偏相关系数为积的前提条件。计算得偏相关系数为-0.47-0.47。这个数与。这个数与原相关系数比较,明显地减弱了。这说明人均耕地面原相关系数
29、比较,明显地减弱了。这说明人均耕地面积与工业化的关系,部分需要由离城远近来解释。积与工业化的关系,部分需要由离城远近来解释。七、其他偏相关测量法七、其他偏相关测量法七、其他偏相关测量法七、其他偏相关测量法n n如果是定类变量,需要用偏如果是定类变量,需要用偏LambdaLambda或净或净tau-ytau-y系系数来测量。该种方法就是依据控制变量的值把样本分数来测量。该种方法就是依据控制变量的值把样本分组,然后计算各个分组的系数值的加权平均。通常是组,然后计算各个分组的系数值的加权平均。通常是以每组的个案数目与全部样本个案数目的比例作为权以每组的个案数目与全部样本个案数目的比例作为权数。数。n
30、 n如果是定序变量,需要用偏如果是定序变量,需要用偏GammaGamma系数来测量。系数来测量。该种方法是依据控制变量的值将样本分组,然后在每该种方法是依据控制变量的值将样本分组,然后在每组中计算同序对数(组中计算同序对数(NsNs)和异序对数()和异序对数(NdNd),再把各),再把各组的组的“Ns-Nd”“Ns-Nd”除以各组的除以各组的“Ns+Nd”“Ns+Nd”的总和,就是偏的总和,就是偏GrammaGramma相关系数。相关系数。n n例如,研究投票与选民的收入与性别的关系例如,研究投票与选民的收入与性别的关系控制收入因素时性别与投票之间的关系控制收入因素时性别与投票之间的关系控制收
31、入因素时性别与投票之间的关系控制收入因素时性别与投票之间的关系收入收入=贫穷贫穷收入收入=富裕富裕女性女性男性男性合计合计女性女性男性男性合计合计民主党民主党153153242417717752529494146146共和党共和党44447 75151123123223223346346合计合计1971973131228228175175317317492492=0=0=0=0控制收入因素时,性别与投票之间的平均控制收入因素时,性别与投票之间的平均=0=0控制性别因素时收入与投票之间的关系控制性别因素时收入与投票之间的关系控制性别因素时收入与投票之间的关系控制性别因素时收入与投票之间的关系性别性别=男性男性性别性别=女性女性贫穷贫穷富裕富裕总计总计贫穷贫穷富裕富裕总计总计民主党民主党153153525220520524249494118118共和党共和党44441231231671677 7223223230230合计合计1971971751753723723131317317348348=0.48=0.48=0.29=0.29平均平均=0.39=0.39n n相关系数与相关系数与相关系数与相关系数与SPSSSPSS
限制150内