教育统计与测量--5.相关分析剖析.ppt
第五章第五章 相关分析相关分析 任课教师:赵立任课教师:赵立教育统计与测量教育统计与测量本章主要内容本章主要内容相关、相关系数和散点图相关、相关系数和散点图各种相关系数的计算(适用条件、计算方法)各种相关系数的计算(适用条件、计算方法)n积差相关积差相关n等级相关等级相关n质量相关质量相关n品质相关品质相关相关系数的选用与解释相关系数的选用与解释一、事物之间的关系一、事物之间的关系因果关系:例如:距离因果关系:例如:距离=速度速度时间。时间。n特点:可以用函数式表达;两个变量的值是一一对应特点:可以用函数式表达;两个变量的值是一一对应的。的。共变关系:例如:盖楼房与小孩的身体发育。共变关系:例如:盖楼房与小孩的身体发育。n特点:看起来有联系,实际上没有关系。特点:看起来有联系,实际上没有关系。相关关系:例如:智力与学习成绩。相关关系:例如:智力与学习成绩。n特点:有一定联系,但两个变量的值并没有一一对应特点:有一定联系,但两个变量的值并没有一一对应关系。关系。第一节第一节 相关的意义相关的意义二、相关(统计学意义)二、相关(统计学意义)指具有相关关系的不同现象之间的关系程度指具有相关关系的不同现象之间的关系程度。1.方向:方向:(1)正相关正相关:两列变量变动方向相同。同时增大,同时减少。:两列变量变动方向相同。同时增大,同时减少。(2)负相关负相关:两列变量变动方向相反。一个增大,另一个却:两列变量变动方向相反。一个增大,另一个却减少;反之亦然。减少;反之亦然。(3)零相关零相关:两列变量之间无关系。:两列变量之间无关系。2.密切程度:密切程度:强相关、中度相关、弱相关强相关、中度相关、弱相关三、相关系数三、相关系数相关系数是两列变量相关程度的数字表现形式。样本相关相关系数是两列变量相关程度的数字表现形式。样本相关系数用系数用r表示;总体相关系数用表示;总体相关系数用 表示。表示。,r-1.00,1.00(1)完全相关:)完全相关:-1.00或或1.00,说明两个变量之间为确定关系;,说明两个变量之间为确定关系;(2)不完全相关:)不完全相关:|,r|1;(3)不相关:)不相关:当相关系数在当相关系数在0附近时,说明两个变量之间毫无附近时,说明两个变量之间毫无关系。关系。正相关时,相关系数为正,取值在正相关时,相关系数为正,取值在01之间;负相关时,相关之间;负相关时,相关系数为负,取值在系数为负,取值在-10之间。之间。注意:相关系数仅仅为一个比值,注意:相关系数仅仅为一个比值,非等距、非等比,非等距、非等比,不能做加减乘除。不能做加减乘除。三、相关散点图三、相关散点图直观地显示了两个事物的成对观测值之间是否直观地显示了两个事物的成对观测值之间是否存在相关,存在什么样的相关以及相关程度存在相关,存在什么样的相关以及相关程度(a)完全正相关)完全正相关(b)完全负相关)完全负相关(c)无相关关系)无相关关系(d)非线性关系)非线性关系(e)正相关)正相关(f)负相关)负相关计算相关系数时应注意的问题计算相关系数时应注意的问题相关系数受样本容量相关系数受样本容量n的影响的影响n如果如果n n很小,可能完全没有相关的两事物,却计算出较大很小,可能完全没有相关的两事物,却计算出较大的相关系数。的相关系数。n一般以一般以N N大于大于3030为宜为宜相关系数相关系数不是等距数据也不是比例数据不是等距数据也不是比例数据计算相关系数要求计算相关系数要求成对成对数据数据没有线性相关,不一定没有关系,可能是非线性的没有线性相关,不一定没有关系,可能是非线性的相关系数的计算不受以下因素影响相关系数的计算不受以下因素影响n互换两个变量互换两个变量n某一变量的所有值都增加同一数值某一变量的所有值都增加同一数值n某一变量的所有值都乘以同一正数某一变量的所有值都乘以同一正数第二节第二节 积差相关积差相关一、积差相关适用条件一、积差相关适用条件积差相关,也称积差相关,也称积矩相关积矩相关、皮尔逊相关皮尔逊相关,是求直线相关的基本,是求直线相关的基本方法。方法。适用条件适用条件(1)两列数据都是)两列数据都是测量的数据测量的数据(数值型变量);(数值型变量);(2)双变量正态双变量正态(获接近与正态)。要求总体为正态,但对样(获接近与正态)。要求总体为正态,但对样本不要求一定为正态。本不要求一定为正态。(3)成对成对数据数据(4)两列变量之间的关系应是)两列变量之间的关系应是线性线性的,否则不能计算线性相关。的,否则不能计算线性相关。(5)样本容量)样本容量n大于大于30,最好大于,最好大于50.即:即:两列变量为正态等距(比),且具有线性关系。两列变量为正态等距(比),且具有线性关系。把协方差变成一个相对量数,即将离差除以各自的标把协方差变成一个相对量数,即将离差除以各自的标准差,变成用标准分数表示,然后将两个标准分数的乘积准差,变成用标准分数表示,然后将两个标准分数的乘积除以除以n,所得的商就是积差相关系数。用公式表示为:,所得的商就是积差相关系数。用公式表示为:例例研究某能力测验的预测效度。研究某能力测验的预测效度。X表示能力测验的分数,表示能力测验的分数,Y表表示被试大学一、二年级有关科目的平均分数。两变量之间的相示被试大学一、二年级有关科目的平均分数。两变量之间的相关系数就是该测验的预测效度。关系数就是该测验的预测效度。XYxyx2y2xy7471808576777768747482758189828988848087-1.6-4.64.49.40.41.41.4-7.6-1.6-1.6-1.7-8.7-2.75.3-1.75.34.3.3-3.73.32.5622.1619.3688.360.161.961.9657.762.562.562.8975.697.2628.092.8928.0918.490.0913.6910.892.7240.02-11.8849.82-0.687.426.02-2.285.92-5.2875683700198.40188.0791.802 2用原始数据计算用原始数据计算公式为:公式为:例例计算身高与体重的相关系数计算身高与体重的相关系数3、用标准分数计算、用标准分数计算4、相关系数的合并、相关系数的合并意义:来自同一总体的多个样本的相关系数的合成。意义:来自同一总体的多个样本的相关系数的合成。步骤:步骤:(1)将各样本的将各样本的r转换成费舍转换成费舍Z分数分数,见附表,见附表8。(2)求每一样本的)求每一样本的Z分数之和分数之和(3)求平均)求平均Z分数分数(4)再把)再把转换为转换为第三节第三节 等级相关等级相关等级相关是指以等级次序表示的两列或多列变量等级相关是指以等级次序表示的两列或多列变量之间的相关。之间的相关。适用条件适用条件n两列变量是等距或等比变量,但不是正态分布两列变量是等距或等比变量,但不是正态分布n两列顺序变量两列顺序变量n样本容量未大于样本容量未大于30主要包括:主要包括:n斯皮尔曼等级相关斯皮尔曼等级相关n肯德尔和谐系数肯德尔和谐系数1、斯皮尔曼等级相关、斯皮尔曼等级相关(1)适用资料:适用资料:顺序量表或数值型变量按其大小排列赋顺序量表或数值型变量按其大小排列赋以等级顺序;两个变量均为等级变量的呈线性相关的资料。以等级顺序;两个变量均为等级变量的呈线性相关的资料。(2)计算公式:)计算公式:DRX-RY-各对偶等级之差,n为等级数目,RX-X变量的等级,RY-Y变量的等级请注意:请注意:尽可能不出现相同尽可能不出现相同等级,即不能并列等级,即不能并列排名,否则误差大排名,否则误差大公司的质量形象公司的质量形象与其市场份额等与其市场份额等级成正相关。级成正相关。例例一家广告代理商想了解一家公司产品质量等级是否与其市场份一家广告代理商想了解一家公司产品质量等级是否与其市场份额等级有关。小规模的实验研究,获得该行业额等级有关。小规模的实验研究,获得该行业12家公司的质量等级。家公司的质量等级。例例 研究学校内儿童问题行为与母亲耐心程度的关系。用研究学校内儿童问题行为与母亲耐心程度的关系。用X表示儿童的问题程度分数,表示儿童的问题程度分数,Y表示母亲的不耐心程度分数。表示母亲的不耐心程度分数。原始分数不是等级数据,要先化为等级数据,再代入公式。原始分数不是等级数据,要先化为等级数据,再代入公式。家庭家庭儿童(儿童(X)母亲母亲(Y)等级等级RX等级等级RYD=RX-RYD212345678910724052873995126449467962538981901082787083692101754632971018542040-500-100401602500100n=10 RX=55,RY=55 D=0 D2=46解:在观测变量没有相同等级时能够保证在观测变量没有相同等级时能够保证 RX=RY,RX2=RY2。如果。如果观测变量出现相同等级时观测变量出现相同等级时 RX=RY,但但 RX2 RY2。R2 随相同等级数目的增多而有规律地减随相同等级数目的增多而有规律地减少。少。C-差值数(没有相同等级的差值数(没有相同等级的 R2 与有几个相同等与有几个相同等级出现的级出现的 R2之差。之差。t某一等级的相同数。某一等级的相同数。其中:其中:D:对偶等级差:对偶等级差t:各变量相同等级数各变量相同等级数补充:相同等级计算方法补充:相同等级计算方法遇到相同等级时,要求他们的等级平均值遇到相同等级时,要求他们的等级平均值X10098979793939390直接等级直接等级12345678转换后的等级转换后的等级123.53.56668例例 10名样本测验成绩如下,求其相关系数。名样本测验成绩如下,求其相关系数。学生学生测验测验1(X)测验测验2(Y)等级等级RX等级等级RYD=RX-RYD21234567891080707080657075607055707570756075806565601.55.55.51.585.5395.5105.535.539.5317.57.59.5-42.50-1.5-1.52.521.5-20.5166.2502.252.256.2542.2540.25n=10 RX=55,RY=55 D2=43.52、肯德尔和谐系数、肯德尔和谐系数(1)适合于适合于k个评价者,评价多个事物的等级变量的资料个评价者,评价多个事物的等级变量的资料。(2)公式:Ri 为每一被评事物k个等级之和,n 为被评价事物的数目,即等级数,K 为评价者的数目或等级变量的列数。若k个评价者的评价完全一致,则等级和的最大方差SSR=k2(n3-n)/12,W=1;若完全没有相关,则各事物的等级之和相等,SSR=0,W=0,W0,1。和谐系数=实际等级和方差/最大可能的方差。例例有有10人对七件广告作品进行等级评价,结果如下表,问人对七件广告作品进行等级评价,结果如下表,问这这10人的评价是否具有一致性?人的评价是否具有一致性?所以,所以,10人对人对7个作品的评个作品的评价具有较高的一致性。价具有较高的一致性。肯德尔肯德尔W系数的校正系数的校正当出现相同等级时当出现相同等级时第四节第四节 质量相关质量相关质与量的相关指的是当两列变量中一列是按质与量的相关指的是当两列变量中一列是按性质不同分类的变量,而另一列是连续变量(等性质不同分类的变量,而另一列是连续变量(等距距/等比),两列变量的直线相关。等比),两列变量的直线相关。包括:包括:n二列相关二列相关n点二列相关点二列相关n多系列相关多系列相关有一种变量,只有两个取值,称为有一种变量,只有两个取值,称为二分变量二分变量(1、0)人为划分为两个取值,称人为划分为两个取值,称人为二分变量人为二分变量(及格、不及格)(及格、不及格)若有等级之分,称若有等级之分,称二分等级变量二分等级变量若无等级之分,称若无等级之分,称二分称名变量二分称名变量(男、女)(男、女)1、点二列相关、点二列相关(1)适用资料)适用资料两两列列变变量量,一一列列为为来来自自正正态态分分布布的的等等距距或或等等比比测测量量数数据据的的连连续续变变量量,另另一一列列变变量量是是二二分分称称名名变变量量或或整体不服从正态的二分等级变量整体不服从正态的二分等级变量(2)公式及计算)公式及计算*该相关系数的正负号无意义,只根据绝对值的该相关系数的正负号无意义,只根据绝对值的大小加以解释。取值大小加以解释。取值-1,1p+q=1 例例是非题得分是非题得分2 2、二列相关、二列相关(1)适用资料)适用资料两两列列变变量量,都都为为连连续续变变量量均均属属于于正正态态分分布布,一一列列变变量等距或等比,量等距或等比,另一列为人为的二分变量另一列为人为的二分变量。(2)公式及计算)公式及计算是非题用点二列,是非题用点二列,主观题评分用二列。主观题评分用二列。二二列列相相关关与与点点二二列列相相关关的的主主要要区区别别在在于于二二分分变变量量是否正态。是否正态。qyq=1-ppy例例下表为下表为10名考生一次测验的卷面总分和一道回答题的得分,名考生一次测验的卷面总分和一道回答题的得分,试求该问答题的区分度试求该问答题的区分度(该回答题满分为(该回答题满分为10分,因此得分,因此得6分核分分核分以上则认为该题通过)。以上则认为该题通过)。解:回答题得分被认为划分为通过和不通过两类,应求二列相关。查正态分布表:当p=0.60时y=0.3866,第五节第五节 品质相关品质相关品质相关 1、品品质质相相关关用用于于表表示示RC(行行列列)表表的的两两个个变变量量之之间间的的关关联联程程度度。可可用用于于教教育育测测验验的的编编制制,进进行行项项目分析目分析2、这这种种相相关关因因两两个个变变量量(因因素素)只只划划分分为为不不同同的的品品质质类类别别,故故而而得得名名。一一般般对对计计数数数数据据,而而非非测测量量数据,数据,即使是测量数据,也人为地分为几个类别即使是测量数据,也人为地分为几个类别。3、主要有四分(格)相关、主要有四分(格)相关、相关、列联表相关等。相关、列联表相关等。1、四分相关两两变变量量都都是是正正态态连连续续变变量量,被被人人为为地地进进行行了了划划分分。即即A变变量量被被分分为为A与与非非A,B也也被被分分为为B与与非非B。计算方法计算方法A A 因素因素A非AB因因素素Bab非Bcd2、系数系数 当两个变量都是二分变量当两个变量都是二分变量,两变量间的关系两变量间的关系计算方法计算方法A A 因素因素A非AB因因素素Bab非Bcd 系数(实例)【例例】从研究生入学考试的学生中从研究生入学考试的学生中,随机抽取随机抽取60人人,其大学应届毕业生录取情况如下表所示其大学应届毕业生录取情况如下表所示,问应届与问应届与历届大学毕业生同研究生录取与否的相关情况如何历届大学毕业生同研究生录取与否的相关情况如何?录取录取未录取未录取应届应届20201212历届历届11111717解解解解:由已知条件可得由已知条件可得由已知条件可得由已知条件可得,a a=20,=20,b b=12,=12,c c=11,=11,d d=17=173、列联表相关、列联表相关 R*C的计算资料的计算资料,当一个变量被划分成两个以当一个变量被划分成两个以上类别或两个变量都被划分成两个以上类别时上类别或两个变量都被划分成两个以上类别时,求此时这两个变量的相关求此时这两个变量的相关计算方法计算方法列联表相关(实例实例)某年级生物与化学成绩如右表所示,求两者的某年级生物与化学成绩如右表所示,求两者的相关情况如何?相关情况如何?生物生物化学成绩化学成绩总和总和成绩成绩65以下以下65-8080以上以上上上7281550中中107327110下下1322540总和总和3012347200相关系数值的解释相关系数值的解释1、相关系数是一个指标值,它表示两个变量之间的相关程度、相关系数是一个指标值,它表示两个变量之间的相关程度2、相相关关系系数数不不是是等等距距的的测测量量值值,只只能能说说绝绝对对值值大大者者比比绝绝对对值值小小者相关更密切一些。者相关更密切一些。3、相关系数值的大小表明了两列测量数据相互间的相关程度、相关系数值的大小表明了两列测量数据相互间的相关程度.4、当当两两个个变变量量之之间间的的关关系系受受到到其其他他变变量量的的影影响响时时,两两者者之之间间的高强度相关很可能是一种假象:虚假相关或伪相关的高强度相关很可能是一种假象:虚假相关或伪相关5、特特别别注注意意:证证实实两两个个变变量量之之间间存存在在相相关关关关系系,并并不不一一定定说说明明一一个个变变量量的的变变化化会会引引起起另另外外一一个个变变量量发发生生变变化化,即即“相相关关关关系系不不是是因因果果关关系系”。相相关关值值较较大大的的两两类类事事物物之之间间,不不一一定定存存在在因果关系因果关系