教育与心理统计五相关关系.ppt
教育与心理统计五相关关系现在学习的是第1页,共38页一、一、相关、相关关系与散点图相关、相关关系与散点图n n1、相关的意义、相关的意义n n事物之间的相互关系事物之间的相互关系事物之间的相互关系事物之间的相互关系n n 因果关系(两种事物)因果关系(两种事物)因果关系(两种事物)因果关系(两种事物)n n 共变关系(三种事物)共变关系(三种事物)共变关系(三种事物)共变关系(三种事物)n n 相关关系(两种事物)相关关系(两种事物)相关关系(两种事物)相关关系(两种事物)n n相关的含义相关的含义相关的含义相关的含义事物之间存在关系,但又事物之间存在关系,但又事物之间存在关系,但又事物之间存在关系,但又不能直接做因果关系解释时,不能直接做因果关系解释时,不能直接做因果关系解释时,不能直接做因果关系解释时,称事物间的联系为称事物间的联系为称事物间的联系为称事物间的联系为相关。相关。相关。相关。判断两个因素或变量之间是否判断两个因素或变量之间是否判断两个因素或变量之间是否判断两个因素或变量之间是否有关系,定量地研究这些关系,称有关系,定量地研究这些关系,称有关系,定量地研究这些关系,称有关系,定量地研究这些关系,称为为为为相关分析。相关分析。相关分析。相关分析。n n相关的类别相关的类别相关的类别相关的类别:n n正相关正相关正相关正相关:两个变量向相同的方两个变量向相同的方两个变量向相同的方两个变量向相同的方向变化向变化向变化向变化.即一个变量增加即一个变量增加即一个变量增加即一个变量增加,另一个另一个另一个另一个变量也增加变量也增加变量也增加变量也增加.n n负相关负相关负相关负相关:两个变量向相反的方向两个变量向相反的方向两个变量向相反的方向两个变量向相反的方向变化变化变化变化.即一个变量增加即一个变量增加即一个变量增加即一个变量增加,另一个另一个另一个另一个变量反而减少变量反而减少变量反而减少变量反而减少.n n零相关零相关零相关零相关:两列变量之间没有关系,:两列变量之间没有关系,:两列变量之间没有关系,:两列变量之间没有关系,即即即即6 6一列变量变动时,另一列变量作一列变量变动时,另一列变量作一列变量变动时,另一列变量作一列变量变动时,另一列变量作无规律变动。无规律变动。无规律变动。无规律变动。现在学习的是第2页,共38页n n2 2、相关系数、相关系数、相关系数、相关系数n n两列变量间相关程度的数字表现形式,即用来表示相关系数强度的指标。两列变量间相关程度的数字表现形式,即用来表示相关系数强度的指标。两列变量间相关程度的数字表现形式,即用来表示相关系数强度的指标。两列变量间相关程度的数字表现形式,即用来表示相关系数强度的指标。P P(总体)总体)总体)总体)r r(样本)样本)样本)样本)不相关,相互独立正相关负相关完全正相关完全负相关越接近1,表示两个变量的相关程度越密切,称高相关。越接近0,表示两个变量的相关程度越疏松,称低相关。现在学习的是第3页,共38页n3、相关散点图、相关散点图直观地显示了两个事物的成对观测值之间是否存在相关,直观地显示了两个事物的成对观测值之间是否存在相关,直观地显示了两个事物的成对观测值之间是否存在相关,直观地显示了两个事物的成对观测值之间是否存在相关,存在什么样的相关以及相关程度存在什么样的相关以及相关程度存在什么样的相关以及相关程度存在什么样的相关以及相关程度现在学习的是第4页,共38页几种相关散点图:几种相关散点图:线性线性 (如(如身高和体重身高和体重)非线性非线性(如如年龄和身高年龄和身高)曲线相关曲线相关 线性正相关线性正相关R=-1R=1线性负相关线性负相关 零相关零相关现在学习的是第5页,共38页二、积差相关二、积差相关英国Pearson1、定义公式若记则现在学习的是第6页,共38页2、积差相关适用条件要求成对数据n n两列变量各自总体的分布都是正态n n两两个个相相关关的的变变量量是是连连续续变变量量,也也即即两两列列数数据据都都是是测量数据测量数据n n两两列列变变量量之之间间的的关关系系是是直直线线性性的的,如如果果是是非非直直线线性性的的双双列列变变量量,不不能能计计算算线线性性相相关关。判判断断两两列列变变量量之之间间的的相相关关是是否否为为直直线线式式,可可作作相相关关散散点点图图进进行行初步分析,也可查阅已有研究结果论证。初步分析,也可查阅已有研究结果论证。现在学习的是第7页,共38页3、计算公式现在学习的是第8页,共38页n n4、标准分数的计算公式现在学习的是第9页,共38页n n实例:书P116(例5-1)现在学习的是第10页,共38页n n5、相关系数的合并、相关系数的合并n n意义:来自同一总体的多个样本的相关系数的合成。意义:来自同一总体的多个样本的相关系数的合成。意义:来自同一总体的多个样本的相关系数的合成。意义:来自同一总体的多个样本的相关系数的合成。n n步骤:步骤:步骤:步骤:n n(1 1)将各样本的)将各样本的)将各样本的)将各样本的r r 转换成费舍转换成费舍转换成费舍转换成费舍Z Z分数,见附表分数,见附表分数,见附表分数,见附表8 8。n n(2 2)求每一样本的)求每一样本的)求每一样本的)求每一样本的Z Z分数之和分数之和分数之和分数之和n n(3 3)求平均)求平均)求平均)求平均Z Z分数分数分数分数例子:例子:P123 (例例5-2)现在学习的是第11页,共38页三、等级相关三、等级相关(一(一)斯皮尔曼等级相关斯皮尔曼等级相关(Spearmans Rank Correlation Cofficient)斯皮尔曼等级相关是等级相关的一种,适用于只有两列变量,而且是属于等级变量性质具有线性关系的资料 其中:N 成对数 D=Rx-Ry 对偶等级之差请注意:尽可能不出现相同等级,即不能并列排名,否则误差大1、定义公式:、定义公式:现在学习的是第12页,共38页n n2 2、相同等级计算方法、相同等级计算方法、相同等级计算方法、相同等级计算方法n n(1 1)将连续变量转化为等级变量求相关)将连续变量转化为等级变量求相关)将连续变量转化为等级变量求相关)将连续变量转化为等级变量求相关n n两个变量排序的方式要一致两个变量排序的方式要一致两个变量排序的方式要一致两个变量排序的方式要一致n n遇到相同等级时,要求他们的等级平均值遇到相同等级时,要求他们的等级平均值遇到相同等级时,要求他们的等级平均值遇到相同等级时,要求他们的等级平均值n n例:例:例:例:X 100 98 97 97 93 93 93 90X 100 98 97 97 93 93 93 90n n 等级等级等级等级 1 2 3.5 3.5 6 6 6 8 1 2 3.5 3.5 6 6 6 8 现在学习的是第13页,共38页n n(2 2)校正公式)校正公式)校正公式)校正公式其中:其中:其中:其中:D:对偶等级差n:各变量相同等级数现在学习的是第14页,共38页n n例子:P128(例5-5)n n3、计算条件n n(1 1)必须成对数据)必须成对数据)必须成对数据)必须成对数据n n(2 2)必须都是等级变量)必须都是等级变量)必须都是等级变量)必须都是等级变量n n(3 3)正态条件不明或非正态时,转为等级求)正态条件不明或非正态时,转为等级求)正态条件不明或非正态时,转为等级求)正态条件不明或非正态时,转为等级求r r现在学习的是第15页,共38页(二)肯德尔等级相关(二)肯德尔等级相关(Kendall Rank Correlation Cofficient)1 1、肯德尔、肯德尔、肯德尔、肯德尔WW系数系数系数系数 (1 1)适用资料)适用资料)适用资料)适用资料 肯肯肯肯德德德德尔尔尔尔WW系系系系数数数数又又又又称称称称为为为为肯肯肯肯德德德德尔尔尔尔和和和和谐谐谐谐系系系系数数数数(the the Kendall Kendall cofficient cofficient of of concordanceconcordance)是是是是表表表表示示示示多多多多列列列列等等等等级级级级变变变变量量量量相相相相关关关关程程程程度度度度的的的的一一一一种种种种方方方方法法法法。这这这这种种种种资资资资料料料料的的的的获获获获得得得得一一一一般般般般采采采采用用用用等等等等级级级级评评评评定定定定的的的的方方方方法法法法,即即即即让让让让KK个个个个被被被被试试试试(或或或或称称称称评评评评价价价价者者者者)对对对对N N件件件件事事事事物物物物或或或或作作作作品品品品进进进进行行行行等等等等级级级级评评评评定定定定,这这这这样样样样便便便便可可可可得得得得到到到到KK列列列列从从从从1 1到到到到N N的的的的等等等等级级级级变变变变量量量量资资资资料料料料;另另另另一一一一种种种种情情情情况况况况是是是是一一一一个个个个评评评评价价价价者者者者先先先先后后后后KK次次次次评评评评价价价价N N件件件件事事事事物物物物或或或或作作作作品品品品,采采采采用用用用等等等等级级级级评评评评定定定定的的的的方方方方法法法法,这这这这样样样样,同同同同样样样样得得得得到到到到KK列列列列从从从从1 1到到到到N N的的的的等等等等级级级级变变变变量量量量资资资资料料料料。对对对对这这这这样样样样的的的的KK列列列列等等等等级变量资料求相关,用肯德尔级变量资料求相关,用肯德尔级变量资料求相关,用肯德尔级变量资料求相关,用肯德尔WW系数。系数。系数。系数。*用于三个或三个以上变量等级的相关系数,即求几个变量的一致性或和谐用于三个或三个以上变量等级的相关系数,即求几个变量的一致性或和谐性性现在学习的是第16页,共38页n n(2 2)肯德尔)肯德尔W系数计算公式系数计算公式n n基本公式:基本公式:其中:其中:n nR Ri i:每一件被评价每一件被评价每一件被评价每一件被评价事物的事物的事物的事物的KK个等级之和个等级之和个等级之和个等级之和n nN N:被评价事物的件被评价事物的件被评价事物的件被评价事物的件数即等级数数即等级数数即等级数数即等级数n nKK:评价者的数目评价者的数目评价者的数目评价者的数目或等级变量的列数或等级变量的列数或等级变量的列数或等级变量的列数 n nR R:评价等级和的平评价等级和的平评价等级和的平评价等级和的平均数均数均数均数现在学习的是第17页,共38页n n校正公式(出现相同等级的计算)例子:例子:P132(例例5-7)现在学习的是第18页,共38页n n2、肯德尔肯德尔U系数系数n n(1 1)适用资料)适用资料)适用资料)适用资料n n评价者采用对偶比较的方法,将评价者采用对偶比较的方法,将评价者采用对偶比较的方法,将评价者采用对偶比较的方法,将N N件事物两两配对,然后对每一对中两件事物两两配对,然后对每一对中两件事物两两配对,然后对每一对中两件事物两两配对,然后对每一对中两事物进行比较,择优选择,优者记事物进行比较,择优选择,优者记事物进行比较,择优选择,优者记事物进行比较,择优选择,优者记1 1,非优者记,非优者记,非优者记,非优者记0 0,最后整理成相对应的,最后整理成相对应的,最后整理成相对应的,最后整理成相对应的评价结果。评价结果。评价结果。评价结果。n n(2 2)计算公式)计算公式)计算公式)计算公式其中:N:被评事物的数目,即等级数被评事物的数目,即等级数K:评价者的数目评价者的数目rij:对偶比较记录表格中的择优分数对偶比较记录表格中的择优分数例子:书例子:书P133(5-8)现在学习的是第19页,共38页四、四、质与量相关质与量相关定义:需要计算相关的两更变量一列为等比或等距的测量数据,另一列是按性质划分的类别,欲求这样两列变量的直线相关,称之为质量相关,包括点二列相关、二列(双列)相关及多系列相关。*质量相关是研究连续变量与二分变量的相关关系。质量相关是研究连续变量与二分变量的相关关系。有一种变量,只有两个取值,称为二分变量二分变量(1、0)人为划分为两个取值,称人为二分变量人为二分变量(及格、不及格)若有等级之分,称二分等级变量二分等级变量若无等级之分,称二分称名变量二分称名变量(男、女)现在学习的是第20页,共38页1、点二列相关n n(1)适用资料n n 两两列列变变量量,一一列列为为来来自自正正态态分分布布的的等等距距或或等等比比测测量量数数据据的的连连续续变变量量,另另一一列列变变量量是是二二分分称称名名变变量量或或整整体体不不服服从从正正态的二分等级变量,态的二分等级变量,n n(2)公式及计算(P136)n n*该相关系数的正负号无意义,只根据绝对值的大小加该相关系数的正负号无意义,只根据绝对值的大小加以解释。以解释。现在学习的是第21页,共38页2、二列相关n n(1 1)适用资料)适用资料n n两两列列变变量量,都都为为连连续续变变量量均均属属于于正正态态分分布布,一一列列变变量量等距或等比,另一列为人为的二分变量。等距或等比,另一列为人为的二分变量。n n(2)公式及计算n n单项选择题用点二列,主观题评分用二列。qpy现在学习的是第22页,共38页例n n下表为10名考生一次测验的卷面总分和一道问答题的得分,试求该问答题的区分度(该问答题满分为10分,因此得6分和6分以上则认为该题通过)考生考生考生考生 A B C D E F G H I J A B C D E F G H I J卷面总分卷面总分卷面总分卷面总分75 57 73 65 67 56 63 61 65 75 57 73 65 67 56 63 61 65 6767问答题得分问答题得分问答题得分问答题得分 7 6 7 4 7 4 4 4 7 6 7 6 7 4 7 4 4 4 7 6 现在学习的是第23页,共38页n n解:问答题得分被人为划为通过、不通过两类,本题应求双列解:问答题得分被人为划为通过、不通过两类,本题应求双列解:问答题得分被人为划为通过、不通过两类,本题应求双列解:问答题得分被人为划为通过、不通过两类,本题应求双列相关。相关。相关。相关。n n根据题意可得:根据题意可得:根据题意可得:根据题意可得:现在学习的是第24页,共38页3、多列相关n n(1)适用资料:适合处理两列正态变量资料,其中一列为等距或等比变量的测量数据,另一列被人为分为多种类别,称为名义变量。分为三类就叫作三列相关,四类就叫做四类相关。n n(2)公式及计算见(P140)现在学习的是第25页,共38页五、品质相关五、品质相关n n1 1、品品质质相相关关用用于于表表示示RC(行列)表的两个变量之间的关联程度。可用于心理测验的编制,进行项目分析n n2 2、这这种种相相关关因因两两个个变变量量(因因素素)只只划划分分为为不不同同的的品品质质类类别别,故故而而得得名名。一一般般对对计计数数数数据据,而而非非测测量量数数据,即使是测量数据,也人为地分为几个类别。据,即使是测量数据,也人为地分为几个类别。n n3、主要有四分(格)相关、相关、列联表相关等。现在学习的是第26页,共38页1、四分相关n n(1)适用资料n n四四分分相相关关适适用用于于计计算算两两个个变变量量都都是是连连续续且且每每个个变变量量都都被被人为分为两种类型这样的测量数据之间的相关。计算四分相关首先要将资料整理成四格表。四格表是二个因素(变量),每个变量各有两项分类。四格表的二因素都是连续的正态变量,只是人为将其按一定标准划分为两个不同的类别n n(2)计算公式:P143现在学习的是第27页,共38页2、系数n n(1)适用资料n n两个相互关联的变量分布都是真正的二分变量,其系数用符号表示。n n求取系数可以运用列联表来计算,因此系数又叫列联系数。适用资料是除四分相关之外的四格表(计数)资料,是表示两因素两项分类资料相关程度最常用的一种相关系数。现在学习的是第28页,共38页n n(2)计算公式n n完全正相关全体个案落在四格表中的完全正相关全体个案落在四格表中的a a、d d中;完全负相中;完全负相关全体个案落在四格表中的关全体个案落在四格表中的b、c中;零相关表示均匀分配。当 值小于0.3时,表示相关较弱,当 值大于值大于0.60.6时时,表表示相关较强。示相关较强。n n除常用除常用 系数,也用系数,也用Q Q系数或 归结系数。现在学习的是第29页,共38页3、列联表相关n n(1)列联相关又称均方相依系数、接触系数等,一般用C表示。n n(2)它是二因素的RC列联表资料求得,故称为列联相关。当数据属于RC表的计数资料,欲分析所研究的二因素之间的相关程度,就要应用列联相关现在学习的是第30页,共38页n n(3 3)公式:)公式:n n(4)另外当双变量的测量数据整理成次数分布表后,也可用列联相关系数表示两变量的相关程度。此时,当分组数目R5R5,C5C5,而且样本N又较大,又较大,计算的列联相关系数计算的列联相关系数C与积差相关系数与积差相关系数r很接近。很接近。现在学习的是第31页,共38页六、相关系数的选用与解释六、相关系数的选用与解释n n如何选择合适的相关系数如何选择合适的相关系数如何选择合适的相关系数如何选择合适的相关系数n n1 1、选选择择计计算算相相关关系系数数的的方方法法主主要要取取决决于于要要处处理理的的数数据据的的性性质质以以及及某某一相关系数需要满足的假设条件一相关系数需要满足的假设条件n n2 2、总总的的来来说说,为为了了选选择择一一个个合合适适的的相相关关系系数数进进行行相相关关分分析析,要要分分下下面几个步骤考虑面几个步骤考虑n n 考虑每种测量所产生的数据类型考虑每种测量所产生的数据类型n n 要对第一种测量数据和第二种测量数据的类型依次做出判断要对第一种测量数据和第二种测量数据的类型依次做出判断n n 确确定定采采用用哪哪一一种种相相关关系系数数。至至于于两两个个测测量量数数据据哪哪个个为为第第一一,哪哪个标为第二,没有差别个标为第二,没有差别现在学习的是第32页,共38页n n相关系数值的解释相关系数值的解释n n1 1、相关系数是一个指标值,它表示两个变量之间的相关程度、相关系数是一个指标值,它表示两个变量之间的相关程度、相关系数是一个指标值,它表示两个变量之间的相关程度、相关系数是一个指标值,它表示两个变量之间的相关程度n n2 2、相相相相关关关关系系系系数数数数不不不不是是是是等等等等距距距距的的的的测测测测量量量量值值值值,因因因因此此此此在在在在比比比比较较较较相相相相关关关关程程程程度度度度时时时时,不不不不能能能能用用用用倍倍倍倍数数数数关系说明,只能说绝对值大者比绝对值小者相关更密切一些。关系说明,只能说绝对值大者比绝对值小者相关更密切一些。关系说明,只能说绝对值大者比绝对值小者相关更密切一些。关系说明,只能说绝对值大者比绝对值小者相关更密切一些。n n3 3、相相相相关关关关系系系系数数数数值值值值的的的的大大大大小小小小表表表表明明明明了了了了两两两两列列列列测测测测量量量量数数数数据据据据相相相相互互互互间间间间的的的的相相相相关关关关程程程程度度度度,并并并并可可可可以预测。以预测。以预测。以预测。n n4 4、当当当当两两两两个个个个变变变变量量量量之之之之间间间间的的的的关关关关系系系系受受受受到到到到其其其其他他他他变变变变量量量量的的的的影影影影响响响响时时时时,两两两两者者者者之之之之间间间间的的的的高高高高强度相关很可能是一种假象:虚假相关或伪相关强度相关很可能是一种假象:虚假相关或伪相关强度相关很可能是一种假象:虚假相关或伪相关强度相关很可能是一种假象:虚假相关或伪相关n n5 5、偏相关与半偏相关、偏相关与半偏相关、偏相关与半偏相关、偏相关与半偏相关n n6 6、在在在在纯纯纯纯理理理理论论论论研研研研究究究究中中中中,即即即即使使使使是是是是很很很很小小小小的的的的相相相相关关关关,如如如如果果果果在在在在统统统统计计计计上上上上有有有有显显显显著著著著性性性性,也也也也能够说明心理规律,但这并不表明有显著性就就有高相关能够说明心理规律,但这并不表明有显著性就就有高相关能够说明心理规律,但这并不表明有显著性就就有高相关能够说明心理规律,但这并不表明有显著性就就有高相关n n7 7、特特特特别别别别注注注注意意意意:证证证证实实实实两两两两个个个个变变变变量量量量之之之之间间间间存存存存在在在在相相相相关关关关关关关关系系系系,并并并并不不不不一一一一定定定定说说说说明明明明一一一一个个个个变变变变量量量量的的的的变变变变化化化化会会会会引引引引起起起起另另另另外外外外一一一一个个个个变变变变量量量量发发发发生生生生变变变变化化化化,即即即即“相相相相关关关关关关关关系系系系不不不不是是是是因因因因果果果果关关关关系系系系”。相相相相关关关关值值值值较大的两类事物之间,不一定存在因果关系较大的两类事物之间,不一定存在因果关系较大的两类事物之间,不一定存在因果关系较大的两类事物之间,不一定存在因果关系现在学习的是第33页,共38页n n相关意义的理解相关意义的理解n n1.相关的意义要看确定系数R2n n2.相关系数0.3以下,为低相关,有理论意义而无实际意义n n3.相关系数0.4-0.6,为中等相关,既有有理论意义,也有实际意义n n4.相关系数0.7以上,为高相关,理论意义与n n实际意义都很大.现在学习的是第34页,共38页相关分析的发展聚类分析n n多组相关指标的简缩n n聚类分析(cluster analysis)又称分类分析、群聚分析、集群分析,是将所观测的事物,或观测事物的指标进行分类的一种统计分析方法。n n样样品品聚聚类类-Q型型聚聚类类:根根据据样样品品(事事物物或或被被试试)之之间间的的“距距离离”。,n n指标聚类-R R型聚类:用指标之间的相关系数,。n n如果被施测的团体一定,可对测试指标进行聚类,从众多指标中找出一些有代表性的指标。这样可以减少指标,优化指标。现在学习的是第35页,共38页相关分析的发展因素分析n多组相关背后因素的探索n它是从众多可观测“变量”根据其相关情况,概括和推论出少数不可观测的“潜变量”(又称因素),目的在于用最少的因素去概括和解释大量的观测事实,并建立起最简洁的,基本的概念系统,以揭示事物之间的本质联系的一种统计分析方法。现在学习的是第36页,共38页n n探索性因素分析主要是从一组杂乱无章的数据对其又缺乏理论认识找出共同属性,以建立新的理论假设或发展新的理论构架;n n验证性因素分析的目的则在于验证已有的理论构架对其已有理论上的认识。现在学习的是第37页,共38页作作业业n n1 1、下下下下表表表表是是是是平平平平时时时时两两两两次次次次考考考考试试试试的的的的成成成成绩绩绩绩分分分分数数数数,假假假假设设设设其其其其分分分分布布布布为为为为正正正正态态态态,分分分分别别别别用用用用积积积积差差差差相相相相关关关关与与与与等等等等级级级级相相相相关关关关方方方方法法法法计计计计算算算算相相相相关关关关系系系系数数数数,并并并并回回回回答答答答,就就就就这这这这份份份份资资资资料料料料用哪种相关法更恰当?用哪种相关法更恰当?用哪种相关法更恰当?用哪种相关法更恰当?n n4 4、假假假假设设设设两两两两变变变变量量量量为为为为线线线线性性性性关关关关系系系系,对对对对下下下下列列列列各各各各种种种种情情情情况况况况各各各各应应应应使使使使用用用用何何何何种种种种方方方方法计算相关系数?法计算相关系数?法计算相关系数?法计算相关系数?(1 1)两列变量是等距或等比变量,且均为正态分布。)两列变量是等距或等比变量,且均为正态分布。)两列变量是等距或等比变量,且均为正态分布。)两列变量是等距或等比变量,且均为正态分布。(2 2)两列变量是等距或等比变量,但不为正态分布。)两列变量是等距或等比变量,但不为正态分布。)两列变量是等距或等比变量,但不为正态分布。)两列变量是等距或等比变量,但不为正态分布。(3 3)一一一一列列列列变变变变量量量量为为为为正正正正态态态态连连连连续续续续变变变变量量量量,另另另另一一一一列列列列变变变变量量量量为为为为正正正正态态态态连连连连续续续续变变变变量量量量但被人为分为两类。但被人为分为两类。但被人为分为两类。但被人为分为两类。(4 4)一列为正态连续变量,另一列变量为二分称名变量。)一列为正态连续变量,另一列变量为二分称名变量。)一列为正态连续变量,另一列变量为二分称名变量。)一列为正态连续变量,另一列变量为二分称名变量。现在学习的是第38页,共38页