心理测量学二.ppt
心理测量学二 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2document number测验的信度测验的信度第一单元 信度的概念第二单元 信度评估的方法第三单元 信度与测验分数的解释第四单元 影响信度的因素3document number一、信度的定义 信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的比率。4document number低信度低效度高信度低效度高信度高效度5document number二、信度的指标(一)信度系数与信度指数 信度指数是真分数标准差与实得分数标准差的比值。信度指数的平方就是信度系数。6document number二、信度的指标(二)测量标准误测量误差分布的标准差,即为测量的标准误。7document number信度评估的方法信度评估的方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度8document number信度的类型与估计方法信度的类型与估计方法n重测信度(test-retest reliability)n又称稳定性系数。它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。n最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最长不超过六个月。9document numbern复本信度(alternate-form reliability)n又称等值性系数,它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。n如果两个复本的施测相隔一段时间,则称稳定与等值系数。n在计算复本信度时,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本,由此可以抵消施测顺序的效应。信度的类型与估计方法信度的类型与估计方法10document numbern内部一致性信度(internal consistency reliability)n分半信度(split-half reliability)n是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。n分半法经常会低估信度,必须修正,借以估计整个测验的信度。n同质性信度(homogeneity reliability)n同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。信度的类型与估计方法信度的类型与估计方法11document numbern评分者信度(scorer reliability)n 随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。n一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。n当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。信度的类型与估计方法信度的类型与估计方法12document number信度与测验分数的解释信度与测验分数的解释一、解释真实分数与实得分数的相关二、确定信度可以接受的水平三、解释个人分数的意义四、比较不同测验分数的差异13document numbern解释真实分数与实得分数的相关n信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。n确定信度可以接受的水平n当rxx0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.70rxx0.85时,可用于团体比较;当rxx0.85时,才能用来鉴别或预测个人成绩或作为。信度与测验分数的解释信度与测验分数的解释14document number15document numbern解释个人分数的意义 n其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。n比较不同测验分数的差异n这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。信度与测验分数的解释信度与测验分数的解释16document number影响信度的因素影响信度的因素一、样本特征(一)样本团体异质性的影响(二)样本团体平均能力水平的影响二、测验长度(一)测验越长测题取样或内容取样越有代表性。(二)测验越长被试的猜测因素影响就越小。17document number散布图散布图整段范围整段范围低低高高 18document number影响信度的因素影响信度的因素三、测验难度难度与信度不存在简单的对应关系。如果因为难度过大或过小,造成分数范围缩小,可使信度降低。四、时间间隔再测法求信度,间隔时间越短信度系数越大;间隔时间越久,信度系数越低。19document number注意事项注意事项n斯皮尔曼-布朗公式为校正分半信度的经验公式,它的假设是两半测验分数的变异数相等。当假设不成立时,可用下列两种公式之一,直接求得测验的信度系数。弗朗那根(Flanagan)公式:卢伦(Kulon)公式:n对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干相对异质的分测验,使每个分测验内容具有同质性。20document number信度系数与误差来源信度系数与误差来源信度系数类型误差方差再测信度时间取样复本信度(即时)内容取样复本信度(延迟)时间取样和内容取样分半信度内容取样库-理信度和系数内容取样和内容异质性评分者信度评分者之间差异21document number一个假想测验的误差变异来源分析一个假想测验的误差变异来源分析信度类型误差变异量误差变异来源复本信度(间隔施测)1-0.70=0.30时间与内容取样分半信度1-0.80=0.20内容取样上述二者差异0.30-0.20=0.10时间取样评分者信度1-0.92=0.08评分者差异误差变异总和0.20+0.10+0.08=0.38真实变异1-0.38=0.6222document number测验的效度测验的效度第一单元 效度的概念第二单元 效度评估的方法第三单元 效度的功能第四单元 影响效度的因素23document number(一)理论定义效度指的是测量的准确性,即一个测验或量表能够实际测量出其所要测量的东西的程度,或指所测量的与所要测量的心理特点之间的符合程度。效度所要回答的基本问题是:1.这个测验测量什么特性?2.它对所要测量的特性测得有多准?一、效度的定义一、效度的定义24document number招飞举例招飞举例2 8 5 2 SX=ST+SE评分者对不同个体测试结果打分,每个人的分数都不一样误差方差真实方差25document number信度信度SX=ST+SE效度效度SX=SV+SI+SE随机随机误差误差有效方差有效方差SV系统误差系统误差SI(二)操作定义(二)操作定义26document number与测验目的有关的与测验目的有关的有效有效SV2和实得和实得SX2的比值的比值效度效度效度定义效度定义27document number测到测到欲测东西的欲测东西的程度程度效度效度效度定义效度定义是测量的是测量的随机误差和系统误差随机误差和系统误差的的综合反映综合反映。28document number(一)效度具有相对性任何测验的效度都是针对一定的目标而言。(二)效度具有连续性只有程度上的不同,没有“全有”或“全无”的区别。测验效度是测验结果的有效性程度。二、效度的性质二、效度的性质29document number(三)判断一个测量是否有效要从多方面收集证据。证伪主义(四)效度和信度一样,也是针对测验结果而言的,是指一列测量的特性。(五)效度和信度一样,也是一个构想概念。30document number(三)信度与效度的关系(三)信度与效度的关系1.1.信度是效度的必要条件信度是效度的必要条件而非充分条件而非充分条件31document numberSV2SI2SE2SV2SI2SE2SV2SI2SE2ST2SX2ST2SX2ST2rxy rxx rxy rxx rxy rxx 32document numberS S E E,S S T T,r rxxxxn信度高,给信度高,给 S S V V 增加提供可能增加提供可能n能否提高效度,再看能否提高效度,再看S S I I大小大小n信度高不一定效度高信度高不一定效度高n效度要高,效度要高,S S V V须占较大比重,须占较大比重,S S T Tn效度高,信度必高效度高,信度必高S ST T2 2信效度关系信效度关系33document number2.2.测量的效度受它的信度制约测量的效度受它的信度制约34document number效度估计效度估计由于测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测量目的的解释。35document number效度的发展历史效度的发展历史36document number效度的分类效度的分类测量效度是就测量结果达到测量目的的程度而言,常见的解释角度有三种:一、用测量的内容来说明目的-内容效度二、用工作实效来说明目的-效标关联效度或实证角度三、用心理学上某种理论结构来说明目的-构想效度或结构效度37document number一、内容效度一、内容效度n定义n应用范围n特点n估计方法n评价(content validity)38document number什么是内容效度什么是内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。这种测验的效度主要与测验内容有关,故而得名。39document number1.来源:19世纪20年代,人们越来越关注测验对于具体目标课程的代表性高低上。于是在30年代初,“课程效度(curricular validity)”被引入,后更名为“内容效度”。2.含义:内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。40document number3.内容域(content domain)、行为域 指我们所要测量的内容或行为,它依据测量目的而定,它通常包括欲测的知识范围,以及该范围内各知识点所要求掌握的程度两个方面。41document number测验测验内容内容 测测 验验 目目 标标 知知 识识 技技 能能 解解 释释(概念)(概念)(计算)(计算)(其它)(其它)方差方差标准差标准差 8 25 7 10 35 15 合计合计 18 60 22合计合计 40 60100表表3-1 3-1 差异量测验的双向细目表差异量测验的双向细目表42document number4.4.测验具有高内容效度必须具备两个条件测验具有高内容效度必须具备两个条件n内容范围明确(知识和技能)内容范围明确(知识和技能)n例如人的忧虑性包括哪些表现?从哪些范围界定内容(从临床观察、病人自述、医生病历、文献报道、调查观察等发现共性行为特点),再例如韦氏智力测验包括言语和操作等内容,言语和操作又包括常识、词汇、理解、类同、背数、算术及填图、拼图、积木、排列图画、数字符号等。n测验题目必须是代表性取样测验题目必须是代表性取样n例如韦氏智力测验言语分测验只包括讲故事,算术测验只考加减,没有乘除;或考试测验讲过的不考,没讲的考了一大堆。或一学期下来要求掌握3000个单词,结果考了其中的100个单词全是人名和地名,代表性太差。43document number应用范围应用范围1.内容效度主要应用于学绩测验,因为在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。例如考试都有大纲及所占比例2.内容效度也适合于某些用于选拔和分类的职业测验。例如选拔机械师,需要制图、机械操作等方面内容3.内容效度不适合用于能力倾向测验和人格测验。因为能力倾向测验和人格测验的内容域难以具体界定。因为能力和人格没有固定的表现,体现在方方面面。44document number(三)内容效度的特性(三)内容效度的特性内容效度与所有效度一样,并非普遍适用。只有编制者与使用者定义的内容范围相同,编制者报告的内容效度对使用者才有意义。内容效度也有时间上的特定性。例如韦氏智力测验过去有8分钱邮票的题,再例如六级词汇大纲在不断变化。内容效度并不一定要求测验总是高度同质性,假如是测量某一特定心理特质如内向需要同质,但对涵盖多种内容的测验只要求细目之内高度同质性即可,例如智力测验。45document number表面效度是在受测者、使用测验的行政人员及其他没有受过专门训练的观察者从表面上看测验题目与测量目的是否一致。内容效度是由有资格的判断者(专家)详尽地、系统地对测验作评价而建立的。虽然二者都是根据测验内容做出的主观判断,但判断的标准不同。在编制测验时,表面效度是一个必须考虑的特性。内容效度常与表面效度内容效度常与表面效度46document number内容效度的评估方法内容效度的评估方法1、专家判断法2、统计分析法独立测验相关法平行测验相关法再测法3、经验推测法这种效度是通过实践来检验效度47document number1 1、专家判断法(逻辑分析法)、专家判断法(逻辑分析法)定性研究定性研究含义:含义:专家对测题与原定内容范围的吻合程度作出判断。即逻辑效度具体步骤:具体步骤:明确欲测内容的总体范围,包括知识范围和能力要求;编制双向细目表,确定内容的具体细节各自所占的比例;并与每个题目所测内容进行对照;制定评定量表,考核覆盖率、难度、题型等;由每位评判者在评定量表上作出判断。内容效度的评估方法内容效度的评估方法48document numbern无良好的数量指标描述这种符合性的程度;n不同专家对同一测验内容效度的判断可能不一致;n不同专家对内容范围会有不同的理解。专家判断法局限专家判断法局限49document number2 2、统计分析法、统计分析法独立测验相关法独立测验相关法 计算两个评分者之间评定的一致性(评分者信度),虽然考察的是评分者的判断信度,但由于来自两个独立的评判者,因此符合程度越高越能反映测验的内容效度。平行测验相关法平行测验相关法-克伦巴赫克伦巴赫 从同一个教学内容总体抽取两套独立的平行测验,求两个测验之间的相关(复本信度)。r高:内容效度 r低:至少一个缺乏内容效度内容效度的评估方法内容效度的评估方法50document number2 2、统计分析法、统计分析法再测法(测验再测法(测验-学习学习-再测验)再测验)在被试学习某种知识之前作一次测验(如学习标准分数之前考标准分数知识),学过该知识后再作同样的测验。若后测成绩显著优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。内容效度的评估方法内容效度的评估方法51document number3 3、经验推测法、经验推测法这种效度是通过实践来检验效度检查不同年级被试总分与每题分数变化情况,若随年级增高总分和每题通过率也升高,可推论该测验基本测量了教学内容和目标。检查不同年龄儿童测验分数的变化情况,是否随年龄增长而增加。检查不同平时学习成绩被试本次测验分数的变化情况,是否平时学习成绩好的本次分都较高。如一个平时语文学的很好的孩子本次语文测验考了20分,而一个差等生本次考了90分。内容效度的评估方法内容效度的评估方法52document number内容效度的评价内容效度的评价n内容效度基于专业的判断,它只涉及测验和内容范围之间的关联程度,以及测验题目的代表性问题。没有把被试在测验上是如何表现的考虑在内。n内容效度提供的证据,不支持根据测验分数作出的推断。n虽然一个测验测到的东西是通过对试题内容的整体和选题过程的详细说明而得到操作性定义的。但在确定测验测到的东西时,总是需要求助于其它形式的证据。n内容效度的主要缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较。53document number建立内容效度需考虑的问题建立内容效度需考虑的问题1.不同的项目是否需要作加权处理以反映其重要性的不同?例如同样简答题所给分额不同,比如一道心理学设计综合题可能统计公式只给权重1-2分,而设计方法7-8分。2.项目匹配作业应如何进行?做法一:让专家们标出测验题目和哪个内容匹配。做法二:让专家判断一个题目与内容范围匹配还是不匹配。ambleton提出一种方法,让专家按五级分数表给每个题目打分,确定整个测验和内容范围的匹配程度。54document number3.试题的哪些方面需要检查?一般来说,需要检查的方面有:题材、认知过程或所要求的表现的复杂程度、提问方式及答题方式等。4.匹配的结果应怎样运算?题目与项目(比如词汇、理解)匹配的百分比;重要项目匹配的百分比;项目权重与代表这些项目的题目数的相关;题目项目的一致性指数;没有反映到测验中的项目的百分比。55document number构想效度构想效度n定义n确定步骤n估计方法(construct validity)n构想效度的概念是由Cronbach和Meelh于1954年提出的。56document number构念或构想构念或构想n心理学家表现出热烈兴趣的是测量抽象的属性幸福、智力、动机、社交等,这些东西在字面上和物理意义上是不存在的,我们不能收集一千克幸福或一筐智力,但是为了使用、测验和扩展心理学理论和原理,我们必须测量他们。n例如,如果一个人在大量情境中都说实话,我们可能将这个人看作是诚实的,诚实是一个构念,它不能直接被我们所观察,然而对于理解、描述和预测人类行为而言,是一个有用的概念。n构念(contract)构想,是为特殊的研究目的而设定的高度抽象的、一般无法直接观察到的概念,属假设性的概念或特质。如智力、焦虑、外向、动机、幸福等,用某种测验来测量。57document numbern所有的构念都有两个基本属性:第一是它们本质上是对某些规律性进行的抽象概括,第二是它们与具体的可观察到的行为或事件密切存在相关。n心理测量是基于具体的、可观察行为的过程。因此一个心理测验仅仅是一个行为样本。为了判断一个测验是否为一个具体的构念提供了优秀的测量,我们必须将抽象的概念转变成具体的、行为的术语。对具体的行为和抽象构念之间的关系进行详细描述的过程被称之为构念说明。是决定一个测验构想效度的关键。构念或构想构念或构想58document numbern构念说明的过程包括三个步骤:n鉴别出与将被测量的构念相联系的行为。例如构念攻击性相关的行为,如袭击其他学生,游戏中总是支配者,容易发火,爱打架,爱骂人等,描述的越清晰越好。n鉴别出其他构念,而且判定它们与被测量的构念之间是相关的还是无关的。例如与权力需要是相关的,与诚实是无关的,有助于界定攻击性和诚实的界限。构念或构想构念或构想59document numbern鉴别出与另外的构念相联系的行为,而且在这些构念之间关系的基础上,判定每个行为是否与被测构念之间存在相关。例如权力需要高的人可能总是为小组做出决策,一个诚实的人从不欺骗老师。同时我们已经对诚实、攻击性和权力需要之间的关系做出了某些陈述,因此我们就可以说明每个行为与攻击性是相关还是不相关。例如如果攻击性和权力需要是相关的,某些表现出高水平权力需要的行为将会表现高水平的攻击性。同理,如果攻击性和诚实不相关的话,一个人的不欺骗行为对他的攻击性水平不会提供任何信息。构念或构想构念或构想60document numbern虽然对一个构念不能直接进行观察,但是它可以通过可观察的行为进行推论。用另一种方法说就是,我们无法精确地说明攻击是什么,但是我们能够描述出一个攻击性的儿童会如何表现,而且我们可以通过观察他们的行为,做出儿童攻击水平的可靠且有意义的结论。构念或构想构念或构想61document numbern构念效度依赖于对构念和不同行为之间关系进行的一个详细描述。关于某个构念我们知道的越多,决定一个测验是否为那个构念提供了充分测量的机会就越好。换句话说,界定良好的构念测量的构念效度比松散界定的概念测量更容易。如果我们界定了一个新的构念,但是这个构念的意义只有一个模糊的概念,例如幸福就是觉得挺好,那么我们永远都不会明白一个特定的测验是否是对那个构念的优秀测量。构念或构想构念或构想62document number什么是构想效度什么是构想效度是指测验能够测量到理论上的构思或特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构思,解释的程度如何。要回答的问题是:该测验欲测量什么心理构想?对该构想测得有多好?测验分数中有多少比例的变异数是来自测验所欲测之构想?构想效度主要用于智力测验、人格测验等一些心理测验方面。63document number构想效度的特点构想效度的特点1.构想效度的大小取决于事先假定的心理特质理论。一旦人们对同一种心理特质有着不同的假设,则会使关于该特质测验的结构效度的研究结果无法比较。例如,同样是智力测验,由于当今理论界对智力持有不同的定义,所以有些智力测验的结构效度的研究结果是不宜进行比较的。2.当实际测量无法证实理论假设时,并不一定表明该测验结果效度不高,可能因为理论假设不成立,或该实验设计不能对假设作适当的检验等。3.构想效度是通过测量什么、不测量什么的证据累积起来给予确定的。4.构想效度既涉及理论又涉及测验。64document number构想效度的确定方法构想效度的确定方法1.确立构想效度的步骤(1)提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。(2)依据理论框架,推演出有关测验成绩的假设。(3)用逻辑的和实证的方法来验证假设。65document number确定步骤确定步骤 提出理论推演出假设检验假设解释被试的测验表现测验成绩的假设逻辑和实证检验方法66document number关于情绪稳定性的假设关于情绪稳定性的假设n测验分数和心理学家的评价有某种程度相关n精神病人和正常人的测验分数是有区别的;n测验分数和同伴的评价有一定的关系;n测验分数与IQ没有什么关系;n测验分数和性别没有关系。67document number关于智力的假设关于智力的假设n智力随年龄而增长;n智力与学业成绩有密切关系;n智商是相对稳定的;n智力受遗传的影响。68document number关于创造力的假设关于创造力的假设n测验分数与根据创造力的心理学理论观察被试行为所作出的判断有相关;n具有创造力的个体行为与其他人不同;69document numbern测验内方法n测验间方法n效标关联效度n实验法和观察法构想效度的估计方法构想效度的估计方法70document number1、对测验本身的分析测验内方法研究测验内部构造分析测验的结构效度。具体方法:测验的内容效度测验的内部一致性指标分析被试者对题目的反应特点例如在人格测验常有这样一些题目;我从不拿群众一针一线,我从不在背后议论他人是非,当别人比我强时我爱嫉妒对方,如果地震来了我肯定第一时间先跑出去等,如果这些涉及社会赞许或道德评判的题目过多,又不采取措施排除或控制道德因素的影响,用这样的测验来测量人格特质,其构想效度就不会太高。构想效度的估计方法构想效度的估计方法71document number内容效度法内容效度法n确定取样内容范围后,利用这些资料定义测验欲测的结构性质n韦氏智力测验n言语:常识、理解、算术、相似性、词汇、记忆广度n操作:译码、填图、积木图案、图片排列、图形拼凑每一分测验所测量的题目内容高度相关,如果乱七八糟不相关,可认为构想效度低。72document numbern内容范围的描述n见到老师、小朋友是否主动打招呼?n愿意自己独自玩,还是与其他孩子一起玩?n语言较多还是较少,见生人时是否害羞?是否大方?n做游戏时,与人交往时,能与人合得来吗?独生子女合群性测验独生子女合群性测验73document number卡特尔卡特尔16PF16PFn16个特质,187个题目n乐群性,聪慧性,稳定性,持续性,兴奋性,有恒性,敢为性,敏感性,怀疑性,幻想性,世故性,忧虑性,实验性,独立性,自律性,紧张性n分测验间关系的分析:特质间相互独立n分测验内项目关系的分析:项目相互联系74document number内部一致性法内部一致性法n目的:推断测验是否测量单一特质还是多种特质n方法:n极端组比较法(extreme-group method)例如智力和年龄有关,低年龄组和高年龄组儿童测验分数进行t、x2检验或方差分析n分半信度或同质者信度分半用斯皮尔曼-布郎公式,同质01记分用库德和理查逊公式,方差齐K-R21,不齐K-R20,多重记分用克伦巴赫系数。n分测验与总分的相关例如A型行为和C型行为量表,应该高度相关,同一特质。75document number2测验间的相互比较测验间方法n含义同时考虑几个测验间的关联,考察是否测同一结构。n常用方法相容效度区分效度因素分析构想效度的评估方法构想效度的评估方法76document number相容效度相容效度nconcurrent validityn含义n测相同结构(同一种心理特质)的各种测验间应有较高的相关。n求一个新编测验与另一已知结构测验间的相关。例如你这把尺子比标准尺子量出的长,则不相容。77document number区分效度区分效度n含义n某一特定测验的分数与已知测量不同结构的测验分数无关n会聚效度(求同效度)n某一特定测验的分数与测同一结构的其他测验的分数有关相关度越高,区分度越低,说明新测验的效度有问题;相关度低未必效度就高。78document number因素分析因素分析n意义n找出变量间内在本质联系的一种多元统计方法。n通过缩减变量的方法,用反映变量本质联系的少数几个基本因素(或公共因素)来说明先前需要用较多变量才能说明的原因或特性。例如一些研究者对韦氏智力量表分析后,发现共有3个公共因子,其中的A因子主要负荷测验为词汇、分类、知识和领悟,B因子的主要负荷测验为图片排列、木块图、填图和图形拼凑,C因子的主要负荷测验为算术、数字广度和编码。n基本原理n总变异=共同因素+特殊因素+误差n每个测验在共同因素上的负荷量就是因素效度,测验分数总变异中来自有关因素的比例即是该测验结构效度的指标。n两个变量之间的相关等于它们共同因素负荷的交互乘积之和。79document numberCronbach对Loger-Thorndike 智力测验的因素分析结果分测验1.图形分类 2.数字序列 3.图形分析 4.句子填充5.词语分析 6.算术推理 7.词 汇 特 征 值 总方差%因 素 负 荷 A B 共同性(h)0.461 0.587 0.557 0.383 0.705 0.644 0.463 0.688 0.687 0.816 -0.050 0.668 0.843 0.097 0.720 0.620 0.257 0.450 0.870 -0.047 0.759 3.091 1.394 4.485 44 20 64语词非语词80document numbern(美)霍尔津格(Holzinger)和斯温福德(Swineford)的因素分析n取样:芝加哥效区n被试:145名78年级学生n内容:实施24个心理测验n结果:n4个基本因素n图词测验的功能不明显。81document number2424个心理测验的因素归类个心理测验的因素归类词 语速 度推 理记 忆1.一般知识 段落理解2.句子填空3.词汇分类4.词义解释5.加法6.编码7.计数8.点子9.直-曲10.算术 问题11.视知觉 15.数字游戏12.体积 16.问题推理13.面积 17.系列填空14.打旗 18.演绎推理19.词汇识别20.数字识别21.图形识别22.实物-数23.图词24.数图82document number3、效标效度的研究证明l根据效标分成相对照的两组,比较测验成绩l观察分析测验高分组与低分组的心理特质例如市场营销能力高与低的人分两组,比较他们的测验得分,差异显著,说明该测验有较高的效标效度,通过效标效度转而证明该测验构想效度好,能测出一个人的营销能力大小。构想效度的评估方法构想效度的评估方法83document numberl还有一种证实构想效度的方法是心理特质的发展变化。例如关于智力,比较不同年龄组的测验得分,看是否随年龄增长而增加。但并不是所有心理特质都随年龄而增加。4、实验法和观察法证实例如测查考试焦虑,考试前与后两次测验分数差异的大小来证实构想效度的评估方法构想效度的评估方法84document number效标效度(实证效度)效标效度(实证效度)n定义n效标n种类n确定方法n评价(criterion-related validitycriterion-related validity)85document number效标效度的含义效标效度的含义n效标效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说,一个测验是否有效,应该以实践的效果来作为检验标准。n效标效度主要重视那些与测验独立的效标行为,而不太注重测验内容或结构。效标效度也称效标关联效度。86document number效效 标标1.含义:衡量一个测验是否有效的外在标准,它独立于测验,并且是可从实践中直接获得的我们所感兴趣的行为。n做预测所依据的标准。n检验效度的参照标准。n测验所要测的或要预测的行为特质。n将X与隔一定时期后同组对象的成绩求相关。检查新编测验的效度。87document number效标测量效标测量 阿斯汀(A.W.Astin)将效标分为观念效标和效标测量。通常我们感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字来进行表达(效标测量)。例如营销能力是一个观念效标,销售业绩是一个效标测量。大学学习成功是一个观念效标,大学头两年的平均成绩是常用的效标测量。88document number效标的特点效标的特点n多样性 同一个观念效标可以有多个效标测量。n复杂性n每一种效标行为往往都是由多种特质构成。n特殊性和时间性 效标测量只可以反映测验在某一特殊方面的有效性程度,即在一种情况下有效的测量,在另一种情况下未必有效。例如金融风暴特殊时期的影响89document number良好效标测量的依据良好效标测量的依据(1)效标测量必须真实反映观念效标的重要侧面;即本身测验必须有效。(2)效标测量必须稳定可靠;例如学习成绩工作表现(3)效标测量必须客观,避免偏见;例如判断外向用说话语速做效标,选拔领导用访谈纪录做效标,问同事说坏话,问下级不敢说实话,找死。问上司想留下你的说好话,想赶你走的说坏话。(4)在保证有效的前提下,效标测量必须尽可能简单、省时、花费少。例如核磁CT动态心电图90document number各类测验的常用效标各类测验的常用效标测验类型常 见 效 标成就学年平均分,教师评定结果,学习量,知识应用力,评判知识的批判力,自学能力智力学科成绩,教师评定结果,学生总成绩能力倾向特殊课程或训练成绩,工作或学习成绩职业兴趣从业者的实际成绩或工作表现人格主试主观标准,被试以后行为,临床资料 91document number常用的效标常用的效标 这些效标可以是连续变量,也可以是离散变量;可以是自然的现成指标,也可以是人为设计的指标;可以是主观判断,也可以是客观测量;可以是自我评定,也可以是他人评定等等。92document number效标效度的种类效标效度的种类 根据效标资料搜集的时间差异和作用或用途,效标效度可以分成:1.同时效度:效标资料是与测验分数同时搜集的,它主要用于诊断现状。2.预测效度:效标资料是在测验之后一段时间根据实际工作成绩来确定的,其作用在于预测某个个体将来的行为。93document number1 1同时效度同时效度n含义n根据测验分数区分已有的状态或预测已知的效标表现来评估测验效度的方法。n对同组对象求新编测验得分与现有测验得分(效标值)之间的相关。n应用:效标分和新编测验分能同时得到。如智力测验n度量指标:测验分与效标分的相关系数 94document number预测效度预测效度n定义n根据测验分数预测其将来在效标上的成绩来考察测验效度的方法。n一个测验对被试心理特质或未来绩效所作预测的准确程度。n应用:测验分与效标分不能同时得到。如人才选拔,高考 n度量指标:测验分与效标分的相关系数 95document number效标效度的确定方法效标效度的确定方法 1.确定效标效度的步骤:(1)明确观念效标;(2)确定效标测量;(3)考察测量分数与效标测量的关系。1.选择团体 2.测验3.处理4.效标测量5.求相关系数96document number估计效标效度的方法估计效标效度的方法n相关法n区分法n命中率法 97document number(1)相关法:评估效标效度最常用的方法 计算测验分数与效标测量的相关系数,符号rXY或val。例如,张厚桑教授在主持修订瑞文标准推理测验(SPM)时,她报告的共时效度就是北京一所普通中学45名1215岁学生同时接受SPM和韦氏儿童智力测验得分的积差相关系数,预测效度则是对北京市两所中学69名高三学生先施测SPM,再搜集这批学生3个月后的高考成绩,最后计算SPM成绩与高考语文、数学和总分的积差相关。估计效标效度的方法估计效标效度的方法98document number相关法使用条件相关法使用条件双方连续变量Pearson积差相关等级资料或顺序型变量Spearman测验连续,效标二分类变量 点二列相关双方连续变量一方认为二分类二列相关多列等级变量如多个评分者 肯德尔和谐W系数测验连续,效标等级贾斯朋多系列相关99document number区分法区分法tt检验检验n操作过程:操作过程:被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量)的好坏分成两组。这时再分析这两组被试在原测验上的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。即以测验分数能否区分由效标测量所定义的团体。n目的:比较高低分组的差异。目的:比较高低分组的差异。高分组和低分组的划分依据一般为前后各27%,有时为 25%-33%。100document number区分法:分析高分组与低分组分布的重叠量,或者计算每一组内得分超过(或低于)另一组平均数的人数百分比,或者计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。101document number(二)效标效度的评估方法1、相关法:相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。2、区分法:分析高分组与低分组分布的重叠量,或者计算每一组内得分超过(或低于)另一组平均数的人数百分比,或者计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。102document number(二)效标效度的评估方法3、命中率法:命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。103document number例如:团体高分组的平均数为6.05,标准差为2.02;低分组的平均数为4.25,标准差为1.3。试问两组的平均数有无显著差异?104document number命中率法命中率法n当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。105document number命中率法命中率法n含义:正确决策的比例n用途n人才选拔n方法n正确决策的结果 n正确接受n正确拒绝 心理测验飞