《心理测量学复习提纲.pdf》由会员分享,可在线阅读,更多相关《心理测量学复习提纲.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、复习提纲 第一章 心理测量的历史 1.中国古代心理测量方法:观察法、访谈法、自然实验法 2.冯特1879年在莱比锡大学建立第一所心理实验室。最先倡导测验运动的是优生学创始人高尔顿。他开创了个别差异心理学研究,并采用定量研究方法。卡特尔 1890 年在心理杂志上发表的论文心理测验与测量,这是心理测量第一次出现在心理学文献上。艾宾浩斯 1885 年发表记忆,开了用实验方法研究记忆的先河,使他成为第一位对记忆这种高级心理过程进行科学定量研究的心理学家。比奈是发明智力测验常模量表的第一人。1905 年,比奈与西蒙合作,编制世界上第一个智力测验比奈-西蒙量表。美国斯坦福大学的推孟教授1906 年修订了斯
2、坦福-比奈量表,首次采用智商(IQ)概念。美国心理学家桑代克1904 年出版心理与社会测量导论,是关于测验理论的第一部著作。人格测验的先驱是克雷佩林,于1892 年最早使用自有联想测验诊断精神病人。3.心理测验的发展,主要受了发面影响:心理学理论的发展、统计学方法的进步。第二章 心理测量概述 1、测量就是根据一定的法则用数字对事物加以确定。2、测量的三要素:事物、数字、法则。3、测量的两个要素:参照点、单位 (参照点 是确定事物的量时计算的起点,参照点有两种,绝对零点和相对零点。“0C”属于相对零点,并不意味着没有温度。机误差2.系统误差。1.指那些与测量目的无关的偶然因素引起的误差。既影响测
3、验的一致性、准确性 2.指引起的一种恒定而有规律的效应。不影响一致性,只影响准确性。要想使测量准确可靠,就必须减少误差;而要控制误差,就必须了解误差的来源。同物理测量一样,心理测量误差主要来自:1测量工具,2测量对象,3测量过程。(1造成的误差主要来自测验的编制 过程,其中 项目取样 的影响最大。2即被试本身引起的误差最复杂最难控制。3的误差最容易控制和检验。)要想控制误差,就必须使测验标准化,即测验的编制、施测、评分、解释都必须标准化控制导致误差的因素,减少误差,使测验分数更可信、有效。2、测量理论一般分经典测量理论、概化理论和项目反应理论三大类。将以真分数为核心假设的测量理论及其方法体系,
4、统称为经典测验理论(CTT),或真分数理论。是最早实现数字形式化的测量理论。真分数的操作定义:无数次测量结果的平均值。CTT的基本思想:把任何一个测验成绩都看作是真分数和测量误差的和。即CTT 假定,观察分数(X)与真分数(T)之间是一种线性关系,并且只相差一个测量误差(E).公式:X=T+E,这就是CTT 数字模型。(注:此处误差指引起测量不一致的因素产生的效应,即指随机误差,不包括系统误差,后者不引起分数改变,因此包含在真值中。)3、CTT不足、局限性:统计量的样本依赖性,抽样变动大能力与难度量表的不一致性,测量误差大信度估计的不准确性,复本编制难测验结果拓宽的有限性,预测力缺乏测量分数的
5、测验依赖性,分数难比较。第四章 心理测量的信度 1.信度:指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得测量结果的稳定性与一致性程度。(书上只是划线部分)在测量理论中,信度定义:一组测量分数的真变异数与总变异数(实得变异数)的比率,即 rXX=ST2 真值方差 SX2 观测值方差 2.信度作用:是测量过程中随机误差大小的反映(注:信度并不反映系统误差)可以帮助在不同测验分数之间进行比较可以用来解释个体测验分数的意义 3.信度系数 不同的信度反映测验误差的不同来源 备注 误差来源 重测信度=稳定性系数 同一量表、同一组被试,两次测验,所得结果的一致性程度。(跨时间)优:
6、提供测量结果是否随时间而改变的资料,可作预测受测者将来行为的依据 时间取样 人的多数心理特征具有相对稳定性、间隔一段时间,不会有很大变化。缺:易受练习、记忆影响,前后两次施测间隔长短务必适宜 内容取样 复本信度 =等值性系数 两个平行测验测量同一批被试等值、但题目不同、同一群体(跨形式)局限:虽然比再测信度应用广泛许多,但 1.受练习、记忆影响更大2.测量难度会由于重复而有所改变3.编制真正的等值测验困难重重(连续施测:内容-)反映测验在内容上的等值性,系数大小反映两个复本题目的差别。(间隔-:时间&内容-)分半信度 与复本信度很相似 指将一个测验分成对等两半后,所有被试在这两半上所得分数的相
7、关。同等条件下,测验越长,信度越高。误差来自题目本身,与时间因素无关;不适用于速度测验;分半方法多同一测验会有多个分半信度值 内容取样 同质性信度=内部一致性系数 测验内部所有题目间的一致性 所有题目看起来像测量同一特质,但相关很低或负相关时,测验为异质 题目内部一致性影响因素:1.内容取样2.所研究行为的一致性。所研究行为的同质性越高,项目间一致性越高。内容的异质性 评分者信度 定义:多个评分者给同一批人的答卷评分随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后根据每份测验卷的两成对受过训练的评分者之间平均一致性达到以上,评分才是客观的 评分者之间的差异 的一致性程度 个分数计算相
8、关 总述 只能说在特定条件下,用于特定的团体,采用特定方法所得的信度系数是多少。即信度总是与特定情境相关 4.影响信度的因素:是测量过程中随机误差大小的反映。随机误差大,信度就低。所以引起随机误差的因素一般都影响信度。主要有:被试因素主试-施测情境-测量工具-两次施测的间隔时间 5.提高信用的常见方法:适当增加测验项目的长度因素分析和鉴别力分析弱势矫正控制测验项目的难度选取适当的被试群体,提高测验在各同质性较强的亚团体上的信度。第五章 心理测量的效度 1.效度:(指一个测验或量表实际能测出其所要测的心理特质的程度。)/所有变异中,只有由所观察的心理特性引起的变异部分才是要真正测量的,它在变异中
9、所占比重就是效度的大小。/效度的基本问题是:测验要测量的是什么。/信度不考虑系统误差,效度考虑。2.效度性质:效度是针对测验结果的eg.这个智力量表真的能考查智力吗;-是针对某种特定的测量目的的所以不具有普遍性;-只有程度上的差异。心理特质较隐蔽,通过其行为表现来推测,只能达到某种程度上的准确。所以效度是程度上的差别,而不是全或无的差别。(补充说明:相对性:在评鉴测验的效度时,必须考虑其目的与功能)3.效度验证:收集大量资料和证据来检验测验效度的工作过程。常用的效度概化验证的方法:交叉效度评定 元分析 4.效度与信度的关系:信度高是效度高的必要非充要条件。所以,3种组合:高信高效,高信低效,低
10、信低效/从信度和效度定义可解释:效度Val=Sv2/Sx2,信度rXX=ST2/SX2,而ST2=Sv2+SI2,因此信度的提高只给Sv2的增加提供可能性,至于是否能提高效度还要看SI2的大小。可见信度高效度不一定高,但一个测验要想使效度高,信度必须高。测验效度受信度的制约。5.效度种类:最常见分类方式是根据效度验证的证据来源,把效度分为:内容效度效标关联效度、构念效度。6.注:楷体书上无,属于补充 内容效度 指测验题目对有关内容或行为范围取样的适当性,所关注的是测验的内容方面 评估方法 1、专家评定法=逻辑效度,专家认为代表了所测内容,则具有内容效度(运用逻辑思维)2、统计法 3、经验法 特
11、性:最高行为的测验要求有较高的表面效度 效标效度 指测验结果能否代表或预测校标行为的有效性和准确性程度 评估方法 验证策略:同时效度与预测效度 计算方法:a.相关系数法 b.分组检验法 c.取舍正确率 效标:指独立于测验结果,反映测验目的的行为参照 分类 同时效度 预测效度 构念效度=结构效度,测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度 评估方法 内部一致性(用来衡量测量的同质性)与其他测验的相关发展变化(年龄/教育与训练效应引起)因素分析多特质-多方法研究结构方程建模认知心理学上的证据 7.其他效度:表面效度:(是测验要求被试做的事情和被试对
12、比理解之间的互动)在技术意义上,它不能算是一种效度;它不是指测验实际上所测量的效度,而是指测验表面上看起来所要测的东西。表效影响被试测验动机。适当的表效是可以的,测验题目引起被试的动机与兴趣,但也有较好的隐蔽性 聚合效度=会聚效度,求同效度 基本思想 若两个测验测量同一特质,即使使用方法不同,它们之间相关也是高的 区分效度=求异效度 不同特质相同低 合成效度与区别效度:职业心理学家发展出来的两个新的效标关联效度。区别效度与区分效度在概念和使用范围上都有所区别:ab区分效度与聚合相对的,是用以检验构念效度的指标。而区别效度用以检验职业测验关联效度的指标,它有不同含义:某个心理测验的得分,与两种不
13、同性质的职业绩效之间的相关系数的差异,可以作为该测验的区别效度,用以推测选择哪种职业其成功的可能性如何。内部效度 a与外部效度 b:a=内部一致性效度,反映测验的构念效度。b:指将研究结果概化到其他情境和总体的程度。8.影响效度的因素:测验本身因素1.测验的、校标因素、样本的代表性、干涉变量。9.效度的应用:效度在测验编制中的重要作用-在选拔中的重要影响-在决策中的重要影响-与信息组合-在人员分类与安置中的重要影响。第六章 心理测验的编制 1.心理测验的编制的程序:“三阶段六步骤”测验编制的准备阶段:确定测验目的拟定编题计划 测验的正式编制阶段:产生测题(1搜集有关资料 2 选择测题形式 3
14、编写修订测题)合成测验(1预测和复核2项目选择和编排3等值复本的编造)测验编制的完善阶段:测验的标准化(测验内容、实施过程、评分计分、分数解释标准化)测验性能评估 编写测验指导手册 2.心理测验编制的主要原则:(一)基本原则:1.信度好 2.效度高 3.难度适中 4.区分度强 (二)具体要求:4点:针对题目内容、语言、表达、理解的要求 心理测验编制的具体技术:(想要编制良好的测验,除了必须遵循前述测验编制的程序和命题原则外,还要掌握命题的方法与技巧。)(一)客观性题目的编制要领:1.多选题 2.是非题与改错题 3.匹配题与排列题 (二)主观性:1.填空题与简答题 2.论文题 3.应用题 4.操
15、作题 5.联想题 3.项目分析含义&意义(why进行xmfx):信度与效度是对测验整体的分析,而xmfx则是细化的、对测验中每个项目(item)的具体分析。信度好与效度高必然是高质量的项目的综合反映。通过预测,对测验的各个项目或题目进行分析,是编制和修订测验的重要环节。在xmfx基础上,通过对项目的筛选、修订,可以改进测验的信度和效度,使测验更加简洁、实用、有效、可靠。(评价项目质量的主要指标是难度 和 区分度)4.难度:指项目的难易程度。最高作为测验中称“难度”,经典作为测验中指“通俗性”。两者都指在总体中,能够正确或确切回答某项目的人数。5.测验难度水平的确定:效标参照测验、掌握测验,一般
16、不考虑难度;选拔测验,nd最好接近录取率;对于选择题,nd一把把应大于猜测概率。题目nd接近或等于比较理想,此时项目具有最大鉴别力。(一般,使项目平均nd接近,而各项目nd在间变化即可,若nd都为,题目过分同质,也降低区分力。)6.难度对测验的影响:nd影响测验分数的分布形态、测验的信度、测验的鉴别力(区分度)7.区分度:指测验项目对被试心理品质水平差异的区分程度,又称鉴别力。qfd也是评价项目质量和筛选项目的主要指标和依据。(qfd好的测验实际水平高的被试应的高分,低得低分。Qfd高的项目,将不同水平的被试区分开来;qfd低的项目,不能很好鉴别被试水平。)8.难度计算:p157(一)二分法计
17、分项目的难度计算 1.通过率2.两端分组法 (二)非 1.用被试得分平均数估计2.用难度的校对公式计算 9.区分度计算:p162 10.区分度与信度的关系:关系密切,一般测验的信度随区分度的提高而增长。(所以,提高题目区分度是提高信度的方法之一)区分度与难度关系:二者都针对一定团体而言。一般,较难项目对高水平被试区分度高,较易低水平高。/难度中等的题目区分度最高。11.CTT中,测量误差是一个统计量,依赖于样本;而在IRT中,测量误差不是一个统计量,它是关于的函数。12.保证试题的稳定性、分数的公平性、和合格试题的有效存储、高效成批生成等,涉及到测量理论中两个问题:测验等值、题库建设。一、1.
18、测量(/项目)等值:在心理与教育测量中,把测量同一种心理特质的不同测验分数,通过一定的数学模型转换成同一单位系统中的过程。简言之,等值是将测验不同版本的分数统一在一个量表上的过程。2.等值的性质与条件:等值是有条件的,并非任意两个测验都可以等值。等值的条件由测验的性质决定。因此,测验等值的条件与性质是统一的。首先,进行等值的测验必须是测量同一心理特质或能力(即同质性)。只有同质的事物相比较才有实际意义。其次,只有信度相等的测验才能等值(即等信度性)。两个测验即使测量同一心理特质,但信度不同,也不能等值。等值数据资料的收集方法有很多,一般分为两大类:一是采用以“人”为媒介的共同组等值设计;二是以
19、“题目”为媒介的共同题等值设计。等值设计:单一组设计共同考生设计共同参照测验设计共同参照测验和共同考生的混合设计 二、1.题库:现代意义上的题库,一般指由适用于不同目的、技能和任务需要,且具有必要参数的大量合格或优质的试题的集合。(它严格遵循心理与教育测量理论,在精确的数学模型基础上建立起来的测量评价工具。)2.题库建设的一般程序:试题开发-分析等值-存储建库-动态维护。第七章 心理测量分数的处理与解释 1.常模参照测验c:在分数解释时如果参照的是被试总体的分数分布(常模),则测验称为。标准参照测验b:是某一事先定好的标准,则。与b没有非常严格的界限,但二者有重要的区别:两者测验目的不同对题目
20、统计量的考虑不同内容领域规范的详略不同对测验分数的推断不同。主要对测验的内容领域,对被试进行比较分析 判明被试在团体中的位置&发展水平。所以,c通常使用年龄分数、年级当量、百分等级分数、标准分数等常模。的分数解释可采用1发展量表、2商数、3百分等级、4标准分数等形式。(商数包括比率智商、教育商数、成就商数)注:2中,(1916 推孟)比率智商 IQR=(智龄 MA/实际年龄CA)*100 智龄表心理发展水平,绝对量数,智商表心理发展速率,相对量数;4中,离差智商:将一个人的测验分数与同龄组的人比较所得到的标准分数。(1949韦克斯勒)离差智商 IQD=100+15*Z,100为平均数,15为标
21、准差,Z为根据每个被试的总量表分数在常模团体中的百分等级。和b的分数解释:结果解释 c(一)常模及其建立:制定常模3步:确定有关的比较团体获得该团体成员的测验分数把原始分数转化成量表,该量表能把个人分数表示成在这个团体内的相对位置。(二)分数解释:1发展量表、2商数、3百分等级、4标准分数 b(一)内容参照分数:1掌握分数、2正确百分数、3内容标准分数、4等级评定量表(二)结果参考分数:1期望结果的概率、2预期的效标分数 第八章 心理测验的使用 1.选择测验要考虑到因素:(一)所选测验必须适合测量目的和对象(二)-必须符合测量学要求1.测验的功效性敏感性简便性科学性时效性(三)测验选择的其他考
22、虑因素。Eg.测验的经济性、可得性、文化适用性。2.标准化施测:当给被试的指示、施测条件、评分计分步骤都遵循同样详细和一致的程序时,此过程可称为。否则分数解释的准确性和互比性。3.测验标准化,包括:测验的指示语、测验时间限制、测验的环境条件、测验的评分计分都要标准化。第九章 能力测验 1.个体智力测验:指在一定时间内只能测量一个被试,其主要特点在于精确、反馈及时,但不经济。目前使用最广泛的个体测验:比奈量表、韦氏量表、考夫曼量表。2.比奈-西蒙智力量表是世界上第一个智力量表,诞生于1905年。斯坦福-比奈智力量表使用智力商数(IQ)表示智力水平。1960年,该量表舍弃比率智商,引入离差智商。1
23、924年,陆志韦在斯坦福-比奈量表(1916年版)基础上,修订中国比奈-西蒙智力测验,1936年又与吴天敏合作完成第二次修订。3.韦氏量表(成人、儿童、学龄前和学龄初期儿童)的三个智力分数(言语智商、操作智商、全量表智商)的平均数都为100,标准差都为15。韦克斯勒在1949年出版的WISC中第一次用离差智商代替比率智商。4.考夫曼儿童成套评价测验(K-ABC)于1983年编成(岁岁)青少年和成人智力测验(KAIT)1993年(11岁以上青少年及成人),由2个分量表组成:晶体量表、流体量表。麦卡锡幼儿智力测验(MSCA)1972年编制,用于对儿童心理发展作综合的测定与评价。(岁儿童)5.团体智
24、力测验:指可以同时对多名被试同时实施的智力测验。(目前以纸笔测验为主,操作测验较少,题目以客观题为主,便于施测和计分)6.能力倾向测验:多重-特殊-。是有各种测量不同能力的分测验组合而成,用于了解一个人的潜能方向用于了解能力的某一特殊方面的具体情况。7.晶体智力:代表个体已经融入自身的在他们文化中得到认可的知识的程度。流-:代表个体感知、记忆以及对基本观念进行广泛思考的“纯”能力。换言之,流-包含了不是由文化进行传递的智力能力。第十章 人格测验 1.人格测验:-就是通过一定的方法,对人的行为中起稳定的调节作用的心理特质和行为倾向进行定量分析,以便进一步预测个人未来的行为。2.种类:自陈式人格测
25、验、投射式-、情境式-。(投射式是为了克服自陈式所不能克服的问题无意识动机造成的“防御心理”而发展出来的。)3.编制方法:合理建构法、经验标准法、因素分析法以及三者的综合技术。4.基于因素分析的自陈式人格问卷:卡特尔16种人格因素问卷(16PF)是用因素分析法编制问卷的典型。16PF主要功能是对个体的人格因素作出分析,从16个方面描述个体的人格特征。16种人格因素各自独立,每种因素和其他因素的相关较小。艾森克人格问卷(EPQ)的理论基础是艾森克提出的人格三维度理论,三个基本维度是:内外倾、神经质、精神质,此处人格维度是个连续体。EPQ有四个分量表:E、N、P、L。问卷分成人和儿童两种,常模采用T分数。联想型投射实验:罗夏墨迹测验(RIT)时非常具有代表性的投射测验,也是最流行的之一。由瑞士精神病学家罗夏1921年编制完成,主要是通过观察受测者对一些标准化的墨迹图形的自由反应,评估受测者投射出来的个性特征。
限制150内