《心理测量第4章心理与教育测量的信度.ppt》由会员分享,可在线阅读,更多相关《心理测量第4章心理与教育测量的信度.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 心理与教育测量的信度第四章第一节 测量的信度 作为一个好的测验,它的结果必须可靠。所谓可靠,是指多次测量的结果保持一致。人们通常把测量结果的可靠性称为信度,即测量结果的一致性或可信性程度。一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变。在测量学中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率,即:式中的称作信度系数注意:n信度是指测量工具所获得的结果的可靠性。n每个信度的估计值仅指某一特定类型的一致性,而非泛指一般的一致性。n信度的估计是完全采用统计方法的。信度的作用n信度是测量过程中随机误差大小的反应n信度可以用来解释个体测验分数的意义n信度可以帮助
2、不同测验分数之间进行比较q一个测验有多个信度估计值,因而误差估计值也有多个,我们在实际工作中要注意选择最适合某一特殊情况的信度估计来解决问题。q测验分数不能看成是一个点,而应该是一个范围。n评价测验 信度系数是衡量测验好坏的一个重要指标,最理想的r=1.00,但这是办不到的。不过我们可以用已有的同类测验作为比较的基准。一般能力测验和成就测验的信度系数都在0.9以上,有的可达到0.95;而性格、兴趣、态度等人格测验的信度一般在之间或更高些。一般原则是:当rxx0.70时,测验不能对于个人作出评价或预测,而且不能做团体比较;当0.70rxx0.85时,可用于团体比较;当rxx0.85时,才能用来鉴
3、别或预测个人成绩或行为。另一原则是,新编的测验信度应高于原有的同类测验或相似测验。表3-1 几种心理测验的信度系数测验类型信 度低中高成套成就测验0.660.920.98学术能力测验0.560.900.97成套倾向性测验0.460.880.96客观人格测验0.460.850.97兴趣测验0.420.840.93态度测验0.470.790.98n解释分数q个人测验分数的误差 信度系数仅表明一组测量的实际值与真值的符合程度,并没有给出个人测验分数的变异情况。由于误差存在,一个人所得的分数一般很难等于真分数。理论上我们可以对一个人施测无数次,然后求出所得分数的平均数和标准差,在这里平均数就是这个人的
4、真分数,标准差则为测量误差大小的指标,但实际上是行不通的。在实际工作中,我们往往用一组被试两次施测的结果来估计误差的变异数。这时个人在两次测试中分数的差异就是测量误差,据此可以得到一个误差分数的分布,这个分布的标准差就是测量的标准误,它是测量误差大小的指标,其计算的公式为:SE为标准误,Sx为所得分数的标准差,rxx为测验的信度。根据统计学里讲的区间估计的方法,我们可以得知:个人在每次测量中所得分数X有95%的可能性在真分数加减1.96个标准误的范围内,即n两种测验分数的比较 来自不同测验的原始分数是无法直接比较的,只有参照统一团体的平均分数,将它们转换成相同尺度的标准分数(如T分数或Z分数)
5、,才能进行比较。为了说明个人在两种测验上的差异,我们可以用差异标准误来检验其差异的显著性,其公式:SEd为差异的标准误,SE1、SE2为两个测验的分数的标准误,将 、代入上式中可得 S为相同尺度的标准分数的标准差,rxx、ryy分别为两个测验的信度系数。然后再将标准分数的差异与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著。n例:韦克斯勒对104名14岁半至15岁半的儿童,间隔一个月时间前后测了两次,求得全量表的稳定性系数为0.95,实测分数的标准差为15,则测量的标准误为:如果某15岁儿童韦氏智力量表获得的IQ为115,那么他的智商的真分数的变动范围就是1151.963
6、.35,也就是说,有95%的把握认为,这个儿童真正的智商水平在108.4至121.6之间。n某被试在韦氏成人智力测验中言语智商为102,操作智商为110,已知两个分数都是以100为平均数、15为标准差的分数,假设言语测验和操作测验的分半信度分别为0.87和0.88,问其操作智商是否显著高于言语智商?估计信度的方法n再测信度n复本信度n分半信度n同质性信度n评分者信度n标准参照测验的信度估计n重测信度 用同一个测验,对同一组被试前后两次施测,两次测验分数所得的相关系数为再测信度。因为它能反映两次测验结果有无变动,也就是测验分数的稳定性程度,故又称稳定性系数。其计算公式为:n计算再测信度应满足以下
7、几个假设;所测量的特质必须是稳定的;遗忘与练习的效果相同;两次施测期间被试的学习效果没有差别n采取此法时应注意以下几个问题:q两次测验的时间间隔要适当q再测法适用于速度测验和人格测验,而不适用于难度测验q应注意提高被试的积极性 用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。复本信度 根据一组被试在两个平行(等值)测验上的得分计算的相关系数即为复本信度。因为它反映的是两个测验之间的等值程度,因此又叫等值性系数。其计算方法与再测法相同。在使用复本法估计信度时,两个等值测验可以连续施测,也可以相距一段时间分两次施测。在采用此
8、法时,一定要注意:q两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似;q两次测验的时间间隔要适当;尽管复本信度的估计方法避免了再测法的缺点,应用范围较广,但它本身也有一定的局限性:q复本法只能减少而不能完全排除练习和记忆的影响;q对于许多测验来说,建立复本是相当困难的;q由于第二个测验只改变了题目的内容,已经掌握解题原则,可以很容易迁移到同类问题中去。分半信度 分半法是按正常的程序实施测验,然后将全部项目分成相等的两半,根据各人在这两半测验的分数计算其相关系数。在计算分半信度的时候,通常采用奇偶分半法,求出所有被试奇偶数项目总分的相关系数。由于这样求得的只是半个测验的信
9、度,因此要用斯皮尔曼-布朗公式校正,校正公式为:分半法尽管不需要施测两次或者编制两份等值的测验,但它实际上是假定两半测验等值,亦即两半分测验分数具有相同的平均数和标准差。当假定不能满足时,可以采用下面两个公式来估计信度:弗朗那根公式:卢伦公式:使用奇偶分半法一定要注意两个问题:n如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则将会高估信度的值;n当试卷中存在任选题或试卷为速度测验时,不宜采用分半法同质性信度n同质性也称内部一致性,指的是测验内部所有题目间的一致性。分半法实际上就是对测验内部一致性的一个粗略估计。n测量同质性信度的基本公式 K为构成测验项目数,为项目间相关
10、的平均数,rkk为同质性信度值n库德-理查逊公式nK-R20公式nK-R21公式n克伦巴赫系数 库德-理查逊公式只适用于答对一题得一分,答错无分的测验,不适用于项目多重记分的测验,针对这一需要,克伦巴赫提出了系数的方法。其公式为:K为测验题目数,为某一题目分数的变异数,为测验总分的变异数采用SPSS计算信度数数据据库库同质性信度计算方式结果输入40题结果评分者信度 标准化测验一般都有较为严格的评分程序。对于客观性试题来讲,评分所引起的误差是可以忽略不计的,但是对于一些主观题来讲,评分者之间的变异是产生误差的重要原因之一。考察评分者信度的方法是随机抽取部分试卷,由两个或多个评分者独立按评分标准打
11、分,然后求其间的相关。在计算相关时,如果是两个评分者,则采用积差相关或等级相关的方法,一般认为经过训练的成对评分者之间的一致性达0.90以上,评分才是客观的。如果是多个评分者则采用和谐系数来估计信度。其公式为:第三节 影响信度的因素 影响信度的因素很多,被试、主试、测验内容、施测环境等各方面均能引起随机误差,导致分数不一致,从而降低测验的信度。下面介绍几个影响测验信度系数的重要因素:n被试样本n测验的长度n测验的难度n被试样本 团体的异质程度与分数的分布有关,一个团体越是异质,其分数的分布的范围也就越大,新度系数也就越高。由于信度系数与样本团体的异质性有关,因此我们在使用测验时,不能认为当该测
12、验在一个团体中有较高的信度时,在另一个团体中也具有较高的信度。因此,往往需要重新确定测量的信度。n测验的长度 一般来说,测验越长,信度值越高。这是因为:q测验加长,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平;q测验的项目越多,在每个项目上的随机误差就可以互相抵消。增加测验长度的效果可以用斯皮尔曼-布朗公式来计算:K为改变后长度与原长度之比,rxx为原测验的信度,rkk为测验长度是原来的K倍时的信度估计。n测验的难度q测验的难度与信度没有直接对应关系,但是当测验太难或者太易时,则分数的范围就会缩小,从而降低信度。显然只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会
13、最高,通常这个难度水平为0.5。q当题目过难时,被试可能凭猜测作答,从而也会降低信度。提高信度的方法n适当增加测验项目的数量n因素分析和鉴别力分析n控制测验项目的难度n选择恰当的被试团体n弱势校正第四节 信度的特殊问题标准参照测验的信度估计n对相关法信度系数进行校正 利文斯顿相对法信度系数的校正公式:为标准参照测验的信度,为任何一种相关法信度系数,S为分数标准差,为分数的均值,C为达标分数或分数线。n用决策的一致性作为信度指标 标准参照测验常用来把被试分为掌握(达标)和未掌握(未达标)两组,这实际上是用测验来作决策,因此可用作决策的一致性而不是分数的一致性来确定信度,也就是看再测时被同样归类的受测者的比例,两次施测被同样归类的受测者比例越高,说明信度越高。1979年林德曼与梅伦达提出了一个计算一致性的公式:C为一致性,n为在两次施测中均未达标的人数,b为在两次施测中均已达标的人数,f为只在第一次施测中达标的人数,s为只在第二次施测中达标的人数,v为f或s中较小的值。
限制150内