第四章测量的信度课件.ppt
《第四章测量的信度课件.ppt》由会员分享,可在线阅读,更多相关《第四章测量的信度课件.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1Measurement Reliability 第四章第四章 测验的信度测验的信度2Measurement Reliability导学导学信度是评价信度是评价测验优劣测验优劣的重要指标,了解信度的相关知识是的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决编制优质高效测验的前提。通过本章的学习我们可解决三个问题:三个问题: 一、明确信度的理论定义及操作定义;(难点)一、明确信度的理论定义及操作定义;(难点) 二、掌握几种常模参照测验的信度估计方法;(重点)二、掌握几种常模参照测验的信度估计方法;(重点) 三、了解影响信度的因素,在信度估计时尽量避免由此三、了解影
2、响信度的因素,在信度估计时尽量避免由此造成的误差造成的误差;提高信度的方法。;提高信度的方法。3Measurement Reliability第一节第一节 信度概述信度概述一、什么是信度一、什么是信度 1. 1.信度的理论定义信度的理论定义 信度即测量结果的信度即测量结果的稳定性稳定性、一致性一致性或或可靠性可靠性。是。是用同一测量工具反复测量某人的同一种心理特质,用同一测量工具反复测量某人的同一种心理特质,所得结果的一致性程度。所得结果的一致性程度。 4Measurement Reliability2.信度的统计定义信度的统计定义定义定义1:信度是被试团体真分数方差与实得分数方差之比:信度是
3、被试团体真分数方差与实得分数方差之比定义定义2 2:信度是被试团体真分数与实得分数相关系数的平方:信度是被试团体真分数与实得分数相关系数的平方定义定义3 3:信度是一个测验:信度是一个测验X X(A A卷)与它的任意一个平行测验卷)与它的任意一个平行测验(B B卷)的相关系数卷)的相关系数2TXXXrXXXXr rxx代表测量的信度,代表测量的信度,S2T代代表真分数的变异数,表真分数的变异数, S2x代代表是实得分数的变异数,即表是实得分数的变异数,即总变异数。总变异数。5Measurement Reliabilityl 由于真分数的方差无法统计,可转化为:由于真分数的方差无法统计,可转化为
4、: rxx=(S2x-S2E)/S2x =1- S2E/S2x 该定义有两点需要注意:该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,而第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;不是个人分数的特性; 第二第二 、真分数的变异数是不能直接测量的,因此信度是、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估一个理论上构想的概念,只能根据一组实得分数做出估计。计。6Measurement Reliabilityl 信度只受随机误差的影响。随机误差越大,信度越低。l 信度不受系统误差的影响。7Measuremen
5、t Reliability二、信度指标二、信度指标1.信度系数与信度指数信度系数与信度指数l 大部分情况下,信度是以大部分情况下,信度是以信度系数信度系数为指标,信度系数为指标,信度系数又以又以相关系数相关系数表示,即用同一被试样本所得的两组资表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数料的相关系数作为测量一致性的指标,称作信度系数( rxx)信度系数是表示测量结果的信度系数是表示测量结果的稳定性程度稳定性程度的指的指标。标。l rxx =r2XT=s2T/s2xl rXT信度指数,它的平方就是信度系数信度指数,它的平方就是信度系数8Measurement
6、Reliability信度系数是表示测量结果的稳定性程度的指标。记为:信度系数是表示测量结果的稳定性程度的指标。记为:XXr信度系数的值域:信度系数的值域:?没有百分之百可靠的测量,因此,没有百分之百可靠的测量,因此,rXX=1只是理只是理论上的值,实际当中是不会存在的。论上的值,实际当中是不会存在的。相关系数的值域是相关系数的值域是-1,+1 ,信度系数的值域:,信度系数的值域:0,1,为什么?为什么? 0,19Measurement Reliability经典测量理论的信度系数经典测量理论的信度系数l 重测信度稳定性系数l 复本信度等值性系数、等值性与稳定性系数l 内部一致性系数分半信度、
7、同质性信度l 评分者信度肯德尔和谐系数10Measurement Reliability对信度系数要注意的几点:对信度系数要注意的几点:l 1.在不同情况下,对不同样本,采用不同方法在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不会得到不同的信度系数,因此一个测验可能不只一个信度系数。只一个信度系数。l 2.信度系数只是对测量分数不一致程度的估计,信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。并没有指出不一致的原因。l 3.获得较高的信度系数并不是心理测量追求的获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测量最终目的
8、,它只是迈向目标的一步,是使测量有效的一个必要条件。有效的一个必要条件。11Measurement Reliability信度系数要达到多高才可以接受呢?信度系数要达到多高才可以接受呢?l 最理想的是最理想的是r rxx xx 1.00,1.00,但办不到但办不到l 研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.900.90以上,有的还以上,有的还可以达到可以达到0.950.95以上以上; ;人格测验、兴趣、态度、价值观等都人格测验、兴趣、态度、价值观等都在在0.800.800.850.85。l 一般原则:一般原则:l 当当r rxxxx0.700.70时,测验不能用于对
9、个人作出评价或预测,时,测验不能用于对个人作出评价或预测,而且不能做团体比较;而且不能做团体比较;l 当当0.70r0.70rxx xx 0.850.85时,可用于团体比较;时,可用于团体比较;l 当当r rxxxx0.850.85时,才能用来鉴别或预测个人成就或作为。时,才能用来鉴别或预测个人成就或作为。l 另一原则:新编的测验信度应该高于原有的同类测验或另一原则:新编的测验信度应该高于原有的同类测验或相似测量相似测量12Measurement Reliability测验类型测验类型 信度系数信度系数 低低中中高高学业成就测验学业成就测验0.660.920.98学术能力测验学术能力测验0.5
10、60.900.97特殊能力倾向测验特殊能力倾向测验0.260.880.96人格测验人格测验0.460.850.97兴趣测验兴趣测验0.420.840.93态度测验态度测验0.470.790.98注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.13Measurement Reliabilityl 2.标准误标准误l 信度系数仅表示一组测量的实得分数与真分数的符合程信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个
11、人测验分数的变异量。由于误度,但并没有直接指出个人测验分数的变异量。由于误差存在,一个人所得分数有时比真分数高,有时比真分差存在,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可以对一个人施测无数低,有时二者相等。理论上我们可以对一个人施测无数次测验,然后求得分数的平均数和标准差。这个平均数次测验,然后求得分数的平均数和标准差。这个平均数就是这个人的真分数,而标准差就是测量误差大小的数就是这个人的真分数,而标准差就是测量误差大小的指标。但在实际上是行不通的。然后,我们可以用一组指标。但在实际上是行不通的。然后,我们可以用一组被试两次测量结果来代替对同一人的反复施测,被试
12、两次测量结果来代替对同一人的反复施测,以估计以估计测量误差的变异数。测量误差的变异数。14Measurement ReliabilityxxxrSSE1n此时,个人在两次测验中的分数差异就是测量误差。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(据此可制成误差分数的分布。这个分布的标准差(误误差分布的标准差差分布的标准差)我们称之为)我们称之为测量的标准误测量的标准误,是表示是表示测量误差的大小测量误差的大小的指标,其计算公式为:的指标,其计算公式为:SESE表示测量的标准误,即误差分布的标准差;表示测量的标准误,即误差分布的标准差;SxSx表示实表
13、示实得分数的标准差;得分数的标准差;r rxxxx表示信度系数。表示信度系数。15Measurement Reliability三、信度的作用三、信度的作用(信度与测验分数的解释)(信度与测验分数的解释)1.信度是测量过程中所存在的随机误差大小的反映信度是测量过程中所存在的随机误差大小的反映 (解释真实分数与实得分数的相关)(解释真实分数与实得分数的相关)l 信度系数可以解释为:总的方差中有多少比例是由真实信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。的变异占百分之几。l 例如,
14、例如,r=0.9r=0.9时,实得分数时,实得分数9090的变异来自真分数,的变异来自真分数,1010来自误差。来自误差。r=1r=1呢?呢?r=0r=0呢?呢?l 信度系数从信度系数从0.000.001.001.00,代表了从缺乏信度到完全可信,代表了从缺乏信度到完全可信的所有状况的所有状况l 信度系数也告诉我们误差有多大信度系数也告诉我们误差有多大16Measurement Reliability2.确定信度可以接受的水平确定信度可以接受的水平l 最理想的是最理想的是rxx 1.00,但办不到但办不到l 研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.90以上,有的以上
15、,有的还可以达到还可以达到0.95以上以上;人格测验、兴趣、态度、价值观人格测验、兴趣、态度、价值观等都在等都在0.800.85。l 一般原则:一般原则:l 当当rxx0.70时,测验不能用于对个人作出评价或预时,测验不能用于对个人作出评价或预测,而且不能做团体比较;测,而且不能做团体比较;l 当当0.70rxx 0.85时,可用于团体比较;时,可用于团体比较;l 当当rxx0.85时,才能用来鉴别或预测个人成就或作时,才能用来鉴别或预测个人成就或作为。为。l 另一原则:新编的测验信度应该高于缘由的同类测验或另一原则:新编的测验信度应该高于缘由的同类测验或相似测量相似测量17Measureme
16、nt Reliability3.解释个人分数的意义解释个人分数的意义l 作用:其一是估计真实分数的范围;其二是了解实作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。得分数再测时可能的变化情形。 这就是这就是测量标准误测量标准误的应用。的应用。 xxxrSSE1l X1.96SE T X1.96 SE真分数的估计区间为:真分数的估计区间为:19Measurement Reliabilityl 我们可以用测量的标准误来估计个人测验的真分数的大小。 l 如果选用95的可靠性水平(置信水平),即显著性水平(a值)为.05,真分数有95的可能落入X SE ,即X 1.96 SE的
17、范围之内,也可以写成X1.96SE T X1.96 SE,SE则用公式代入。或有5的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。 l X1.96SETX+1.96SE20Measurement Reliabilityl 例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?l 已知该智力测验的标准差为15,信度系数为.84,则其IQ的测量标准误和可能范围为:l 15 1 0.846.0IQ100 1.96SE100 11.76 88112SE 21Measurement Reliabilityl 注意几点:注意几点:l (1
18、 1)SESE对真分数做的是对真分数做的是区间估计区间估计,不可能由此得到一,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。异是很正常的。l (2 2)置信水平确定后,估计的精度主要取决于)置信水平确定后,估计的精度主要取决于SESE,SESE越小,范围越小,估计就越精确,反之也然。越小,范围越小,估计就越精确,反之也然。l (3 3)真分数不能等同于真正能力或心理特质,真分数)真分数不能等同于真正能力或心理特质,真分数
19、中包括了系统误差。中包括了系统误差。22Measurement Reliability4.比较不同测验分数的差异比较不同测验分数的差异l 来自不同测验的原始分数是无法直接进行比较的,只有来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。将它们转换成相同尺度的标准分数才能进行比较。l 这种比较包括两个人不同分数的差别和同一被试在两个这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。测验上的差别。SEdSEd为差异的标准误,为差异的标准误,S S代表两个测验使用的标准差,这代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的
20、单位个标准差要相同,因为只有在两个分数具有相同的单位时才可以比较。时才可以比较。r rxxxx、r ryyyy分别为两个测验的信度系数。分别为两个测验的信度系数。yyxxdrrSSESESE2222123Measurement Reliabilityl例;某被试在韦氏成人智力测验中言语智商为例;某被试在韦氏成人智力测验中言语智商为102,操作智,操作智商为商为110。已知两个分数都是以。已知两个分数都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分别为差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和和0.88。问其操作智商是否显著高于
21、言语智商呢?。问其操作智商是否显著高于言语智商呢? l首先计算出差异分数的标准误:首先计算出差异分数的标准误:l在统计上,经常要求两个分数的差异程度达到在统计上,经常要求两个分数的差异程度达到0.05的显著的显著水平,才能承认不是误差的影响。因此,将差异标准误水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以)乘以1.96,结果为,结果为14.7,这表明个体在韦氏测验,这表明个体在韦氏测验两半得分的差异高于大约两半得分的差异高于大约15分,才能达到分,才能达到0.05显著水平。显著水平。上述被试的差异分数上述被试的差异分数110-102=8是不显著的。是不显著的。24Measure
22、ment Reliability课堂练习课堂练习l 1.某个被试的测验某个被试的测验IQ=100,再测的分数可能是多少?再测的分数可能是多少?(已知测验的标准差为(已知测验的标准差为15,信度系数为,信度系数为0.90).l 2.被试在韦氏智力测验中言语智商为被试在韦氏智力测验中言语智商为102,操作智商,操作智商为为110。两个分测验都是以。两个分测验都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分差的标准分数。假设言语测验和操作测验的分半信度分别为别为0.93和和0.94.问其操作智商是否显著高于言语智问其操作智商是否显著高于言语智商?商?9
23、595的可能在的可能在90.690.6109.4109.4之间之间25Measurement Reliability课后作业课后作业l 1.某智力测验的信度某智力测验的信度r=0.75,某次施测得到标准差为,某次施测得到标准差为3.00,则该测验的测量标准误是多少,若某被试得分,则该测验的测量标准误是多少,若某被试得分为为100,试估计其真分数,试估计其真分数1- =.95的置信区间的置信区间l 2. 某测验的信度为某测验的信度为0.75。要使该测验的信度达到。要使该测验的信度达到0.90,须增加多少题目(原测验长度的多少倍),须增加多少题目(原测验长度的多少倍) ?l 3.一个包含一个包含1
24、0个题目的测验,信度为个题目的测验,信度为0.50,若增至,若增至50个题目,其信度将是多少?个题目,其信度将是多少? l 4.书本书本P5758第第2、3题题26Measurement Reliability第二节第二节 信度的评估方法信度的评估方法一、重测信度一、重测信度二、复本信度二、复本信度三、内部一致性信度三、内部一致性信度四、评分者信度四、评分者信度27Measurement Reliability一、重测信度一、重测信度(Test-Retest ReliabilityTest-Retest Reliability)(一)含义(一)含义也叫也叫再测信度再测信度l 1.重复测验:重复
25、测验:同一量表,同一被试群体,在不同时间,同一量表,同一被试群体,在不同时间,两次施测。两次施测。l 2.重测信度:重测信度:用同一测验,对同一组被试前后两次施测,用同一测验,对同一组被试前后两次施测,两次测验分数之间的相关程度(用相关系数来表示)就两次测验分数之间的相关程度(用相关系数来表示)就是再测信度。是再测信度。l 3.重测信度实质重测信度实质:主要考察了一个测量工具是否能够保:主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,表示测验结果的稳定证在不同时间测量结果的一致性,表示测验结果的稳定性。故称之为性。故称之为稳定性系数稳定性系数(Coefficient of Sta
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 测量 信度 课件
限制150内