《心理测量学知识3.pptx》由会员分享,可在线阅读,更多相关《心理测量学知识3.pptx(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一单元 信度的概念第1页/共44页一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。信度只受随机误差影响,随机误差大,信度低;系统误差产生恒定效应,不影响信度。第一单元 信度的概念第2页/共44页每一个测验的实得分数(X)总是由:真实分数(T)和误差(E)构成。XT+E 如果我们讨论一组测验分数的特性时,可用方差代表具体分数。S2xS2TS2E(S2x测验实得分数的方差,S2T真分数的方差,S2E 测验误差的方差)第一单元 信度的概念第3页/共44页 在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差的比率。rxx=S2T/
2、S2x 由于真分数的方差(S2T)无法统计,可以转化为:rxx=(S2x S2E)/S2x 1 S2E/S2x因此,信度也可以看作在总的方差中非测量误差的方差所占的比例。第一单元 信度的概念第4页/共44页第一单元 信度的概念rxxST2SE2SX2第5页/共44页二、信度的指标二、信度的指标(一)信度系数和信度指数一般情况下,信度以信度系数为指标,是一种相关系数,常常是同一被试样本所得两组资料的相关。理论上说,是真分数方差与实得分数方差的比值。rxx=r2xT=S2T/S2x rxT为信度指数,他的平方就是信度系数。第一单元 信度的概念第6页/共44页(二)测量标准误样本均值与总体均值总有差
3、异,差异大小用标准误衡量。标准误就是,样本平均数所服从的分布的的标准差。SE越大,抽样误差越大,样本平均数越不可靠。信度系数反映的是一组测量的实得分数与真分数的符合程度,没有指出个人测验分数的变异量。可以对一个人反复测量,求平均值,标准差。但不现实。用一组被试两次测量结果来代替对同一个人的反复施测。求得测量标准误:SESX1rxx第一单元 信度的概念v标准误可以反映信度的变化,信度越高,标准误越小,信度越低,标准误越大。End第7页/共44页 您一定记住了!您一定记住了!1、什么是信度?信度是指在不同时间内用同一测验(或另一个测验)重复测量同一被试者,所得结果的一致程度。2、信度只受什么误差的
4、影响?随机误差3、这个公式的含意:rxx=S2T/S2x 在测量理论中,一组测量分数的真分数方差与总方差的比率,就是信度。4、信度与误差关系?误差大,信度低 5、信度的指标有哪些?信度系数,信度指数,测量标准误。第8页/共44页 您一定记住了!您一定记住了!6、什么是信度系数?信度系数是信度的指标之一,是一种相关系数,常常是同一被试样本所得两组资料的相关,也是真分数方差与实得分数方差的比值 ST2/SX2。7、什么是信度指数?真分数的标准差与实得分数的标准差的比值,ST/SX。8、信度指数与信度系数关系?平方。9、什么是测量标准误?样本均值与总体均值总有差异,差异大小用标准误衡量。标准误就是样
5、本平均数的标准差。SE越大,抽样误差越大,样本平均数越不可靠。10、测量标准误与信度系数关系?信度越高,标准误越小;信度越低,标准误越大。第9页/共44页第三节 测验的信度第一单元 信度的概念第二单元第二单元 信度评估的方法信度评估的方法第三单元 信度与测验分数的解释第四单元 影响信度的因素第10页/共44页第三节 测验的信度第二单元第二单元 信度评估的方法信度评估的方法第11页/共44页第二单元 信度评估的方法一、重测信度(test-retest reliability)又称稳定性系数。它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系
6、数。.优、缺点:考察测验的时间效应。但有练习和记忆的影响。最适宜的时距随测验的目的、性质和被试特点而异,一般是24周较宜,间隔时间最长不超过六个月。第12页/共44页第二单元 信度评估的方法二二、复复本本信信度度(alternate-form alternate-form reliabilityreliability)它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。它反映的是测验在内容上的等值性,又称等值性系数,第13页/共44页第二单元 信度评估的方法二、复本信度(二、复本信度(alternate-form
7、reliabilityalternate-form reliability)在应用时,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本,由此可以抵消施测顺序的效应。如果两个复本,几乎同时施测,相关系数反应的才是才是复本的关系;如果相隔一段时间,则称重测复本信度,或稳定与等值系数。优点:避免重测信度的一些问题。局限:第一,如果测量的行为易受练习影响,复本信度只能减少而不能消除这种影响;第二,从第一个测验中掌握的解体规则,容易迁移到第二个测验中;第三,复本难以建立。第14页/共44页第二单元 信度评估的方法三三、内内 部部 一一 致致 性性 信信 度度(internal interna
8、l consistency consistency reliabilityreliability)重测信度和复本信度主要考察了测验跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度系数主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。内部一致性信度系数包括:分半信度、同质性信度第15页/共44页第二单元 信度评估的方法分半信度(split-half reliability)v采用分半法估计所得的信度系数。只需一种测验,进行一次测试。在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。v因为在其他条件相同的
9、情况下,测验越长,信度越高。所以分半法经常会低估信度,必须修正,借以估计整个测验的信度。v修正公式:斯皮尔曼布朗公式:rxx=2rhh/1+rhh rxx为测验在原来长度时的信度估计值,rhh为一半分数的相关系数。这是个经验公式,前提条件是两半测验分数的变异数相等。当假设条件不成立时,可以用其他公式。第16页/共44页第二单元 信度评估的方法 同质性信度(homogeneity reliability)同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异
10、质的。计算公式:库德理查逊:K-R20公式,K-R21公式。适用于答对记一分,错0分的测题。克伦巴赫a系数:适用于多重计分的测题。第17页/共44页第二单元 信度评估的方法四、评分者信度(scorer reliabilityscorer reliability)随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。第18页/共44页第二单元 信度评估的方法信度估计方法很多,有多少误
11、差来源,就有多少估计信度的方法。原则上,一种测验哪种误差大,就用哪种误差估计方法。有时一个测验需要几种信度系数。第19页/共44页 您记住没有啊?您记住没有啊?1、什么是重测信度,或者稳定性系数?是指使用同一测验,在同样条件下对同一组被试者,前后施测两次测验,求两次得分间的相关系数。2、重测法最适宜的时间间隔是多久?最长不超过多久?24周,6个月3、什么是复本信度,或者等值性信度?是以两个等值但题目不同的测验(复本)来测量同一群体,求得被试者在两个测验上得分的相关系数。反映的是测验在内容上的等值性。4、内部一致性信度?反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。5、内部一致性
12、信度包括?分半信度、同质性信度第20页/共44页 您记住没有啊?您记住没有啊?6、同质性信度代表什么?测验内部所有题目间的一致性。7、成对受过训练的评分者之间平均一致性达到多少,才认为评分是客观的?以上8、以再测法或复本法求信度,两次测验间隔时间越短,信度系数越大还是越小?越大。第21页/共44页第三节 测验的信度第一单元 信度的概念第二单元 信度评估的方法第三单元第三单元 信度与测验分数的解释信度与测验分数的解释第四单元 影响信度的因素第22页/共44页第三节 测验的信度第三单元第三单元 信度与测验分数的解释信度与测验分数的解释第23页/共44页第三单元 信度与测验分数的解释一、解释真实分数
13、与实得分数的相关信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。例如:r时,实得分数90的变异来自真分数,10来自误差。r1呢?r0呢?信度系数从,代表了从缺乏信度到完全可信的所有状况。信度系数也告诉我们误差多大。第24页/共44页第三单元 信度与测验分数的解释二、确定信度可以接受的水平一个测验的信度多高才合适呢,最理想是rxx,但办不到。研究结果,能力、成就测验都在以上;人格测验、兴趣、态度、价值观等都在。一般原则:当r0.70,测验不能用于对个人、或团体作出评价或预测;当rxx时,可用于团体比较;当rxx时,才能用来鉴别或预
14、测个人成绩或作为。1.另一原则:新编的测验信度应该高于原有的同类测验或相似测验。第25页/共44页第三单元 信度与测验分数的解释三、解释个人分数的意义 其其一一是是估估计计真真实实分分数数的的范范围围;其其二二是是了了解解实实得得分分数数再再测测时时可可能能的的变变化情形。这就是化情形。这就是测量标准误测量标准误的应用。的应用。测测量量标标准准误误可可以以通通过过第第一一次次测测量量结结果果和和信信度度系系数数得得到到:SESX1rxx。根据标准误的值,可以确定实得分数在不同“或然率”水平的真实分 数 的 可 能 范 围。比 如 95 的 或 然 水 平,其 置 信 区 间 为:X1.96SE
15、XT。就是说有95的可能性真分数落在所得分数的范围内。或5可能落在范围之外。也表明再测时的可能范围。比如:某个被试的测验IQIQ100100,再测的分数可能是多少?(已知测验的标准差为1515,信度系数)。SESE15 15 16.0 IQ100 1.96688112第26页/共44页第三单元 信度与测验分数的解释四、比较不同测验分数的差异这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。SEd=SSEd为差异的标准误,S代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的单位时才可以比较。例如:某被试韦氏智力测验中言语智商为102,
16、操作智商为110。两个分测验都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为和。问其操作智商是否显著高于言语智商?SEd15 在水平,就是说以上差异才显著。1101088分,不显著。第27页/共44页 记住了吗?记住了吗?1、r时,实得分数的变异多少来自真分数?90。2、信度系数从的变化,代表了什么?从缺乏信度到完全可信的所有状况。3、不能用于对个人做出评价和预测,不能做团体比较,测验的信度是多少?小于。4、当r多大时,可用于团体比较?rxx时5、当r多大时,才能用来鉴别或预测个人成绩或作为。当rxx时第28页/共44页 会计算吗?6、某个被试的测验IQ10
17、0,再测的分数可能是多少?(已知测验的标准差为15,信度系数)。95的可能在之间。7、被试在韦氏智力测验中言语智商为102,操作智商为110。两个分测验都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为和。问其操作智商是否显著高于言语智商?第29页/共44页 会计算吗?会计算吗?8、某被试在韦氏成人智力测验中的VIQ=102,PIQ=108。假设言语测验和操作测验的分半信度分别为和。问其操作智商是否显著高于言语智商呢?首先计算出差异分数的标准误在统计学上,经常要求两个分数的差异程度达到的显著水平,才能承认不是误差的影响。因此,将差异标准误()乘以,结果为,这表
18、明个体在韦氏测验两半得分的差异高于大约10分时,才能达到的显著水平。上述被试的差异分数108-102=6是不显著的。第30页/共44页第三节 测验的信度第一单元 信度的概念第二单元 信度评估的方法第三单元 信度与测验分数的解释第四单元第四单元 影响信度的因素影响信度的因素第31页/共44页第三节 测验的信度第四单元第四单元 影响信度的因素影响信度的因素第32页/共44页第四单元 影响信度的因素一、样本特征一、样本特征(一)样本团体异质性的影响信度系数就是相关系数,任何相关系数都要受到团体中分数分布范围的影响。分数分布范围与样本团体的异质程度有关。取样团体异质程度高,被试差异较大,两次测验高者则
19、高,低者则低,分数相关系数高,信度就高。所以会高估测验的信度。取样团体异质程度低,被试差异不大,两次测验,第一次高者第二次可能低,低者则可能高,分数相关系数低,信度就低。所以会低估测验的信度。第33页/共44页第四单元 影响信度的因素一、样本特征一、样本特征(二)样本团体平均能力水平的影响测验的信度不仅受团体中个别差异程度的影响,也受不同团体间平均能力水平的影响。因为对于不同团体,题目具有不同难度,每个题目在难度上的细微差异累计起来就会影响信度。例如同一套智力测验,年幼者不会的题目多,靠猜测答题,分数的偶然性较大,信度就差。而大学生完成的准确性就高,信度也就高。这种题目难度上的差异很难用统计来
20、预测和评估,只能靠经验发现。编制测验应该把常模按照各种标准分成更为同质的亚团体,分别报告信度系数。第34页/共44页第四单元 影响信度的因素二、测验长度二、测验长度 就是测验的数量。在一个测验中,增加同质的题目,可以提高信度。测验越长,测验的测题取样或内容取样就越有代表性;测验越长,被试的猜测因素影响就越小。一道题可以猜对,100个题都猜对就不可能。但也不能太长,被试过分疲劳和反感,也会影响信度。增加多长合适呢?斯皮尔曼布朗公式:K=rkk(1-rxx)/rxx(1-rkk)k为改变后的长度与原来长度的比。rxx为原来测验的信度,rkk为改变后信度的估计。例如:信度为有40个题的测验,要提高信
21、度到,需要增加多少题目?K0.90(1-0.80)/0.80(1-0.90)=2.5 2.5X40=100 要增加60题目 第35页/共44页第四单元 影响信度的因素三、测验难度三、测验难度难度对于信度的影响,只存在与智力测验、成就测难度对于信度的影响,只存在与智力测验、成就测验、能力倾向测验中。验、能力倾向测验中。从理论上说,平均难度水平为时,才能使测验分数从理论上说,平均难度水平为时,才能使测验分数分布范围最大,信度最高。分布范围最大,信度最高。事实上,的难度只适合于简答题,选择题猜测因素事实上,的难度只适合于简答题,选择题猜测因素高,难度也要提高。高,难度也要提高。洛德认为洛德认为选择题
22、选择题的理想平均难度为:的理想平均难度为:五择一五择一;四择一;四择一;三择一;三择一;二择一;二择一 如果某个测验适用范围广,则其难度水平通常适用如果某个测验适用范围广,则其难度水平通常适用于中等能力水平的被试,而高水平被试觉得容易,于中等能力水平的被试,而高水平被试觉得容易,低水平被试觉得难,信度水平降低。低水平被试觉得难,信度水平降低。第36页/共44页第四单元 影响信度的因素四、时间间隔四、时间间隔时间间隔只对重测信度、不同时测量的复本信度有影响以重测法或复本法求信度,两次测验间隔时间越短,信度系数越大。时间间隔越久,其他变因介入的可能性越大,受外界的影响也越大,信度系数便越低。END
23、第37页/共44页 您记住了!您记住了!1、任何相关系数都受什么的影响?团体中分数分布范围。2、分数分布与样本团体的什么有关?异质程度3、取样团体异质程度高,会低估测验信度吗?会高估4、洛德认为选择题的理想平均难度为:五择一 0.70 四择一 三择一 0.77 二择一 第38页/共44页有一个包含有一个包含50个题的测验,信度为,若把信度提高到,个题的测验,信度为,若把信度提高到,应该增加多少个题目。应该增加多少个题目。v 50350=100(题)您一定会!第39页/共44页使用时,直接删除本页!精品课件,你值得拥有!精品课件,你值得拥有!第40页/共44页使用时,直接删除本页!精品课件,你值得拥有!精品课件,你值得拥有!第41页/共44页使用时,直接删除本页!精品课件,你值得拥有!精品课件,你值得拥有!第42页/共44页有问题吗?真聪明!谢谢!休息!第43页/共44页感谢您的观看!第44页/共44页
限制150内