教育统计与测量-测量质量分析.pptx
测量质量分析难度与区分度信度与效度p为了使测验得到的分数准确可靠,我们要求使用的测验是高质量的,因此必须对分析测验的质量,而测验又是由一个个题目或者说测试项目所组成,整个测验质量要高,必然要求各个题目的质量要高。p因此分析一个测验的质量,一般就要从两个方面来进行:一是考察整个测验的质量指标,即考察测验效度与信度;二是考察所含项目的质量指标,即考察测验项目的难度和区分度。测验项目的难度p测验项目的难度,就是被试完成项目作答任务时所遇到的困难程度。n有的项目很容易,几乎所有初试都能正确完成作答任务;有的项目却很难,只有少数高水平被试能正确完成任务。n困难的项目,被试在其上得分的可能性就小,失分的可能性就大;容易的项目,被试在其上得分的可能性就大,失分的可能性就小。n总之,每一个测验项目都有自己的难度;不同项目间其难度常常是不同的。p定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数或难度系数。难度系数的求法p最通用的项目难度系数的求法就是计算被试在项目上的得分率或者说通过率。1.像选择题这种测验项目,评分采取“全或无”的方式,答对给满分,答错给零分,难度指数就可以求通过人数比例或称通过率。2.对于不采用“全或无”的方式给分的测验项目,难度系数的求取方法是先求所有被试在该项目上的平均得分值,可记为 ;再用它去对测验项目总分(满分),可记为K,求比值,这个比值就是全体被试在该测验项目上的得分率即难度指数p了。nrp KXp XR通过人数n 接受测试的总人数P难度指数p例如,有一满分值K=5的试题,测试10名被试,实得成绩为5,3,4.5,2,5, 0, 3.5, 1,3, 4 要求其难度指数p。p先求平均得分p然后用平均得分值对满分值求比1 . 31031X62. 051 . 3KXpp整体试卷的难度,就是全体被试测验的总分平均值与全卷满分的比值。p有人觉得用得分率p来表示难度别扭,主张用失分率q来作为难度指数。p得分率p是可以与失分率q相互转换的,q=1-p。我们一般用得分率p来表示难度,但也有人用失分率q来表示难度,所以当我们听取人家报告难度系数时,一定要弄清是指p还是q值p不同目的的测试,测验难度系数要求也不相同。一般的标准化测试,目的是要尽可以把握住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”。这样,测验项目的恰当难度,就应该是p值尽量接近0.5. p如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;p如果相反,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态。区分度p项目区分度就是项目区别被试水平高低的能力的量度。p项目是用来测试被试水平高低的;在所测特质上,被试水平也不会人人相等,总是会有高低水平差异的。倘若,高水平被试,在测验项目上能利市中分,而低水平被试则只能得低分,测验项目区分被试高低的能力就强;如果高水平被试和低水平被试在测验项目上所得分数并无差别,项目提供不出被试水平差异的信息,它的区分能力就弱,更糟糕的是,高水平被试在测验项目上反而得低分,低水平被试在测验项目上所得分数却不低,这种项目的性能就跟 测验目的相违背,只会起破坏作用。p所以,项目区分度是测验性能的一个重要指标,说明的正是项目对测验目的来说的有效性程度区分度指数的求法p计算被试在该项目上的得分与其测验总分的相关系数。如相关一致性高就认定该项目区分力强;如果相关低,甚至负相关,就认定为区分力弱整形无效的项目。p这里,确定项目区分度的标准就是测验总分,要考察总分高的被试在该项目上是否也得高分,总分低的被试在该项目上是否也得低分。显然,这种标准就是测验内部而非测验外部标准。假定有30名被试在两个项目上的题分以及全卷总分情况如下表,请计算项目与项目的区分度项目p计算项目的区分度指数,也就是计算被试在该项目上的得分与总分的相关系数。p项目为二分称名变量,总分为连续变量,该用哪种相关法?pqSXXrxqppb需要用点双列相关,点双列相关公式为:p答对被试的比率为:p=18/300.6p答错被试的比率为:q=0.4p答对被试的总分平均成绩:(100+100+98+) 18=69.94p答错被试的总分平均成绩:(90+79+89+0) 12=59.42p所有被试总分标准差:29.2318. 04 . 06 . 023.2942.5994.69pbrD项目p项目2与总分都为连续变量,应该采用哪种相关方法呢?p积差相关的公式为:22YYXXYYXXriiiixyp采用软件分析,得到结果为79. 0 xyrD高低分组法p求取项目区分度指数的主要办法,是求题分与总分的相关系数。但是,还有一种“高低分组求得分率差”的办法。p方法:将全体被试按总分寡加以排队,然后取得分最多的27%的被试作为“高分组”,得分最少的27%的被试作为“低分组”,最后求这两个组上项目得分率(通过率)的差来作为区分度指数的取值。pDPH PL以上面的30名被试为例p先将30名被试的总分从高至低排序p30人的27%:30*27%8.18(人)p计算高分组8人的得分率PH:PH10.63; PH2 4.44/5=0.89p计算低分组8人的得分率PL: PL10.50; Pl2 2.06/5=0.41pD1PH1 PL1 0.13; D2PH2 PL2 0.48p用高低分组法丢弃了中部的数据,因此只能是较为粗糙的估计值,当被试总人数够多,高分组与低分组容量都相当大时,这种估计值还是可以满足实用要求的。所以高、低分组法,是一种常用的项目区分度指数求取方法。p项目区分度指数的取值范围,跟一般的相关系数的取值范围一样,在-1.00至+1.00之间。p如果项目区分度指数D0.20,项目应该被淘汰p如果0.2D 0.3,需要修改p如果0.3D 0.4,合格p如果 0.4D ,性能优良测验信度p测验信度,就是测验在测量它所测特质时得到的分数的一致性(稳定性)。它是反映测验性能的一个重要的质量指标。p各种类型的测量,无论是物理测量还是教育与心理测量,先后对同一对象施测,所得测量值都很难做到绝对一致。p同一教育与心理测验先后向同一被试对象施测,所得测值会系统地起伏变化,原因是多方面的。这可以是由于测验项目抽样不妥,或语言表达引起误解,也可以是施测环境影响,施测时指导语、完成时限、主被试关系的影响或者是评分过程的偏向与误差,还可以是被试的动机和情绪等因素所造成的。p测验信度,就是指对这种无系统的随机误差的控制。测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测时所得分数的一致性程度就会好,这就叫测验信度高,人们在使用所得测值时就会感觉可靠。p改进测验信度,就是要努力从各个方面控制测量误差,使所得分数(测值)尽量接近被试在所测特质上的真值。p如果从测验实施过程中实际得到的被试分数,叫做观察分数,这可记为X;被试在所测特质上客观具有的水平值,叫真分数,这可记为T,那么,观察分数与真分数的差就是测量误差,它可记为E。XTE信度的测量方法与种类p重测相关法(重测信度)p平行相关法(复本信度)p内部一致性系数法(折半系数,a-系数)重测信度p同一测验向同一批被试重测两次,将得到的两批独立测值进行相关分析,求出相关系数,就可为测验信度的估计值。p这样的相关系数,就叫信度系数,一般记为rxx。p例如,编制了一个词汇理解测验,测试一批被试共15人,头一次测验与第二次测验分开独立进行,间隔时间两周。所获资料如下表:p计算两次测验的相关系数积差相关pRxx0.94p由于重测法十分强调特质的稳定性,所以,用这种方法求取的信度系数就叫做稳定性系数p大家讨论一下重测信度的局限性复本信度p复本信度是指通过使用两个平行形式的测验来测查同一批被试,这样也可获得同一批被试的两批独立值,从而通过求相关系数,估出测验的信度。p这要求两个测验所测的东西实质完全相同,只是使用的具体测验项目不同。p这种用平行形式相关求得的信度系数,因为特别强调两测验形式的等值关系,所以又叫等值性系数。内部一致性系数p利用单一测验内的项目之间的一致性关系来估出测验信度。p常用的有折半相关系数,a系数折半相关系数p“折半”是指将一个测验拆成两个半测验,再计算两个半测验的相关系数,通过此相关系数来估计整个测验的信度。p拆分测验,可以采用项目序号拆分,奇数项目构成半个测验,偶数项目构成另外半个测验,例如:rxx=0.86由“半测验”得来的相关系数,还需要进行校正,才能得到估计“全测验”的信度系数,校正公式是:xxxxurrr12ru是经校正后的“全测验”信度系数值rxx是“半测验”上的信度系数值92. 086. 0186. 02ura一致性系数p用折半法求测验信度系数,可以利用单一测验形式作施测所得数据来进行,显得简单有效。但问题是要把一个现成的测验分拆成真正平行等值的两半,却并不容易。那能否不作分拆而直接利用单一形式作一次施测所获资料来估计测验信度呢?p于是就有人研究提出了求a-系数的办法,公式是:20211SSnnarixxa 就是测验信度系数n 是测验所含项目个数 是被试在第i个项目上得分的方差 是被试总分的方差2iS20S92. 004.3156. 256. 236. 104. 31144 arxxp折半法(经校正)求信度系数,可以看成在测验内部求项目间的相关;研究说明,求a-系数,也可看成在测验内部求项目间的相关。因此,折半相关系数和a-系数都被叫做测验的内部一致性系数。p测验的内部一致性系数取值高,说明测验项目同质性好,都在有效测查同一特质。信度系数的应用p信度系数取值大,所得测值偏离真分数值的幅度就小,误差就得到了较好控制。而实际测验中所得测值偏离真分数的程度,被叫做测量标准误差。可记为SEM,它跟信度系数之间显然存在着必然的联系。这种关系可定量地表示为:xxXrSSEM1rxx是测验的信度系数;SX是被试在该测验上所得观察分数的标准差。假设52名被试在拼写测验中,所得分数的标准差SX=9.48,已知拼写测验的信度系数rxx=0.92,按照上述公式,该测验的测量标准误为:68. 292. 0148. 9SEM也就是说,该拼写测验所测52名被试的真分数,并不恰好就是所测到的观察值。观察分数与真分数有一定程度的偏离,大约偏离2.68分。就最高分59分的被试来说,其真分数值应为59+2.6861.68(分),或59-2.6856.32(分),或其间的任何一个值。p从以上公式可以看出,测量标准误的大小,取决于测验值信度系数rxx取值的高低。rxx 值越高,则观察分数偏离真分数越小。p假设上述例子中测验的信度为0.82,则其SEM4.02;如果信度为0.98,则其SEM1.34.p一个测验其信度系数rxx的取值处在0.00和1.00之间;当然值越高越好。一般来说,公开大规模使用的标准化测验,其信度系数的取值不应小于0.90;主要用来起预测作用的标准化测验,希望能更大一点,最好能接近或大于0.95;当然,教师自编的课堂测验,对其信度系数值的要求就不能过高测验效度p测验效度,就是测验实际上测到它打算要测的东西的程度。p真正测到了要测的东西,就是有效、效度高;否则,就是无效或不十分有效,就是效度低。显然,测验只有真正测到了要测的特性、特质、结构,测验结果即测验分数的应用与解释,才能起到它应起的作用,才能发挥出有效性。p因此,测验效度就是测验工具的正确性问题,是测验分数的真实有效性问题,是测验质量高低的根本表现所在,是测验性能的最重要的指标。p心理与教育测量具有间接性特点,所测对象是被试的内部心理特性、特质或结构,测量工具是否真正测到了它,绝非一目了然,而且,这种特性、特质、结构本身到底什么样,许多都没有公认的定义,甚至还存在严重的分歧。p如语言能力和水平,就是一个不很清楚概念,它的内涵与外延是什么,存在着分歧,那测量语言能力就存在着很大的困难。也许目的是测量语言能力但是实际测到的是语言知识。效度的种类p根据验证测验效度的角度与方法的差异,可以把效度验证工作大体分为三类,即内容效度、效标关联效度和结构效度。三种效度说明的都是测验的正确性,不过是从三个不同的方面来说明而已。p内容效度通过对测所含项目作内容的系统考察,以确定由这些项目所构成的测验,是否是测验应测特质行为领域的代表性样本。n代表性程度高,就是内容效度好;代表性程度低,就是内容效度差;根本不具任何代表性,就是全无内容效度。内容效度p内容效度的分析首先就要求测验所测特质涵盖的整个行为领域有明确的范围,有比较清楚的组织结构。但许多心理特质,如“智力”、“创造力”等,都是外延范围不明、内部结构复杂,人们对其看法很不统一、无法满足上述要求的测量对象。所以,内容效度主要适应于对学业成就测验的正确有效性的分析。主要分析测验项目所考核的知识技能覆盖面、能力水平的考核情况、以及各部分内容的深度广度与结构比例等。p分析的办法一般是请学科专家作出系统评判;侧重定性分析,也辅之以定量评价;还可以采用恰当办法把不同遥意见综合起来。p有一个跟内容效度有关的概念叫表面效度,指的是从被试或非专业人员看来,测验表现得是否在有效地测验着应测的东西。p在那些需要被试尽其所能对所测问题正确作答的测验中,比如学业成就与智力测验中,它有改善与被试合作关系的作用。由于合作改进,测验质量也就更有保证。这样的测验,应力争有高的表面效度。而人格测验和态度测量等,有时被试并不愿意直陈自己内心想法,所以就不必明白在测查什么,不必追求高的表面效度。效标关联效度p效标关联效度就是指测验预测个体在类似或某种特定情境下行为表现的有效性。这里的“预测”既指同时性的类似情境下的行为的“预测”,也指间隔一段时间特定情境下的行为的“预测”。p因此,效标关联效度又包含“并存”效度和“预测”效度这两个小类别。p效标关联效度是可以测量的,可以通过求取有待验证的测验的测值与效标测验所得的测值之间的相关系数获得。得到的相关系数,就叫效度系数结构效度p结构效度指的是测验测行心理学理论所定义的某一心理结构或特质的程度。这种结构或特质的例子有智力、学术能力倾向、人格结构以及焦虑等。p这种结构或特质都是理论上定义的,其内涵与外延并不十分确定,人们之间的看法也可能有分歧;但又的确反映了客观存在着的心理现象与事实,所以又是可测的。通过分析这些结构与特质的性质,可以推论出一些假设,然后使用测验来检验这些假设。倘若测验结果能证实这些假设,那么这就从一个方面验证了测验的结构效度。p比如,我们知道,智力在人们儿童和青少年时期,会随年龄增长而发展提高,因此,智力测验的分数也应随年龄增大而增加,直到个人成熟为止。如果所编出的智力测验,施测结果说明情况果真如此,能证实这种看法,我们就说从发展成熟的角度看,所编智力测验确具有较好的结构效度。效度系数与估计标准误p验证测验实测值与效标测量值之间的相关系数,就是效度系数。一般为符号rxy表示。p一般来说,测验即使相当有效,效度系数的取值也很少能超过0.70,一般取值能达到0.40就相当不错了。p根据测验分数来预测效标测量值,因为效度系数不会高到1.00,所以还是会有误差的。与利用信度系数计算测量标准误类似,我们也可利用效度系数计算估计标准误。其公式为 21xyyestrSSESEest是估计标准误,rxy是效度系数,Sy是效标测量值的标准差。p例如,假定岗位培训结业考试预测工作成绩的预测效度rxy=0.55,工作成绩分数标准差为9.5,试求该结业考试的估计标准误。 93. 755. 015 . 9122xyyestrSSE提高测验信、效度的方法n测验中题目的数量应适当,不能太少。n紧密围绕教学大纲和教学目标命题。n考核内容应全面,并能有效代表学生应掌握的知识领域。n测验的整体难度适当,不同类型、不同难度的题目应保持恰当比例。n少出偏题、怪题,一般应以考察基础知识和基本能力为主。练习1p某测验上,16名被试某题得分与测验总分情况如下表,试求该试题的区分度。该题区分力强吗?提示:总分标准差为13.3640.53练习2p某测验上,16名被试某题题分与测验总分情况如下表,试求该题区分度。该题区分力强吗?p对以上两题采用“高低分组法”,又该怎么求它们的区分度呢?练习3p将一个标准化英语水平测验的两等值形式A和B,向同一代表性被试组施测,所得数据如表所示,试求测验信度的等值性系数。练习4p下表是某学科测验的模拟资料,有选择题也有其他“主观题”,试求折半信度并作校正。再求它的a-系数练习5p某智力测验信度系数rxx=0.94,测验分数标准差为15,求该测验的测量标准误。若甲、乙、丙三人成绩为127,130,135,说明三人各可能处在什么分数区间呢?