教育统计与测量-测量质量分析.pptx
《教育统计与测量-测量质量分析.pptx》由会员分享,可在线阅读,更多相关《教育统计与测量-测量质量分析.pptx(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、测量质量分析难度与区分度信度与效度p为了使测验得到的分数准确可靠,我们要求使用的测验是高质量的,因此必须对分析测验的质量,而测验又是由一个个题目或者说测试项目所组成,整个测验质量要高,必然要求各个题目的质量要高。p因此分析一个测验的质量,一般就要从两个方面来进行:一是考察整个测验的质量指标,即考察测验效度与信度;二是考察所含项目的质量指标,即考察测验项目的难度和区分度。测验项目的难度p测验项目的难度,就是被试完成项目作答任务时所遇到的困难程度。n有的项目很容易,几乎所有初试都能正确完成作答任务;有的项目却很难,只有少数高水平被试能正确完成任务。n困难的项目,被试在其上得分的可能性就小,失分的可
2、能性就大;容易的项目,被试在其上得分的可能性就大,失分的可能性就小。n总之,每一个测验项目都有自己的难度;不同项目间其难度常常是不同的。p定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数或难度系数。难度系数的求法p最通用的项目难度系数的求法就是计算被试在项目上的得分率或者说通过率。1.像选择题这种测验项目,评分采取“全或无”的方式,答对给满分,答错给零分,难度指数就可以求通过人数比例或称通过率。2.对于不采用“全或无”的方式给分的测验项目,难度系数的求取方法是先求所有被试在该项目上的平均得分值,可记为 ;再用它去对测验项目总分(满分),可记为K,求比值,这个比值就是全体被试在该测
3、验项目上的得分率即难度指数p了。nrp KXp XR通过人数n 接受测试的总人数P难度指数p例如,有一满分值K=5的试题,测试10名被试,实得成绩为5,3,4.5,2,5, 0, 3.5, 1,3, 4 要求其难度指数p。p先求平均得分p然后用平均得分值对满分值求比1 . 31031X62. 051 . 3KXpp整体试卷的难度,就是全体被试测验的总分平均值与全卷满分的比值。p有人觉得用得分率p来表示难度别扭,主张用失分率q来作为难度指数。p得分率p是可以与失分率q相互转换的,q=1-p。我们一般用得分率p来表示难度,但也有人用失分率q来表示难度,所以当我们听取人家报告难度系数时,一定要弄清是
4、指p还是q值p不同目的的测试,测验难度系数要求也不相同。一般的标准化测试,目的是要尽可以把握住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”。这样,测验项目的恰当难度,就应该是p值尽量接近0.5. p如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;p如果相反,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态。区分度p项目区分度就是项目区别被试水平高低的能力的量度。p项目是用来测试被试水平高低的;在所测特质上,被试水平也不会人人相等,总是会有高低水平差异的。倘若,高水平被试,在测验项目上能利市
5、中分,而低水平被试则只能得低分,测验项目区分被试高低的能力就强;如果高水平被试和低水平被试在测验项目上所得分数并无差别,项目提供不出被试水平差异的信息,它的区分能力就弱,更糟糕的是,高水平被试在测验项目上反而得低分,低水平被试在测验项目上所得分数却不低,这种项目的性能就跟 测验目的相违背,只会起破坏作用。p所以,项目区分度是测验性能的一个重要指标,说明的正是项目对测验目的来说的有效性程度区分度指数的求法p计算被试在该项目上的得分与其测验总分的相关系数。如相关一致性高就认定该项目区分力强;如果相关低,甚至负相关,就认定为区分力弱整形无效的项目。p这里,确定项目区分度的标准就是测验总分,要考察总分
6、高的被试在该项目上是否也得高分,总分低的被试在该项目上是否也得低分。显然,这种标准就是测验内部而非测验外部标准。假定有30名被试在两个项目上的题分以及全卷总分情况如下表,请计算项目与项目的区分度项目p计算项目的区分度指数,也就是计算被试在该项目上的得分与总分的相关系数。p项目为二分称名变量,总分为连续变量,该用哪种相关法?pqSXXrxqppb需要用点双列相关,点双列相关公式为:p答对被试的比率为:p=18/300.6p答错被试的比率为:q=0.4p答对被试的总分平均成绩:(100+100+98+) 18=69.94p答错被试的总分平均成绩:(90+79+89+0) 12=59.42p所有被试
7、总分标准差:29.2318. 04 . 06 . 023.2942.5994.69pbrD项目p项目2与总分都为连续变量,应该采用哪种相关方法呢?p积差相关的公式为:22YYXXYYXXriiiixyp采用软件分析,得到结果为79. 0 xyrD高低分组法p求取项目区分度指数的主要办法,是求题分与总分的相关系数。但是,还有一种“高低分组求得分率差”的办法。p方法:将全体被试按总分寡加以排队,然后取得分最多的27%的被试作为“高分组”,得分最少的27%的被试作为“低分组”,最后求这两个组上项目得分率(通过率)的差来作为区分度指数的取值。pDPH PL以上面的30名被试为例p先将30名被试的总分从
8、高至低排序p30人的27%:30*27%8.18(人)p计算高分组8人的得分率PH:PH10.63; PH2 4.44/5=0.89p计算低分组8人的得分率PL: PL10.50; Pl2 2.06/5=0.41pD1PH1 PL1 0.13; D2PH2 PL2 0.48p用高低分组法丢弃了中部的数据,因此只能是较为粗糙的估计值,当被试总人数够多,高分组与低分组容量都相当大时,这种估计值还是可以满足实用要求的。所以高、低分组法,是一种常用的项目区分度指数求取方法。p项目区分度指数的取值范围,跟一般的相关系数的取值范围一样,在-1.00至+1.00之间。p如果项目区分度指数D0.20,项目应该
9、被淘汰p如果0.2D 0.3,需要修改p如果0.3D 0.4,合格p如果 0.4D ,性能优良测验信度p测验信度,就是测验在测量它所测特质时得到的分数的一致性(稳定性)。它是反映测验性能的一个重要的质量指标。p各种类型的测量,无论是物理测量还是教育与心理测量,先后对同一对象施测,所得测量值都很难做到绝对一致。p同一教育与心理测验先后向同一被试对象施测,所得测值会系统地起伏变化,原因是多方面的。这可以是由于测验项目抽样不妥,或语言表达引起误解,也可以是施测环境影响,施测时指导语、完成时限、主被试关系的影响或者是评分过程的偏向与误差,还可以是被试的动机和情绪等因素所造成的。p测验信度,就是指对这种
10、无系统的随机误差的控制。测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测时所得分数的一致性程度就会好,这就叫测验信度高,人们在使用所得测值时就会感觉可靠。p改进测验信度,就是要努力从各个方面控制测量误差,使所得分数(测值)尽量接近被试在所测特质上的真值。p如果从测验实施过程中实际得到的被试分数,叫做观察分数,这可记为X;被试在所测特质上客观具有的水平值,叫真分数,这可记为T,那么,观察分数与真分数的差就是测量误差,它可记为E。XTE信度的测量方法与种类p重测相关法(重测信度)p平行相关法(复本信度)p内部一致性系数法(折半系数,a-系数)重测信度p同一测验向同一批被试重测两
11、次,将得到的两批独立测值进行相关分析,求出相关系数,就可为测验信度的估计值。p这样的相关系数,就叫信度系数,一般记为rxx。p例如,编制了一个词汇理解测验,测试一批被试共15人,头一次测验与第二次测验分开独立进行,间隔时间两周。所获资料如下表:p计算两次测验的相关系数积差相关pRxx0.94p由于重测法十分强调特质的稳定性,所以,用这种方法求取的信度系数就叫做稳定性系数p大家讨论一下重测信度的局限性复本信度p复本信度是指通过使用两个平行形式的测验来测查同一批被试,这样也可获得同一批被试的两批独立值,从而通过求相关系数,估出测验的信度。p这要求两个测验所测的东西实质完全相同,只是使用的具体测验项
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 统计 测量 质量 分析
限制150内