《教育考试测量第七章.ppt》由会员分享,可在线阅读,更多相关《教育考试测量第七章.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 测验的质量分析测验的质量分析7.1 7.1 测验的信度测验的信度 7.2 7.2 测验的效度测验的效度7.3 7.3 测验的难度测验的难度7.4 7.4 测验的区分度测验的区分度7.1 测验的信度测验的信度 测验的信度测验的信度是指测验结果的可靠性或可靠程度。可靠性可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。一、信度的定义一、信度的定义 测量学中,信度可定义为真分数方差与实得分数方差的比率,即 (7.1.1)这表明,真分数方差 在实得分数方差 中所占的比重越大,则信度 就越高。由于 是未知数,所以根据误差方程 可将公式(7.1.1)改写为 (7.1.2)而
2、 和 都可以从一组实得分数中计算出来,所以(7.1.2)式更有实际意 从公式(7.1.1)或(7.1.2)看出,若真分数T与实得分X接近时,和 也会接近,而误差 及 就会很小,此时信度就会增大。信信度是实测值与真值之间差距大小的量度。测验信度越高,误差就越小,度是实测值与真值之间差距大小的量度。测验信度越高,误差就越小,测验的结果也越可靠测验的结果也越可靠。理想情况下,误差为零时,信度达到最大值 ;当信度很低,甚至降为零时,表明测验分数中充满误差,它比不测验还糟。信度的值在(01)之间,称为信度系数。当 为0.950.99时,测验可靠性很高,但不常见;为0.90.94是通常能得到的最好结果;为
3、0.80.9也比较好;为0.70.79尚可使用,在0.7以下,表明误差太大,该测验不能使用。二、信度系数的计算二、信度系数的计算 实际工作中,通过对测验结果的一致性程度来计算信度的,主要有三种:稳定性系数稳定性系数、等值性系数等值性系数和内在一致性系数内在一致性系数。1、稳定性系数、稳定性系数(再测信度)用同一个测验,对同一组考生前后两次进行测验,两次测验分数的相关系数为再测信度.因为它能反映两次测验结果的一致性和稳定程度,也称稳定系数。其计算公式为:(7.1.3)式中X1和X2为同一考生两次的测验分数,为两次测验的平均分数,S1和S2为两次测验的标准差,N为考生人数。再测信度的计算在使用时,
4、两次测验之间的时间间隔要适宜,相隔时间不要太短,也不宜太长。2、等值性系数、等值性系数(复本信度)两个等值但具体内容不同的测验,在最短时距内,对相同考生分两次测验两个等值但具体内容不同的测验,在最短时距内,对相同考生分两次测验所得分数的相关系数即为复本信度所得分数的相关系数即为复本信度,所谓等值是指测验在题型、题数、难易、时限以及题目内容和形式等方面相同或相似。3、内部一致性系数、内部一致性系数 内部一致性系数是同一个测验的两部分得分的相关系数,有两种计算方法:分半信度分半信度 分半法是按正常的程序实施测验,然后将全部试题分成相等的两半(通常采用奇偶分半法),根据各人在这两半测验的分数计算其相
5、关系数。由于这样求得的只是半个测验的信度,因此要用斯皮尔曼-布朗(Spearman-Brown)公式较正,校正公式为:(7.1.4)式中 为两半测验的相关系数,为整个测验的信度值。例1 若10名学生奇数题得分与偶数题分如下表所示,试求这份整体试卷的分半信度。学生124567891011x3835212742141428287y303281825152221179 解:由上表可求得于是再由公式(7.1.4)得库库-理信度系数公式理信度系数公式 库德(Kuder)、理查逊(Richardson)和克朗巴赫(Cronbach)因不满意半分法,从方差分析的角度提出了以试题统计量为转移的信度求法,可避免
6、任意两半分的误差。他们提出的适用于客观题试卷的一系列公式,较为常用的是KR20公式:(7.1.7)式中n是测题数,Pi是第i题的答对率(难度指数),为第i题的答错率,显然 ,为所取样本中考生总分的方差。此外,因 ,从而使括号中的值不等于1,故乘以修正系数 以使信度估计值不致偏小。例2 某省年度教育自学考试英语泛读试卷由100题组成,每题答对得1分,不答或答错得0分,现分层按比例抽取50份试卷,并规定奇号题得分为,偶号题分得为,列表如下(表7.1),试用库理公式计算信度。表7.1 英语泛读50份试卷的奇偶题得分 学生编号12345678910 x815819151520232019y101015
7、20221916161716学生编号11121314151617181920 x16232121242219272520y21182619222121221623学生编号21222324252627282930 x23242124232828312828y21232018261826212823学生编号31323334353637383940 x26332726273031243329y24262828292126293131学生编号41424344454647484950 x37283133363539424641y26343033373737363740 解:先计算样本中考生的总分方差 ,
8、再逐题计算 后求和,第1题有43人答对,答对率:则答错率 ,于是 所有题的 。然后由库-理公式得 库-理还提出另一公式,用来计算同质性信度时,不需要逐题计算通过率,该公式为 公式:(7.1.8)其中 为测验总分的平均数。克朗巴赫公式克朗巴赫公式 克朗巴赫提出了论文式测验的信度公式(系数),其基本想法是以每题得分的方差 来代替 :(7.1.10)式中n为测题数,为所取样本的总分方差,为样本的第 题得分方差。例3 某校写作试卷由三题组成,样本容量为100,算得总分标准差 ,第一、二、三题的得分标准差 为 ,求该测验的信度。解:根据克朗巴赫公式可算得信度为(系数法能编成程序由电子计算机求得结果。)4
9、、评分者的信度、评分者的信度 当测验是论文式试题时,不同评分者对同一试卷的评分结果不相同,因为此时误差主要来自评分者的差异。主要计算公式为:(7.1.11)式中K为评分者人数,N为评分的试卷数,是第 题等级和。例4 有6位教师各自评阅五篇作文,每位教师给每篇作文都评了等级,并列入下表,向6位评分者所评等级的一致性如何?评分者作文编号(N=5)12345A35241B35241C34152D35142E35241F35241Ri182910258解:代入公式(7.1.11),注意 ,则 三、提高测验信度的途径三、提高测验信度的途径 1、适当增加题量、适当增加题量:增加样本容量,减小抽样误差,使信
10、度增高。加长测验后的信度计算公式为:(7.1.18)式中 为原测验的信度,为加长的倍数,为加长 倍后的信度。例6 原来由6道题组成的测验,其信度 ,现在要求信度提高到 ,需要加长到多少试题?解:由(7.1.18)式得 加长后的题数=原长 。2、用标准化考试:、用标准化考试:尽量减少各环节的测验误差,特别是提高命题质量,试题难度中等,区分度要大(见7.14)。3、消除考生焦虑情绪:、消除考生焦虑情绪:充分作好考前指导,试卷编排应由易到难,以利稳定考生情绪使其智能得到正常发挥。4、测验内容具有同质性:、测验内容具有同质性:不要在一个测验中按排许多性质不同的内容,这样会降低一致性,影响信度 7.2
11、测验的效度测验的效度 效度效度是指测验结果的有效性或正确性,所谓有效性,是指一种测一种测验能够正确地测量出它所要测量的特性或功能的程度。验能够正确地测量出它所要测量的特性或功能的程度。一、效度的定义一、效度的定义 测量学中,效度被定义为有效分数方差与实得分数方差之比,即:(7.2.1)由误差方程 当随机误差足够小而且不变时,系统误差方差越小,则有效分数方差就越大;亦即有效分数方差在实得分数方差中所占的比重越大,也就是说效度也就越高。效度要解决两个问题效度要解决两个问题:本测验的测量目标是什么;本测验对于所要测本测验的测量目标是什么;本测验对于所要测量的目标能测到什么程度。量的目标能测到什么程度
12、。只有当有效分数方差在实得分数方差中所占的比重越大,那么,达到测验目标的程度也就越大,因而效度也就越高。效度的取值为 。二、效度的估算二、效度的估算 1、内容效度、内容效度 内容效度内容效度是指测验内容对所要测验的全部内容的取样代表性程度。一个测验具备良好的内容效度应满足两个条件:测验内容范围要明确,对学生成绩测验来说,就是试题要符合教材内容和教学大纲,试题不应该超出确定的范围。试题应是已界定的内容范围的代表性样本,它应该覆盖所测验内容的主要方面,并使各部分题目所占比例适当。2、效标关联效度、效标关联效度 效标关联效度效标关联效度 测验分数与作为效标的另一独立测验结果之间的一致测验分数与作为效
13、标的另一独立测验结果之间的一致性程度性程度 效标效标,检测效度的参照标准检测效度的参照标准,效标关联效度可分为以下两种:同时效度:同时效度:一种测验的结果与另一大约同时获得的测验结果(即效一种测验的结果与另一大约同时获得的测验结果(即效标)之间的一致程度标)之间的一致程度,并用两个测验结果的相关系数来估算,同时效度常用于标准化测验的建立。例如,用教师自编的测验施测之后,让考生短期内很快再参加一次被公认是标准化的测验,如果两次考试成绩的相关系数很高,则可以认为教师编制的测验也是标准化测验。例1 取10名考生参加摸底考试与全区统一考试的成绩记录于表7.3中,求摸底考试的效标关联效度。1234567
14、8910摸底成绩x92818077716663544544区考成绩y87788075696362524638xy80046318640057754889415839062808207016726736504759744516表7.3 解:我们把区考试成绩作为效标,求它与摸底考试分数的积差相关系数:若用等级相关系数公式计算,应先由表7.3中的数据按等级列表,然后计算:效标效度系数 一般应在0.4以上。预测效度预测效度:某一测验结果与另一将来获得的测验结果之间的相关程度。某一测验结果与另一将来获得的测验结果之间的相关程度。效标的建立远在测验之后,目的在于说明某一测验的结果是否具有预测未来另一测验结
15、果的功能。例2 假定高中英语考试和大学入学英语考试的平均分数分别为92.57和64.18,标准差分别为21.01和11.13,两次考试间的相关系数为0.68,如果某生在高中英语考试中得分为114,那么他在大学入学英语考试中可能得多少分?解:这种问题可以用回归方程来解决,设 为预测的效标分数;和 分别为效标分数与测验分数的标准差;分别为效标分数与测验分数的平均数;为测验所得分数,则回归方程如下:(7.2.3)将本例中数据代入上式得:所以,这位学生在大学入学英语考试中可能得74分。7.3 测验的难度测验的难度一、难度及其计算一、难度及其计算 难度难度是衡量试题与试卷难易程度的指标衡量试题与试卷难易
16、程度的指标,通常可以用如下方法计算难度:1、客观性试题的难度计算、客观性试题的难度计算 难度指数难度指数:对于采用二分法记分的题目,难度以通过率来表示:对于采用二分法记分的题目,难度以通过率来表示:(7.3.1)式中 为题目的通过率,为答对或通过该题目的人数,为全体考生。值越大,难度越小;值越小,难度越大。极端分组法极端分组法:当被试人数很多时,用通过率计算难度很麻烦,可以将被试依照总分从高到低排列,然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组,分别计算两组的通过率,然后用下式计算该题难度:(7.3.3)式中 和 分别为高分组与低分组的通过率。2、主观性试题的难度计算、主观
17、性试题的难度计算 难度指数难度指数 :设 为所有考生在某一试题上的平均分,为该题的满分,则 (7.3.4)上式适用于论述题、问答题和计算题等非二分法记分的题目。极端分组法极端分组法:当被试人数很多时,主观性试题可采用下式计算难度:(7.3.5)式中 为高分组所得的总分;为低分组所得总分,和 分别为该题的最高和最低得分,为考生总人数的25%。3、难度的测前估算、难度的测前估算 熟悉程度熟悉程度:如果试题与课本中的例题、习题相近,学生熟悉试题内容,难度 就高。信息数量:信息数量:如果试题中的信息量大,学生要不止一次地阅读才能把握内容,增大了困难。题目结构;题目结构;题类型、知识综合程度、计算复杂程
18、度等,影响难度。变化动态:变化动态:迷惑干扰大的,问题灵活易引起错误,增加困难。其次把上述四个因素分成三个等级:1表示小,2表示中等,3表示大。最后估算难度:先估计试题各因素的等级并作为各因素的点数,累加各因素的点数;然后,参照表7.5估计试题的难度:等级CB1B2B3A累加点数4567799101112难度0.30.40.40.50.50.650.650.750.754、试卷的难度、试卷的难度 是指一份试卷的总体难易程度,用下式计算:(7.3.6)式中 是试卷的满分值,和 分别为第 道题的难度和满分值,是试卷题目的总数。试卷难度与平均分数之间满足如下关系:(7.3.7)也可以认为试卷难度等于
19、试卷平均分 与试卷满分之比:(7.3.8)由上式可知,试卷的难度并不等于各试题难度的平均值。我们也可以把难度 转换成正态量 来处理,先查正态分布表,由各题的难度 查出对应的正态量 ,则试卷的平均值 为:。再查正态分布表,由 值求出试卷的难度 。7.4 测验的区分度测验的区分度一、区分度及其计算一、区分度及其计算 区分度区分度是测验试题对考生实际水平的区分程度,区分度的取值范围介于-1.00和+1.00之间。下面介绍几种主要的计算方法:1、极端分组法、极端分组法 客观性试题的区分度计算公式为:(7.4.1),其中 分别为高、低分组的通过率。美国测量专家伊贝尔(L.Ebel)把 称为鉴别指数,它对
20、评价题目性能的标准如表7.7所示:鉴别指数D题目评价0.4以上0.30.390.200.290.19以下很好良好,修改会更佳尚可,仍需修改差,必须淘汰 表 7.7 主观性试题的区分度计算公式为:(7.4.2)式中 为高分组总分,为低分组总分,为该题最高分,为该题最低分,为考生总人数的25%。2、相关法、相关法 相关法相关法是以某试题的得分与效标分数的相关系数作为该题的区分度是以某试题的得分与效标分数的相关系数作为该题的区分度指标指标。效标分数不易得到,则以测验总分代替,求试题得分与该测验总分的相关系数。相关越高,试题区分度越高。总分是连续变量,而试题得分有连续变量和二分变量的不同情况,求相关系
21、数可分以下几种情况:积差相关积差相关 当试题得分与测验总分都属连续变量时,可以采用积差相关法计算区分当试题得分与测验总分都属连续变量时,可以采用积差相关法计算区分度度,其公式为:(7.4.3)式中 为考生某题得分,为考生测验总分;为考生总数。二列相关二列相关 二列相关适用于两个连续变量,但其中有一个被人为分为两个类别,二列相关适用于两个连续变量,但其中有一个被人为分为两个类别,其公式为:(7.4.4)(7.4.5)式中 为考生答对某题的平均分,为考生答错某题的平均分;和 分别为全体考生测验得分的平均数和标准差;为答对组人数与总人数之比,为答错人数与总人数之比;而且 ;为 与 交界处正态曲线的高
22、度。计算二列相关时,要求二分变量的分布在连续测量时必须是正态分布。对连续变量的分布,虽不要求是正态,但必须是单峰而且要对称。点二列相关点二列相关 点二列相关适用于一个变量为连续变量,另一个为二分变量的情况点二列相关适用于一个变量为连续变量,另一个为二分变量的情况,其公式为:(7.4.7)(7.4.8)式中符号意义与前面二列相关公式相同。相关相关 如果测验的两组变量都是二分变量,则可用如果测验的两组变量都是二分变量,则可用相关计算相关系数相关计算相关系数,(并不要求变量呈正态分布。)其公式为:(7.4.9)合格不合格通过aBa+b不通过cDc+da+cb+d表7.9 四格表 3、试卷区分度的计算
23、、试卷区分度的计算 试卷区分度是指试卷总体对学生水平的区分程度试卷区分度是指试卷总体对学生水平的区分程度,计算公式为:(7.4.11)其中 为第 道题的区分度,为试卷的区分度 试卷区分度与标准差有如下关系:(7.4.12)其中 为标准差,、为回归系数。二、区分度对测验的影响二、区分度对测验的影响 1、区分度与难度的关系、区分度与难度的关系我们从方差来看试题区分度和难度和关系。对于以1或0评分的是非性选择题来说,某题的难度即该题上所通过的人数比率:某题对 个受试者施测时,答对分数的总和则为 ,答对分数的平方和应为将上述结果代入方差的计算公式,则有 或 。2、区分度与信度的关系、区分度与信度的关系 一个良好的测验,信度必须要高。艾伯(R.L.Ebel)的研究表明,整个测验中各试题的区分度D值的平均数越高,测验的信度就越高。信度是随区分度的提高而增长的,且信度增长的速度比区分度增长还快,所以,要想使得测验信度达到理想的值,提高各试题区分度是一个好的途径。但是,也必须指出,区分度的大小应根据测验的性质和目的而定,对于以选拔和比较为目的的常模参照测验,区分度越大越好,它便于选拔和比较,而对于以考察被试对知识掌握情况为目的的目标参照测验,区分度已没有多大意义不必过多考虑。
限制150内