Rasch模型在学绩测验质量分析中的应用.pdf
《Rasch模型在学绩测验质量分析中的应用.pdf》由会员分享,可在线阅读,更多相关《Rasch模型在学绩测验质量分析中的应用.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本研究为贵州省高等学校教学质量与教学改革工程重点项目“基于 P B L 理论改进心理教育测量教学改革研究”(项目批准号:黔高教发 2 0 1 1 2 8-1)、贵州师范大学精品课程“心理测量”建设项目阶段性成果。R a s c h 模型在学绩测验质量分析中的应用赵守盈何妃霞刘妍 摘要 Rasch 模型是估计题目难度和学生能力的一种数学模型,可以对测验题目难度的分布、题目得分与测验得分之间的关系以及测验目标进行精确分析,为测验质量的分析提供一个新的视角。本文使用 Rasch 分析软件 WINSTEPS 对贵州省贵阳市两所实施相同测验的学校测试数据进行分析,结果表明该测验的质量基本符合测验目标的要
2、求,但需对少数几个和难度分布显著不同的题目做进一步分析,同时研究表明相同的测验对不同的测试目标群体作用不同,并且为该测验提供了一些可行性的改进方法。关键词 Rasch 模型学绩测验质量分析教育研究与实验2 0 1 3 年第 1 期一、引言学绩测验是测查学生学业成就水平的重要形式,对教育研究的发展做出了重要贡献。因此,如何对学绩测验质量进行全面、准确地分析有重要的研究意义。学绩测验的质量包括试题的质量和测验的选配、组 合 是 否 符 合 考 试 的 测 量 目 标 两 个 方 面。1 2 0 2 6 R a s c h 模型是丹麦数学家 G e o r g R a s c h 提出的测验分析方法
3、模型,在心理与教育领域有重要作用。R a s c h 模型通过学绩测验结果的原始数据对题目的难度水平和学生的能力水平进行估计,建立学生能力水平和测验题目难度水平之间的关系,把学生的能力水平和题目的难度水平放在同一个等距水平量尺上进行比较,2 4 5 7-4 8 2量尺中位置之间的单位距离具有相同的价值和意义,3 1-1 8同时 R a s c h 模型可以对测验题目难度的分布、题目得分与测验得分之间的关系以及测验目标进行精确分析,为测验质量的分析提供一个新的视角。目前,国内外学者对 R a s c h 模型进行了深入研究。M i c h e l a B a t t a u z,R u g g
4、e r o B e l l i o,E n r i c o G o r i 认为通过结合 R a s c h 模型和教师评分可以减少学生学业成就估计的误差。4 2 8 9-3 0 2刘建达运用多面 R a s c h 模型对英语试题中的主观评分及话语填充测试方法等进行了分析研究,指出多面 R a s c h 模型在试题质量和分数解释方面有重要作用,5 1 5 7-1 6 9何莲珍,张洁采用多面R a s c h 模型对大学英语四、六级口语考试(C E T-S E T)的信度进行研究,发现 R a s c h 分析可以为考试信度提供有效的反馈信息。6 3 8 8-3 9 8还有研究表明,R a
5、s c h 模型可以用于考试开发过程中专家审题的质量控制,7 1 4-1 8同时在试题质量分析中也有重要作用。8 7 0-7 3已有研究对多面 R a s c h 模型的应用进行了深入探讨,其中大多研究采用 R a s c h 分析软件 F A C E T S 对主观题的测试数据进行分析。本文采用 WI N S T E P S 对6 5 道客观题的测验数据进行 R a s c h 分析,为 R a s c h 模8 7型在测验质量分析中的应用做深入探讨。二、研究方法(一)研究对象贵州省贵阳市两所学校的高三学生。分析两个不同学校学生(文中用甲、乙代表两个样本学校)在同一个测验试题上所得分数。两个
6、学校教学中使用相同的教学大纲和教材,教学内容一致。(二)分析工具使用 S P S S 1 5.0、WI N S T E P S 对数据进行分析。采用 S P S S 1 5.0 对两个学校在该次测验中的数据进行预处理。随后使用 WI N S T E P S 对测验得分进行 R a s c h 分析。三、Rasch结果与分析(一)甲样本学校的Rasch分析结果与讨论1.甲样本学校的项目难度-个体能力联合分布图。R a s c h 模型将数据进行对数转换,转换成等距的l o g i t,把学生能力和题目难度放到同一坐标系中进行标定,可以直接地对学生与学生、学生与题目、题目与题目的差异进行比较,清晰
7、地呈现学生的能力水平和题目的难度水平之间的关系。图 1 中,左边代表学生能力水平的分布情况,右边代表题目难度水平的分布情况。从下往上,学生的能力水平增高,题目的难度水平增大。越靠近图顶端,学生的能力水平越高,题目越难。相反,越靠近底部,学生的能力水平越低,题目越简单。学生之间的距离代表学生能力水平之间的差异,题目间的距离表示题目难度水平的差异。图 1 显示,样本学生的能力水平分布宽度约为3.8 个 l o g i t,测验题目的难度水平分布宽度约为 4.2 个l o g i t,表明测验题目的难度水平高于学生的能力水平,测验题目的难度超过了学生的能力水平。另显示,在测验中间,有许多题目的难度水
8、平较为接近。2.甲样本学校的 R a s c h 模型题目信息。R a s c h 模型对题目的难度和学生的能力水平进行估计后,对每个学生在每个题目上答对的理论概率进行估计,并且和实际的观测分数进行比较,用二者之间的差异来评表1甲样本学校的Rasch模型题目信息表N O.1234567891 01 11 21 31 41 51 61 71 81 92 02 12 22 32 42 52 62 72 82 9T o t a ls c o r e1 6 53 5 73 4 32 6 21 3 52 5 31 7 01 2 93 3 32 4 62 8 41 8 72 5 99 42 6 01 3
9、93 9 26 31 2 21 5 13 6 21 3 04 4 53 7 61 9 24 4 83 2 22 7 78 9M e a s u r e0.8 60.8 20.6 90.0 01.1 70.0 80.8 11.2 40.6 00.1 40.1 80.6 50.0 31.6 80.0 21.1 31.1 62.1 81.3 21.0 00.8 71.2 31.7 81.0 00.6 11.8 20.5 10.1 21.7 5R a s c hS.E.0.1 00.1 00.0 90.0 90.1 00.0 90.1 00.1 10.0 90.0 90.0 90.1 00.0 90.
10、1 20.0 90.1 00.1 00.1 40.1 10.1 00.1 00.1 10.1 20.1 00.1 00.1 20.0 90.0 90.1 2I n f i tM N S Q1.0 70.9 90.9 31.0 01.1 91.0 71.2 31.1 90.9 11.0 80.9 01.2 41.0 21.0 51.0 51.0 20.9 10.9 71.1 71.1 20.9 31.0 40.9 20.9 91.0 11.9 40.8 71.0 61.0 0O u t f i tM N S Q1.1 31.0 00.9 00.9 91.3 81.0 81.3 51.4 30.8
11、 61.1 00.8 71.3 31.0 21.1 61.0 41.1 00.8 21.0 61.4 01.2 00.9 01.1 00.8 31.0 31.0 40.8 10.8 31.0 71.0 7C o r.0.2 40.4 20.4 50.3 60.1 30.3 10.1 40.1 20.4 60.3 00.4 50.1 50.3 40.1 90.3 30.2 50.5 10.2 00.1 30.2 00.4 60.2 30.5 50.4 30.3 00.5 50.4 80.3 30.2 2图1甲样本学校的项目-个体图8 8估数据与模型的拟合情况。R a s c h模型通常报告O u
12、 t f i t M N S Q和 I n f i t M N S Q两个拟合指标。O u t f i tM N S Q是标准残差的均方,I n f i t M N S Q是加权后的残差均方。O u t f i t M N S Q和 I n f i t M N S Q值为 1 表示数据与模型完全拟合。在数据与模型较好拟合时,O u t f i tM N S Q和 I n f i t M N S Q的取值范围在 0.5到 1.5之间。如果 O u t f i t M N S Q和 I n f i t M N S Q值大于 2.0 表明学生在作答题目时,作答方式与模型设定的方式不一致,小于 0.5
13、,表明学生的作答结果差异较小或题目不能区分学生之间能力水平的差异。R a s c h 标准误(R a c s hS.E.)表示测验在测量学生能力水平时的误差大小,相关系数代表题目与测验测量目标的拟合程度,相关系数越高,说明题目与测验的测量目标越接近。根据表 1,所有题目的参数基本都在可接受的范围内,说明数据与模型拟合较好。另外所有题目的相关系数都是正向,其中第 3 5 题的相关系数最小,说明其在测量学生的能力水平时,测量到的学生信息最少。题目 3 5 的 O u t f i t M N S Q和 I n f i t M N S Q参数值为分别为 1.3 0、1.5 0,当 O u t f i
14、t M N S Q和 I n f i t M N S Q参数值大于 1 时,说明学生在作答该题时,低能力水平的学生正确回答了该题,而许多高能力水平的学生错误的回答了该题。因此,题目 3 5 在区分学生的能力水平时误差较大,需进一步探讨。根据对测验的 R a s c h 分析可以推知该试题在多大程度上测量了学生的能力水平以及题目难度水平和学生能力水平之间差异,根据分析结果调整测验内容,提高测验的信度和效度。3.甲样本学校的气泡图。图 2 中,一个气泡代表一个题目,气泡大小代表 R a s c h 标准误,气泡位置代表题目 O u t f i t M N S Q参数大小。在理想的情况下,所有气泡都
15、应靠近气泡图的中轴线,且不会有重叠。从图中可以看出,大多数题目的 O u t f i t M N S Q参数值在0.5 1.5 范围内,即数据与模型拟合较好。图中有少部分气泡重合在一起,说明题目的难度水平或测验内容接近。题目 3 5 的 O u t f i t M N S Q参数值接近 1.5,应进一步探讨。从图 2 可以看出,题目 1 8、2 9、1 4、2 6、2 3 对学生能力水平的估计误差较大。从图 1 可以看出,题目1 8、2 9、1 4 是较难的题目,题目 2 6、2 3 是较易的题目,结合表 1 中呈现的R a s c h 标准误可知题目太难或太易,在估计学生的能力水平时都存在较
16、大误差。(二)乙样本学校的R a s c h分析结果1.乙样本学校的项目-个体图。从图 3 可以看出学生的能力水平高于测验的难度水平,学生的能力水平分布宽度大约为 6.4 个 l o g i t,项目难度水平的分布宽度约为 5 个 l o g i t。在图右边清晰地呈现了 6 5 道题目之间的关系,题目之间的距离越近说明题目间的难度水平越接近。大部分学生的能力水平高于 0 点,表3 03 13 23 33 43 53 63 73 83 94 04 14 24 34 44 54 64 74 84 95 05 15 25 35 45 55 65 75 85 96 06 16 26 36 46 51
17、 9 62 2 72 0 93 6 11 4 01 5 14 0 81 4 63 2 23 8 13 5 92 2 71 9 41 4 33 0 62 3 83 2 82 5 03 9 14 2 73 0 12 3 93 0 12 6 33 1 83 1 02 5 22 2 42 9 42 9 03 5 04 2 03 0 33 5 13 1 72 2 60.5 70.3 00.4 60.8 61.1 21.0 01.3 31.0 60.8 71.0 50.8 40.3 00.5 91.0 90.3 70.2 00.5 60.1 01.1 51.5 50.3 30.2 00.3 30.0 10
18、.4 70.4 00.0 90.3 20.2 70.2 30.7 61.4 70.3 40.7 60.4 60.3 10.1 00.0 90.0 90.1 00.1 00.1 00.1 00.1 00.0 90.1 00.1 00.0 90.1 00.1 00.0 90.0 90.0 90.0 90.1 00.1 10.0 90.0 90.0 90.0 90.0 90.0 90.0 90.0 90.0 90.0 90.1 00.1 10.0 90.1 00.0 90.0 91.9 21.2 21.0 31.0 11.1 31.3 00.8 31.1 40.8 90.9 61.0 90.9 81
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Rasch 模型 在学 测验 质量 分析 中的 应用
限制150内