教育测量与评价第三章课件.ppt
《教育测量与评价第三章课件.ppt》由会员分享,可在线阅读,更多相关《教育测量与评价第三章课件.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、教育测量与评价第三章1第1页,此课件共90页哦第三章第三章 教育测量与评价的质量特性教育测量与评价的质量特性 第一节第一节 教育测量与评价的信度教育测量与评价的信度 第二节第二节 教育测量与评价的效度教育测量与评价的效度 第三节第三节 教育测量与评价的难度教育测量与评价的难度 第四节第四节 教育测量与评价的区分度教育测量与评价的区分度第2页,此课件共90页哦 衡量教育测量的质量,可采用四个指标:信度信度 主要对整个测量而言。主要对整个测量而言。效度效度 分度分度 主要对测量的项目(题目)而言主要对测量的项目(题目)而言。难度区难度区第3页,此课件共90页哦第一节第一节 教育测量与评价的信度教育
2、测量与评价的信度 一、什么是信度一、什么是信度 信度是指测量结果的稳定性或可靠性程度。即:用同一量表测量同一特质对象,多次测量间的一致性程度。一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度:信度指实测值(X)和真值(T)相差的程度;信度指两次重复测量或等值测量之间的关联程度。第4页,此课件共90页哦二、信度的统计定义二、信度的统计定义 X=T+E误差E的平均数为零,且与真分数T之间是相互独立的,及相关系数是零。公式推导、两边求方差。方差、相关系数第5页,
3、此课件共90页哦 信度的三种统计定义:信度的三种统计定义:1、真分数方差与观察分数方差之比:测验的信度一般在0和1之间取值(?),信度越接近1,考试的信度越高。2、被试团体的真分数与观察分数的相关系数的平方。3、被试团体在测验X(A卷)的观察分数与在测验X的任意一个“平行测验”X(B卷)上的观察分数的相关系数。第6页,此课件共90页哦 第一、第二种定义为理论定义,不具有实际操作意义,第三种可以实际操作。因为真分数很难确定,不可得。第7页,此课件共90页哦三、信度的估计方法三、信度的估计方法(一)重测信度(一)重测信度 指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被
4、试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。第8页,此课件共90页哦例一 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 232425262627 Y 20 21 21 20 23 23 252526262729第9页,此课件共90页哦在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。
5、应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、适用于运动技能的测验,如跑、跳,较少受重复测量的影响。第10页,此课件共90页哦(二)复本信度(二)复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验(也称平行测验)是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。但试题不相同。第11页,此课件共90页哦 实施复本测验的两种方式:P49 复本测验不仅适用于难度测验,也是估计速度测验信度的好方法。在作追踪研究或探讨某些影响测验因素成绩的因素
6、时,大多使用复本测验,分析复本信度。第12页,此课件共90页哦例二 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12第13页,此课件共90页哦复本信度的优缺点表现:优点:1、测验的两个复本,如果在不同
7、的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。第14页,此课件共90页哦缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一
8、旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。第15页,此课件共90页哦3、折半信度(分半信度)就是将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼布朗公式加以校正。斯皮尔曼布朗公式为第16页,此课件共90页哦 4、标准参照测验的信度分析、标准参照测验的信度分析 百分比一致性指标百分比一致性指标 5、测量标准误、测量标准误 测验信度的一
9、个重要应用,反应测量结果测验信度的一个重要应用,反应测量结果精确性和可靠性的一个指标,正确解释测精确性和可靠性的一个指标,正确解释测验分数的科学依据。验分数的科学依据。第17页,此课件共90页哦 6、评分者信度 含义:多个评分者给同一批人的答卷进行评分的一致性程度。(主观题)计算方法:(1)两个人时,两个人所给分数的相关系数。(2)多人评分是,肯德尔和谐系数第18页,此课件共90页哦例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号 题 序 1 2 3 4 5 61 1 0 0 0 0 02 0 0 0 1 0 03 1
10、0 1 0 0 04 1 1 0 0 1 05 1 0 0 1 0 06 1 1 1 0 1 17 1 1 1 1 0 18 1 1 0 1 1 09 0 1 1 0 0 110 1 1 1 1 1 1第19页,此课件共90页哦作业 1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4第20页,此课件共90页哦 2、对10名应试者先进行某种测验X,隔适当时间后(半年
11、),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度?应试者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4第21页,此课件共90页哦 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度?学生序号 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36第22页,此课件共90页哦(三)提高信度的方法 1、影响测量信
12、度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面第23页,此课件共90页哦2、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差第24页,此课件共90页哦二、效度的概念(一)什么是效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(鉴别,选拔或诊断)(2)测量的效度是相对测量的结果而言的 2、一种测量的效度只
13、是高或低的问题 测量结果总是有一定效度的,只是效度高低不同罢了。第25页,此课件共90页哦(二)效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度 就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。第26页,此课件共90页哦 内容效度:内容效度:教学目标、教材要求教学目标、教材要求测验试题样本
14、测验试题样本 适用于:适用于:教育测量(学业成就测验)教育测量(学业成就测验)用于选拔和分类的职业测验。用于选拔和分类的职业测验。不适用于:心理测验,如智力、创造性、不适用于:心理测验,如智力、创造性、人格等。人格等。第27页,此课件共90页哦2、内容效度的估计(1)逻辑分析法 其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(命题双向分类表题目双向分类表)(2)统计分析法 从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。第28页,此课件共90页哦例一 在社会发展史某一单元教
15、学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号 1 2 3 4 5 6 7 8 9 10 教学前X 34 40 32 30 31 35 44 33 42 36 教学后Y 52 64 50 54 58 63 72 62 62 50第29页,此课件共90页哦结论 教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,社会发展史中该单元测验的内容具有有效性,或内容效度较高。第30页,此课件共90页哦 内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。第31页,此课
16、件共90页哦2、结构效度 是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。第32页,此课件共90页哦(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 测量 评价 第三 课件
限制150内