教育测量与评价测量指标优秀课件.ppt
《教育测量与评价测量指标优秀课件.ppt》由会员分享,可在线阅读,更多相关《教育测量与评价测量指标优秀课件.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、教育测量与评价测量指标第1页,本讲稿共66页教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度 主要对整个测量而言。效度 难度 主要对测量的项目而言。区分度 第2页,本讲稿共66页一、信度概述(一)什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度:信度指实测值(X)和真值(T)相差的程度;信度指两次重复测量或等值测量之间的关联程度。第3页,本讲稿共66页(二)信度的估计方法1、重复信度(再测信度)指的
2、是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。第4页,本讲稿共66页例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10 11 12X 20 20 21 22 23 23 23 24 25 26 26 27Y 20 21 21 20 23 23 25 25 26 26 27 29第5页,本讲稿共66页在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为0,1
3、,当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。第6页,本讲稿共66页2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。第7页,本讲稿共66页例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B
4、型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号 1 2 3 4 5 6 7 8 9 10X 19 19 18 17 16 15 15 14 13 12Y 20 17 18 18 17 15 13 15 12 12第8页,本讲稿共66页复本信度的优缺点表现:优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环
5、境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。第9页,本讲稿共66页缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。第10页,本讲稿共66页3、折半信度(分半信度)就是将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、
6、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼布朗公式加以校正。斯皮尔曼布朗公式为第11页,本讲稿共66页例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号 题 序 1 2 3 4 5 61 1 0 0 0 0 02 0 0 0 1 0 03 1 0 1 0 0 04 1 1 0 0 1 05 1 0 0 1 0 06 1 1 1 0 1 17 1 1 1 1 0 18 1 1
7、 0 1 1 09 0 1 1 0 0 110 1 1 1 1 1 1第12页,本讲稿共66页(三)提高信度的方法1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面第13页,本讲稿共66页2、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差第14页,本讲稿共66页二、效度的概念(一)什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。
8、(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。第15页,本讲稿共66页(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。第1
9、6页,本讲稿共66页2、内容效度的估计(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。采用求统计量的公式进行计算,其公式有以下三种形式:第17页,本讲稿共66页例一在社会发展史某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号 1 2 3 4 5 6 7 8 9 10教学前X 34 40 32 30 31 35 44 3
10、3 42 36教学后Y 52 64 50 54 58 63 72 62 62 50第18页,本讲稿共66页结论然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的t=13.974.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,社会发展史中该单元测验的内容具有有效性,或内容效度较高。第19页,本讲稿共66页内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。第20页,本讲稿共66页2、结构效度是指测验对于人的心理特性
11、或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。第21页,本讲稿共66页(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度
12、的获取更为困难。第22页,本讲稿共66页(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。第23页,本讲稿共66页(3)结构效度的估计A、因素分析法其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。B、多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。第24页,本讲稿共66页从理论上说,以不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 测量 评价 指标 优秀 课件
限制150内