教育测量与评价(共6页).doc
精选优质文档-倾情为你奉上教育测量与评价期末复习重点一、名词解释1.教育测量:指针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。2.教育评价:教育评价是指按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。3.常模参照:常模参照测量与评价是将被试水平与测验常模相比较,以评价被试在团体中的相对地位的一种测量与评价类型。4.标准参照(标准参照测验):在一定的行为领域上按照具体的行为标准水平对被试的测验结果作出直接解释的测验。标准参照测量与评价是将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多在大程度上达到该标准。5.典型行为:典型行为测量与评价要求被试按通常的习惯方式做出反应(即典型行为),其目的不在于测量与评价被试能力的高低,而是测量与评价是否具备某种典型行为。6.最佳行为:最佳行为测量与评价是以测量被试的最佳行为表现为目的。如以成就或能力的高低作为评价基础。7.重测信度:指用同一个量表对同一组被试施测两次所得结果的一致性程度。8.复本信度:指两个平行测验测量同一批被试所得结果的一致性程度。9.同质性信度:指测验内部所有题目间的一致性程度。10.内容效度:指一个测验实际测到的内容与所要测量的内容之间的吻合程度。包括欲测的知识范围,以及该范围内各知识点所要求掌握的程度两个方面。11.结构效度:指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。12.实证(效标关联)效度:指一个测验对处于特定情境中的个体的行为进行估计的有效性。13.区分度:指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。常记为D。14.评价指标:指根据评价的目标,由评价指标的设计者分解出来的,能够反映评价对象某方面本质特征的具体化、行为化的主要因素,它是对评价对象进行价值判断的依据。15.指标权重:就是表示每项评价指标在指标体系中所占的重要性程度,并赋予相应的值,这个数值就叫做对应指标的权数(权重)。16.评价标准:是针对每个评价指标的分类作出具体规定,提出具体要求和说明。17.常模:指一个有代表性的样组在某种测验上的表现情况,或者说是一个与被试同类的团体在相同测验上得分的分布状况与结构模式。18.常模团体:是由具体某种共同特征的人所组成的一个群体或是该群体的一个样本。19.百分等级:指在一个群体的测验分数中,得分低于这个分数的人数的百分比。20.百分等级常模:就是基于某个常模团体,为某种测验的原始分数与百分等级之间建立起对应关系的组内常模类型。21.智力:智力是抽象思维能力:智力是正确进行理解、判断和推理的能力。(Binet & Simon,1905)智力是适应的能力或智力是学习的能力:智力是总括性的术语,指用来适应物理和社会环境的认知结构的组织和平衡的高级形式。(Piaget,1972)智力是多种能力的综合,是一种全面能力:智力是个体有目的地行动,理性地思考以及有效地应付环境的总体能力。(Wechsler,1939)总结:智力是各种认识能力的综合,它包括观察力、注意力、记忆力、想象力、思维能力等,其中以抽象思维能力为核心。22.晶体智力:是获得的知识与技能的有效结合之能力。适用于完成某种固定的任务。23.流体智力:是洞察复杂关系的能力,是在不同环境和条件下都要显示出来的一般的普遍的能力。适用于适应新环境的情形下。二、填空题1.测量的基本要素是参照点和单位。2.结构效度的验证方法:测验内部寻找证据法(内容效度、作答过程分析、测验的同质性、因素分析法)。P61-623.效标关联效度可分为同时效度和预测效度。4.效标关联效度的估计方法:相关法(二列相关、积矩相关)、区分法、命中率。P63-645.客观性试题包括选择题、匹配题、是非题、填空题、简答题等。优点:答案客观,作答简便,在限定的时间内,测验可以包含足够数量的试才所测知识内容的覆盖面。客观题一般适用于测量知识、理解等几个层次的教学目标,在教育测验中用得较多。缺点:不能测量与评价高层次的教学目标,并且编制也较为复杂。6.主观性试题包括论述题、作文题、操作题等。优点:适合于测量较高层次的教学目标,特别是测量综合、评价等目标层次。主观性试题鼓励被试积极地组织资料,表达点,有利于培养被试解决实际问题的能力。缺点:作答耗费的时间过长,在规定的时间内,试题数量不能太多,因而知识的覆盖面较小。由试题没有非常统一明确的标准答案,所以评分易受主观因素的误差较大。7.常见题目编排方式有并列直进式、混合螺旋式。8.测验的常模可分为两类:发展常模(年龄常模、年级常模)、组内常模。发展常模仅适用于高中以前。年龄当量、年级当量具有顺序性,不具有等距性。9.课业考评存在的主要问题:课业考评思想与学校教育理念、目标不相适应;课业考评方法单一;课业考评抽象化和表征化。10.课业考评改革的主要目标:要实现考试向发展性评价观转变;要努力实现从重视“掌握性结果”的评价转变到既重视“掌握性结果”又重视“发展性结果”的评价;内容从认知领域转变到憨盖学习结果的更广泛的教育目标领域上来;要努力实现从表征性分数机制到实质性内容机制的转变。11.学生课业发展的主要内容:学生的个体一般性发展、学科理论知识和学科能力或技能的发展、思维技能与品质的发展、研究与学习技能的发展、创新精神与实践能力的发展、态度、观念及兴趣的发展、欣赏与审美的发展、适应与习惯的发展、学生体育技能与素质的发展、个体独特性的发展。12.评价学生课业发展进步的个人发展参照法有:个人发展横向参照法、个人发展纵向参照法及个人发展潜力参照法。P18213.评价学生课业发展进步的主要方法:客观题评价法与主观题评价法、表现性测验评价法(口头测验:口试、课堂提问、论辩或辩论;论文题测验:短文题考试、写作测验、实验技能教学考试评价)。14.斯皮尔曼G因素说:G因素(一般因素)是智力的核心,而S因素(特殊因素)只有在某些情况下才会表现出来。15.桑代克的特殊因素说、塞斯顿群因素说、弗农智力层次结构模型、吉尔福特的智力三维结构模型、卡特尔的流体智力和晶体智力理论、加德纳的智力结构理论、斯腾伯格的成功智力理论。P221-22616.自陈量表包括艾森克人格问卷(EPQ)、WAIS、爱德华个人兴趣量表。17.投射测验包括罗夏克墨迹测验、默瑞的主题统觉测验(TAT)、罗桑兹威格的逆境对话测验。18.卡特尔16种人格因素量表(16PF)是唯一一个没有说谎量表的。附:1.要衡量教育测量的质量,可以采用四个指标:信度、效度、难度和区分度 。2.测验的难度适中,能使测验的信度达到最大,也能使测验的区分度达到最大。3.教育科学研究中绝大部分数据都属于等级变量,这些数据的单位不等值、没有绝对零点,可以比较大小,不能加减更不能乘除。4.最常用的双向细目表是反映测验内容与测验目标关系的双向细目表。5.教育评价表在结构上是由评价指标、指标权重及评价标准三部分组成的。6.广义的教育评价是按照一定的价值标准和_,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。 7.教育测量与评价按测量对象可分为_和_;按测量材料可分为文字测验和非文字测验。 8.信度的估计方法有重测信度,_和_。 9.内容效度就是测验题目样本对于_与_的代表性程度。 15、区分度的值域范围为_。 10.年级常模通常用_位数表示,其中,第一位是年。 11.教育测量的特点中,测量对象具有_,误差是_避免的。 12.标准分数Z本身是关于原始分数X的一种_,要合理使用标准分数。_是基于百分等级形成的另一较常见的评分量表。 13.测验题目的恰当难度,应该使P值尽量接近_。14.表述得当的教育目标应该_;表述明确、具体;反应学习结果的层次性;表达教育工作者的意图。三、计算题1.重测信度、复本信度(积差相关公式):p472.同质性信度:分半信度(斯皮尔曼-布朗校正公式):p50克龙巴赫系数:p523.评分者信度(相同等级无需掌握):p554.二分法计分:p65-66难度值(通过率)的计算公式:P=R/N (P:难度值;N:被试人数;R:答对该题目的人数) 极端分组法(27%):P=(PH+PL)/2;校正公式:P = (KP-1) /(K-1) 非二分法计分:P=X / Xmax(P:题目难度;X:所有被试在某题目上的平均得分;Xmax:该题目的满分)附:P值介于0与1之间,P和难度成反比;难度为0.50时区分度最高,各个项目的难度在0.50± 0.20之间变化。 5.计算测验原分数X所对应的百分等级PR:p1356.标准分数的计算:p136四、简答题1.教育测量的特点:(简述)间接性和推断性;测量对象模糊性和误差的不可避免性;量表具有的多样性,结果具有相对抽象性。 2.教育测量与教育评价的关系:p7教育测量与教育评价既有联系又有区别。区别(定义):从句法意义上讲,测量是按照一定的法则和程序,对事物或现象在量上的规定性加以确定和描述的过程。教育测量则是对教育效果或者学生各方面的发展予以测量和描述的过程,旨在获得有一定说服力的数量事实,是一种以量化为主要特征的事实判断。教育评价是根据一定的标准,对教育事物或现象的价值进行系统的调查,在获取足够多的资料事实(定性资料与定量资料)基础上,作出价值分析和价值判断。联系:教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础。教育评价往往是教育测量过程的延续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。3.教育测量与评价的主要功能:实现教育判断的功能:测量评定、事实判断、价值判断、问题诊断、区分选拔;改进教师教学的功能:了解学生的起点行为、作为改进教学的参考、作为补救教与学的依据、确保教学目标的达到;促进学生学习的功能:激励学生的学习动机、帮助学生的记忆和促进迁移、促进学生的自我评价。行使教育管理的功能:对教师的管理、对学生的管理、对教学目标和质量的管理、对教育过程的管理、对学校的管理。4.信度与效度的关系:信度高是效度高的必要而非充分的条件。测验的效度受它的信度制约。补充:效度是信度的一部分,效度来得比信度更重要。 5.设计测验的基本考虑:p103确定测验目的和属性;明确测验的性质和用途:测验的编制者首先要明确的就是自己所编制的测验是用来测量哪种心理结构或者说心理物质。明确了测验用途,才能有的放矢地去寻找测验的理论根据。明确测验测验用途的同时还要明确抽编制的测验是属于常模参照测验还是标准参照测验。明确测验的对象:在编制测验时应考虑到被试的年龄特征、教育水平、文化社会背景等因素。分析测验的目标:确定能表示所欲测量的心理结构的行为。所选择的行为要有代表性,这组有代表性的行为我们称为行为样组。确定每一类行为的项目比例。项目比例确定的问题其实就是确定每一类行为在心理结构中的比重问题。6.设计测验蓝图的步骤:p105-106确定测验内容要目;确定科目要考查的目标层次;确定测验内容要目下的权重;形成命题双向细目表。7.测验的编制与组织:p106-110选定测验的材料:注意点:测验材料要适合测验目的;测验材料要能够代表该科教材的全部内容;测验材料要有普遍性,要以统一的课程标准或教学大纲和统编教材为选材依据,应该是大多数至全部被试都已学过的内容,从而对全体被试具有公平性。编写测验试题试测(预测)与题目分析:注意点:预测时所用的被试应该是从测验对象这个全域中抽取的,即取样时应注意样本代表性。关于预测的人数问题。预测应力求按正规的要求进行,使其与将来正式测验的情况相近似。预测的实施,应使被试有足够的完成作业的时间,以便搜索充分的反应资料使统计分析结果可靠。在预测过程中,应就被试的反应情况随时加以记录。合成测验(组卷) 编制复本 编写测验手册8.制订教育评价表的基本原则:p114-115科学性与导向性原则; 完备性与独立性原则; 发展性与整体性原则;操作性与可测性原则; 可行性与可比性原则; 超前性与持续性原则同时,除必须遵肚些基本原则之外,还必须采用一定的科学程序与技术进行操作。 9.制订教育评价表的方法:p118-122确定教育评价的对象和目标初拟评价指标:头脑风暴法;因素分解法;理论推演法;典型研究法。筛选评价指标:经验法;调查统计法;模糊聚类法。确定评价指标权重:关键特征调查法;两两比较法;专家评判平均法;倍数比较法;Q分类法。设计教育评价标准。整合、修改与完善教育评价表。10.确定常模团体的注意事项:p125群体构成的界限必须明确;常模团体必须是所测群体的一个代表性样本;取样的过程必须明确且有详尽的描述;样本大小在适当;常模团体必须是近时;注意一般常模与特殊常模的结合。11.标准Z分数的性质和特点:p138-139任何一批原始分数转化成Z分数后,Z分数的平均值为0,标准差为1。Z0,测验成绩高于平均数;Z0,测验成绩地域平均数;Z=0,测验成绩等于平均数。标准分数Z量表的单位是相等的,其零点是相对的。因此,不同科目的Z分数具有较好的可比性和可加性。Z分数本身是关于原始分数X的一种线性变换,因此Z分数不改变原始分数的分布形态。在一般情况下,标准分数Z的取值范围是(-3,+3)。Z分数的意义可以用正态分布曲线下的面积比例(本质上是概率值)做出最好的解释。附:标准分数变式的评价优点:(1)具有等单位特点,便于工作进一步的统计分析。(2)正态分布下,可以利用正态分布表将各种导出分数与百分等级分数作换算。(3)正态分布下,运用某种变式分数可以将几个测验上的分数作直接的比较。缺点:(1)分数过于抽象,不易理解。(2)在非正态分布下,分布形态不同的变式分数,仍然不可作相互比较,也不能相加求和。12.课业考评的主要作用:p168-169合理的课业考评制度为学生发展提供较明确的目标和努力的方向。合理的课业考评制度将有助于评价学生的发展、进步,从而对教与学双方活动起着重要的控制、调节和促进等作用。课业考评为学生心理发展和学习进步创造必要的背景和空间,诱发学生的学习动机和自主发展的动力。课业考评在中小学生个体社会化进程中起着控制、调节、促进和加速作用。13.韦氏智力量表的特点:测验具有完整的结构,能较好地反映智力的整体和各个侧面。不但有总智商,还有分量表评价。同时韦氏智力量表具有很高的信度,一般都在0.9以上。采用离差智商代替比率智商,既克服了计算成人智商的困难,又解决了在智商变异性上长期困扰人心的问题。各年龄组都接受相同的分测验,如WAIS-R,WISC-R,WPPSI-R有相同的8个核心分测验,可对各种能力加以比较,同时可节省指导测验的时间。韦氏智力量表有:韦氏成人智力量表、韦氏儿童智力量表和韦氏幼儿智力量表,三套智力量表相互衔接,适用的年龄范围可从幼儿到老年,便于开展智力发展的个案研究与跟踪研究。采用了因素分析法研究结构效度,更具有理论意义。14.瑞文推理测验的特点:适用的年龄范围宽,测验对象不受文化、种族与语言的限制,并且可用于一些生理缺陷者。测验可个别进行,也可团体实施,使用方便,省时省力,结果解释直观简单,测验具有较高的信度与效度。瑞文推理测验有系列量表,如适用于更小年龄儿童和智力落后者的彩色推理测验以及适用于高智力水平者的高级推理测验。15.自陈量表的特点:优点:测量工具一般为调查表;测量题目数量较大;在同一测验中往往包含几个分量表,测多个特质;通常采用纸笔测验,因而可团体实测;计分规则简单而客观。缺点:社会称许性;自我防御:掩饰、默认、折中。16.投射测验的特点:测验材料没有明确的结构和确切的意义;受测者对测验材料的反应不受限制;测验的目的具有明显的隐蔽性;对测验结果有解释重在对受测者的人格特征获得整体性的了解;投射测验的内容多为无明确意义的图片,在测验时不受语言文字的限制;相对于自陈量表,投射测验的最大局限是计分上的困难。专心-专注-专业