《教育测量的基本原理与方法.ppt》由会员分享,可在线阅读,更多相关《教育测量的基本原理与方法.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、教育测量的基本原理与方法 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一、从两份载入史册的评语说起一、从两份载入史册的评语说起1.黑格尔的老师对他的评价黑格尔是德国的著名哲学家,18岁进入图宾根大学(符腾堡州的一所新教神学院)学习。毕业时,他的老师为黑格尔写下一段评语:“健康状况不佳,中等身材,不善辞令,沉默寡言,天赋高,判断力健全,记忆力强,文字通顺,作风正派,有时不太用功,神学有成绩,虽然尝试讲道不无热情,但看来不是一名优秀的传教士。语言知识丰富,哲学上十分
2、努力。”2.卡尔马克思中学毕业证书上的评语一、操行:对待师长和同学态度良好。二、才能和勤勉:该生才能优异,在古代语、德语和历史课方面表现了十分令人满意的勤勉,在数学课方面是令人满意的勤勉;只是在法语方面稍为勤勉。三、知识和成绩1.语言(1)德语:语法知识和作文都很好。(2)拉丁文:无需准备就能熟练、细致地翻译和解释中学选读的古典作品中比较容易的段落,经过适当准备或稍作辅导后,常常能熟练、细致地翻译与解释较难的读物,尤其是语言本身并不太难和所涉及的事物和思想内容都较难懂的读物。他的作文就内容而言,既富于思想,又对事物有深刻的了解,但时常过于冗长,在掌握拉丁文方面达到了令人相当满意的熟练的程度。(
3、3)希腊文:对中学选读的古典作品的理解,其知识和熟练程度同拉丁文不相上下。(4)法语:语法知识相当好,略加辅导就能读较难的作品。口语表述方面达到了一定的熟练程度。2.学科(1)宗教知识:对基督教的教义和自诫相当清楚,能很好地论证;对基督教的历史也有一定的了解。(2)数学:有丰富的知识。(3)历史和地理:总的来说,具有相当令人满意的知识。(4)物理:知识中等。因此,本委员会衷心希望将由于得天独厚而获得应有的美好前程。学校考试委员会学校考试委员会 思维丰富,文学结构严谨,然而有追求与众不同的形象用语的倾向。校长维登巴赫反思反思1.我们能为学生写出同样的全面中肯的评语吗?2.评语是怎样做出的?3.什
4、么是教育测量与评价?1.我们能为学生写出同样的全面中肯的评语吗?我们能为学生写出同样的全面中肯的评语吗?任何一个普通的老师,都完全能够看到每一个学生全面的发展和特点。如果让一个老师自主地、自由地对任何一个学生作出评价,我相信他们都完全可以作出全面的恰当的评价而不失分寸。那么,是什么东西屏蔽了全体教师的眼光呢?是什么东西不让这些教师看到学生的全面发展呢?无疑就是我们的教育部门的官僚主义和行政取向。领导们那么忙,怎么能够看到学生全面的发展和特点呢?他们也不需要看到、不愿意看到。他们只需要分数!分数,多么简单而好使!我们的教育体制表现出两个特点。一是应试主义,只看到考试成绩,看不到学生其它方面的发展
5、;二是官僚主义和行政取向。正因为教育部门广泛而深入的官僚主义和行政取向,才造成了一切向分数看的体制。所以说,我们厌倦了应试教育这么多年,批评应试教育这么多年,一点进展也没有,原因就在于我们竟然没有看到应试教育是怎样来的。怎么这么多年来没有人发现应试教育完全是来源于教育部门广泛而深入的官僚主义与行政取向!教育部门的官僚主义和行政取向导致了应试教育,这种“异化”的组合一道忽略和抹杀了我们的学生的生动活泼的天性、丰富多彩的创造性、无限的发展潜能却只需要易于管理的升学率、需要服从、听话、刻板、机械的品质。在简单管理的官僚主义和行政取向的“升学率”的指挥棒下,全体师生只能服从、听命,于是高强度的“题海战
6、术”,铺天盖地的大考小考,永远的死记硬背,从小学的6年,再到中学的6年所以才出现今天高校的“阴盛阳衰”现象。2.评语是怎样做出的?评语是一种非常重要的教育评价。教育评价是依据教育测量、行为观测、综合考察的结果做出的。3.什么是教育测量与评价?对受教育者并且同时也对教育者的行为进行标准标准化化的量化量化分析,从而作出客观客观的科学科学的评价。标准化:(1)测量过程的标准化;(2)领域参照和常模参照标准。量化分析:(1)掌握水平:学业成绩;(2)标准分(Z,T,IQ,等等)对受教育者:因材施教。对教育者:促进教育发展。国外对学校教育质量的评价国外对学校教育质量的评价Horwitz(1979):学业
7、成绩、自我概念、对学校的态度、创造力、独立性与顺从性、好奇感、忧虑与调节、控制点、互助性。Hedges等人(1981):成就动机、调节、忧虑、对学校的态度、对老师的态度、互助性、创造力、好奇感、一般思维能力、独立性与自立性、控制点、自我概念、语言能力、数学成绩等学业成绩。二、从最早的教育测量到今天的教育测量:二、从最早的教育测量到今天的教育测量:回顾与反思回顾与反思正是中国孕育了世界上最早的教育测量。在测量史上,世界公认人类最早出现的教育测验,是在中国发现的。公元前2200年,大禹对官员每三年一次进行能力测验,作为晋升或罢免的依据。这可以说是人类最早出现的教育测验。并且,有史料可循的中国汉朝出
8、现的文官选拔考试,也是比西方早了一千多年。汉武帝(公元前156年-公元前87年)时,兴办太学,并开科取士,及至隋唐成为制度。而在欧洲,大学里出现正式考试是公元1219年的事,文官考试则更是要到1833年后。1.中国人这项最早的创新意义何在?中国人这项最早的创新意义何在?大家不要低估了开科取士的伟大意义,这种创举:一是使用了测量的方法和心理选拔的策略,从而能够真正公平地选拔到合适的人才,使人力资源的配置达到优化;二是广开了才路,使有能力的寒门子弟也能够晋升,为国家效劳,从而开发了国力。历史已经检验了这种创举的“实证效度”,汉武帝时中国的强盛就能说明问题,汉武帝于是也成了“雄才大略”的一代雄君。所
9、以,其意义比美军使用“陆军A、B种智力测验”还值得称道。2.为何到后来反而成了僵化的体制?为何到后来反而成了僵化的体制?从晚清腐败的科学考试今天的应试教育。3.教育与国家发展究竟有多大关系?教育与国家发展究竟有多大关系?三、信度的原理与方法三、信度的原理与方法1.信度的意义假设有人前几天给你量过身高,你的身高是175厘米。今天再次给你量了身高,你的身高是165厘米。你作何感想?根据这样的测量,请问,你究竟是多高?你能够下结论吗?显然,测量误差很大的测量结果,是不能够给出结论的。5位教师对一位学生的作文评分的结果是:90、20、70、10、30;请问,这样的评分能够相信吗?评分从10分到90分,
10、彼此相差太大,评分者信度是很低的。在这样的情况下,能够对学生作出可靠的结论吗?评分者信度低,说明教师们或者对评分标准有不同的理解,或者对学生存有偏见。也就是说,5位教师的评价存在很大的误差,这样是不能够对学生做出客观可靠的结论的。否则就是草菅人命。2.信度的计算信度的计算信度常以相关系数表示:例如,50个被试第一次测验与相隔一周后的第二次同样的测验,两次测验成绩的相关系数r为0.85。这个相关系数表示的是重测信度。有5种信度(重测信度、复本信度、分半信度、内部一致性信度和评分者信度)算法。各种信度的含义信度要说明的问题取样特点重测信度第一次测验与第二次测验是否一致?在不同时间取样稳定性系数复本
11、信度不同的复本在同时或不同时测验时是否一致?对内容与时间取样等值性及稳定性系数分半信度测验分为两半时是否一致?对内容取样同质性系数内部一致性系数测验的内部各个项目之间是否一致?对内容取样同质性系数评分者信度不同的评分者之间的评分一致性如何吗?对评分者取样评分者一致性系数四、内容效度问题四、内容效度问题通俗地说,或者从字词的意义上说,内容效度就是从测验的内容方面去检验测验的效度。内容效度主要去考察被试过去学得怎么样和做得怎么样。内容效度检验一个测验是否包括足够的行为样本并且有适当的比例分配。一是要有足够的覆盖面,二是分配的比例必须适当。假如关于高一期末考试的试卷出现争议?高一数学学过的内容高一数
12、学学过的内容必修1内容:函数,基本初等函数1,函数模型及其应用必修2内容:立体几何初步,空间中的线面关系,直线与方程,圆与方程必修3内容:算法初步,统计,概率,必修4内容:三角函数,平面向量,三角恒等变换五、标准化问题五、标准化问题1.参照参照的意义的意义原始分数毫无意义。(1)常模参照常模参照。(2)领域参照。领域参照。2.领域参照测验的主要特征是:(1)界定明确的领域与内容的范围)界定明确的领域与内容的范围。首先一定要界定清楚测验的领域与内容的范围,例如,过去学了哪些东西,做了哪些事。(2)根据明确的领域与内容的范围,确定掌握水平)根据明确的领域与内容的范围,确定掌握水平。明确界定了测验的
13、领域与内容范围之后,就可以确定一个掌握水平。例如,明确了高一某学期学过集合、代数、函数、几何这些内容,就可以每个部分编制若干道题,总共100分,并确定60分为及格。这分数就对知识与技能的掌握水平。3.领域参照测验与常模参照测验的关系领域参照测验与常模参照测验的关系(1)领域参照测验可以与常模参照测验结合)领域参照测验可以与常模参照测验结合。当测验的领域清晰时,我们可以编制领域参照测验,也能编制成常模参照测验。例如,学业测验本来是领域参照测验,但是,我们可以进一步将它发展成常模参照测验。那些学业标准化测验就是如此。著名的测验GRE、托福、美国学业评定测验方案(SAT)、美国大学测验方案(SCT)等就是常模参照测验。(2)常模参照测验不可编制成领域参照测验)常模参照测验不可编制成领域参照测验。当测验的领域不清晰时,只能编制常模参照测验,不能编制领域参照测验。智力、人格、创造力、心理健康这些领域都是不清晰的,难以明确辨别的,所以,只能编制常模参照测验,不能编制领域参照测验。领域都不清晰,谈何领域参照?3.常模参照的标准化测验的应用从标准化的学业测验到学习风格(反省监控)、人格(成就动机和抱负水平)、认知能力(智力)、心理健康(病态人格、强迫、焦虑、抑郁)六、几个展望六、几个展望1.项目反应理论与计算机自适应测验2.大数据与教育测量
限制150内