托福口语如何评分范例.docx
《托福口语如何评分范例.docx》由会员分享,可在线阅读,更多相关《托福口语如何评分范例.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、托福口语如何评分托福口语如何评分 一.托福口语的评分过程 和托福阅读、听力的客观评分不同,口语、写作都有主观评分参加,其牵扯到的人工费用很高,这无疑增加了ETS的运营成本。 许多同学会说托福报名费很高的!但目前考试报名费的1900+元,并不是ETS都拿走了,事实上要分一部分给国内教化考试管理部门、组织考试的学校考场、考试的推广费用,剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大,人工判分的需求量自然暴增,无疑:机评代替人评是大势所趋,技术服务于需求。 从2006年起先,ETS推广iBT考试以来,始终把机评引擎的开发放在战略重点,每年都有各种论文和数据探讨发表在世界级核心期刊上。2006年
2、起先之初,机评引擎处于数据搜集期,2010年以后人评、机评校对过渡期,直到现在机评为主、人评为辅的应用期,ETS已经走过了十多年的自然语言识别研发路。 传统的口语的评分要经验三次人工: 1. 先由第一位rater判一个初始分(4分制原始分) 2. 再由其次位rater判一个校对分(4分制原始分) 3. 假如其次位和第一位的判分差在1分以内(4分制)则二者取平均换算成30分制的成果Scaled Score 4. 假如其次位和第一位的判分差超过1分,则由第三位rater(administration老大级)进行终判。 可想而知ETS的人工投入成本之高,单靠那点报名费真的是捉襟见肘,技术服务于需求机
3、评势在必行: 1. ETS总部的SpeechRater引擎(不是给合作机构共享的阉割版)机评判分(4分制原始分) 2. 由人工根据10%的比例抽检 机评的应用使得人工成本骤减。许多同学会觉得自己被ETS的官方Rater评分是不是更占便宜,实际未必,因为人工判分工作负荷大,体力和脑力都是巨大挑战,很可能同一个rater在不同时间段打分会因为身体状况而有波动。 但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之,无论你现在接不接受机评,ETS都坚信:人工智能机评真香! 那问题来了,机评和人评的误差是多少,机评靠谱吗? 二、机评和人评的误差对比 SpeechRater是世界上应用最广泛
4、的英语口语测评系统之一,从2006年起先就内嵌在托福评分系统中(当时刚启动iBT考试,机评的主要任务先要喂数据),因为ETS自己就是测试模型的设计人,所以SpeechRater针对托福口语做了特殊优化。 虽然市面上大家也能看到许多自称能给托福口语打分的APP或ETS合作授权版本,但趋于算法迭代版本和数据样本量的限制,顶多能对语速和输出量进行评估,还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的实力。 ETS在经过了2006-2015年整10年的数据积累,并经过人工打分校对不断优化机评打分容差,尤其伴随着2015年内嵌入神经网络学习,机评精确度已经达到82%以上。而且机评稳定
5、性要远远高于人评,人总是有心情的:短期内大量评分,体能损耗,心情波动会影响评分的公允,对考生和测试系统的完善都不利。 所以,我们可以这样理解,机评介入后,即便你申请口语复议,也可能维持原判,甚至减分(人工复议会对答题逻辑内容要求更苛刻),即便机评的第一遍打分,你被打低了一分,复议确认机评校对,也就任务单项提高一分。举例: 比如口语6道题,小明分别得分:2, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.5分(4分制原始分),换算口语19分。 假如小明申请复议,Task 1提了1分(4分制原始分),小明分别得分: 3, 2, 3, 3, 2, 3(4分制原始分)
6、,把6道题的分数相加除以6得到口语2.66分(4分制原始分),换算口语20分(原始分的换算)。 也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账,有这个闲工夫复议较真,还不如细致探讨一下评分规则和机评算法结构,让机评给我们的口语分打高点更省心。 三、托福口语的评分规则 ETS口语评分的规则是依据 Lyle F. Bachman 和 Adrian S. Palmer 在 Language Testing in PracticeDesigning and Developing Useful Language Tests 论文中的要点为测试模型设计基础:衡量Communicative
7、competence的 Rubric dimensions包括: Fluency输出流利, Pronunciation发音正确, Prosody声韵, Vocabulary Range口语词汇量, Sophistication句型困难度, Grammatical Accuracy and Complexity语法正确和困难度, Content内容丰富, Aspects of Discourse辩论推理。 因为ETS设计的托福测试模型受众并非是语言专业人群,所以上述规则被精简为:Fluency, Pronunciation, Prosody, Vocabulary Usage, Grammati
8、cal Expression, and Content. 由此归类为托福口语评分的三大规则: 1. Delivery传递表达: (1)口齿清楚(日常说话舌头懒很吃亏) (2)答题连贯(超过3秒卡壳就算不连贯) (3)发音精确(元音、辅音的唇齿舌协作到位,ETS不奢求你像native speaker一样地道) (4)节奏自然(不要忽快忽慢,背忘词了很尴尬) (5)语音语调(有抑扬顿挫切忌语调平平) 注:这部分的训练方法,清北托福备考联盟慕课口语篇(腾讯教化、B站公开课均可搜)中有供应;另外一篇知乎的答题在 3 个月之内打算托福,想要达到 100+数据模型报告中我也有列出了免费学习资源。 2. L
9、anguage Use语言应用: (1)语汇运用恰当多样(先恰当再多样) (2)句型敏捷搭配(状定同位语分词运用自如) (3)语法无误(中国同学常犯单复数、冠词、主谓时态等问题) 注:究竟怎样的词汇输出才能达到要求,我们还是以ETS的发表论文数据为参考,下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计(下图红框)。 满分独立任务答题实际输出词100词就足够拿到满分;满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中,82%都是GSL 1K(General Service List)级别的基础词汇,而GSL 2K级别的高级词汇仅占4%-5% 3.
10、 Development论述拓展: (1)观点明确回应题目(机评可以鉴别是否跑题) (2)例证拓展细微环节丰富(通过神经网络学习,机评可以通过采样对比推断内容拓展是否达标) (3)答题时间安排合理(假如答完一看还差5秒才到时间,就是时间安排不合理;当然允许超时,前提是已经足够论述,即便超时也无大防碍) 注:这部分的训练方法,清北托福备考联盟慕课口语篇中有供应(腾讯教化、B站公开课均可搜);对于综合任务的笔记训练方法,可以在托福听力的练习过程中一起练快速笔记复述,不肯定只抓着口语练笔记,要充分榨干每一套题的练习潜力。 四、口语机评的模组解析 1. Spoken Response,首先接收考场里的
11、音频信号。我们答题的音频并不是平常听歌曲的CD音质,而是采样率较低的电话音质,所以这对我们答题时的环境有肯定的要求。比如特殊吵杂(旁边一堆人激励哇啦用劲喊着答题),或者答题人喜爱挨着话筒特别近喷麦(气流的传导声),都会影响音频信号的上传质量。所以,国内的同学们要留意考场文明答题,大声喊着答题不但对别的同学造成噪音干扰,而且自己的麦克风收音也会因喷麦爆掉。 2. ASR(Automatic Speech Recognition),然后进行第一步音频信号识别。在Signal Processing中,那些口齿不清楚、发音不标准的音频都会被标记为识别失败,这就跟写作系统的e-rater原理一样,一句话
12、假如主谓宾单词都拼错了,机器只能判定本句作废;同理:因为口语发音不到位导致引擎无法识别发音信号,即便答了100个词,也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的精确识别率,可以完全替代人工24小时不间断地投入工作。 3. Feature Generator 这分为两项,一项是Scoring Features,就是把识别出来的语音信号根据评分原则逐项评级;同步进行的是Similarity Features,就是作弊查重。ETS喂了许多数据给这个“作弊查重”模组,尤其对于大陆同学广为流传的:“20G30G 托福资料网盘转发”或者“某金80题”等烂
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 托福 口语 如何 评分 范例
限制150内