托福口语如何评分范例.docx
托福口语如何评分托福口语如何评分 一.托福口语的评分过程 和托福阅读、听力的客观评分不同,口语、写作都有主观评分参加,其牵扯到的人工费用很高,这无疑增加了ETS的运营成本。 许多同学会说托福报名费很高的!但目前考试报名费的1900+元,并不是ETS都拿走了,事实上要分一部分给国内教化考试管理部门、组织考试的学校考场、考试的推广费用,剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大,人工判分的需求量自然暴增,无疑:机评代替人评是大势所趋,技术服务于需求。 从2006年起先,ETS推广iBT考试以来,始终把机评引擎的开发放在战略重点,每年都有各种论文和数据探讨发表在世界级核心期刊上。2006年起先之初,机评引擎处于数据搜集期,2010年以后人评、机评校对过渡期,直到现在机评为主、人评为辅的应用期,ETS已经走过了十多年的自然语言识别研发路。 传统的口语的评分要经验三次人工: 1. 先由第一位rater判一个初始分(4分制原始分) 2. 再由其次位rater判一个校对分(4分制原始分) 3. 假如其次位和第一位的判分差在1分以内(4分制)则二者取平均换算成30分制的成果Scaled Score 4. 假如其次位和第一位的判分差超过1分,则由第三位rater(administration老大级)进行终判。 可想而知ETS的人工投入成本之高,单靠那点报名费真的是捉襟见肘,技术服务于需求机评势在必行: 1. ETS总部的SpeechRater引擎(不是给合作机构共享的阉割版)机评判分(4分制原始分) 2. 由人工根据10%的比例抽检 机评的应用使得人工成本骤减。许多同学会觉得自己被ETS的官方Rater评分是不是更占便宜,实际未必,因为人工判分工作负荷大,体力和脑力都是巨大挑战,很可能同一个rater在不同时间段打分会因为身体状况而有波动。 但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之,无论你现在接不接受机评,ETS都坚信:人工智能机评真香! 那问题来了,机评和人评的误差是多少,机评靠谱吗? 二、机评和人评的误差对比 SpeechRater是世界上应用最广泛的英语口语测评系统之一,从2006年起先就内嵌在托福评分系统中(当时刚启动iBT考试,机评的主要任务先要喂数据),因为ETS自己就是测试模型的设计人,所以SpeechRater针对托福口语做了特殊优化。 虽然市面上大家也能看到许多自称能给托福口语打分的APP或ETS合作授权版本,但趋于算法迭代版本和数据样本量的限制,顶多能对语速和输出量进行评估,还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的实力。 ETS在经过了2006-2015年整10年的数据积累,并经过人工打分校对不断优化机评打分容差,尤其伴随着2015年内嵌入神经网络学习,机评精确度已经达到82%以上。而且机评稳定性要远远高于人评,人总是有心情的:短期内大量评分,体能损耗,心情波动会影响评分的公允,对考生和测试系统的完善都不利。 所以,我们可以这样理解,机评介入后,即便你申请口语复议,也可能维持原判,甚至减分(人工复议会对答题逻辑内容要求更苛刻),即便机评的第一遍打分,你被打低了一分,复议确认机评校对,也就任务单项提高一分。举例: 比如口语6道题,小明分别得分:2, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.5分(4分制原始分),换算口语19分。 假如小明申请复议,Task 1提了1分(4分制原始分),小明分别得分: 3, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.66分(4分制原始分),换算口语20分(原始分的换算)。 也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账,有这个闲工夫复议较真,还不如细致探讨一下评分规则和机评算法结构,让机评给我们的口语分打高点更省心。 三、托福口语的评分规则 ETS口语评分的规则是依据 Lyle F. Bachman 和 Adrian S. Palmer 在 Language Testing in PracticeDesigning and Developing Useful Language Tests 论文中的要点为测试模型设计基础:衡量Communicative competence的 Rubric dimensions包括: Fluency输出流利, Pronunciation发音正确, Prosody声韵, Vocabulary Range口语词汇量, Sophistication句型困难度, Grammatical Accuracy and Complexity语法正确和困难度, Content内容丰富, Aspects of Discourse辩论推理。 因为ETS设计的托福测试模型受众并非是语言专业人群,所以上述规则被精简为:Fluency, Pronunciation, Prosody, Vocabulary Usage, Grammatical Expression, and Content. 由此归类为托福口语评分的三大规则: 1. Delivery传递表达: (1)口齿清楚(日常说话舌头懒很吃亏) (2)答题连贯(超过3秒卡壳就算不连贯) (3)发音精确(元音、辅音的唇齿舌协作到位,ETS不奢求你像native speaker一样地道) (4)节奏自然(不要忽快忽慢,背忘词了很尴尬) (5)语音语调(有抑扬顿挫切忌语调平平) 注:这部分的训练方法,清北托福备考联盟慕课口语篇(腾讯教化、B站公开课均可搜)中有供应;另外一篇知乎的答题在 3 个月之内打算托福,想要达到 100+数据模型报告中我也有列出了免费学习资源。 2. Language Use语言应用: (1)语汇运用恰当多样(先恰当再多样) (2)句型敏捷搭配(状定同位语分词运用自如) (3)语法无误(中国同学常犯单复数、冠词、主谓时态等问题) 注:究竟怎样的词汇输出才能达到要求,我们还是以ETS的发表论文数据为参考,下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计(下图红框)。 满分独立任务答题实际输出词100词就足够拿到满分;满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中,82%都是GSL 1K(General Service List)级别的基础词汇,而GSL 2K级别的高级词汇仅占4%-5% 3. Development论述拓展: (1)观点明确回应题目(机评可以鉴别是否跑题) (2)例证拓展细微环节丰富(通过神经网络学习,机评可以通过采样对比推断内容拓展是否达标) (3)答题时间安排合理(假如答完一看还差5秒才到时间,就是时间安排不合理;当然允许超时,前提是已经足够论述,即便超时也无大防碍) 注:这部分的训练方法,清北托福备考联盟慕课口语篇中有供应(腾讯教化、B站公开课均可搜);对于综合任务的笔记训练方法,可以在托福听力的练习过程中一起练快速笔记复述,不肯定只抓着口语练笔记,要充分榨干每一套题的练习潜力。 四、口语机评的模组解析 1. Spoken Response,首先接收考场里的音频信号。我们答题的音频并不是平常听歌曲的CD音质,而是采样率较低的电话音质,所以这对我们答题时的环境有肯定的要求。比如特殊吵杂(旁边一堆人激励哇啦用劲喊着答题),或者答题人喜爱挨着话筒特别近喷麦(气流的传导声),都会影响音频信号的上传质量。所以,国内的同学们要留意考场文明答题,大声喊着答题不但对别的同学造成噪音干扰,而且自己的麦克风收音也会因喷麦爆掉。 2. ASR(Automatic Speech Recognition),然后进行第一步音频信号识别。在Signal Processing中,那些口齿不清楚、发音不标准的音频都会被标记为识别失败,这就跟写作系统的e-rater原理一样,一句话假如主谓宾单词都拼错了,机器只能判定本句作废;同理:因为口语发音不到位导致引擎无法识别发音信号,即便答了100个词,也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的精确识别率,可以完全替代人工24小时不间断地投入工作。 3. Feature Generator 这分为两项,一项是Scoring Features,就是把识别出来的语音信号根据评分原则逐项评级;同步进行的是Similarity Features,就是作弊查重。ETS喂了许多数据给这个“作弊查重”模组,尤其对于大陆同学广为流传的:“20G30G 托福资料网盘转发”或者“某金80题”等烂遍街的转发材料,ETS都可以干脆把这些挚友圈满天飞的内容导入模组,查重属实自动判定0分也不再给与复议资格。 趋于本文的篇幅和读者受众是考生为主,这里就不再赘述晦涩的Feature Computation Modules迭代。 4. Filtering Model,这是在SpeechRater的历次升级中,提升最显著的模组,用于过滤掉无效答题内容:non-scorable (NS) responses。可以理解为,考生自认为有用的内容,但事实上蛋用没有。对于国内同学来说,最常见的比如:中文作答,唱一首歌,背一段新概念第三册短文,亦或是在自己的答题中加入自认为很“洋气”的词,诸如:Well, You know, when we are talking about, I believe this is a thought provoking question 这些不知道是谁教给你的但事实上会被Filter Model模组干脆过滤掉的信息,根本不会进入Scoring Model,对提分蛋用没有。 5. Scoring Model 在经过了对不清楚发音信号、无效答题信息、查重抄袭嫌疑的一系列数据过滤后,能够进入到打分模型的确定不是同学们在答题时自己感觉的那样:我感觉挺好啊,我说的很流利啊,我语速不错啊,我答完了啊。 趋于本文的篇幅和读者受众是考生为主,这里不再赘述Multiple Regression Scoring Model的迭代,只需提示一点,借助人工智能在这两年的突飞猛进,SpeechRater评分的人工校对精确率从73%提高到了82%。 尤其是Delivery和Language Use两项在配备了Filtering Model的深度学习后,可以精确判定70%的考生被刷在23分以下了:假如你的分数在22分及以下,大可不必操劳复议提分,因为你已经没有资格享受人工判分的机会了,人工也听不懂这娃究竟在嘟哝些啥。 五、机评数据的启示 1. 哪个数据处理环节把考生分数拉开了上断崖式差距?从ETS公布的数据来看,西方国家的口语成果普遍高于东方国家,并不是语速快或者说得多,而是机评采样中西方人的Delivery和Language Use两项评级明显占优西方同学发音大都清楚、流畅、语法正确率特别高。所以三大评分规则中的前两项都明显占优,自然口语评分就秒杀东亚的同学了。 2. 网上流传的各种很“洋气”的答题段子有用吗?在SpeechRater的初期发展中只能关注发音和流利度的测定,的确在没有加入Filtering Model的深度学习前比较弱鸡。但现在借助于DEEP Neural Networks和Graphics Processing Units,协助于人工抽检已经有越来越高的鉴别率了,查到就是0分。想靠烂遍挚友圈的“20G资料”和所谓“.金模板”照抄伎俩万万不要再有了。 3. “有人说”托福成果会压分,是真的吗?先问自己三个问题:你是何方神圣让ETS特殊关照你?SpeechRater跟你结过梁子有仇吗?“有些人”是“哪些人”,贴过115+的成果单吗?这个“有些人”“网上说”“据相关人士透露”的说辞,大都来自于这一群体:考试过百很难,自己恒久没错,世界跟他有仇,随处散发负能量。 附:一位托福口语高分案例探讨。在清北托福备考联盟慕课口语篇的讲义附件材料里,有一位参与托福考试时16岁的高二女生,一战口语21经过82天的量化备考,二战口语27。我们一起具体记录了整个备考过程每一天的量化指标统计和分析。高分案例摆出数据,科学备考事半功倍。 2019年10月12日托福口语考试真题及答案 Task1 (重复2016年4月9日真题) Some people spend their vacation visiting just one place. Others prefer to spend their vacation visiting several different places and spending a shorter amount o time in each. Which do you prefer and why. 去一个生疏的地方旅游,是大部分时间待在一个城市还是去逛许多地方 Task2 学校应当在美术教学楼里建个cafe。课间学生们可以买咖啡,还可以看艺术生的工艺品。女生表示支持,现在的咖啡屋太远不便利,新的可以便利学生上课,还可以观赏艺术生花心思的作品。 Task3 (重复2016年5月29日/2014年3月22日真题) false signaling。动物如何用假信号,化学信号吸引捕获其它动物。听力中教授用spider和moth做例子spider release a chemical to mimic the female moth. male moth follows the scent released by spider, and then trapped on the spider's net。蛾和蜘蛛,蜘蛛散发雄蛾交配的同样的物质吸引雌蛾进而捕食 Task4 一个新的发觉考古遗址的技术,加快了速度,削减时间。且供应了更多细微环节,找到之前没发觉的sites。 Task1 If you are going to travel to a new country for a week, do you prefer to travel to a major city in the country or to several different places? Task2 阅读:学生建议学校在艺术楼开咖啡吧便利同学们在课间买东西也能吸引人来看学生艺术展 听力:Agree 缘由1:现在的咖啡屋太远了,不便利 缘由2:可以便利学生上课,还可以观赏艺术生花心思的作品 Task3 术语说明:false signal,捕食者会伪装其他动物发出的求偶化学物质去吸引猎物把它们吃掉 。 Task4 新的技术对绘制考古地图的两个优点 优点1:提高绘制速度 优点2:能绘制更多的细微环节 2019年7月6日托福口语考试真题及答案 Task 1 Your university has decided to build a new space near students dormitory buildings. Which of the following space do you think your university should build most? And why? 1. café 2. game room 3. study room Task 2 Some students believe that students should choose what courses to study, other students believe that students professor should make the decision for students. Which opinion do you support and why? Task 3 学校要在官网上供应visual Campus Tour, 想申请这个学校的学生就可以在线访校,此外 也可以用这个了解学校四周的popular sites。 听力:女生同意。 第一,有些人因为没有时间没有钱,或者像她一样是international Student,不便利访校。这个功能能给他们供应对学校的 更全面的认知,所以可以更好地选择。 其次,新生也可以用这个找校内里的休闲消遣。 Task 4 autoinhibit 教授的例子是一种叫hize的植物,这种植物的种子特别小和轻,可以随风飘到许多地方发芽,在这种植物旁边的种子都长不好,探讨后发觉这种植物会产生一种有毒物质,阻挡别的植物种子发芽,所以full grown的那些就可以享有更多资源。 Task 5 女生major in business,但是须要选一门科学课。 两个选择: 1. 女生有一个感爱好的课程是animal,但是时间在晚上9点,而自己当天早上8点有课, 不得不在学校待一天。 2.她不喜爱物理课,但是上课教室正好在早上8点的课程教室旁边,而且上课时间正好在早上8点的课程结束后,她怕自己表现不好,但或许可以尝试喜爱物理。 Task 6 service guarantee 对business的好处 第一:更多customer,更多同类竞争优势。 例子:教授去纽约定了一个很贵的酒店,酒店保证假如不满足可以免费住一天。 其次:可以收到comment,用来提升服务,人在不满足的时候更简单提出看法。 例子:教授在网站上看有人埋怨酒店的枕头,他们就improve给了extra的枕头。 举荐阅读: 2019托福听力留意事项 如何突破托福词汇难点 托福阅读考试审题技巧 怎样积累托福写作素材