语料库语言学与中国外语教学.docx
《语料库语言学与中国外语教学.docx》由会员分享,可在线阅读,更多相关《语料库语言学与中国外语教学.docx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语料库语言学与中国外语教学2020年11月November2020第33卷第4期Vol33No4当代外语季刊ModernForeignLanguagesQuarterly语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成编者按为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地广东外语外贸大学外国语言学及应用语言学研究中心于2020年9月24-25日成功举办了“首届广外应用语言学论坛,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、分享、应用等展开了互动讨
2、论。下面是根据专家发言,整理后的主要内容。中图分类号H319文献标识码A文章编号1003-6105202004-0419-08语料库语言学的发展前景与资源分享广东外语外贸大学桂诗春1语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,由于它的入门比拟容易,上手较快;有的人把语料库语言学作为采集数据的重要手段。但是总的来讲,我们的语料库研究还处在比拟初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,能够运用现有的一些现成的程序和公开的语料库,如Brown,LOB,FrownFlob,BNC,CLEC,只要选题得当,就能获得很多量化的数据,进而写出洋洋
3、洒洒的文章来。在计算机和扫描仪的支持下,自行采集一些语言素材,建立一个特定的语料库,也不是什么难事。我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须很多方面要有比拟雄厚的基础。首先是数学和统计学。Herdan1960的一本早期著作,叫做(词次词型数学)TypetokenMathematics,其副标题就是(数理语言学教科书)ATextbookofMathematicalLinguistics,当时还是前计算机时代,但Herdan觉得有两件语言事实值得我们注意:一是大量语言资料languageinmass
4、,二是语言排列languageinline,它们是任何语言运作都不能离开的两个方面。某些语言学研究分支假如考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,Brown的语料库在1967年才面世,美国心理学家JohnCarroll根据该语料库以及他后来介入制作500万词的AHI语料库,所提出的词汇频数对数正态模型lognormalmodel均源于Herdan所奠定的基础。一直到近期美国Barber利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开当代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown语料库要动用到大型
5、电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不把握一到两种编成语言,也不可能拓展他们的研究领域,由于他不能根据个人的研究需语料库语言学与中国外语教学1双语料库的建设我很赞同桂诗春教授的意见,积极推进语言资源的分享,语料库只要分享才能变成财富,假如把语料库的研究成果“藏诸名山,束之高阁,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚刚提到宾西法尼亚大学的LinguisticDataConsortium我建议最好翻译为“语言数据联盟,简称LDC,是一个很好的供语料库语言学研究
6、者进行沟通互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们能够获得白话和书面语的大规模的语料。重要的是,在这些语料中还包括一些标注过的语料,如宾州树库PennTreebank,布拉格依存树库PragueDependencyTreeBank,命题库PropBank,宾州话语树库PennDiscourseTreebank,修辞构造库RSTBank和TimeBank我不知道TimeBank这个名称怎样翻译为中文。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法supervisedmachinelearning来
7、处理那些在传统上非常复杂的自动句法分析automaticsyntacticparsing和自动语义分析automaticsemantic双语语料库的建设与用处国家教育部语言文字应用研究所冯志伟要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类又叫文本分析或内容分析也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本包括语体的分析,社会舆论调查,著作归属到文本格式。这也牵涉到很多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们
8、聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只要规范语料库语言学专业的课程,根据这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,获得真正的进展。2资源分享问题语料库语言学对资源有很大的依靠性,为了促进语料库语言学在我国的发展,应该提倡资源分享。回首语料库语言学在国外的迅猛发展,和资源分享有密切的关系。分享的方法有多种:一是免费提供,最典型的例子是GeorgeMiller领衔制作的英语大型词汇数据库Wordnet遭到各方面赞助,前后介入制作的不下一千人,而且还在不断完善。他们以为这不是一个商品,应该为公众所有。二是提供网上服务,整
9、个语料库不提供,但是在网上能够自由检索获得数据,像美国BrighamYoung大学的MarkDavies在他的网页上检索美国当代英语语料库、美国历史英语语料库、英国国家语料库、(时代)杂志语料库、西班牙语语料库、葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAMEInternationalComputerArchiveofModernandMedievalEnglish,美国的LDCTheLinguisticDataConsortium,等等。一些语料库工具,如TACT、LEXA,Wordcruncher,Wordsmith、Antconc也都很容易在网上
10、获取。资源分享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只要互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。4201语料库语言学的应用研究这次专题讨论的题目“语料库语言学与外语教学我觉得很好,很及时。语料库语言学本来就是实践性、应用性很强的一门学科,语料库语言学的应用研究与奉献上海交通大学杨惠中analysis等问题。这些语言资源也推动了有竞争性的评测机制的建立,评测的范围涉及到自动分析parsing、信息抽取informationextraction、词义排歧wordsensedisambiguation、问答系统question-answer
11、system、自动文摘automaticsummarization等领域。几年前由中国中文信息学会发起,在北京创立了“中文语言数据联盟ChineseLinguisticDataConsortium,缩写为CLDC,是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。欢迎语言学界的同仁积极介入CLDC的工作,促进语料库资源的分享。目前单语语料库很多,已获得煌煌的成绩,但双语并行语料库parallelcorpus不容易获得,它的构建和加工是很困难的工作。我国还没有高质量的、大规模真实文本的英汉双语语料库,更
12、没有成熟的、可分享的加工工具,近期公布的2020年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究,赞助强度大约是50万元左右,可见国家对于双语语料库建设的重视。这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开场招标,希望大家积极投标,积极推进我国的双语语料库建设。2怎样将语料库语言学运用到外语教学,怎样从语料库中挖掘知识?我以为英汉双语语料库的最大用处就是推进英语教学,我们能够从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,进而编写出高质量的外语教材。有的外语教师冥思苦想地根据本人的语感来编写教材,费时费力,其实,假如依靠
13、英汉双语平行语料库,就能够减轻搜集素材之困难,大大提高编写教材的工作效率。另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,假如我们使用“文本数据挖掘textdatamining的技术,从语料库中挖掘知识,既能够挖掘语言学的知识,可以以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识能够弥补传统语言学的缺乏,克制研究者的主观性和片面性。我们在textdatamining这个术语中使用mining挖掘这个单词,而没有使用extraction抽取这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里的深思熟虑的功夫来加工数据,而不要
14、被海量的数据所迷惑。数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据data变为精炼的、系统化的“知识knowledge,进而把经历主义方法和理性主义方法严密地结合起来。这种知识获取方法上的宏大变化,有可能引起整个语言学研究的“战略转移strategytransit;我们中国的语言学家应当敏锐地关注“战略转移问题,做出我们的应有的奉献,千万不要错过这个在语言学历史上千载难逢的良机。桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成421语料库语言学与中国外语教学脱离了应用,坐而论道,也就失去了发展的基础和动力,将变成无本之木、无源之水。外语教学正是语料库
15、语言学的重要应用领域,语料库语言学以实际使用中的语言事实作为研究对象是一种着眼于语言运用的研究方法performance-basedapproach,因而跟语言教学有着直接的关系,对真实语言交际的各个方面,包括词汇的、句法的、语义的、语用的、语篇的,进行深化的讨论和全面的描写,其研究成果能够应用在教学大纲设计中,为确定教学内容、制定教学目的提供坚实可靠的决策根据。语料库语言学在外语教学中的应用研究在三个方面应当加强。首先,充分利用在国内已经建成的中国学习者英语赋码语料库,包括书面语语料库和白话语料库,进一步深化研究中国学生学习英语的典型困难所在、研究中国学生运用英语的特点、调查不同类型和不同背
16、景的学生的语言特征、讨论学生的学习策略、研究有关学习者语言发展的全面信息,以便建立有中华特点的英语教学体系。其次,把语料库语言学的研究成果,包括对预构成语块、词语搭配与用法、关键词、错误分析等方面的研究成果,建成语言数据库,提供在线帮助,把研究成果直接应用于教材开发和课堂教学,提高语言教学的有效性。再次,能够为高端学生提供“数据驱动学习,由老师开发有针对性的小型专用语料库,学生利用词语索引软件,通过与母语语料的比照分析,本人探索英语词语的用法,让学生直接接触复杂的语言现象,在教师指导下,通过实际观察语境,通过分析、比照、综合、归纳,本人发现规则,做出假设,通过“探索进行学习,把握地道的英语、发
17、展英语语感。当然,不能让学生迷失在海量的语言“事实中,应当进一步开发便于使用的、界面友好的检索工具、分析工具等辅助语言学习软件,并且对语料进行预分析,帮助学生迅速找到语言的正确用法。语料库语言学另外一个重要应用领域是自然语言处理,今天在计算机自然语言处理领域里,基于规则的方法已经让位于基于概率的方法,也就是语料库语言学方法,并且已经获得显著成果,充分讲明语言概率模型的生命力。2语料库语言学促进语言学研究语料库语言学作为一种研究方法,今天没有人怀疑,事实上诸多研究领域已经离不开基于语料库的研究方法,比方社会语言学、语用学、会话分析、语体分析、儿童语言发展研究等等,而在有些领域,像词典编纂,基于语
18、料库的方法则已经是当今词典编纂的范式,很难想象任何原创性的词典编纂项目能够没有本人的语料库的支持。语料库语言学作为一门学科,则尚有争论。我们以为语言学的任务就是对语言进行科学的研究。由于人类语言涉及人类生活的方方面面,对语言的研究能够从不同的侧面着手,社会的、心理的、历史的、地理的、人种的、比拟的、甚至神经生理的、病理诊断的等等,由于人类语言的复杂性,每一方面的研究都会使我们对语言的本质获得进一步的认识,人类的认识是没有止境的。语料库语言学以真实语言数据为研究对象,凭借计算机技术,采用数据驱动的实证主义研究方法,从宏观的角度对大数量的语言事实、对语言交际和语言学习的行为规律进行多层面的研究,尤
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 语言学 中国 外语教学
限制150内