《语料库与语料库建设(共6页).doc》由会员分享,可在线阅读,更多相关《语料库与语料库建设(共6页).doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过
2、计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又
3、具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库
4、语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期,在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的现代英语语法(A Gramm
5、ar ofContemporary English)和英语语法大全(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并不能确切的反映语言能力。2、语
6、料的不充分性。他们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有可能的句子,因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库(Brown Corpus),1961年由纳尔逊(F. Nelson)和库切拉(H. Kucera)建立。布朗语料库容量为100万词,收集了60年代有代表性的美国英语语料,语料选自各种出版物,建库时照顾到了各种文体的平衡,严格按照随机原则抽样,是一个标准语料库。布朗语料库是第一个现代语料库,它对于
7、后来的语料库的发展具有重要的影响。1975年,Jan Svartvik开始创建伦敦隆德语料库(LondonLund Corpus),这两个语料库堪称现代语料库的开山鼻祖。20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了生机,迅速得到发展。语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。在英国语言学研究中,实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来,实证主义的基石是对可观察的对象进行研究,作为人们外部行为的语言运用是可观察的、可靠的依据,而人们内在的语言能力是不可直接观察的,只能通过语用实例进行推断。语料库是在随机采样的基础上收集的有代表性的真实语言材
8、料的集合,是语言运用的样本。如果样本具有代表性,采样具有随机性,且样本的量又足够大,则可以认为样本就是总体的真实代表;样本具有总体的统计特征,研究语料库中的语言材料即近似于研究语言本身。语料库中的语言材料都是人们实际使用的语言材料,因此语料库语言的研究结果具有可靠性和真实性。强大的技术支持是语料库迅速发展的又一原因。主要体现在以下三个方面:一、以计算机为主导的硬件技术的发展。PC机的兴起、计算机计算速度的高速增长、存储介质的开发、存储容量的剧增都为计算机语料库的建设发展提供了技术保障。二、计算机网络的发展为语料库的发展和应用提供了有利条件。首先,大量的文献和文件具有电子文本形式在网上传播,为语
9、料库语料的获得提供了便利条件;其次,大量语料库成为在线语料库,允许用户在网上实时使用;再者,研究者和用户能够在网上就语料库及时交流经验和看法。三、可以共享的语料库索引软件的开发。如今的索引软件大多已不是专为某一个语料库单独设计与开发的,而是能够应用于各种类型甚至不同语种的语料库。语料库迅速发展的第三个原因是需求的增长。在语料库的应用领域,不断增长的用户群体和不断扩大的应用领域进一步体现了语料库的应用价值。其应用包括传统领域、扩展领域和新兴领域。传统领域包括自然语言处理、语法分析和辞典编纂等,扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比;新兴领域包括语言教学、数据驱动语言学习、中间语
10、对比分析研究、多媒体计算机辅助教学、在线语料库。在上述因素促动下,语料库建设迅速发展,相继出现了一批语料库,如,LOB语料库(Lancaster-Oslo-Bergen Corpus)、COBUILD语料库、国际英语语料库(The International Corpus of English,简称ICE)、赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)及各不同语种、不同用途类型的语料库。三、语料库的建设与开发(一)总体设计首先语料库的建设目的要明确,建库的目的决定着语料的选取。如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授
11、等主持建设的中国学习者英语语料库(CLEC)建库目的是:1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。语料库的规模设计。在规模上,只要条件允许,应该是语料库的规模越大越好。就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断扩充的。语料库的内容。如果说规模是针对量的问题,那么,内容就是要解决质的问题。对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中的文本,而不能是研究者杜撰的;2、要
12、收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。(二)具体实施1、语料的搜集现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的语料库建设,语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容易出现错误,需要校对。如今大量的在线语料资源、光盘资料、因特网资源,包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得非常快捷方便。当然,用于不同研究目的的语料库对其语料来源可能要求不同,会影响到语料的采集。2、抽样语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一文类、体裁、语域、主题类型等的抽
13、样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。3、语料库的加工文本输入计算机后,一般需要进行一些加工,主要包括语料
14、的标识和语料的赋码。1)语料库的标识标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类目的研究提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应用的目的而定。但不管怎样,保存一份未标识的原文本是很有必要的。2)赋码一些研究不需要赋码
15、语料库,而有些研究需要赋码语料库。当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD代表动词的过去式,如wrote、saw,以VBG代表动词的现在分词形式,如reading、eating,以VBN代表动词的过去分词形式,如written
16、、seen,等等。目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%97%左右。句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,为进一步的语义、
17、语法和语用分析等打下了基础。4、语料库引擎通常意义上的计算机语料库一般包括语料库本体(即语料库电子文本)和语料库引擎(即语料库索引程序)两个部分。索引工具的基本功能包括词频统计、词表生成、语篇统计、关键词索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、词图统计等等。网上提供了一些可以利用的工具软件,包括MicroConcord、Wordsmith Tools、TACT、Concordance 1.1.3、TEC Concordancing Tools具有提供词语索引、搭配词表以及各词语索引行的扩展语境的功能,允许用户把索引结果存储在自己的硬盘上。MicroConcord可进行带语境
18、的关键词索引。利用它可以观察关键词所在语篇,获得左右搭配词表。Wordsmith Tools具有下列功能:1)生成词表、可按词频、字母顺序分别排列,并提供各种统计信息;2)关键词提取。可进一步统计分析关键词在语篇中的分布,再生成该语料库的主要关键词,还可以查出某一关键词的联想词汇。3)提供词汇词语型式表和搭配词位置分布等极有价值的信息,使研究者可以从多种角度对词汇运用进行分析。4)查询结果可以很方便地转换为表格形式,并读入到MS Access、Excel等数据库中进行相关的分析统计。TACT是一个语料库索引软件包,它具有全文索引、语境中的关键词索引、词表生成、词频统计、搭配词自动提取、语料比较
19、等强大的功能。Concordance除了一般文本索引软件所具有的功能外,其独特之处是能够把索引结果自动生成HTML网页,供在线浏览。它是一个独立软件,可利用它对任何语料库文本进行索引分析。四、目前语料库发展中存在的问题1、书面语语料库和口语语料库发展不平衡。大量在线电子语料以及各种以电子媒介发行的电子文本为书面语语料库提供了丰富的语料资源,使得书面语语料库的建设变得便利起来。相比较起来,口语语料库要落后许多。原因之一是自然语言的口头运用形式需通过一定的技术手段才能够获得,其转写与存储需耗费大量的人力物力。2、语料库的标注和赋码系统在适用性和统一性方面需要进一步的探讨现行的赋码系统一般是基于传统
20、语法中对于词类的分析成果,不同研究者的分析结果存在一定的分歧,采用任何一种分类方案都可能存在偏颇。理想的赋码应是基于语料库自身的统计信息。在赋码格式上各语料库也缺乏标准化和统一化。3、语料库资源共享困难重重一个语料库的价值应当是与其被利用的程度成正比的关系。而目前除了有限的几个语料库能够提供在线索引外,绝大多数已经建成的语料库只在语料库研究者这个小群体中使用,圈外人只闻其名,难见其形,使得花费了大量时间与财力的语料库不能真正实现其价值。许多语言研究者只得自己动手建语料库,这种重复建设造成人力物力资源的极大浪费。而且语料库只有在使用过程中才能发现问题,不断地加以改进。4、语料库工具软件和文本分析
21、软件的开发与语料库的发展不相适应语料库工具软件包括词类自动赋码和句法分析软件,文本分析软件指与语料库本体相对独立的索引软件。目前存在的问题是,各种索引软件重复开发,功能单一,软件的升级速度慢,自由软件少。其原因主要是,1)语料库软件开发不像其它计算机软件那样有巨大的商业利益驱动,缺少专业的软件开发人员。目前的语料库软件基本上是靠精通计算机编程技术的语言学家研发的,其技术难以跟上计算机技术发展的步伐。2)大多数语料库软件研究是靠单独作战,缺少团队合作,所以研发周期长,研发的产品难免滞后。解决这些问题需要语言学和计算机等学科之间的密切合作。主要参考文献1语料库语言学导论杨惠中主编上海外语教育出版社2002年2语料库语言学黄昌宁杨涓子著商务印书馆2002年3语料库、检索与搭配(Corpus Concordance Collocation)John Sinclair上海外语教育出版社4语料库语言学的发展及研究现状丁信善当代语言学1998年1期5关于大规模真实文本语料库的几点理论思考张普语言文字与应用1999年1期6索引软件:语料库语言学的有利工具王建新当代语言学1998年1期(同上篇,也是近十年前所写作业)专心-专注-专业
限制150内