语料库的制作和应用.ppt
《语料库的制作和应用.ppt》由会员分享,可在线阅读,更多相关《语料库的制作和应用.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 语料库的制作和应用CONTENTS语料库的基本特征语料抽样:理论与抽样操作语料文本的基本处理:主要处理方式和实现方式双语语料的对齐:方式和方法语料检索:基本检索和高级检索(普通、正则和term list)双语语料检索:基本检索和高级检索语料数据后续处理:z-score;log-likelihood;factor analysis;correlation;keyness微型教学语料库的创建和使用翻译课堂教学用双语语料的制作和应用语料库的基本特征-1Computer-readable:txt,xml,html,doc,pdfConsistency:ohis mother;his mother;h
2、isnmotherAnnotation:o我们_r;我们/r;我们;我们Header:o有关文本的元信息,涉及文本的作者、文体、出版时间等oChineseEnglishMeiGuoShiWeiYeChou13GShangwuyinshuguan1929B23052相对完整的语料文件范本语料库的基本特征-2语料库可以视为结构合理的语料文件的集合。往往以数据库形式存在(如文件夹)。这是语料库建库工作中最重要的部分,也是最耗时费力的部分。语料数据库建成之后,就可以从库中提取信息,称为检索。检索效果高低要看能否充分运用检索手段,但最终依赖语料库本身能提供多少可能性。检索结果的处理需要技巧,事关处理的质
3、量和效率。语料抽样:理论与抽样操作有代表性、结构合理的语料文本集合,但不是任意搜集的文本数据库,也不是越大越好,而是“finite-sized body of machine-readable text”,语料库通常有抽样框架。一般说来,处于研究的需要,语料宜尽量平衡,这样就不能照单全收,需要考虑从中抽取一部分。抽取多少,如何抽取,这个问题可以说众说纷纭。oBrown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%,散文占8%,戏剧占2%。2nd generation corpora:The Corpus di Italiano Scritto oBNC:大小不一(max:40,00
4、0 words);25%/75%(lit./inf.)oENPC:40%/60%(non-lit/lit);S.Johansson Size:2.6 million words Language:English,Norwegian;Number of texts/samples:100 orig.,100 transl.Period:19751995抽样字数及分配 语料取样计算语料文本的基本处理:主要处理方式-1语料的最常用存储方式是纯文本,纯文本顾名思义就是只有文字,不支持任何其他字符格式,如粗体、斜体、下划线、表格框,等等。语料以这种方式存储占用空间极小,且几乎所有检索软件都支持。将语料以
5、这种方式存储只是检索的操作,更重要的是让存储的文本内容规范,格式尽量一致,而且没有乱码,不必要的空格和软回车、硬回车,等等文本噪音。要做到这些,就需要对语料进行按部就班的处理。使用Microsoft Word可以对文本进行处理。语料文本的基本处理:主要处理方式-2Word中的替换、Macro的使用其他语料文本处理工具的使用(Editplus)语料文本的基本处理:主要处理方式-3规范语料文件的生成:无噪音、符合预期的加工规范(标记充分)。Header|POS存储格式(txt|xml)辅助软件的使用:通常会包含包含文本除噪程序的headadder,txtmarker。其实除噪是执行一些替换性的操作
6、(see next slide)语料文本的基本处理:主要处理方式-4$line=s/sn/n/g;#matching and replacing all$line=s/(.)n/$1/g;#matching and replacing all$line=s/rn/#/g;#matching and replacing all$line=s/*/g;#matching and replacing all$line=s/s*$/g;#matching and replacing all$line=s/s0,/s/g;#matching and replacing all$line=s/sn/n/g
7、;#matching and replacing all$line=s/Zn/#/g;#matching and replacing all$line=s/+/g;#replace more whitespaces with just one$line=s/s+(#2,)/$1/g;#matching and replacing all语料文本的基本处理:主要处理方式-5添加metadata后的语料样态语料文本的基本处理:主要处理方式-6双语语料的对齐:方式和方法-1对齐就是源文和译文对应。翻译语料的主要特征是对齐。对齐的语言层级:o段对齐o句对齐o段对齐中的句对齐对齐方式不同,与创建语料库的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 制作 应用
限制150内