《网页标记文本和存文本的翻译方法,应用语言学论文.docx》由会员分享,可在线阅读,更多相关《网页标记文本和存文本的翻译方法,应用语言学论文.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网页标记文本和存文本的翻译方法,应用语言学论文当进行 WWW 网页文本的翻译时, 翻译系统会碰到两大类型的问题:怎样在翻译文本中插入 标记并怎样正确翻译翻译文本。第一个问题需要系统来正确处理所有的 标记, 否则可能会导致无法阅读的翻译文本。而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义。假如成功地处理这个问题,系统可能会译错,这将是我们以后处理的重点。 本文中将设计一个机器翻译系统来进行网页的中英互译,首先处理有标记文本然后再进行非标记部分的翻译。 二、网页标记文本的翻译方式方法 对于 文本,显然不能将标记tag与文本分开,先翻译文本然后再插入相应的标记,由于中英文语言不总是逐一
2、对应。 假如这样处理,图一将会变成( p 约翰是一个 u 李教师的学生 /u )。 这显然是不可接受的。 因而需要换一种方式来处理这个问题。 需要首先标记 和文本块, 然后再分别翻译纯文本和标记。然后系统会将其与目的语言的文本相比拟。假如目的文本与源本完全吻合,就不存在问题。我们只需要将目的文本部分相应的地方做标记。假如目的文本与源文本不完全一致,系统必须找到互相需要标记的标记文本,然后再参加需要的 tag。 一tag 的分类 中有不同的 tag, 而在机器翻译中能够简单地把它们分成两类: 第一类:void tags VT: 无类型标记。 VT 是指 标记中不影响文本块,也不需要结束标记。 这
3、种标记的例子是图片IMG,图二里就包括一个 IMG第二类:Real tagsRT:真实标记。RT 是指 标记中会影响文本块并需要一个结束标记当然某些特定类型也不是必需的。 这种标记也分成几大类: 1总 体 网 页构造标记 :这些标记对于定义 网页的整体构造是必需的。 这类标记如:, HEAD, TITLE 和 BODY。 2影 响 页 面独立的标记 :这些标记会影响到 页面的完好与独立, 换句话讲这些标记不能被用来影响单个词和句子, 这类标记如 FORM,UL, OL, SELECT。 3字符强调标记:这类标记用来强调词、部分句子甚至整个段落,如 EM, B, I 和 U。 4超 文本和超链接
4、 :这类标记是将当下文本转向其他页面。WWW 上 的大多数文本都是用 写 的 ,RL主要用来描绘叙述多媒体信息的链接,比方图片。 用户不仅需要阅读文本的字符串,还需要通过图片信息与强调部分来理解其内容。所有这些信息在机器翻译时都需要保存。 二 标记管理器 网页文本同其他普通文本不一样,是通过将信息编码到 文本类型定义DTD中,这是 SGML一般语言组成标准的应用。 标记本身不需要通过机器翻译系统来翻译,但是他们必须在翻译后保存在适宜的地方。 在系统里有一个标记管理器TM,它会将句子看成是一个整体而不会将其分开,因而在翻译网页时有两种方式方法来处理这些标记。 第一步: 标记分离。 在标记分离阶段
5、会用到 文本的信息框架和标点符号。 以下为 TM 怎样处理这些标记分离。 1起始与结束标记必须保存如 A , /A , TITLE , /TITLE 。 2如 果一对标记中有好几个句子 ,必须通过标点符号来分离。 3 一 个表格块中的每一项都被当成是一个句子。 4空行后的复合名词或短语被以为是一个标题。 标记会被挑选出来并存储到一个外部文件中,里面包括句子数、词数、词、起始标记、结束标记以及 FI标记信息。完成这些操作后,系统就能正确理解不同标记并将其当成句子而不是短语来处理, 以免出现误解。 第二步:标记恢复。 假如目的词与源语言的词逐一对应,就不需要恢复。 但是情况并非总是如此。 更一般的
6、情况是, 会碰到 1 对 N 或者 N 对 1 又或 N 对 M 的情况。 这种情况下,翻译时,译者不会处理完好的标记,只需要处理词串信息。 TM 保存所有的标记,文本翻译后,TM 通过下面的方式方法将标记恢复到目的语信息中。 11 对 N: 源语言的词的起始和结束标记直接复制到目的语中。 2N 对 1:TM 分 析源语言的起始和结束标记 ,然后根据序列信息确定需要保存的标记 如 A , /A , TITLE , /TITLE 。 在这里经过中,内部标记如大小和颜色标记会被忽略。 3N 对 M:通常这种情况会发生在成语中 。 正如N 对 1 的情况 ,TM 分析源语言词的标记 。 然后 TM
7、会决定起始和结束标记。 在这里经过中,某些颜色和大小的标记能够被排除。 三标记文本的翻译 图三表示清楚标记文本的不同情况。 句子 1 和 2 是标记文本在源语言和目的语中都会出现的例子。 句子 3是标记文本在目的语中会出如今不同的地方,而句子 4则是标记文本不会出现的例子。 这些句子表示清楚必需要选择一个模型能够使电脑决定目的语文本的哪个部分需要标记。 有不同的方式方法来完成这个模型。 在我们的模型中,能够分 4 步来处理这个问题。 首先我们通过机器翻译系统来翻译整个文本,然后再使用同一个系统翻译各个标记文本,之后再将全文本和标记文本相比拟,因而我们能够决定哪些文本块需要标记。 这样做的话,
8、我们可能还需要将标记词分开,然后再单独翻译,这对于源语言标记文本可能会产生好几个目的语文本模块时十分必要。 更有甚者, 有些英语词当它是句子一部分时可能会有不同的翻译方式方法。 有时, 一个句子的一个名词可能会出现好几次, 翻译时, 这些名词出现的次数很可能会颠倒,如:The teacher of the teacher comes (教师的教师来了).因而,为了使系统能正确处理这样的句子,必须首先处理源语言的句子为 :The teacher s teachercame。 这样,标记就不会出问题了。 三、纯文本的翻译方式方法 至于翻译没有标记的网页纯文本,一般我们只需要利用现有的机器翻译系统。
9、 在我们的系统里使用的是基于语料库的翻译系统。 首先需要一个大型的双语语料库,这一点当前已经不是问题,还需要一个域辨别器domain identifier。 我们首先需要考虑域然后再考虑翻译系统。 一域的辨别 当处理特定域的文本时,机器翻译准备度会非常高并异常高效。 因而首先需要辨别文本的域以提高翻译的准确性。 在我们的系统里我们收集一些平衡的网页文本来确定域。 由于没有可靠的标准域范畴统计数据,我们必须收集这类文本,以下为收集标准。 1收集来的统计数据必须能反映整个 WWW的内容。 2有很多共同词的两个域能通过一个高级域融合在一起。 当翻译网页文本时, 域辨别器分配 top-one 和top
10、-two 两个范畴, 然后确定相应的域相关词典,机器翻译系统能够很好翻译特定域的文本,通过使用适宜的词典,翻译时的歧义能够大量解决,并且提高翻译的质量。例如, doctor 一词有很多意思,一旦确定翻译的域是关于学术领域,很容易就确定目的语的意思。 二基于语料库的纯文本的翻译 本系统的基本理念很简单:通过比对先前类似句子来翻译句子。 这种理念最先由 Nagao1984提出。 这种观点和我们常讲的 一个好的翻译者是一个懒惰的翻译者 有共通之处。 在我们的系统中,需要用到大量先前的翻译成果。 这样做不仅能节约时间,还能提高术语和风格的一致性。 由于是基于语料库的机器翻译,我们首先需要一个平行的语料
11、库。 这种意义上的机器可辨别的平行语料库是很容易实现的:联合国提供了一个很好的多语文本资源。 当然很多 WWW 网页也提供了大量的双语或多语言文本,这同时讲明了语料库能够随时进行扩展。 这种机器翻译系统包括下面主要部分: 1包含源语言和目的语的平行语料库。 2一个匹配法则。 3一个组合法则。 4一个转换与合成法则。 如要翻译这句话:Alice bought a book on comput-er.当然假如在语料库里有一样的句子就简单多了。当然这种情况不多,更常见的例子是句子只要部分是匹配的,画线部分完全包含了相应的内容。 在这种情况下,我们很容易就能组合成译文 爱丽丝买了一本关于电脑的书 。 但是有时候很难找到完全匹配。这时就需要选择类似文本并进行翻译,至于怎样确定两个部分的相关性,有下面的标准: 假如至少有两个段落相匹配,那么两个章节就有相关性。类似的,假如至少有一句话匹配,那么两个段落就有相关性。 同样的原则也适用于句子和词。 三、总结 本系统分别解决了网页中标记文本和非标记文本的翻译,至于标记文本,最重要的就是在恰当的地方重新插入标记, 而对于未标记文本就简单多了,借助大型语料库直接使用普通的机器翻译系统就能解决这个问题。 在以后的论文中我们讨论的重点将是文本翻译时不可避免会出现的歧义的解决问题。
限制150内