关于谷歌翻译的论文范文5篇(3),英语论文.docx
《关于谷歌翻译的论文范文5篇(3),英语论文.docx》由会员分享,可在线阅读,更多相关《关于谷歌翻译的论文范文5篇(3),英语论文.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于谷歌翻译的论文范文5篇(3),英语论文内容提要: 在大数据时代,怎样通过数据分析挖掘事物的内在规律是人们需要考虑的问题。谷歌翻译基于 最好的表示出为出现频率最高的表示出 这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,具体分析了案例背景、实现经过,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当下的方式方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。 本文关键词语: 谷歌翻译; 统计机器翻译; 最大熵; 最
2、小误差率损失。 一、背景 谷歌翻译是谷歌公司推出的针对文本、语音、图像以及实时视频的多语种翻译服务。该项目始于2001 年,上线初期采用其他同类型公司 例如雅虎类似的机器翻译系统,但是翻译精度并不理想1.譬如在 2004 年,上述机器翻译系统机械地将总统候选人克里 Kerry 翻译成 爱尔兰的小母牛 2.2004 年下半年起,随着 Franz Josef Och 成为其首席科学家,谷歌翻译进入迅速发展阶段。在 2005 年的NIST 机器翻译系统比赛中,谷歌翻译一举拿到第一名。在 2006 年的比赛中,谷歌翻译几乎包揽全部比赛项目的第一名3.根据维基百科颁布的数据,截至 2021 年 1 月,
3、谷歌翻译支持 90 种语言,天天为超过两亿人提供免费的多种语言翻译服务。 Och 以为, 句法知识对统计机器翻译毫无受益之处,甚至有反作用 3.因而由他领衔的谷歌翻译放弃了基于句法规则的机器翻译模型。在实践中,Och 的 基本想法是从数据中学习 2.因而谷歌翻译的工作本质上是基于多种语言的平行语料库,结合统计和数学方式方法,构建大数据分析模型挖掘各种语言间的内在规律。根据 Och 的观点,谷歌翻译 构造非常非常大的语言模型,比人类历史上任何人曾经构造的都要大 2.因而,谷歌翻译本质是一种大数据分析模型,翻译结果则是基于训练好的模型,进行样本外预测泛化的结果。 2006 年,谷歌采用联合国 6
4、国官方语言文档作为平行语料库。随着互联网技术的不断进步,谷歌把握的互联网数据越来越庞大,具有明显的大数据的 4V 特征4 : 这些平行语料库数据不仅数量庞大,而且种类很多,包括文本、声音、图像等大量非构造化数据,蕴含着大量的信息。另一方面,对于某些小语种,其语料库密度相对较低,具有明显的稀疏性。 尽管近年来谷歌翻译发展很快,但是也面临众多问题和挑战。Och5指出了统计机器翻译 当然包括谷歌翻译 的缺乏: 一是不同语言组的翻译效果不一样。例如,中译英不如阿拉伯语译英。二是翻译的结果不稳健,有些文档翻译结果很好,有些很差。三是不同题材的文档翻译效果不一样,例如体育新闻比政治新闻更难翻译。而最近维基
5、百科提供的资料表示清楚,对于不同语言组的翻译效果不一样的问题,当前谷歌翻译还没有很好解决。另外还表示清楚,谷歌翻译不能翻译过长的文档; 不能辨别语法构造,例如不能处理时态和虚拟语气。因而,就当前的情况而言,谷歌翻译至少面临上述缺乏,需要面对的挑战还很多。 本文将以谷歌利用大数据分析实现机器翻译为案例,分析大数据分析在本案例中怎样应用,阐述实现经过中的基本思想。并且从本案例成功方面和缺乏方面进行考虑,阐述谷歌翻译对利用大数据分析解决实际问题的启示。 二、实现经过 谷歌翻译采用的基本工具是统计机器翻译模型 Statistical Machine Translation,SMT .该模型将语句视为由
6、基本语言单位构成的序列。不妨设源语言的语句为 f = f1,f2, ,fJ ,目的语言的语句为 e = e1,e2, ,eI .华而不实,fj和 ei是基本的语言单元,例如词汇、短语等。在已经知道源语言的情况下,对应的最有可能出现的目的语言语句就是翻译的结果,即翻译结果为 e= argmaxP e | f .围绕怎样估计翻译模型中的条件概率,产生了很多机器翻译模型。20 世纪 90 年代初,IBM 研究人员提出噪音信道模型6,并给出了相应的数学基础和算法7,这些研究成果为统计机器翻译模型的研究奠定了基础。但是,接下来的研究进展缓慢,直到 2001 年谷歌开场机器翻译项目时,效果还很不理想。Oc
7、h 采用了与噪音信道模型完全不同的参数化方式方法,提出了对数线性模型的参数化方式方法。Och 的研究为谷歌翻译奠定了坚实的理论基础。下面阐述这些模型的基本思想。 一 翻译模型 Och 等8在 2002 年提出了基于对数线性模型的参数化方式方法: 华而不实,hm e,f 为特征函数 feature function , m是权重。特征函数事先选定,不同的特征函数将得到不同的翻译模型。事实上,当取 M = 2, 1= 2= 1,h1 e,f = logP f| e ,h2 e,f = logP e 时,式 1 就退化为噪声信道模型。因而,式 1 是一种非常一般的模型。但是一般情况下,权重是未知参数
8、,需要进行估计。 式 1 是这类模型的最基本形式。为了进一步考察不同语言间,基本语言单位之间的对应关系,能够在式 1 的基础上引入一个隐随机变量 a,这个随机变量是对不同语言间基本语言单位对应关系的刻画。于是式 1 改良为: 式 2 能够解决语言单位之间的一对一和一对多的对应关系。但是对于多对一和多对多的情形,需要进一步改良。Och 等9在 1999 年的文章中初次提出对应板块 Alignment Template 的概念。其处理方式方法的本质是将平行预测料想分块,在不同分块中,再考虑不同的对应问题。这种处理方式方法在一定程度上考虑了上下文信息,和不同语言间语法构造的不同,因而在统计翻译模型中
9、有重要地位。对应分块模型的表示出式如下: 华而不实,z K表示对应板块,a K表示对应板块中的对应关系。式 3 中有 3 个连乘的条件概率,能够分别利用对数线性模型进行参数化,并且能够选择不同的特征函数。进而增加建模的灵敏性10. 二 参数估计和翻译结果 翻译模型中的参数是特征函数的权重: = 1, , M .在经典统计理论中,对数线性模型能够采用极大似然方式方法估计参数。但是,当数据是大量的平行语料库时,对总体是不能做合理的分布假定的,直接采用极大似然估计不适宜。Och10根据信息论中的最大互信息 Maximum MutualInformation原理构造了基于最大熵的损失函数,通过最大化损
10、失函数,得到参数估计,即: 华而不实,源语言有 RS种目的语言的参考译文:es,1, ,es,RS.基于损失函数式 4 和式 5 的翻译模型称为最大熵模型 Maximum Entropy Models . Och11进一步指出,最大熵模型的优化本质上是翻译好坏的间接评价,为此他提出基于最小误差率损失 Minimum Error Rate 的参数估计方式方法。这种损失函数是基于对翻译结果的直接评价得到的,其详细表示出式为: 华而不实,E 是误差函数,用于刻画参考译文 es与模型给出的翻译 e fs; 之间的差异。实践证明,基于损失函数式 6 的翻译模型优于最大熵模型12.2020 年,Och 等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业相关
限制150内