应用语言学概论自然语言处理.ppt
《应用语言学概论自然语言处理.ppt》由会员分享,可在线阅读,更多相关《应用语言学概论自然语言处理.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用语言学概论自然语言处理现在学习的是第1页,共39页2,把这种严密而规整的数学形式表示为算法,使之在计算上形式化。3。根据算法编写计算机程序,使之在计算机上加以实现。自然语言学是介乎语言学、数学、计算机科学之间的边缘性的交叉学科。现在学习的是第2页,共39页 自然语言处理的原理 机器翻译的原理与发展阶段 术语数据库的作用与工作原则 数理语言学的研究对象 统计语言学的统计 自然语言处理运用到的语言理论主要有哪些?语料库的类型与作用现在学习的是第3页,共39页美国著名语言学家乔姆斯基,创立了转换生成语法,其核心就是语言能从有限的要素和规则演变出无限的句子;语言分深层与表层,深层结构靠规则向表层结
2、构有规律地生成:“我们这里要考虑的是各种生成句子的装置,它们又以各种各样的方式,同自然语言的语法和各种人造语言的语法二者都有着密切的联系。我们将把语言直接地看成在符号的某一有限集合V中的符号串的集合,而V就叫做该语言的词汇我们把语法看成是对程序设计语言的详细说明,而把符号串看成是程序。”现在学习的是第4页,共39页(一)机器翻译系统自然语言处理系统的研究首先是从机器翻译系统做起的。1,草创期(20世纪40-60年代)1946年,美国宾夕法尼亚大学埃克特(.P.Eckert)和莫希莱(J.W.Mauchly)首创世界上第一台计算机,1949年美国洛克菲勒基金会副总裁韦弗(W.Weaver)首创机
3、器翻译。工作原理:A语言与B语言之间经过一种“中介语言”,又叫“通用语言”、“中间语言”来实现。机器翻译相当于读码解码,实现上是以查询词典的方式来实现词对词的机器翻译。现在学习的是第5页,共39页2,复苏期(20世纪70年代)美国学者英格维(V.Yingve)提出机器翻译的过程:用代码化的结构标志来表示原语文句的结构;把原语的结构标志转换为译语的结构标志;构成译语的输出文句。1.句法分析成为机器翻译工作的中心。现在学习的是第6页,共39页 复苏期的代表产品是法国格勒诺布尔理科医科大学自动翻译中心的机器翻译系统。这时研究者还认识到,机器翻译中必须保持原语和译语在语义上的一致。从而语义分析比句法分
4、析日益引起人们的重视。现在学习的是第7页,共39页3,繁荣期(20世纪70年代)产品的实用化、商品化。工作原理:1,直译式:词对词;句法直译式、语义直译式。2,转换式:在原语和译语之间设定能在一定程序上表现语义关系的中间表达式,再通过中间表达式来完成句法和语义的进一步转换。3。枢轴式:把语言规则普遍化,成为不依赖任何具体语言的普遍意义,形成“枢轴”,由“枢轴”来承担“中介语”的作用。现在学习的是第8页,共39页 这时的机器翻译都是“基于规则”的机器翻译。近年来出现了“基于经验”的机器翻译。所谓基于经验,就是指基于统计,基于实例。它是在大型语料库的基础上形成的。演示sxd软件与sms软件。现在学
5、习的是第9页,共39页 一种语言中的任何一个句子都有可能是另外一种语言中的某几个句子的译文,只是这些句子的可能性各不相同,机器翻译就是要找出其中可能性最大的句子,也就是对所有可能的目标S计算出概率最大的一个作为源语言T的译文。“选优式”的做法。现在学习的是第10页,共39页 这种观点的理论依据:人类并不通过做深层的语言学分析来进行翻译,而是首先把输入的句子正确地分解为一些更小单位的短语,接着把这些短语翻译成其他语言的短语,最后再把这些较小单位的短语构成完整的句子。在短语的翻译中是通过“类比”的原则来实现的。机器翻译要做的事就是在机器中存储一些实例,并建立由给定的句子找寻类似例句的机制。这就是基
6、于实例的机器翻译方法。现在学习的是第11页,共39页 基于实例的机器翻译要研究的主要问题:1,正确地进行双语自动对齐:在实例库中要难准确地由源语言例句找到相应的目标语言例句,并实现对应。2,建立有效的实例匹配检索机制:语言单位不能太小,愈小歧义愈多。因此,它非常强调尽量多地储存短语实例。3,根据检索到的实例生成与源语言句子相对应的译文。现在学习的是第12页,共39页 例子:金山词霸:词库、释义库、音库现在学习的是第13页,共39页(二)自然语言理解人机对话:中国社科院语言研究所“RJD-80型汉语人机对话系统”中国科学院心理研究所“机器理解汉语-实验I:CLUS系统”中国社科院语言研究所“TK
7、-84型汉语人机对话系统”东北工学院建立“中文句子及文本理解系统CTUS”现在学习的是第14页,共39页(三)情报自动检索 情报自动检索包括的内容;1,文献情报的采集;2,文献情报的加工处理:3,文献情报的编排和存储:4,检索服务:现在学习的是第15页,共39页 情报检索系统的评测标准:1,查询效率:查全率;查准率:2,运行效率:机时;存储空间;费用现在学习的是第16页,共39页 运用范围:1,自动生成文摘;2,自动编制索引;3,自动抽取情报资料的主题词;现在学习的是第17页,共39页 日常生活中随时都可接触到情报索引(信息检索)学校查成绩;银行信用卡存取款;电话卡查询:网络搜索软件:网上通辑
8、逃犯:电子商务:现在学习的是第18页,共39页 计算机辅助语言教学;语音自动识别与合成系统;文字自动识别系统;言语统计;语料库语言学;现在学习的是第19页,共39页数理语言学 1894年,瑞士语言学家索绪尔指出,“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律的表达出来。”1933年,美国语言学家布龙菲尔德提出了一个著名的论点:“数学不过是语言所能达到的最高境界”。现在学习的是第20页,共39页定义:1、数理语言学是用数学方法来研究语言现象的语言学科。2、数理语言学是用数学思想和数学方法来研究语言现象的一门新兴的语言学科。3、依 据 所 使 用 的 数 学 方 法 的 不 同,一
9、 般 分 为 统 计 语 言 学(statistical linguistics)和代数语言学(algebraic linguistics)两个分支,统计语言学所使用的方法主要是概率论、数理统计以及信息论方法;代数语言学使用的方法主要是集合论、数理逻辑和算法理论等离散数学方法。现在学习的是第21页,共39页二、任务和理论依据 任务:A、数理语言学从数学领域得到的主要是思考问题的思路和方法,而不是某种专门的结果,它把数学模型和数学程序运用于语言学的研究,采用定量化和形式化的描述方法,使得语言学和数学一样精密,以便于计算机的操作,为计算机模拟人脑和进行人工智能的研究开山辟道。B、从语言的内部结构和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 语言学 概论 自然语言 处理
限制150内