第10章-自然语言理解ppt课件.ppt
《第10章-自然语言理解ppt课件.ppt》由会员分享,可在线阅读,更多相关《第10章-自然语言理解ppt课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章第十章第十章 自然语言理解自然语言理解自然语言理解自然语言理解要点:要点:要点:要点:1.1.1.1.自然自然自然自然语言语言语言语言理解理解理解理解的的的的四个四个四个四个层次层次层次层次2.2.2.2.句法句法句法句法分析分析分析分析的的的的4 4 4 4种种种种方法方法方法方法10.1 自然语言理解概述自然语言理解概述10.2 词法分析词法分析10.3 句法分析句法分析10.4 语义分析语义分析 10.5 句子的自动理解句子的自动理解10.6 语料库语言学语料库语言学10.7 文本的自动翻译文本的自动翻译机器翻译机器翻译10.8 自然语言理解系统的主要模型自然语言理解系统的主
2、要模型10.9 自然语言理解系统应用举例自然语言理解系统应用举例10.10 小结小结210.1 自然语言理解概述自然语言理解概述 10.1.110.1.1 语言与语言理解语言与语言理解语言与语言理解语言与语言理解 语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句(sentence)和语言时,应遵循一定的语法(syntax)与语义(semantics)规则。语言是音义结合的词汇和语法体系,是实现思维活动的物质形式,语言是一个符号体系。要研究自然语言理解,必须对自然语言的构成有个基本认识。语言的构成框图如图10.1所示。3 语言语言 词汇词汇语法语法 词
3、词熟语熟语词法词法句法句法词素词素构词法构词法词组词组构造法构造法造句法造句法构形法构形法图图10.1 语言的构成图语言的构成图语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章。词汇又分为词和熟语,属于就是一些词的固定组合。语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。45 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。6 怎样才算理解了语言呢?归纳起来主要
4、有以下几个方面:既能够理解句子的正确词序规则和概念,又能理解不合规则的句子知道词的确切含义、形式、词类及构词法了解词的语义分类以及词的多义性和歧义性指定、不定特性及所有(隶属)特性问题领域的结构知识和时间概念语言的语气信息和韵律表现有关语言表达形式的文学知识论域的背景知识710.1.210.1.2 自然语言处理的概念和定义自然语言处理的概念和定义自然语言处理的概念和定义自然语言处理的概念和定义 定义10.1 自然语言处理是研究人类交际和人机通信的语言问题的一门学科。它要开发表示语言能力和性能的模型,建立实现这种语言模型过程的计算框架,提出不断完善这些过程和模型的辨识方法,以及探究实际系统的评价
5、技术。(Bill Manaris,1999)定义10.2 自然语言处理是人工智能领域的主要内容,即利用计算机等工具对人类特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统。自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。(刘涌泉,2002)8定义10.3 自然语言处理是利用计算机工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。(冯志伟,1996)定义10.4 自然语言处理是用计算机对自然语言的音、形、义等语言信息进行加工和操作,包括对字、词、短语、句子和篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成
6、等的处理技术。它是在语言学、计算机科学、控制论、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。(蔡自兴,2008)910.1.3 10.1.3 自然语言处理的研究领域和意义自然语言处理的研究领域和意义自然语言处理的研究领域和意义自然语言处理的研究领域和意义 1.自然语言理解的研究领域和方向自然语言理解的研究领域和方向文字识别(Optical character recognition,OCR)语音识别(Speech recognition)机器翻译(Machine translation)自动文摘(Automatic summarization或automatic abstr
7、acting)句法分析(Syntax parsing)文本分类(Text categorization/document classification)10信息检索(Information retrieval)信息获取(Information extraction)信息过滤(Information filtering)自然语言生成(Natural language generation)中文自动分词(Chinese word segmentation)语音合成(Speech synthesis)问答系统(Question answering system)2.自然语言理解研究的意义自然语言理解
8、研究的意义1110.1.410.1.4 自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展 机器翻译是自然语言理解最早的研究领域。70年代初期,对语言理解对话系统的研究取得进展。80年代,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃。自然语言理解的研究为专家系统的知识获取提供了新的途径。自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。1210.1.5 10.1.5 自然语言理解过程的层次自然语言理解过程的层次自然语言理解过程的层次自然语言理解过程的层次 语言的分析和
9、理解过程是一个层次化的过程,它主要包括如下四个层次:语音分析:语音分析:根据音位规则,从语音流中区分出独立的音素,再根据音位形态规则找出音节及对应的词素或词。词法分析词法分析:找出词汇的各个词素,从中获得语言学信息。例如:将句子“我们是新世界青年”切分出各个词。句法分析:句法分析:对句子和短语的结构进行分析,找出词和短语等的相互关系及各自在句子中的作用并用一种层次结构加以表达。Chomsky对句法分析的贡献最大。语义分析语义分析:通过分析找出词义、结构意义和结合意义,确定语言所表达的真正含义和概念。1310.2 10.2 词法分析词法分析 Lexical analysisLexical ana
10、lysis一个英语词法分析的算法如下:一个英语词法分析的算法如下:repeatlook for study in dictionaryif not foundthen modify the studyuntil study is found or not further modification possible它可以对那些按英语语法规则变化的英语单词进行分析,其中study是一个变量,初始值就是当前的单词。例如,对于单词matches、studies可以做到如下的分析:matches studies 词典中查不到matche studie 修改1:去掉“-s”match studi 修改2:
11、去掉“-e”study 修改3:把i变成y这样,在修改2的时候,就可以找到match,在修改3的时候就可以找到study1410.3 10.3 句法分析句法分析 Analysis of SyntaxAnalysis of Syntax 10.3.1 10.3.1 短语结构语法短语结构语法短语结构语法短语结构语法 定义定义10.5 一个短语结构语法G由4个部分组成:T为终结符集合,终结符是指被定义的那个语言的词(或符号)N为非终结符号集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。显然,T和N不相交,两者共同组成了符号集VP为产生式规则集S为起始符,是集合N的一个成员可以把短语结
12、构语法G描述为如下四元组形式:G=(T,N,S,P)只要给出这4个部分,就可以定义一个具体的形式语言。1510.3.2 10.3.2 乔姆斯基形式语法乔姆斯基形式语法乔姆斯基形式语法乔姆斯基形式语法 无约束短语结构语法上下文有关语法上下文无关语法正则语法10.3.3 句法模式匹配和转移网络句法模式匹配和转移网络句法分析最简单直观的方法就是模式匹配。例如:句子Bears love honey可以用句法模式noun+verb+noun来匹配,但是自然语言是多样化的以下的句子都对:wooly bears love honey fericious wooly bears love honey hung
13、ry fericious wooly bears love honey这时句子的模式有很多,可以表示成:(pronoun V(adj.*noun)verb(pronounV(adj.*noun)其中*表示可有可无且可重复出现。161710.3.3 10.3.3 转移网络转移网络转移网络转移网络上述句子也可用转移网络(TN,transition network)句法分析,具体参见书PP270,如图10.2所示。图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。图图10.2 转移网络转移网络(TN)q0nounpron.q2q1adjq3qTverbve
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 自然语言 理解 ppt 课件
限制150内