第10章-自然语言理解ppt课件.ppt
第十章第十章第十章第十章 自然语言理解自然语言理解自然语言理解自然语言理解要点:要点:要点:要点:1.1.1.1.自然自然自然自然语言语言语言语言理解理解理解理解的的的的四个四个四个四个层次层次层次层次2.2.2.2.句法句法句法句法分析分析分析分析的的的的4 4 4 4种种种种方法方法方法方法10.1 自然语言理解概述自然语言理解概述10.2 词法分析词法分析10.3 句法分析句法分析10.4 语义分析语义分析 10.5 句子的自动理解句子的自动理解10.6 语料库语言学语料库语言学10.7 文本的自动翻译文本的自动翻译机器翻译机器翻译10.8 自然语言理解系统的主要模型自然语言理解系统的主要模型10.9 自然语言理解系统应用举例自然语言理解系统应用举例10.10 小结小结210.1 自然语言理解概述自然语言理解概述 10.1.110.1.1 语言与语言理解语言与语言理解语言与语言理解语言与语言理解 语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句(sentence)和语言时,应遵循一定的语法(syntax)与语义(semantics)规则。语言是音义结合的词汇和语法体系,是实现思维活动的物质形式,语言是一个符号体系。要研究自然语言理解,必须对自然语言的构成有个基本认识。语言的构成框图如图10.1所示。3 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构词法构词法词组词组构造法构造法造句法造句法构形法构形法图图10.1 语言的构成图语言的构成图语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章。词汇又分为词和熟语,属于就是一些词的固定组合。语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。45 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。6 怎样才算理解了语言呢?归纳起来主要有以下几个方面:既能够理解句子的正确词序规则和概念,又能理解不合规则的句子知道词的确切含义、形式、词类及构词法了解词的语义分类以及词的多义性和歧义性指定、不定特性及所有(隶属)特性问题领域的结构知识和时间概念语言的语气信息和韵律表现有关语言表达形式的文学知识论域的背景知识710.1.210.1.2 自然语言处理的概念和定义自然语言处理的概念和定义自然语言处理的概念和定义自然语言处理的概念和定义 定义10.1 自然语言处理是研究人类交际和人机通信的语言问题的一门学科。它要开发表示语言能力和性能的模型,建立实现这种语言模型过程的计算框架,提出不断完善这些过程和模型的辨识方法,以及探究实际系统的评价技术。(Bill Manaris,1999)定义10.2 自然语言处理是人工智能领域的主要内容,即利用计算机等工具对人类特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统。自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。(刘涌泉,2002)8定义10.3 自然语言处理是利用计算机工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。(冯志伟,1996)定义10.4 自然语言处理是用计算机对自然语言的音、形、义等语言信息进行加工和操作,包括对字、词、短语、句子和篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等的处理技术。它是在语言学、计算机科学、控制论、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。(蔡自兴,2008)910.1.3 10.1.3 自然语言处理的研究领域和意义自然语言处理的研究领域和意义自然语言处理的研究领域和意义自然语言处理的研究领域和意义 1.自然语言理解的研究领域和方向自然语言理解的研究领域和方向文字识别(Optical character recognition,OCR)语音识别(Speech recognition)机器翻译(Machine translation)自动文摘(Automatic summarization或automatic abstracting)句法分析(Syntax parsing)文本分类(Text categorization/document classification)10信息检索(Information retrieval)信息获取(Information extraction)信息过滤(Information filtering)自然语言生成(Natural language generation)中文自动分词(Chinese word segmentation)语音合成(Speech synthesis)问答系统(Question answering system)2.自然语言理解研究的意义自然语言理解研究的意义1110.1.410.1.4 自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展自然语言理解研究的基本方法和进展 机器翻译是自然语言理解最早的研究领域。70年代初期,对语言理解对话系统的研究取得进展。80年代,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃。自然语言理解的研究为专家系统的知识获取提供了新的途径。自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。1210.1.5 10.1.5 自然语言理解过程的层次自然语言理解过程的层次自然语言理解过程的层次自然语言理解过程的层次 语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:语音分析:语音分析:根据音位规则,从语音流中区分出独立的音素,再根据音位形态规则找出音节及对应的词素或词。词法分析词法分析:找出词汇的各个词素,从中获得语言学信息。例如:将句子“我们是新世界青年”切分出各个词。句法分析:句法分析:对句子和短语的结构进行分析,找出词和短语等的相互关系及各自在句子中的作用并用一种层次结构加以表达。Chomsky对句法分析的贡献最大。语义分析语义分析:通过分析找出词义、结构意义和结合意义,确定语言所表达的真正含义和概念。1310.2 10.2 词法分析词法分析 Lexical analysisLexical analysis一个英语词法分析的算法如下:一个英语词法分析的算法如下:repeatlook for study in dictionaryif not foundthen modify the studyuntil study is found or not further modification possible它可以对那些按英语语法规则变化的英语单词进行分析,其中study是一个变量,初始值就是当前的单词。例如,对于单词matches、studies可以做到如下的分析:matches studies 词典中查不到matche studie 修改1:去掉“-s”match studi 修改2:去掉“-e”study 修改3:把i变成y这样,在修改2的时候,就可以找到match,在修改3的时候就可以找到study1410.3 10.3 句法分析句法分析 Analysis of SyntaxAnalysis of Syntax 10.3.1 10.3.1 短语结构语法短语结构语法短语结构语法短语结构语法 定义定义10.5 一个短语结构语法G由4个部分组成:T为终结符集合,终结符是指被定义的那个语言的词(或符号)N为非终结符号集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。显然,T和N不相交,两者共同组成了符号集VP为产生式规则集S为起始符,是集合N的一个成员可以把短语结构语法G描述为如下四元组形式:G=(T,N,S,P)只要给出这4个部分,就可以定义一个具体的形式语言。1510.3.2 10.3.2 乔姆斯基形式语法乔姆斯基形式语法乔姆斯基形式语法乔姆斯基形式语法 无约束短语结构语法上下文有关语法上下文无关语法正则语法10.3.3 句法模式匹配和转移网络句法模式匹配和转移网络句法分析最简单直观的方法就是模式匹配。例如:句子Bears love honey可以用句法模式noun+verb+noun来匹配,但是自然语言是多样化的以下的句子都对:wooly bears love honey fericious wooly bears love honey hungry fericious wooly bears love honey这时句子的模式有很多,可以表示成:(pronoun V(adj.*noun)verb(pronounV(adj.*noun)其中*表示可有可无且可重复出现。161710.3.3 10.3.3 转移网络转移网络转移网络转移网络上述句子也可用转移网络(TN,transition network)句法分析,具体参见书PP270,如图10.2所示。图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。图图10.2 转移网络转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adjTN识别的过程应能找出各种可能的路径,因此算法要采用并行后回溯机制:(1)并行算法:在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。(2)回溯算法,在所有刻意通过的弧中选出一条往下走,并保留其他可能性,以便必要时可以回过来选择之,这种方式需要一个堆栈结构。181910.3.4 Augment Transition 10.3.4 Augment Transition Network(ATN)Network(ATN)扩充转移网络扩充转移网络扩充转移网络扩充转移网络 扩充转移网络是伍兹1970年提出来的,1975年卡普兰进行了改进。扩充转移网络ATN是由一组网络构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。ATN的每个寄存器由两部分构成:句法特征寄存器:由特征名、特征值和缺省值表示。句法功能寄存器:反映句法间的关系与功能。图10.5所示是一个简单的名词短语(NP,Noun Phrase)的扩充 转移网络。20图图10.5 名词短语名词短语(NP)的扩充转移网络的扩充转移网络ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.2110.3.5 Syntax of 10.3.5 Syntax of LexicsLexics Function Function 词汇功能语法词汇功能语法词汇功能语法词汇功能语法(LFG)(LFG)LFG是卡普兰和布鲁斯南在1982年提出来的,是一种功能语法但更强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。LFG对句子的描述分为两部分:直接成分结构(Constituent Structure,简称C-Structure);功能结构(Functional Structure,简称F-structure)。用LFG语法对句子进行分析的过程如下:用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);对方程式作代数变换,求出各个变量,获得功能结构F-structure。2210.4 10.4 语义分析语义分析 Semantic analysisSemantic analysis语义分析的步骤如下:第一步 确定每个词在句子中所表达的词义;第二步 根据已有的背景知识来确定语义。逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“Jack kissed Jill”,可以用如下逻辑形式来表达:(PAST S1 KISS-ACTIONAGENT(NAME j1 PERSON“Jack”)THEM E NAME(NAME j2 PERSON“Jill”)2310.5 10.5 句子的自动理解句子的自动理解 Automatic Understanding of Sentences Automatic Understanding of Sentences 10.3.1 Understanding for Simple Sentence10.3.1 Understanding for Simple Sentence 简单句的理解方法简单句的理解方法简单句的理解方法简单句的理解方法 为了理解一个简单句,需要做以下两方面的工作:理解语句中的每一个词,查单词本有时不能确定词在句中的确切含义,需要通过语法分析和上下文关系才能最终确定词的含义。以这些词为基础组成一个可以表达整个语句意义的结构,这项工作分成以下3个部分:24句法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。语义分析:各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射。语用分析:为确定真正含义,对表达的结构重新加以解释。2510.3.2 Understanding for Complex Sentence10.3.2 Understanding for Complex Sentence 复合句的理解方法复合句的理解方法复合句的理解方法复合句的理解方法复合句的理解,要求发现句子之间的相互关系,这种关系包括以下几种:相同的事物 事物的一部分 行动的一部分 与行动有关的事物 因果关系 计划次序 2610.6 10.6 语料库语言学语料库语言学 Corpus LinguisticsCorpus Linguistics1.语料库语言学的发展、定义和研究内容语料库语言学的发展、定义和研究内容人们已对语料库语言学给出一些定义定义定义10.6 根据篇章材料对语言的研究称为语料库语言学(Aijmer,1991)定义定义10.7 基于现实生活中语言应用实例进行的语言研究称为语料库语言学(McEnery,1996)定义定义10.8 以语料为语言描写的起点或者以语料为验证有关语言假说的方法称为语料库语言学272.语料库语言学的特点语料库语言学的特点理论基础不同处理方法不同 试验规模不同 语法分析范围要求不同 处理文件涉及领域不同 文本格式不同 应用对象不同 评价方式不同 3.语料库的类型语料库的类型2810.7 文本的自动翻译文本的自动翻译机器翻译机器翻译以英语翻译为汉语为例。以英语翻译为汉语为例。1.原文输入原文输入由于计算机只能接受二进制数字,所以字母和符号必须按照一定的编码法转换成二进制数字。2.原文分析原文分析原文分析包括两个阶段:查词典和语法分析。查词典。通过查词典,给出词或词组的译文代码和语法信息,为以后的语法分析及译文的输出提供条件。语法分析。在词典加工之后,输入句就进入语法分析阶段。语法分析的任务是:进一步明确某些词的形态特征;切分句子;找出词与词之间句法上的联系,同时得出英汉语的中介成分。一句话,为下一步译文综合做好充分准备。293.译文综合译文综合译文综合比较简单,事实上它的一部分工作(如该调整哪些成份和调整到什么地方)在上一阶段已经完成。这一阶段的任务主要是把应该移位的成分调动一下。译文综合的第二个任务是修辞加工,即根据修辞的要求增补或删掉一些词译文综合的第三个任务是查汉文词典,根据译文代码(实际是汉文词典中汉文词的顺序号)找出汉字的代码。4.译文输出译文输出通过汉字输出装置将汉字代码转换成文字,打印出译文来。3010.8 10.8 自然语言理解系统的主要模型自然语言理解系统的主要模型Natural language understanding system,Natural language understanding system,the main modelthe main model基本模型基本模型单边模型单边模型31层次模型层次模型 3210.9 10.9 自然语言理解系统应用举例自然语言理解系统应用举例Application Examples of Natural Application Examples of Natural Language Understanding Systems Language Understanding Systems 10.9.110.9.1 Automatic Understanding System Automatic Understanding System Automatic Understanding System Automatic Understanding System 自然语言自动理解系统自然语言自动理解系统自然语言自动理解系统自然语言自动理解系统指挥机器人的自然语言理解系统SHRDLU。该系统是由MIT研制的,能用自然语言来指挥机器手在桌面上摆弄积木,按一定的要求重新安排积木块的空间位置。自然语言情报检索系统LUNAR。该系统是由伍兹于1972年研制成功的一个自然语言情报检索系统,具有语义分析能力。3310.9.210.9.2 Natural Language Query SystemNatural Language Query System 自然语言问答系统自然语言问答系统自然语言问答系统自然语言问答系统 简单的自然语言问答系统,至少要做三件事:分析一语句,同时构造它的逻辑表示,检查它的语义正确性。如果可能的话,转换该逻辑形式为Horn子句。如果该语句是陈述句,则在知识库中增加该子句,否则认为该子句为一个问题,并演绎地检索相应的答案。34此3项功能主要由谓词talk完成,talk的定义是:talk(Sentence,Reply):-Parse(Sentence,LF,-Type),clausify(LF,Clause,Freevars),!,reply(Type,Ereevars,Clause,Reply).talk(Sentence,error(too difficult).上述定义中引出 3 个谓词,即parse,clausify,reply分别对应上述 3 项功能。35谓词parse(句子分析)表达句法分析能力,主要根据文法规则记号系统的规定,执行分析和转换任务,给出相应的逻辑表示和该语句的类型谓词clausify(子句化)表达生成子句的能力谓词reply(回答)表达回答功能 3610.10 10.10 小结小结 SummarySummary自然语言理解是一个困难的和富有挑战性的研究任务,它需要大量的和广泛的知识。自然语言理解被分解为语音分析、语法分析、句法分析和语义分析等层次。句法分析方法包括句法模式匹配、转移网络、扩充转移网络和词汇功能语法(LFG)等。语言自动生成是语言自动理解的逆过程,其难点在于如何把要交流的信息表示为机器内部的一种结构。举出了自然语言理解系统的2个应用实例,即自然语言自动理解系统以及自然语言问答系统。从这些实例可以看到自然语言理解的重要作用。随着人工智能和计算机技术研究的进展,自然语言理解近年来获得长足进步。