自然语言理解精选课件.ppt
关于自然语言理解第一页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.1 自然语言理解概述语言理解概述什什么么是是语语言言和和语语言言理理解解?自自然然语语言言理理解解与与人人类类的的哪哪些些智智能能有有关关?自自然然语语言言理理解解的的系系统统如如何何组组成成?等等等等。这这些些问问题题是是我我们们开开始研究自然语言理解时感兴趣的。始研究自然语言理解时感兴趣的。10.1.1 语言和语言理解语语言言是是用用于于传传递递信信息息的的表表示示方方法法、约约定定和和规规则则的的集集合合,它它由由语语句句组组成成,每每个个语语句句又又由由单单词词组组成成;组组成成语语句句和和语语言言时时,应应遵遵循循一一定定的的语语法法与与语语义义规规则则。如如果果没没有有各各种种口口语语和和书书面面语语,如如英英语语、华华语语、法法语语和和德德语语等等,人人类类之之间间思思想想、感感情情和和技技术术交交流流就就难难以以想想象象。语语言言是是随随着着人人类类社社会会和和人人类类自自身身的的发发展展而而不不断断进进化化的。的。研究自然语言理解,必须对自然语言构成有基本认识。研究自然语言理解,必须对自然语言构成有基本认识。第二页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语言言是是音音义义结结合合的的词词汇汇和和语语法法体体系系,是是实实现现思思维维活活动动的的物物质质形形式式。语语言言是是一一个个符符号号体体系系,但但与与其其他他符符号号体体系系又有所区别。又有所区别。语语言言是是以以词词为为基基本本单单位位的的,词词汇汇又又受受到到语语法法的的支支配配才才可可构构成成有有意意义义的的句句子子,句句子子按按一一定定的的形形式式再再构构成成篇篇章章等等。词词汇汇又又可可分分为为词词和和熟熟语语。熟熟语语就就是是一一些些词词的的固固定定组组合合,如如汉汉语语中中的的成成语语。词词又又由由词词素素构构成成,“教教师师”是是由由“教教”和和“师师”这这两两个个词词素素所所构构成成的的。词词素素是是构构成成词词的的最最小小的的有有意意义义的的单单位位。“教教”这这个个词词素素本本身身有有教教育育和指导的意义,和指导的意义,“师师”则包含了则包含了“人人”的意义。的意义。第三页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语法法是是语语言言的的组组织织规规律律。语语法法规规则则制制约约着着如如何何把把词词素素构构成成词词,词词构构成成词词组组和和句句子子。语语言言正正是是在在这这种种严严密密的的制制约约关关系系中中构构成成的的。用用词词素素构构成成词词的的规规则则叫叫构构词词法法,如如教教+师师教教师师。一一个个词词又又有有不不同同的的词词形形、单单数数、复复数数、阴阴性性、阳阳性性等等等等。这这种种构构造造词词形形的的规规则则称称为为构构形形法法,如如教教师师+们们教教师师们们。这这里里只只是是在在原原来来的的词词后后面面加加上上一一个个复复数数意意义义的的词词素素,所所构构成成的的并并不不是是一一个个新新的的词词,而而是是同同一词的复数形式。一词的复数形式。构形法和构词法称为词法构形法和构词法称为词法。第四页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语法法中中的的另另一一部部分分就就是是句句法法。句句法法也也可可分分成成两两部部分分:词词组组构构造造法法和和造造句句法法。词词组组构构造造法法是是词词搭搭配配成成词词组组的的规规则则,如如红红+铅铅笔笔红红铅铅笔笔。这这里里“红红”是是一一个个修修饰饰铅铅笔笔的的形形容容词词,它它与与名名词词“铅铅笔笔”组组合合成成了了一一个个新新的的名名词词。造造句句法法则则是是用用词词或或词词组组造造句句的的规规则则,“我我是是计计算算机机科科学学系系的的学学生生”,这这是是按按照照汉汉语语造造句句法法构构造造的句子。下图就是上述语法构造的一个完整的图解。的句子。下图就是上述语法构造的一个完整的图解。另另一一方方面面,语语言言是是音音义义结结合合的的,每每个个词词汇汇有有其其语语音音形形式式。一一个个词词的的发发音音由由一一个个或或多多个个音音节节组组合合而而成成,音音节节又又由由音音素素构构成成,音音素素分分为为元元音音音音素素和和辅辅音音音音素素。音音素素是是指指一一个个发发音音动动作作所所构构成成的的最小的语音单位最小的语音单位。第五页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构词法构词法 词组构词组构 造法造法造句法造句法构形法构形法语言的构成图第六页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU从从微微观观上上讲讲,语语言言理理解解是是指指从从自自然然语语言言到到计计算算机机系系统统内内部部之之间间的的一一种种映映射射。从从宏宏观观上上看看,语语言言理理解解是是指指机机器器能能够够执执行行人人类类所期望的某些语言功能。这些功能包括:所期望的某些语言功能。这些功能包括:(1)(1)回答有关提问;回答有关提问;(2)(2)提取材料摘要;提取材料摘要;(3)(3)文本释义;文本释义;(4)(4)不同语言翻译。不同语言翻译。自自然然语语言言理理解解是是语语言言学学、逻逻辑辑学学、生生理理学学、心心理理学学、计计算算机机科科学学和和数数学学等等相相关关学学科科发发展展和和结结合合而而形形成成的的一一门门交交叉叉学学科科;它它能能够够理理解解口口头头语语言言或或书书面面语语言言。语语言言交交流流实实际际上上是是一一种种基基于于知知识识的的通信。通信。第七页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU对对自自然然语语言言的的理理解解是是一一个个十十分分艰艰难难的的任任务务,即即使使建建立立一一个个只只能能理理解解片片言言断断语语的的计计算算机机系系统统,也也是是很很不不容容易易的的。这这中中间间有有大大量量的的极极为为复复杂杂的的编编码码和和解解码码问问题题。一一个个能能够够理理解解自自然然语语言言的的计计算算机机系系统统就就像像一一个个人人那那样样需需要要上上下下文文知知识识以以及及根根据据这这些些知知识识和和信信息息进进行行推推理理的的过过程程。自自然然语语言言不不仅仅有有语语义义、语语法法和和语语音音问问题题,而而且且还还存存在在模模糊糊性性等等问问题题。具具体体地地说说,自自然然语语言言理理解解的的困困难难是是由由下下列列3 3个因素引起的:个因素引起的:(1)(1)目标表示的复杂性;目标表示的复杂性;(2)(2)映射类型的多样性;映射类型的多样性;(3)(3)源表达中各元素间交互程度的差异性。源表达中各元素间交互程度的差异性。第八页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU第九页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU第十页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU第十一页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU第十二页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.1.4 自然语言理解研究的进展机器翻译是自然语言理解最早的研究领域机器翻译是自然语言理解最早的研究领域。70年代初期,年代初期,语言理解对话系统的研究语言理解对话系统的研究取得进展。伍兹的取得进展。伍兹的LUNAR系统、威诺甘德的系统、威诺甘德的SHRDLU系统和香农的系统和香农的MARGIE系统等是系统等是语言理解对话系统语言理解对话系统的典型实例。的典型实例。新型的智能计算机要求设计出更为友好的人机界面,使自然语言、新型的智能计算机要求设计出更为友好的人机界面,使自然语言、文字、图象和声音等信号能直接输入计算机。文字、图象和声音等信号能直接输入计算机。口语理解研究促进人机对话系统走向实用化口语理解研究促进人机对话系统走向实用化。自然语言是表自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。统的知识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计和计算机语言设计(CLD)等的发展。等的发展。第十三页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.1.5 自然语言理解过程的层次语语言言虽虽然然表表示示成成一一连连串串的的文文字字符符号号或或者者一一串串声声音音流流,但但其其内内部部事事实实上上是是一一个个层层次次化化的的结结构构,从从语语言言的的构构成成中中就就可可以以清清楚楚的的看看到到这这种种层层次次性性。一一个个文文字字表表达达的的句句子子是是由由词词素素词词或或词词形形词词组组或或句句子子,而而用用声声音音表表达达的的句句子子则则是是由由音音素素音音节节音音词词音音句句,其其中中每每个个层层次次都都是是受受到到语语法法规规则则的的制制约约。因因此此,语语言言的的分分析析和和理理解解过过程程也也应应当当是是一一个个层层次次化化的的过过程程。许许多多现现代代语语言言学学家家把把这这一一过过程程分分为为5 5个个层层次次:语语音音分分析析、词词法法分分析析、句句法法分分析析和和语语义义分分析析和和语语用用分分析析。虽虽然然这这种种层层次次之之间间并并非非是是完完全全隔隔离离的的,但但是是这这种种层层次次化化的的划划分分的的确有助于更好地体现语言本身的构成。确有助于更好地体现语言本身的构成。第十四页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU1 1、语音分析、语音分析在在有有声声语语言言中中,最最小小可可独独立立的的声声音音单单元元是是音音素素,音音素素是是一一个个或或一一组组音音,它它可可与与其其他他音音素素相相区区别别。语语音音分分析析则则是是根根据据音音位位规规则则,从从语语音音流流中中区区分分出出一一个个个个独独立立的的音音素素,再再根根据据音音位位形形态态规规则则找找出出一一个个个音节及其对应的词素或词个音节及其对应的词素或词。2 2、词法分析、词法分析其其主主要要目目的的是是找找出出词词汇汇的的各各个个词词素素。如如unchangeableunchangeable是是由由un-un-change-ablechange-able构构成成的的。在在英英语语语语言言中中,找找出出句句子子中中的的词词汇汇是是一一件件很很容容易易的的事事,因因为为词词与与词词之之间间是是由由空空格格来来分分隔隔的的。但但要要找找出出各各个个词词素素就就复复杂杂得得多多,如如importableimportable,它它可可以以是是im-port-ableim-port-able或或improt-ableimprot-able。而而在在汉汉语语中中要要找找出出一一个个个个词词素素则则是是很很容容易易的的,每每个个字字就就是是一一个个词词素素。但但要要切切分分出出各各个个词词就就远远不不是是那那么么容容易易。如如“我我们们研研究究所所有有东东西西”,可可以以是是“我我们们研研究究所所有有东东西西”也也可可以以是是“我我们们研研究究所所有有东西东西”。第十五页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU3 3、句法分析、句法分析是是对对句句子子和和短短语语的的结结构构进进行行分分析析。自自动动句句法法分分析析的的方方法法很很多多,有有短短语语结结构构语语法法、格格语语法法、扩扩充充转转移移网网络络、功功能能语语法法等等等等。句句法法分分析析的的目目的的就就是是找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等,并并以以一一种种层层次次结结构构来来加加以以表表达达。这这种种层层次次结结构构可可为为反反映映从从属属关关系系,直接成分关系,也可是语法功能关系。直接成分关系,也可是语法功能关系。4 4、语义分析、语义分析通通过过分分析析找找出出词词义义、结结构构意意义义及及其其结结合合意意义义,从从而而确确定定语语言言所所表表达达的的真真正正含含义义或或概概念念。在在语语言言自自动动理理解解中中,语语义义愈愈来来愈愈成成为为一一个个重重要的研究内容。要的研究内容。5 5、语用分析、语用分析研研究究所所在在外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述了了语语言言的的环环境境知知识识、语言与语言使用者在某个给定语言环境中的关系。语言与语言使用者在某个给定语言环境中的关系。第十六页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU词词法法分分析析的的主主要要目目的的是是从从句句子子中中切切分分出出单单词词,找找出出词词汇汇的的各各个个词素词素,从中获得单词的语言学信息并确定单词的词义。从中获得单词的语言学信息并确定单词的词义。不不同同的的语语言言对对词词法法分分析析有有不不同同的的要要求求,例例如如英英语语和和汉汉语语就就有有较较大大的的差差别别。汉汉语语中中每每个个字字就就是是一一个个词词素素,找找出出各各个个词词素素相相当当容容易易,但但要要切切分分出出各各个个词词就就非非常常困困难难。在在英英语语中中单单词词之之间间用用空空格格自自然然分分开开,很很容容易易找找出出句句子子的的每每个个词词汇汇,但但英英语语单单词词有有词词性性、数数、时时态态、派生、变形等,要找出各个词素就复杂得多。派生、变形等,要找出各个词素就复杂得多。例例如如program可可变变化化出出programming,programmable,programmed,programs和和programmer等等。如如果果把把某某些些词词素素的的派派生生、变变形形、数数、时时态态等等变变化化都都收收入入词词典典将将是是非非常常庞庞大大,但但它它们们的的词词根根只只有有一一个个。支支持持词词素素分析,可以极大地压缩自然语言理解系统中电子词典的规模。分析,可以极大地压缩自然语言理解系统中电子词典的规模。第十七页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU第十八页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU 10.3 句法分析句法分析句法分析目的就是找出词、短语等的相互关系以及各自在句子中目的就是找出词、短语等的相互关系以及各自在句子中的作用,并以一种层次结构来加以表达的作用,并以一种层次结构来加以表达。下面介绍基于规则的句法分。下面介绍基于规则的句法分析方法:析方法:第十九页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU一一部部短短语语结结构构语语法法定定义义的的语语言言L(G)就就是是从从起起始始符符S推推导导出出终终结结符符号号串串W的的集集合合,是是由由一一系系列列产产生生式式规规则则组组成成的的。下下面面给给出出一一个个简简单单的的短短语结构语法。语结构语法。例例10.1 G=(T,N,S,P)T=the,man,killed,a,deer,likes N=S,NP,VP,N,ART,V,Prep,PP S=S P:(1)SNP+VP (2)NP N (3)NP ART+N (4)VP V (5)VP V+NP (6)ART the|a (7)N man|deer (8)V killed|likes第二十页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.3.3 句法模式匹配和转移网络 句句法法分分析析最最为为简简单单、直直观观的的方方法法也也许许就就是是模模式式匹匹配配。句句法法模模式式匹匹配配就就是是采采用用句句法法模模式式来来对对语语言言的的句句子子进进行行匹匹配配从从而而进进行行的的句句法法分分析析。例例如如:bears bears love love honeyhoney可可用用句句法法模模式式noun+verb+nounnoun+verb+noun来来匹匹配配;句句子子的的主主语语有有许许多多模模式式nounnoun,adj.+nounadj.+noun,adj.+adj.+nounadj.+adj.+noun,adj.+adj.+adj+nounadj.+adj.+adj+noun,,对对 此此 可可 采采 用用 形形 式式 化化 的的 表表 达达 方方 式式(adj.*nounadj.*noun),其其中中*表表示示可可有有可可无无且且可可重重复复出出现现。一一个个句句子子可可以表示成:以表示成:(pronounpronoun(adj.*nounadj.*noun)verbverb(pronounpronoun(adj.*nounadj.*noun)第二十一页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj但但是是自自然然语语言言是是非非常常多多样样化化的的,因因而而需需要要有有许许多多模模式式。这这些些模模式式可可用用状状态态转转移移图图来来表表示示,这这种种用用状状态态转转移移图图来来表表示示的的表表达达方方式式称称之之为为转转移移网网络络(TNTN,transition transition networknetwork)。如如下下图图所所示示,图图中中,q q0 0,q,q1 1,,q qT T是是状状态态,q q0 0是是初初态态,q qT T是是终终态态。弧弧上上给给出出了了状状态态转转移移的的条件以及转移的方向条件以及转移的方向。该网络可用于分析句子也可用于生成句子。该网络可用于分析句子也可用于生成句子。第二十二页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU用用TNTN来来识识别别句句子子The The little little orange orange ducks ducks swallow swallow flies flies 的过程如表的过程如表10.110.1。(这里忽略了词法分析,网络如图所示)。(这里忽略了词法分析,网络如图所示)表表 10.1 10.1 句子识别过程句子识别过程 第二十三页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU识识别别过过程程到到达达f f状状态态(终终态态),所所以以该该句句子子被被成成功功地地识识别别了了。分分析析结结果果如如下下图图所所示示。从从上上述述过过程程中中可可以以看看出出,这这个个句句子子还还可可以以在在网网络络中中走走其其他他弧弧,如如词词ducksducks也也可可以以走走弧弧,但但接接下下来来的的swallowswallow就就找找不不到到合合适适的的弧弧了了。此此时时对对应应于于这这个个路路径径,该该句句子子就就被被拒拒识识了了。由由此此看看出出,网网络络识识别别的的过过程程中中应应找找出出各各种种可可能能的的路路径,因此算法要采用并行或回溯机制。径,因此算法要采用并行或回溯机制。转移网络实例图转移网络实例图第二十四页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU1.1.并行算法并行算法并并行行算算法法的的关关键键是是在在任任何何一一个个状状态态都都要要选选择择所所有有可可以以到到达达下下一个状态的弧,同时进行试验。一个状态的弧,同时进行试验。2.2.回溯算法回溯算法 回回溯溯算算法法则则是是在在所所有有可可以以通通过过的的弧弧中中选选出出一一条条往往下下走走,并并保保留留其其他他的可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。的可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。转移网络实例图转移网络实例图第二十五页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.3.4 扩充转移网络 扩扩充充转转移移网网络络ATNATN是是由由伍伍兹兹(Woods)(Woods)在在19701970年年提提出出的的,之之后后卡卡普普兰兰(Kaplan)Kaplan)等等人人对对其其作作了了一一些些改改进进。ATNATN是是由由一一组组网网络络所所构构成成的的,每每个个网网络络都都有有一一个个网网络络名名,每每条条弧弧上上的的条条件件扩扩展展为为条条件件加加上上操操作作。这这种种条条件件和和操操作作采采用用寄寄存存器器的的方方法法来来实实现现,在在分分析析树树的的各各个个成成分分结结构构上上都都放放上上寄寄存存器器,用用来来存存放放句句法法功功能能和和句句法法特特征征,条条件件和和操操作作将将对对它它们们不不断断地地进进行行访访问问和和设设置置。ATNATN弧弧上上的的标标记记也也可可以以是是其其他他网网络络的的标标记记名名,因因此此ATNATN是是一一种种递递归归网网络络(任任何何一一个个网网络络都都可可以以调调用用包包括括它它自自己己在在内内的的任任何何其其他他网网络络)。在在ATNATN中中还还有有一一种种空空弧弧jumpjump,它它不对应一个句法成分也不对应一个输入词汇。不对应一个句法成分也不对应一个输入词汇。第二十六页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSUATNATN的的每每个个寄寄存存器器由由两两部部分分构构成成:句句法法特特征征寄寄存存器器和和句句法法功功能能寄寄存存器器。在在特特征征寄寄存存器器中中,每每一一维维特特征征都都有有一一个个特特征征名名和和一一组组特特征征值值,以以及及一一个个缺缺省省值值来来表表示示。如如“数数”的的特特征征维维可可有有两两个个特特征征值值“单单数数”和和“复复数数”,缺缺省省值值可可以以是是空空值值。英英语语中中动动词词的形式的形式可以用一维可以用一维特征特征来表示:来表示:FormForm:present,past,present-participle,past-present,past,present-participle,past-participle.Default:present.participle.Default:present.功能寄存器则反映了句法成分之间的关系和功能功能寄存器则反映了句法成分之间的关系和功能。分分析析树树的的每每个个节节点点都都有有一一个个寄寄存存器器,寄寄存存器器的的上上半半部部分分是是特特征征寄寄存存器器,下下半半部部分分是是功功能能寄寄存存器器。图图10.510.5所所示示是是一一个个简简单单的的名名词词短短语语(NP)(NP)的的扩扩充充转转移移网网络络,网网络络中中弧弧上上的的条条件件和和操操作作如下:如下:第二十七页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSUNP-1NP-1:f g f g A:Number *.NumberNP-4NP-4:g h g h C C:Number=*.Number or Number=*.Number or A A:Number Number *.Number NP-5NP-5:f hf h A A:Number Number *.NumberNP-6:f hf h A A:Number=*.NumberNumber=*.Number ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.名词短语(NP)的扩充转移网络第二十八页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU该该网网络络主主要要是是用用来来检检查查NPNP中中的的数数的的一一致致值值问问题题。其其中中用用到到的的特特征征是是Number(Number(数数),它它有有两两个个值值Singular(Singular(单单数数)和和plural(plural(复复数数),缺缺省省值值是是(空空)。C C是是弧弧上上的的条条件件,A A是是弧弧上上的的操操作作,*是是当当前前词词,properproper是是专专用用名名词词,DetDet是是限限定定词词,PPPP是是介介词词短短语语,*.Number.Number当当前前词词的的“数数”。该扩充转移网络有一个网络名。该扩充转移网络有一个网络名NPNP。弧弧NP-1NP-1将将当当前前词词的的NumberNumber放放入入当当前前NPNP的的NumberNumber中中,而而弧弧NP-4NP-4则则要要求求当当前前nounnoun的的NumberNumber与与NPNP的的NumberNumber是是相相同同时时,或或者者NPNP的的NumberNumber为为空空时时,将将nounnoun作作为为NPNP的的NumberNumber,这这就就要要求求detdet的的数数和和nounnoun的的数数是是一一致致的的。因因此此,this this bookbook,the the bookbook,the the booksbooks,these these booksbooks都都可可顺顺利利通通过过这这一一网网络络,但但是是this this booksbooks,或或these these bookbook就就无无法法通通过过。如如果果当当前前NPNP是是一一个个代代词词(Pron.)(Pron.)或或者者专专用用名名词词(Proper)(Proper),则则网网络络就就从从NP-5NP-5或或NP-6NP-6通通过过,这这时时NPNP的的数数就就是是代代词词或或专专用用名名词词的的数数。PPPP是是修修饰饰前前面面名名词词的的介词短语,一旦到达介词短语,一旦到达PPPP弧就马上转入子网络弧就马上转入子网络PPPP。第二十九页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSUS S网络中所涉及的功能名和特征维包括:网络中所涉及的功能名和特征维包括:功功能能名名:Subject(Subject(主主语语),Direct Direct ObjObj(直直接接宾宾语语),Main-VerbMain-Verb(谓语动词),(谓语动词),AuxsAuxs(助动词),(助动词),ModifiersModifiers(修饰语)(修饰语)。VoiceVoice(语语态态)特特征征维维:ActiveActive(主主动动态态),PassivePassive(被被动动态态),缺省值是,缺省值是ActireActire;TypeType(动动词词类类型型):Be,Do,Have,Modal,Non-Aux,Be,Do,Have,Modal,Non-Aux,缺缺省省值值是是Non-Non-AuxAux;FormForm(动动词词式式):InfInf(不不定定式式),PresentPresent(现现在在式式),PastPast(过过去去式式),pres-partpres-part(现现在在分分词词),Past-Part(Past-Part(过过去去分分词词),缺缺省值是省值是PresentPresent下下图图是是一一个个句句子子的的ATNATN,主主要要用用来来识识别别主主、被被动动态态的的句句子子,从从中中可以看到功能寄存器的应用可以看到功能寄存器的应用 第三十页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU网络描述如下网络描述如下:S-1S-1:a ba bA A:Subject *.Subject *.S-2S-2:b cb cA A:Main-Verb *.Main-Verb *.S-3S-3:c cc c(判断谓词动词类型)(判断谓词动词类型)C C:Main-Verb.Type=BeMain-Verb.Type=Be,DoDo,Have or ModalHave or ModalA A:Auxs=Main-VerbAuxs=Main-Verb,Main-VerbMain-Verb*.S-4S-4:c d c d C C:*.Form=Past-part and Main-Verb.Type=Be.Form=Past-part and Main-Verb.Type=BeA A:VoicePassiveVoicePassive,Auxs=Main-Verb,Auxs=Main-Verb,Main-Verb*.,*.Direct-ObjSubject,Main-Verb*.,*.Direct-ObjSubject,Subjectdummy-NPSubjectdummy-NP(形式主语,可能暂时为空节点)(形式主语,可能暂时为空节点)第三十一页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSUS-5:c dS-5:c d A A:Direct-Obj *.Direct-Obj *.S-6:d dS-6:d d A A:Modifiers=*.Modifiers=*.S-7S-7:d dd d C C:Voice=Passive and Subject=dummy-NP and*.Prep=“by”Voice=Passive and Subject=dummy-NP and*.Prep=“by”A A:Subject *.Prep-ObjectSubject *.Prep-ObjectS-8S-8:d No Conditions,actions or initializations.d No Conditions,actions or initializations.S-8S-8是赋值操作是赋值操作 Subject Subject *即即把把当当前前成成分分放放入入名名为为SubjectSubject的的功功能能寄寄存存器器。=是是一一种种添添加加操操作作,Auxs=Auxs=Main-VerbMain-Verb就就是是将将当当前前的的谓谓语语动动词词添添加加到到AuxsAuxs功能寄存器中功能寄存器中(原来原来AuxsAuxs可能已有内容可能已有内容)。第三十二页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSUS S网络中,当弧网络中,当弧S-2S-2遇到第一个动词时,就把它置入遇到第一个动词时,就把它置入Main-Main-VerbVerb,但是在接下来的弧,但是在接下来的弧S-3S-3中发现中发现Main-VerbMain-Verb中刚才被置入的是助中刚才被置入的是助动词,网络操作就把动词,网络操作就把Main-VerbMain-Verb中的内容添加到中的内容添加到AuxsAuxs寄存器的尾寄存器的尾部。若部。若AuxsAuxs是空时,添加操作与赋值是相同的,但是当是空时,添加操作与赋值是相同的,但是当AuxsAuxs非空非空时时(有几个助动词有几个助动词)这是一个添加操作。这是一个添加操作。另另外外,网网络络中中有有一一种种dummydummy节节点点,这这是是一一种种空空节节点点,用用来来表表示示一一种种形形式式上上的的或或者者预预示示的的成成分分,如如形形式式上上的的主主语语等等。弧弧S-4S-4和和S-7S-7就就是是对对于于被被动动态态句句子子的的分分析析和和处处理理。弧弧S-4S-4主主要要是是识识别别被被动动态态的的谓谓语语动动词词,一一旦旦确确认认是是被被动动态态,则则将将当当前前的的主主语语作作为为直直接接宾宾语语,弧弧S-7S-7是是处处理理被被动动态态句句子子中中byby所所引引导导的的介介词词短短语语,该该介介词词的宾语就是实际上的主语。的宾语就是实际上的主语。第三十三页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU一一完完整整的的ATNATN是是相相当当复复杂杂的的,在在实实现现过过程程中中还还必必须须解解决决许许多多问问题题,如如非非确确定定性性分分析析、弧弧的的顺顺序序、等等等等。ATNATN方方法法在在自自然然语语言言理理解解的研究中得到了广泛的应用的研究中得到了广泛的应用。10.3.5 词汇功能语法(LFG)词词汇汇功功能能语语法法是是由由卡卡普普兰兰和和布布鲁鲁斯斯南南在在19821982年年提提出出的的,它它是是一一种种功功能能语语法法,但但是是更更加加强强调调词词汇汇的的作作用用。LFGLFG用用一一种种结结构构来来表表达达特特征征、功功能能、词词汇汇和和成成分分的的顺顺序序。ATNATN语语法法和和转转换换语语法法都都是是有有方方向向性性的的,ATNATN语语法法的的条条件件和和操操作作要要求求语语法法的的使使用用是是有有方方向向的的,因因为为寄寄存存器器只只有有在在被被设设置置过过之之后后才才可可被被访访问问。LFGLFG的的一一个个重重要要工工作作就是通过互不矛盾的多层描述来消除这种有序性限制就是通过互不矛盾的多层描述来消除这种有序性限制。第三十四页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSULFGLFG对对句句子子的的描描述述分分为为两两部部分分:直直接接成成分分结结构构(Constituent(Constituent structure)structure)和和功功能能结结构构(Functional(Functional structure)structure)。C-structureC-structure是是由由上上下下文文无无关关语语法法产产生生的的表表层层分分析析结结果果,结结点点采采用用名名词词短短语语标标记记来来标标注注。通通过过附附加加到到语语法法规规则则和和词词条条定定义义上上的的功功能能方方程程式式经经过过一一系系列列代代数数变变换换产产生生F-structureF-structure。LFGLFG采采用用两两种种规规则则:加加入入下下标标的的上上下下文文无无关关的的语语法法规规则则和和词词条条信信息息。下表给出了一些词汇功能语法的规则和词条信息。下表给出了一些词汇功能语法的规则和词条信息。其其中中表表示示规规则则左左侧侧的的那那个个结结点点,如如规规则则中中NPNP的的就就是是S S,VPVP的的也也是是S S;则则表表示示当当前前结结点点结结点点本本身身。因因此此,(Subject)=(Subject)=就就表表示示S S的的主主语语是是当当前前NPNP。方方程程式式=说说明明VPVP的的全全部部属属性性都都应应转转移移给给支支配配它它的的S S结结 点点。“”中中 表表 达达 的的 是是 句句 法法 模模 式式,Hand=Hand=(Subject),(Object)(Subject),(Object),(Object-2)(Object-2),表表示示谓谓语语动动词词handhand要要有有一一个主语、一个直接宾语和一个间接宾语。个主语、一个直接宾语和一个间接宾语。例如,对于句子:例如,对于句子:A girl handed the baby the toys.A girl handed the baby the toys.第三十五页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSULFGLFG语法规则与词条语法规则与词条语法规则语法规则第三十六页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU首首先先利利用用句句法法规规则则可可以以推推导导出出它它的的C-structureC-structure直直接接成成分分结结构如下图所示构如下图所示:句句法法树树中中带带标标号号的的非非叶叶结结点点,用用具具体体的的变变量量x xi i替替代代,并并建建立立功功能能描描述述方方程程。方方程程的的建建立立只只要要将将语语法法规规则则和和词词条条规规则则中中的的用用父父节点变量来替代节点变量来替代,用当前节点变量来代替即可用当前节点变量来代替即可。第三十七页,本课件共有63页CSUCSUCSUCSUCSUCSUCSUCSUCSU规则规则SNP VPSNP VP的下标有