自然语言理解课件.ppt
《自然语言理解课件.ppt》由会员分享,可在线阅读,更多相关《自然语言理解课件.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于自然语言理解现在学习的是第1页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.1 自然语言理解概述语言理解概述什什么么是是语语言言和和语语言言理理解解?自自然然语语言言理理解解与与人人类类的的哪哪些些智智能能有有关关?自自然然语语言言理理解解的的系系统统如如何何组组成成?等等等等。这这些些问问题题是是我我们们开开始始研研究究自然语言理解时感兴趣的。自然语言理解时感兴趣的。10.1.1 语言和语言理解语语言言是是用用于于传传递递信信息息的的表表示示方方法法、约约定定和和规规则则的的集集合合,它它由由语语句句组组成成,每每个个语语句句又又由由单单词词组组成成;组组成成语语
2、句句和和语语言言时时,应应遵遵循循一一定定的的语语法法与与语语义义规规则则。如如果果没没有有各各种种口口语语和和书书面面语语,如如英英语语、华华语语、法法语语和和德德语语等等,人人类类之之间间思思想想、感感情情和和技技术术交交流流就就难难以以想想象象。语语言言是是随随着着人人类类社社会和人类自身的发展而不断进化的。会和人类自身的发展而不断进化的。研究自然语言理解,必须对自然语言构成有基本认识。研究自然语言理解,必须对自然语言构成有基本认识。现在学习的是第2页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语言言是是音音义义结结合合的的词词汇汇和和语语法法体体系系,是是实实现现
3、思思维维活活动动的的物物质质形形式式。语语言言是是一一个个符符号号体体系系,但但与与其其他他符符号号体体系又有所区别。系又有所区别。语语言言是是以以词词为为基基本本单单位位的的,词词汇汇又又受受到到语语法法的的支支配配才才可可构构成成有有意意义义的的句句子子,句句子子按按一一定定的的形形式式再再构构成成篇篇章章等等。词词汇汇又又可可分分为为词词和和熟熟语语。熟熟语语就就是是一一些些词词的的固固定定组组合合,如如汉汉语语中中的的成成语语。词词又又由由词词素素构构成成,“教教师师”是是由由“教教”和和“师师”这这两两个个词词素素所所构构成成的的。词词素素是是构构成成词词的的最最小小的的有有意意义义
4、的的单单位位。“教教”这这个个词词素素本本身身有有教教育育和和指指导导的的意意义义,“师师”则包含了则包含了“人人”的意义。的意义。现在学习的是第3页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语法法是是语语言言的的组组织织规规律律。语语法法规规则则制制约约着着如如何何把把词词素素构构成成词词,词词构构成成词词组组和和句句子子。语语言言正正是是在在这这种种严严密密的的制制约约关关系系中中构构成成的的。用用词词素素构构成成词词的的规规则则叫叫构构词词法法,如如教教+师师教教师师。一一个个词词又又有有不不同同的的词词形形、单单数数、复复数数、阴阴性性、阳阳性性等等等等。这这种
5、种构构造造词词形形的的规规则则称称为为构构形形法法,如如教教师师+们们教教师师们们。这这里里只只是是在在原原来来的的词词后后面面加加上上一一个个复复数数意意义义的的词词素素,所所构构成成的的并并不不是是一一个个新新的的词词,而而是是同同一一词词的的复复数数形形式式。构形法和构词法称为词法构形法和构词法称为词法。现在学习的是第4页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU语语法法中中的的另另一一部部分分就就是是句句法法。句句法法也也可可分分成成两两部部分分:词词组组构构造造法法和和造造句句法法。词词组组构构造造法法是是词词搭搭配配成成词词组组的的规规则则,如如红红+铅铅笔笔
6、红红铅铅笔笔。这这里里“红红”是是一一个个修修饰饰铅铅笔笔的的形形容容词词,它它与与名名词词“铅铅笔笔”组组合合成成了了一一个个新新的的名名词词。造造句句法法则则是是用用词词或或词词组组造造句句的的规规则则,“我我是是计计算算机机科科学学系系的的学学生生”,这这是是按按照照汉汉语语造造句句法法构造的句子。下图就是上述语法构造的一个完整的图解。构造的句子。下图就是上述语法构造的一个完整的图解。另另一一方方面面,语语言言是是音音义义结结合合的的,每每个个词词汇汇有有其其语语音音形形式式。一一个个词词的的发发音音由由一一个个或或多多个个音音节节组组合合而而成成,音音节节又又由由音音素素构构成成,音音
7、素素分分为为元元音音音音素素和和辅辅音音音音素素。音音素素是是指指一一个个发发音音动动作作所所构构成成的的最最小小的的语音单位语音单位。现在学习的是第5页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构词法构词法 词组构词组构 造法造法造句法造句法构形法构形法语言的构成图现在学习的是第6页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU从从微微观观上上讲讲,语语言言理理解解是是指指从从自自然然语语言言到到计计算算机机系系统统内内部部之之间间的的一一种种映映射射。从从宏宏观观上上看看,语语言言理理
8、解解是是指指机机器器能能够够执执行行人人类类所所期期望望的的某某些些语语言功能。这些功能包括:言功能。这些功能包括:(1)(1)回答有关提问;回答有关提问;(2)(2)提取材料摘要;提取材料摘要;(3)(3)文本释义;文本释义;(4)(4)不同语言翻译。不同语言翻译。自自然然语语言言理理解解是是语语言言学学、逻逻辑辑学学、生生理理学学、心心理理学学、计计算算机机科科学学和和数数学学等等相相关关学学科科发发展展和和结结合合而而形形成成的的一一门门交交叉叉学学科科;它它能能够理解够理解口头语言口头语言或或书面语言书面语言。语言交流实际上是一种基于知识的通信。语言交流实际上是一种基于知识的通信。现在
9、学习的是第7页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU对对自自然然语语言言的的理理解解是是一一个个十十分分艰艰难难的的任任务务,即即使使建建立立一一个个只只能能理理解解片片言言断断语语的的计计算算机机系系统统,也也是是很很不不容容易易的的。这这中中间间有有大大量量的的极极为为复复杂杂的的编编码码和和解解码码问问题题。一一个个能能够够理理解解自自然然语语言言的的计计算算机机系系统统就就像像一一个个人人那那样样需需要要上上下下文文知知识识以以及及根根据据这这些些知知识识和和信信息息进进行行推推理理的的过过程程。自自然然语语言言不不仅仅有有语语义义、语语法法和和语语音音问问题
10、题,而而且且还还存存在在模模糊糊性性等等问问题题。具体地说,自然语言理解的困难是由下列具体地说,自然语言理解的困难是由下列3 3个因素引起的:个因素引起的:(1)(1)目标表示的复杂性;目标表示的复杂性;(2)(2)映射类型的多样性;映射类型的多样性;(3)(3)源表达中各元素间交互程度的差异性。源表达中各元素间交互程度的差异性。现在学习的是第8页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU现在学习的是第9页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU现在学习的是第10页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU现在学习的是第11页
11、,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU现在学习的是第12页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.1.4 自然语言理解研究的进展机器翻译是自然语言理解最早的研究领域机器翻译是自然语言理解最早的研究领域。70年代初期,年代初期,语言理解对话系统的研究语言理解对话系统的研究取得进展。伍兹的取得进展。伍兹的LUNAR系统、威诺甘德的系统、威诺甘德的SHRDLU系统和香农的系统和香农的MARGIE系统等是系统等是语言理语言理解对话系统解对话系统的典型实例。的典型实例。新型的智能计算机要求设计出更为友好的人机界面,使自然语言、文新型的智能计算机要求
12、设计出更为友好的人机界面,使自然语言、文字、图象和声音等信号能直接输入计算机。字、图象和声音等信号能直接输入计算机。口语理解研究促进人机对话系统走向实用化口语理解研究促进人机对话系统走向实用化。自然语言是表示自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计和计算机语言设计(CLD)等的发展。等的发展。现在学习的是第13页,共63页CSUCSUC
13、SUCSUCSUCSUCSUCSUCSU10.1.5 自然语言理解过程的层次语语言言虽虽然然表表示示成成一一连连串串的的文文字字符符号号或或者者一一串串声声音音流流,但但其其内内部部事事实实上上是是一一个个层层次次化化的的结结构构,从从语语言言的的构构成成中中就就可可以以清清楚楚的的看看到到这这种种层层次次性性。一一个个文文字字表表达达的的句句子子是是由由词词素素词词或或词词形形词词组组或或句句子子,而而用用声声音音表表达达的的句句子子则则是是由由音音素素音音节节音音词词音音句句,其其中中每每个个层层次次都都是是受受到到语语法法规规则则的的制制约约。因因此此,语语言言的的分分析析和和理理解解过
14、过程程也也应应当当是是一一个个层层次次化化的的过过程程。许许多多现现代代语语言言学学家家把把这这一一过过程程分分为为5 5个个层层次次:语语音音分分析析、词词法法分分析析、句句法法分分析析和和语语义义分分析析和和语语用用分分析析。虽虽然然这这种种层层次次之之间间并并非非是是完完全全隔隔离离的的,但但是是这这种种层层次次化化的的划划分分的的确确有有助助于于更更好好地地体体现现语语言言本本身身的构成。的构成。现在学习的是第14页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU1 1、语音分析、语音分析在在有有声声语语言言中中,最最小小可可独独立立的的声声音音单单元元是是音音素素,音
15、音素素是是一一个个或或一一组组音音,它它可可与与其其他他音音素素相相区区别别。语语音音分分析析则则是是根根据据音音位位规规则则,从从语语音音流流中中区区分分出出一一个个个个独独立立的的音音素素,再再根根据据音音位位形形态态规规则则找找出出一一个个个个音音节节及及其其对对应应的的词词素或词素或词。2 2、词法分析、词法分析其其主主要要目目的的是是找找出出词词汇汇的的各各个个词词素素。如如unchangeableunchangeable是是由由un-un-change-ablechange-able构构成成的的。在在英英语语语语言言中中,找找出出句句子子中中的的词词汇汇是是一一件件很很容容易易的的
16、事事,因因为为词词与与词词之之间间是是由由空空格格来来分分隔隔的的。但但要要找找出出各各个个词词素素就就复复杂杂得得多多,如如importableimportable,它它可可以以是是im-port-ableim-port-able或或improt-ableimprot-able。而而在在汉汉语语中中要要找找出出一一个个个个词词素素则则是是很很容容易易的的,每每个个字字就就是是一一个个词词素素。但但要要切切分分出出各各个个词词就就远远不不是是那那么么容容易易。如如“我我们们研研究究所所有有东东西西”,可可以以是是“我我们们研研究究所所有有东西东西”也可以是也可以是“我们我们研究研究所有所有东西
17、东西”。现在学习的是第15页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU3 3、句法分析、句法分析是是对对句句子子和和短短语语的的结结构构进进行行分分析析。自自动动句句法法分分析析的的方方法法很很多多,有有短短语语结结构构语语法法、格格语语法法、扩扩充充转转移移网网络络、功功能能语语法法等等等等。句句法法分分析析的的目目的的就就是是找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等,并并以以一一种种层层次次结结构构来来加加以以表表达达。这这种种层层次次结结构构可可为为反反映映从从属属关关系系,直直接接成分关系,也可是语法功能关系。
18、成分关系,也可是语法功能关系。4 4、语义分析、语义分析通通过过分分析析找找出出词词义义、结结构构意意义义及及其其结结合合意意义义,从从而而确确定定语语言言所所表表达达的的真真正正含含义义或或概概念念。在在语语言言自自动动理理解解中中,语语义义愈愈来来愈愈成成为为一一个个重重要要的的研研究究内内容。容。5 5、语用分析、语用分析研研究究所所在在外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述了了语语言言的的环环境境知识、语言与语言使用者在某个给定语言环境中的关系。知识、语言与语言使用者在某个给定语言环境中的关系。现在学习的是第16页,共63页CSUCSUCSUCSUCSU
19、CSUCSUCSUCSU词词法法分分析析的的主主要要目目的的是是从从句句子子中中切切分分出出单单词词,找找出出词词汇汇的的各各个个词词素素,从从中获得单词的语言学信息并确定单词的词义。中获得单词的语言学信息并确定单词的词义。不不同同的的语语言言对对词词法法分分析析有有不不同同的的要要求求,例例如如英英语语和和汉汉语语就就有有较较大大的的差差别别。汉汉语语中中每每个个字字就就是是一一个个词词素素,找找出出各各个个词词素素相相当当容容易易,但但要要切切分分出出各各个个词词就就非非常常困困难难。在在英英语语中中单单词词之之间间用用空空格格自自然然分分开开,很很容容易易找找出出句句子子的的每每个个词词
20、汇汇,但但英英语语单单词词有有词词性性、数数、时时态态、派派生生、变变形形等等,要要找找出出各各个个词素就复杂得多。词素就复杂得多。例例 如如program可可 变变 化化 出出 programming,programmable,programmed,programs和和programmer等等。如如果果把把某某些些词词素素的的派派生生、变变形形、数数、时时态态等等变变化化都都收收入入词词典典将将是是非非常常庞庞大大,但但它它们们的的词词根根只只有有一一个个。支支持持词词素素分分析析,可可以以极极大大地地压压缩缩自自然然语语言言理理解解系系统统中中电电子子词典的规模。词典的规模。现在学习的是第
21、17页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU现在学习的是第18页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU 10.3 句法分析句法分析句法分析目的就是找出词、短语等的相互关系以及各自在句子中的目的就是找出词、短语等的相互关系以及各自在句子中的作用,并以一种层次结构来加以表达作用,并以一种层次结构来加以表达。下面介绍基于规则的句法分析方。下面介绍基于规则的句法分析方法:法:现在学习的是第19页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU一一部部短短语语结结构构语语法法定定义义的的语语言言L(G)就就是是从从起起始始符符S推推导导
22、出出终终结结符符号号串串W的的集集合合,是是由由一一系系列列产产生生式式规规则则组组成成的的。下下面面给给出出一一个个简简单单的的短短语语结结构构语法。语法。例例10.1 G=(T,N,S,P)T=the,man,killed,a,deer,likes N=S,NP,VP,N,ART,V,Prep,PP S=S P:(1)SNP+VP (2)NP N (3)NP ART+N (4)VP V (5)VP V+NP (6)ART the|a (7)N man|deer (8)V killed|likes现在学习的是第20页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU10.3.3
23、 句法模式匹配和转移网络 句句法法分分析析最最为为简简单单、直直观观的的方方法法也也许许就就是是模模式式匹匹配配。句句法法模模式式匹匹配配就就是是采采用用句句法法模模式式来来对对语语言言的的句句子子进进行行匹匹配配从从而而进进行行的的句句法法分分析析。例例如如:bears bears love love honeyhoney可可用用句句法法模模式式noun+verb+nounnoun+verb+noun来来匹匹配配;句句子子 的的 主主 语语 有有 许许 多多 模模 式式 nounnoun,adj.+nounadj.+noun,adj.+adj.+nounadj.+adj.+noun,adj.
24、+adj.+adj+nounadj.+adj.+adj+noun,,对对 此此 可可 采采 用用 形形 式式 化化 的的 表表 达达 方方 式式(adj.*nounadj.*noun),其其中中*表表示示可可有有可可无无且且可可重重复复出出现现。一一个个句句子子可可以以表示成:表示成:(pronounpronoun(adj.*nounadj.*noun)verbverb(pronounpronoun(adj.*nounadj.*noun)现在学习的是第21页,共63页CSUCSUCSUCSUCSUCSUCSUCSUCSU转移网络(TN)q0nounpron.q2q1adjq3qTverbver
25、bpron.nounq4q5adj但但是是自自然然语语言言是是非非常常多多样样化化的的,因因而而需需要要有有许许多多模模式式。这这些些模模式式可可用用状状态态转转移移图图来来表表示示,这这种种用用状状态态转转移移图图来来表表示示的的表表达达方方式式称称之之为为转转移移网网络络(TNTN,transition transition networknetwork)。如如下下图图所所示示,图图中中,q q0 0,q,q1 1,,q qT T是是状状态态,q q0 0是是初初态态,q qT T是是终终态态。弧弧上上给给出出了了状状态态转转移移的的条条件件以以及及转转移移的的方向方向。该网络可用于分析句
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 理解 课件
限制150内