第八章自然语言理解课件.ppt
《第八章自然语言理解课件.ppt》由会员分享,可在线阅读,更多相关《第八章自然语言理解课件.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人工智能人工智能Artificial Intelligence自然语言理解自然语言理解本章主要内容自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取自然语言理解的一般问题自然语言理解的一般问题(1)(1)自然语言自然语言自然语言:人类交流的语言自然语言:人类交流的语言,口语、书面语、手语、口语、书面语、手语、旗语等旗语等人造语言:机器语言,包括人造语言:机器语言,包括C+,BASICC+,BASIC等等 世界语世界语到目前为止的人类知识有到目前为止的人类知识有80%80%以上使用自然语言文
2、字记载下来的。但以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。代化水平的重要标志之一。相比较人工智能其它领域,自然语言理解是难度大,进展小的。至相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。今为止未能达到很高的水平。自然语言理解的一般问题自然语言理解的一般问题(2)2)什么是“自然语言理解”?与“智能”一样,存在各种
3、各样的理解和解释。利用计算机对自然语言进行理解自然语言“理解”的准则:给计算机输入一段自然语言文本,如果计算机能问答(question-answering)机器能正确地回答输入 文本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的摘要;释义(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)自然语言理解的一般问题自然语言理解的一般问题(3)3)自然语言理解自然语言理解自然语言理解是语言信息处理技术的一个高层次的重要自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能
4、领域关注的核心问题之一。方向。是人工智能领域关注的核心问题之一。自然语言理解的困难原因:自然语言理解的困难原因:目标表示的复杂性目标表示的复杂性映射类型的多样性映射类型的多样性源表示中各元素间交互程度的差异性源表示中各元素间交互程度的差异性 自然语言理解的一般问题自然语言理解的一般问题(4)4)语言学的研究语言学的研究自然语言理解是哲学自然语言理解是哲学(philosophy)philosophy),语言学语言学(linguistics),linguistics),语言心理学语言心理学(psycholinguistics),psycholinguistics),认知科学认知科学(cogniti
5、ve cognitive science),science),计算机科学计算机科学(computer science)computer science),数学数学(mathematics)mathematics),逻辑学逻辑学(logic)logic)及相关学科发展和结合而及相关学科发展和结合而形成的一门交叉学科。形成的一门交叉学科。自然语言理解的一般问题自然语言理解的一般问题(5)5)语言学的研究语言学的研究语语言言学学家家:只只关关心心词词组组成成短短语语,短短语语组组成成句句子子,句句法法如如何何。即即语语言言理论理论哲学家:词怎么能表示万物万事。如何用词来描述。哲学家:词怎么能表示万物
6、万事。如何用词来描述。心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。计计算算语语言言学学家家:用用数数据据结结构构、数数学学模模型型把把哲哲学学、心心理理学学、语语言言学学等等语语言言分分科科的的知知识识进进行行表表示示,用用恰恰当当的的算算法法识识别别句句子子的的结结构构,完完成成自自然语言相关的各项任务。然语言相关的各项任务。自然语言理解的一般问题自然语言理解的一般问题(6)6)语言学的研究理解的层次语言学的研究理解的层次语音分析:找出最小可独立的声音单元语音分析:找出最小可独立的声音单元-音素音素词词法法分分析析:
7、找找出出词词汇汇的的各各个个词词素素(词词根根),从从中中获获得得语语言学信息言学信息例:我们研究所有东西例:我们研究所有东西;把手放在桌上把手放在桌上我们我们-研究所研究所-有有-东西东西(交叉歧义)(交叉歧义)我们我们-研究研究-所有所有-东西东西把把-手手-放在放在-桌上桌上(组合歧义)(组合歧义)把手把手-放在放在-桌上桌上自然语言理解的一般问题自然语言理解的一般问题(7)7)语言学的研究理解的层次语言学的研究理解的层次句句法法分分析析:对对句句子子和和短短语语的的结结构构进进行行分分析析,找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等。
8、在在语语言言自自动动处处理理的的研研究究中中,句句法法分分析析的的研研究究是是最最为为集集中中的的,这这与与乔乔姆姆斯斯基基(ChomskyChomsky)的的贡贡献献是是分分不不开开的的。主主要要方方法法有有:短语结构语法、格语法、扩充转移网络、功能语法等。短语结构语法、格语法、扩充转移网络、功能语法等。语语法法分分析析:将将单单词词之之间间的的线线性性次次序序变变换换成成一一个个显显示示单单词词如何与其它单词相关联的结构。确定语句是否合乎语法如何与其它单词相关联的结构。确定语句是否合乎语法自然语言理解的一般问题自然语言理解的一般问题(8)8)语言学的研究理解的层次语言学的研究理解的层次语语
9、义义分分析析:通通过过分分析析找找出出词词义义,结结构构意意义义及及其其结结合合意意义义,从从而而确确定定语语言言所所表表达达的的真真正正(实实际际)含含义义或或概概念念。在在语语言言自自动动理理解解中中,语语义义越来越成为一个重要的研究内容。(尤其是对话系统)越来越成为一个重要的研究内容。(尤其是对话系统)你打我你打我我打你我打你语语用用分分析析:研研究究语语言言所所在在的的外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述语语言言的的环环境境知知识识、语语言言与与语语言言使使用用者者在在某某个个给给定定语语言言环环境境中中的的关关系。为确定真正含义,对表达的结构重新加以
10、解释。(故宫、一块)系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块)自然语言理解的一般问题自然语言理解的一般问题(9)9)研究目标研究目标建立一个足够精确的语言数学模型使计算机通过编程来建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则说翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了明该系统对语言已理解了 。自然语言理解的一般问题自然语言理解的一般问题(10)10)自然语言的层次划分及对应技术自然语言的层次划分及对应
11、技术理论理论层次结构层次结构实现技术实现技术模板匹配、基于规则模板匹配、基于规则语音语音模式匹配模式匹配基于词素、词汇基于词素、词汇词汇词汇词典结构词典结构转换生成、词汇功能语法转换生成、词汇功能语法语法语法扩扩 展展 转转 移移 网网 络络(ATN),CFATN),CF规则规则 格语法、语义基元理论、模型理论格语法、语义基元理论、模型理论语义语义产产生生式式规规则则、概概念念相相依依理理论论、脚脚本本、框框架架、语义网络、逻辑语义网络、逻辑 基于记忆的推理、语言行为理论、基于记忆的推理、语言行为理论、篇章语法篇章语法语用语用自然语言理解的一般问题自然语言理解的一般问题(11)11)应用应用机
12、器翻译或机器辅助翻译。机器翻译或机器辅助翻译。文本理解:将输入文本转换成某种数据库格式。文本理解:将输入文本转换成某种数据库格式。文文本本生生成成:根根据据用用户户需需要要以以某某种种自自然然语语言言的的方方式式输输出出储储存存在在计计算算机机内内的各种信息。的各种信息。自自然然语语言言接接口口:人人类类直直接接用用自自然然语语言言与与数数据据库库、专专家家系系统统等等进进行行人人机机交互。交互。自然语言理解的一般问题自然语言理解的一般问题(12)12)应用应用网网 络络 方方 面面:信信 息息 检检 索索(information information retrievalretrieval)
13、,提提 出出(extractionextraction),过过滤滤(filteringfiltering),分分类类(classificationclassification),汇汇总总 (summarizationsummarization)等等如如:网网上上信信息息检检索索,电电子子图图书书馆馆(digital digital librarylibrary),电电子子商商务务(e-commercee-commerce)等等例:例:和服和服|务务|于三日后裁制完毕。于三日后裁制完毕。(kimonomust)这个酒店的设施这个酒店的设施|和和|服务服务|是一流的。是一流的。(andservic
14、e)未登录词未登录词(unknownwordprocessing):如:高如:高海燕海燕(stormpetrel)自然语言理解的一般问题自然语言理解的一般问题(13)13)自然语言理解的研究大体上经历了三个 时期萌芽时期萌芽时期 发展时期发展时期 早期:60年代以关键词匹配为主流中期:70年代以句法语义分析为主流近期:80年代以来开始走向实用化和工程化大规模真实文本处理时期大规模真实文本处理时期 比较成功的系统处理都是受限的自然语言子集句法受限:句子结构的复杂性方面受到限制语义受限/领域受限:所表达的事物的数量方面受到限制自然语言理解的一般问题自然语言理解的一般问题(14)14)60年代以关键
15、词匹配为主流 特点:没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误自然语言理解的一般问题自然语言理解的一般问题(15)15)70年代句法语义分析为主流采用句法-语义分析技术典型例子LUNAR允许用普通英语和数据库对话的人机接口句法分析句法分析语义解释语义解释数据检索数据检索ATN语法语法词典词典语义规则语义规则数据库数
16、据库自然语言理解的一般问题自然语言理解的一般问题(16)16)80年代以来的实用化和工程化主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面,人们已经开始对大规模真实文本进行理解句法语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。自然语言理解的一般问题自然语言理解的一般问题(17)17)语料库语言学(corpus linguistics)语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取
17、语言理解所需的各种知识,对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。自然语言理解的一般问题自然语言理解的一般问题(18)18)在当今计算技术条件下,要想把处理自然语言所需在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的是不可能的。这既是由于这种知识的“数量数量”巨大,巨大,有时由于它们在有时由于它们在“质质”的方面高度的不确定性和模的方面高度的不确定性和模糊性。糊性。最近
18、十几年来新提出的语料库语言学,它顺应了大最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。为基础的语言学研究及自然语言处理的新思想。自然语言理解的一般问题自然语言理解的一般问题(19)19)基于语料库的处理思想能够在工程上、在宽广的语言覆盖基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。统的处理方法的一个强有了的补充。新型的智能计算机和多媒
19、体计算机均要求设计出更为友好新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。和生成能力。自然语言理解的一般问题自然语言理解的一般问题(20)20)发展快的原因:发展快的原因:计算机的发展计算机的发展:高速、统计处理。高速、统计处理。需求需求:机器人能听懂人的话,与人交谈,自动学习。机器
20、人能听懂人的话,与人交谈,自动学习。但但是是,因因为为自自然然语语言言是是开开放放集集,每每天天都都有有新新词词产产生生,用用规规则描述马上可以找出反例。则描述马上可以找出反例。所以,很难。所以,很难。本章主要内容自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理Web信息抽取词法分析词法分析(1)(1)词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由这三个部
21、分构成。词法分析词法分析(2)2)语言构成语言构成语言词汇语法词熟语句法词素词法构形法构词法词组构造法造句法词法分析词法分析(3)3)在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切
22、分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”,也可以是“我们研究所有东西”。本章主要内容自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理Web信息抽取句法分析(1)句法分析的主要任务:确定输入句子的结构:识别句子的各个成分及其之间的关系句子结构的规范化:目的是简化后续处理分析自然语言的方法主要分为两类:基于规则的方法:如短语结构语法和Chomsky语法体系 基于统计的方法短语结构语言(1)定义句子:一个符号串语言:句子的集合语法:对一个句集一种有限的形式化描述描述一般语言的方法:识别器:由
23、程序判断读入的符号串是不是一个句子短语结构语法:一种基于产生式的形式化工具,也称为产生式语法短语结构语言(2)定义:短语结构语法定义为:G(T,N,S,P)T是终结符集合,即被定义的语言的所有词 汇(或符号)N是非终结符集合,这些符号用于描述语法 成分,并不出现于句子中。则有:VTN,TN(空集),V是属于该语法的全部符号。S是起始符号,它是N中的一个成员。P是一个产生式规则集。ab(ab,aV+,bV*)短语结构语言(3)在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫重写规则一个句子的产生就是从S符号到词汇串的推导过程如果一个程序能够根据一个短语结构语法来确定一
24、个句子的推导,则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=W|WT*,S*GW短语结构语言(4)刻画语言的形式体系的强和弱递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归 短语结构语言(5)正则语法:正则语法有两种形式:左线性语法:如 A a|Ba 右线性语法:如 A a|aB可以表示如下的句子:a*b*语法例子:S a|S1|a SS1 b|b S1与有限状态机等价短语结构语言(6)上下文无关
25、语法:语法规则形式为:A x 即左边为一非终结符,右边没有限制可以表示的句子如:anbn语法例子:S a|S b S该文法应用于程序设计语言中短语结构语言(7)上下文有关语法:语法规则:规则右边的符号数不能少于左边符号数右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言:anbncn语法例子:AB BA短语结构语言(8)无约束短语结构语法:语法规则是没有限制的:左边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子:A B C短语结构语言(9)Chomsky体系无约束语法无约束语法上下文有关语法上下文有关语法上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 自然语言 理解 课件
限制150内