人工智能在自然语言处理中的应用初步研究课件.pptx
《人工智能在自然语言处理中的应用初步研究课件.pptx》由会员分享,可在线阅读,更多相关《人工智能在自然语言处理中的应用初步研究课件.pptx(139页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人工智能在自然语言处理中的应用初步研究一个项目的需求通过微信,实现以下功能:用户可以输入病情描述,了解挂号科室(即所谓“分诊”)用户可以通过过微信了解医院及及业务的基本情况(如科室分布、流程)怎么办?再如:有没有可能让电脑代替人来看论文,以节约研究者看论文的时间,以便以比较小的代价了解学术前沿?如何帮助学生解决阅读理解的问题?一、什么是人工智能人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方
2、式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。二、自然语言处理概述什么是语言?语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言词汇词熟语词素构形法 构词法语法词法句法词组构造法造句法语言的构成图1什么是自然语言理解从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。自然语言处理(NaturalLanguageProcessing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语
3、言学的交叉学科,又常被称为计算语言学。语言理解所包含的功能,即NLP的应用从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。2自然语言处理的兴起值得一提的是,自然语言处理的兴起与机器翻译这一具体任务有着密切联系。由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时,还需要翻译者了解该领域的基本知识。世界上有超过几千种语言,而仅联合国的工作语言就有六种之多。如果能够通过机器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率。3自然语言理解过程的层次语言的分析和理解
4、过程是一个层次化的过程,它主要包括如下四个层次:语音分析词法分析句法分析语义分析言语文本语音分析OCR/标记化形态变化语法分析语义解释言谈处理语音分析在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但pin,spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。语音分析传统的方法音素深度学习下的语音分析通过声音特征并将这些特征表示为向量直接来预测音素(或词语)词法分析词法分
5、析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。在英语等语言中,找出句子中的一个个词汇是一件很容易的事情,因为词与词之间是由空格来分隔的。但是要找出各个词素就复杂得多,如importable,它可以是im-port-able或import-able。这是因为im,port和import都是词素。而在汉语中要找出一个个词素则是再容易不过的事情,因为汉语中的每个字就是一个词素。(是否正确?词素是构成词的最小单位)但是要切分出各个词就远不是那么容易。如“我们研究所有东西”,可以是“我们研究所有东西”也可以是“我们研究所有东西”。
6、(这正是我们后面要讨论的重要内容:分词)中文的分词及其中存在的问题由于单词是承载语义的最小单元,要解决自然语言处理,单词的边界界定问题首当其冲。特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多一步工序,即确定词的边界,我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词。中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。思考:是否可以说:分词后的汉语与英语对计算机来讲可以看成一样的?Thisisthecompu
7、teronmydesk.这是我桌子上的电脑。或者说:NLP的很多适用于英语的是否可以直接用于分词后的汉语?通过词法分析可以从词素中获得许多语言学信息。英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works,worked,working,worker,workings,workable,workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。词法分析的传统的方法语素,例如前缀,词干,后缀等深度学
8、习下的词法分析每个语素都用向量表示神经网络用于向量的两两合并句法分析句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系,也可以是语法功能关系。句法分析的传统方法将一个短语或句子划分到多个句法标记,例如NP,VP等深度学习下的句法分析每个单词或者短语都是一个向量神经网络用于向
9、量的两两合并语义分析对于语言中的实词而言,每个词都用来称呼事物,表达概念。句子是由词组成的,句子的意义与词义是直接相关的,但也不是词义的简单相加。“我打他”和“他打我”的词是完全相同的,但表达的意义是完全相反的。因此,还应当考虑句子的结构意义。英语中aredtable(一张红色的桌子),它的结构意义是形容词在名词之前修饰名词,但在法语中却不同,onetablerouge(一张桌子红色的),形容词在被修饰的名词之后。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。语义分析的传统方法Lambda算子orLa
10、mbda演算(Lambdacalculus)非常精细的函数设计需要指定其他函数的输入没有相似性的概念或者模糊语言深度学习下的语义分析每个单词或者短语或者逻辑表达式都是一个向量神经网络用于向量的两两合并语用分析就是研究语言所在的外界环境对语言使用所产生的影响。它描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。4自然语言处理的主要困难:消歧自然语言处理的困难可以罗列出来很多,不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。这带来自然语言处理
11、的两个主要困难。其他级别的语言单位也存在着各种歧义问题。例如在短语级别上、句子级别上。总之,同样一个单词、短语或者句子有多种可能的理解,表示多种可能的语义。如果不能解决好各级语言单位的歧义问题,我们就无法正确理解语言要表达的意思。另外一个方面,消除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,合适的语言处理方法和模型难以设计。例如上下文知识的获取问题。由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是自然语言处理中的主要困难之一。再如背景知识问题。正确理解人类语言还要有足够的背景知识。自然语言处理困难的根源从上面的两个方面的主要困难,我们看到自然
12、语言处理这个难题的根源就是人类语言的复杂性和语言描述的外部世界的复杂性。5自然语言处理的应用从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。自然语言处理的应用拼写检查,关键词提取与搜索,同义词查找与替换从网页中提取有用的信息例如产品价格,日期,地址,人名或公司名等分类:例如对教科书的文本进行分级,对长文本进行正负情绪判断机器
13、翻译口语对话系统复杂的问答系统工业界中NLP的应用搜索引擎在线广告自动的或辅助的翻译技术市场营销或者金融交易领域的情感分析语音识别NLP应用:情感分析传统的方法:精选的情感词典+词袋模型(忽略词序)+人工设计的特征(很难覆盖所有的信息)深度学习:和上述词素,句法和语义相似的深度学习模型-RNNNLP应用:问答系统传统的方法:用了非常多的特征工程去获取相关的知识,例如正则表达式深度学习:和上述词素,句法,语义,情感分析相似的深度学习模型知识可以储备在向量中NLP应用:机器翻译传统的机器翻译系统是一个非常大的复杂系统可以思考一下在深度学习中中间语(interlingua)对于翻译系统是如何起作用的
14、?深度学习:源句子首先映射为向量,然后在输出的时候进行句子生成三、自然语言处理的方法目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。理性主义方法认为,人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。1基于规则的自然语言处理仅讨论句法和语义句法模式匹配和转移网络句法分析最为简单直观的方法-模式匹配。一个句
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 自然语言 处理 中的 应用 初步 研究 课件
限制150内