欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    人工智能在自然语言处理中的应用初步研究课件.pptx

    • 资源ID:69435942       资源大小:3.15MB        全文页数:139页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    人工智能在自然语言处理中的应用初步研究课件.pptx

    人工智能在自然语言处理中的应用初步研究一个项目的需求通过微信,实现以下功能:用户可以输入病情描述,了解挂号科室(即所谓“分诊”)用户可以通过过微信了解医院及及业务的基本情况(如科室分布、流程)怎么办?再如:有没有可能让电脑代替人来看论文,以节约研究者看论文的时间,以便以比较小的代价了解学术前沿?如何帮助学生解决阅读理解的问题?一、什么是人工智能人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。二、自然语言处理概述什么是语言?语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言词汇词熟语词素构形法 构词法语法词法句法词组构造法造句法语言的构成图1什么是自然语言理解从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。自然语言处理(NaturalLanguageProcessing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。语言理解所包含的功能,即NLP的应用从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。2自然语言处理的兴起值得一提的是,自然语言处理的兴起与机器翻译这一具体任务有着密切联系。由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时,还需要翻译者了解该领域的基本知识。世界上有超过几千种语言,而仅联合国的工作语言就有六种之多。如果能够通过机器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率。3自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:语音分析词法分析句法分析语义分析言语文本语音分析OCR/标记化形态变化语法分析语义解释言谈处理语音分析在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但pin,spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。语音分析传统的方法音素深度学习下的语音分析通过声音特征并将这些特征表示为向量直接来预测音素(或词语)词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。在英语等语言中,找出句子中的一个个词汇是一件很容易的事情,因为词与词之间是由空格来分隔的。但是要找出各个词素就复杂得多,如importable,它可以是im-port-able或import-able。这是因为im,port和import都是词素。而在汉语中要找出一个个词素则是再容易不过的事情,因为汉语中的每个字就是一个词素。(是否正确?词素是构成词的最小单位)但是要切分出各个词就远不是那么容易。如“我们研究所有东西”,可以是“我们研究所有东西”也可以是“我们研究所有东西”。(这正是我们后面要讨论的重要内容:分词)中文的分词及其中存在的问题由于单词是承载语义的最小单元,要解决自然语言处理,单词的边界界定问题首当其冲。特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多一步工序,即确定词的边界,我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词。中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。思考:是否可以说:分词后的汉语与英语对计算机来讲可以看成一样的?Thisisthecomputeronmydesk.这是我桌子上的电脑。或者说:NLP的很多适用于英语的是否可以直接用于分词后的汉语?通过词法分析可以从词素中获得许多语言学信息。英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works,worked,working,worker,workings,workable,workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。词法分析的传统的方法语素,例如前缀,词干,后缀等深度学习下的词法分析每个语素都用向量表示神经网络用于向量的两两合并句法分析句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系,也可以是语法功能关系。句法分析的传统方法将一个短语或句子划分到多个句法标记,例如NP,VP等深度学习下的句法分析每个单词或者短语都是一个向量神经网络用于向量的两两合并语义分析对于语言中的实词而言,每个词都用来称呼事物,表达概念。句子是由词组成的,句子的意义与词义是直接相关的,但也不是词义的简单相加。“我打他”和“他打我”的词是完全相同的,但表达的意义是完全相反的。因此,还应当考虑句子的结构意义。英语中aredtable(一张红色的桌子),它的结构意义是形容词在名词之前修饰名词,但在法语中却不同,onetablerouge(一张桌子红色的),形容词在被修饰的名词之后。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。语义分析的传统方法Lambda算子orLambda演算(Lambdacalculus)非常精细的函数设计需要指定其他函数的输入没有相似性的概念或者模糊语言深度学习下的语义分析每个单词或者短语或者逻辑表达式都是一个向量神经网络用于向量的两两合并语用分析就是研究语言所在的外界环境对语言使用所产生的影响。它描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。4自然语言处理的主要困难:消歧自然语言处理的困难可以罗列出来很多,不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。这带来自然语言处理的两个主要困难。其他级别的语言单位也存在着各种歧义问题。例如在短语级别上、句子级别上。总之,同样一个单词、短语或者句子有多种可能的理解,表示多种可能的语义。如果不能解决好各级语言单位的歧义问题,我们就无法正确理解语言要表达的意思。另外一个方面,消除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,合适的语言处理方法和模型难以设计。例如上下文知识的获取问题。由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是自然语言处理中的主要困难之一。再如背景知识问题。正确理解人类语言还要有足够的背景知识。自然语言处理困难的根源从上面的两个方面的主要困难,我们看到自然语言处理这个难题的根源就是人类语言的复杂性和语言描述的外部世界的复杂性。5自然语言处理的应用从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。自然语言处理的应用拼写检查,关键词提取与搜索,同义词查找与替换从网页中提取有用的信息例如产品价格,日期,地址,人名或公司名等分类:例如对教科书的文本进行分级,对长文本进行正负情绪判断机器翻译口语对话系统复杂的问答系统工业界中NLP的应用搜索引擎在线广告自动的或辅助的翻译技术市场营销或者金融交易领域的情感分析语音识别NLP应用:情感分析传统的方法:精选的情感词典+词袋模型(忽略词序)+人工设计的特征(很难覆盖所有的信息)深度学习:和上述词素,句法和语义相似的深度学习模型-RNNNLP应用:问答系统传统的方法:用了非常多的特征工程去获取相关的知识,例如正则表达式深度学习:和上述词素,句法,语义,情感分析相似的深度学习模型知识可以储备在向量中NLP应用:机器翻译传统的机器翻译系统是一个非常大的复杂系统可以思考一下在深度学习中中间语(interlingua)对于翻译系统是如何起作用的?深度学习:源句子首先映射为向量,然后在输出的时候进行句子生成三、自然语言处理的方法目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。理性主义方法认为,人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。1基于规则的自然语言处理仅讨论句法和语义句法模式匹配和转移网络句法分析最为简单直观的方法-模式匹配。一个句子可以表示成:(pronoun(adj*noun)verb(pronoun(adj*noun)这也可以用状态转移图来表示,称之为转移网络(TN,transitionnetwork),如图11.2所示。图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。44转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj扩充转移网络扩充转移网络ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。ATN的每个寄存器由两部分构成:句法特征寄存器句法功能寄存器名词短语(NP)的扩充转移网络ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.句子的扩充转移网络词汇功能语法(LFG)LFG用一种结构来表达特征、功能、词汇和成分的顺序。LFG对句子的描述分为两部分:直接成分结构(ConstituentStructure,简称C-Structure);功能结构(FunctionalStructure,简称F-structure)。用LFG语法对句子进行分析的过程用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);对方程式作代数变换,求出各个变量,获得功能结构F-structure。语义的解析语义解析的步骤如下:第一步确定每个词在句子中所表达的词义;第二步根据已有的背景知识来确定语义。逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“JackkissedJill”,可以用如下逻辑形式来表达:(PASTS1KISS-ACTIONAGENT(NAMEj1PERSON“Jack”)THEMENAME(NAMEj2PERSON“Jill”)句子的自动理解:简单句的理解方法为了理解一个简单句,需要做以下两方面的工作:理解语句中的每一个词。以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分成以下3个部分来进行:句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射变换。语用分析为确定真正含义,对表达的结构重新加以解释。复合句的理解方法复合句的理解,要求发现句子之间的相互关系。这种关系包括以下几种:相同的事物事物的一部分行动的一部分与行动有关的事物因果关系计划次序语言的自动生成(AutomaticGenerationofLanguage)语言生成就是把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来。语言生成是自然语言理解的一个逆过程。一般包括以下两部分:建立一种结构,以表达出需要交流的信息以适当的词汇和一定的句法规则,把要交流的信息以句子形式表达出来2自然语言处理的统计学模型研究发现,通过对大量的文本数据的自动学习和统计,能够更好地解决自然语言处理问题,如语言的自动翻译。这一思想被称为自然语言处理的统计学习模型,至今方兴未艾。自然语言处理与人工智能由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界。也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。下棋和自然语言处理是人工智能这一概念形成时人们提出的标志性的两个应用统计语言学与基于规则的理性语义的结合人们逐渐意识到,单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,两者互相补充,才能够更好、更快地进行自然语言处理。四、向量空间模型(Vectorspacemodels,VSMs)将词语表示为一个连续的词向量,并且语义接近的词语对应的词向量在空间上也是接近的。VSMs在NLP中拥有很长的历史,但是所有的方法在某种程度上都是基于一种分布式假说,该假说的思想是如果两个词的上下文(context)相同,那么这两个词所表达的语义也是一样的;换言之,两个词的语义是否相同或相似,取决于两个词的上下文内容,上下文相同表示两个词是可以等价替换的。语义词典通常使用类似Wordnet的这样的语义词典,包含有上位词(is-a)关系和同义词集语义词典存在的问题语义词典资源很棒但是可能在一些细微之处有缺失,例如这些同义词准确吗:adept,expert,good,practiced,proficient,skillful?会错过一些新词,几乎不可能做到及时更新:wicked,badass,nifty,crack,ace,wizard,genius,ninjia有一定的主观倾向需要大量的人力物力很难用来计算两个词语的相似度1词向量及其表示方式词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量就是把一个词表示成一个向量。主要有两种表示方式:one-hotrepresentation一种最简单的词向量方式是one-hotrepresentation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。这种One-hotRepresentation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。如果要编程实现的话,用Hash表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF等等算法已经很好地完成了NLP领域的各种主流任务。one-hotrepresentation的缺点(1)容易受维数灾难的困扰,尤其是将其用于DeepLearning的一些算法时;(2)不能很好地刻画词与词之间的相似性(术语好像叫做“词汇鸿沟”):任意两个词之间都是孤立的。分布式表示:DistributedRepresentation最早是Hinton于1986年提出的,可以克服one-hotrepresentation的缺点。其基本想法是直接用一个普通的向量表示一个词,这种向量一般长成这个样子:0.792,0.177,0.107,0.109,0.542,.,也就是普通的向量表示形式。维度以50维和100维比较常见。Distributionalsimilaritybasedrepresentations基于统计的分布相似通过一个词语的上下文可以学到这个词语的很多知识2词向量的获得方法当然一个词怎么表示成这么样的一个向量是要经过一番训练的,训练方法较多,word2vec是其中一种。每个词在不同的语料库和不同的训练方法下,得到的词向量可能是不一样的。使用同样的训练方法,语料对词向量有最重要的影响Garbagein,garbageout.这也是很多AI公司首先要做数据清洗的原因。由于是用向量表示,而且用较好的训练算法得到的词向量的向量一般是有空间上的意义的,也就是说,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上的词向量之间的距离度量也可以表示对应的两个词之间的“距离”。所谓两个词之间的“距离”,就是这两个词之间的语法,语义之间的相似性。3词向量的作用一个比较爽的应用方法是,得到词向量后,假如对于某个词A,想找出这个词最相似的词,这个场景对人来说都不轻松,毕竟比较主观,但是对于建立好词向量后的情况,对计算机来说,只要拿这个词的词向量跟其他词的词向量一一计算欧式距离或者cos距离,得到距离最小的那个词,就是它最相似的。4词向量应用词向量在机器翻译领域的一个应用,就是google的TomasMikolov团队开发了一种词典和术语表的自动生成技术,该技术通过向量空间,把一种语言转变成另一种语言,实验中对英语和西班牙语间的翻译准确率高达90%。这意味着什么?绝大部分翻译工作可以被机器代替。1Word2vec及其实现模型word2vec是一个典型的预测模型,用于高效地学习WordEmbedding。word2vec是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。Wordembedding就是所谓的词向量该工具提供了用于计算词的向量表示的连续的词袋和跳跃架构的有效实现。这些表示可以随后用于许多自然语言处理应用和用于进一步研究。word2vec工具将文本语料作为输入,并生成单词向量作为输出。它首先从训练文本数据构造词汇表,然后学习单词的向量表示。所得到的单词矢量文件可以用作许多自然语言处理和机器学习应用中的特征。词向量的语言学含义最近表明,词矢量反应了许多语言规律,例如矢量操作:矢量(Paris)-矢量(French)+矢量(Italy)可以得到一个矢量,它非常接近矢量(罗马);而矢量(king)-矢量(man)+矢量(woman)的结果则接近矢量(queen)。为了观察单词向量空间中的强规律性,需要在大数据集上训练模型,具有足够的向量维度。使用word2vec工具,可以在巨大的数据集(高达数百亿字)上训练模型。该工具提供了用于计算词的向量表示的连续的词袋和跳跃架构的有效实现。(见后面)这些表示可以随后用于许多自然语言处理应用和用于进一步研究。word2vec工具将文本语料作为输入,并生成单词向量作为输出。它首先从训练文本数据构造词汇表,然后学习单词的向量表示。所得到的单词矢量文件可以用作许多自然语言处理和机器学习应用中的特征。2Word2vec的应用就词本身而言,Word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路,把词当做特征,那么Word2vec就可以把特征映射到K维向量空间,可以为文本数据寻求更加深层次的特征表示。3Word2vec的应用过程一、下载语料库,整理,编码为UTF8二、合并多个文本文件为一个三、分词五、训练模型六、测试模型Word2vec开发环境(1)语料库语料库要根据应用需要来选择,语料库的质量与训练后的模型的质量有密切的关系语料库要求:数据量大(一般要G级),专业(垃圾数据少),经过清理(便于处理)例如:搜狗实验室语料库http:/

    注意事项

    本文(人工智能在自然语言处理中的应用初步研究课件.pptx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开