NLP全书电子教案正本书课件全套ppt最全教学教程电子讲义.pptx
《NLP全书电子教案正本书课件全套ppt最全教学教程电子讲义.pptx》由会员分享,可在线阅读,更多相关《NLP全书电子教案正本书课件全套ppt最全教学教程电子讲义.pptx(501页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1NLP基本流程基本流程目录自然语言处理概述自然语言处理概述2NLP的开发环境的开发环境3自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,并且区别于人工语言(如计算机程序)的语言。自然语言处理概述自然语言处理概述自然语言处理(NLP)是一门以计算机为工具,对书面或口头形式的语言进行各种处理和加工的技术,同时也是研究人与人交际中以及人与计算机交际中语言问题的一门科学。NLP是计算机科学领域以及人工智能领域的一个重要的研究方向,是一门融语言学、计算机科学、数学、统计
2、学于一体的科学。自然语言处理自然语言处理概述NLP的发展大致经历了3个阶段。1956年以前的萌芽期1980年1999年的快速发展期21世纪的突飞猛进期图灵测试(TuringTest):让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。NLP的发展历程的发展历程二十世纪40年代到50年代之间,在美国还有两个人在进行着重要的研究工作。乔姆斯基乔姆斯基:他的主要工作为对形式语言的研究。香农:香农:他的主要工作是基于概率和信息论模型的研究。香农的信息论在概率统计的基础上对语言和计算机语言进行研究。1956年,乔姆斯基提出了上下文无关语法,并将它运用到NLP中。他们的
3、工作直接引起了基于规则和基于概率这两种不同的NLP技术的产生。而这两种不同的NLP方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。NLP的发展历程的发展历程1.萌芽期(萌芽期(1956年以前)年以前)1970年以后统计语言学家的出现使得自然语言处理重获新生,并取得了非凡的成就。采用基于统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。基于统计方法的分词。统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多(概率越大),就证明这段相连的字很有可能就是
4、一个词。例如中文分词:“自然语言处理的基本概念”(自然语言处理的基本概念)。NLP的发展历程的发展历程2.发展期(发展期(1980年年1999年)年)20世纪世纪90年代中期年代中期,有两件事从根本上促进了自然语言处理研究的复苏与发展。20世纪90年代中期以来,计算机的运行速度和存储量大幅增加,为自然语言处理改善了物质基础,使得语音和语言处理的商品化开发成为可能;1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。从从20世纪世纪90年代末到年代末到21世纪初世纪初,人们逐渐认识到,仅用基于规则或统计的方法是无法成功进行自然语言处理的。基
5、于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合,自然语言处理的研究再次繁荣。90年代后年代后,基于统计的自然语言处理开始大放异彩。首先是在机器翻译领域取得了突破,因为引入了许多基于语料库的方法。1990年在芬兰赫尔辛基举办的第13届国际计算语言学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,研究的重心开始转向大规模真实文本了,传统的基于规则的自然语言处理显然力不从心了。NLP的发展历程的发展历程21世纪之后世纪之后,自然语言处理又有了突飞猛进的变化。2006年,以Hinton为首的几位科学家历经近20年的努力,终于成功设计出第一个多层神经网络算法
6、一一深度学习。这是一种将原始数据通过一些简单但是非线性的模型转变成更高层次、更加抽象表达的特征学习方法,一定程度上解决了人类处理“抽象概念”这个亘古难题。深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果,相关术也被成功应用于商业化平台中。NLP的发展历程的发展历程3.繁荣繁荣期(期(2000年至今)年至今)NLP研究内容包括很多的分支领域,NLP研究内容包括很多的分支领域,如文本分类、信息抽取、信息检索、信息过滤、自动文摘、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法和语法)、舆情分析、自动校对、语音识别
7、与合成等。部分NLP分支领域的介绍如下。机器翻译:计算机具备将一种语言翻译成另一种语言的能力。情感分析:计算机能够判断用户评论是否积极。智能问答:计算机能够正确回答输入的问题。文摘生成:计算机能够准确归纳、总结并产生文本摘要。文本分类:计算机能够采集各种文章,进行主题分析,从而进行自动分类。舆情分析:计算机能够判断目前舆论的导向。知识图谱:知识点相互连接而成的语义网络。NLP研究内容研究内容机器翻译又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。机器翻译是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。机器翻译是自然语言处理中最为人所熟知的场景,国
8、内外有很多比较成熟的机器翻译产品,如百度翻译等,还有提供支持语音输入的多国语言互译的产品(比如科大讯飞就出了一款翻译机)。NLP研究内容研究内容1.机器翻译机器翻译 信息检索又称情报检索,是利用计算机系统从海量文档中找到符合用户需要的相关信息。狭义的信息检索狭义的信息检索:仅指信息查询。广义的信息检索广义的信息检索:是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。NLP研究内容研究内容2.信息检索信息检索文本分类又称文档分类或信息分类,其目的是利用计算机系统对大量的文档按照一定的标准进行分类,该技术拥有广泛的用途,例如垃圾短信分类问题。
9、垃圾短信分类,如下表。NLP研究内容研究内容3.文本分类文本分类编号编号是否为广告是否为广告具体文本信息具体文本信息10商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一21南口阿玛施新春第一批限量春装到店啦春暖花开淑女裙、冰蓝色公主衫 气质粉小西装、冰丝女王长半裙、30带给我们大常州一场壮观的视觉盛宴40有原因不明的泌尿系统结石等5023年从盐城拉回来的麻麻的嫁妆60感到自减肥、跳减肥健美操、智能问答是指问答系统能以一问一答的形式,正确回答用户提出的问题。在一些电商网站有非常实际的价值,比如代替人工充当客服角色,有很多基本而且重复的问题,其实并不需要人工客服来解决,通过智能问答系统可
10、以筛选掉大量重复的问题,使得人工座席能更好地服务客户。NLP研究内容研究内容4.智能问答智能问答信息过滤是指信息过滤系统对网站信息发布、公众信息公开申请和网站留言等内容实现提交时的自动过滤处理。如发现谩骂、诽谤等非法言论或有害信息时可以实现自动过滤,并给用户友好的提示,同时向管理员提交报告。信息过滤技术目前主要用于信息安全防护、网络内容管理等。NLP研究内容研究内容5.信息过滤信息过滤文摘是指能够全面准确地反映某一文献中心内容的简单连贯的短文,自动文摘则是指利用计算机自动地从原始文献中提取文摘。互联网每天都会产生大量的文本数据,文摘是文本的主要内容,用户想查询和了解关注的话题需要花费大量时间和
11、精力进行选择和阅读,单靠人工进行文摘是很难实现的。为了应对这种状况,学术界尝试使用计算机技术实现对文献的自动处理。自动文摘主要应用于Web搜索引擎、问答系统的知识融合和舆情监督系统的热点与专题追踪。NLP研究内容研究内容6.自动文摘自动文摘信息抽取是指从文本中抽取出特定的事件或事实信息。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息,如时间、地点、事件制造者、受害人、袭击目标、伤亡人数等。信息抽取与信息检索有着密切的关系,信息抽取系统通常以信息检索系统的输出作为输入,并且信息抽取技术可以用于提高信息检索的性能。NLP研究内容研究内容7.信息信息抽取抽取舆情分析是指根据特定问题的需要,对舆情
12、进行深层次的思维加工和分析研究,得到相关结论的过程舆情分析是一项十分复杂、涉及问题众多的综合性技术,同时也涉及网络文本挖掘、观点挖掘等各方面的问题。舆情分析可以帮助分析哪些话题是目前的热点,分析传播路径以及发展趋势,对于不好的與论导向可以进行有效的控制。NLP研究内容研究内容8.舆情分析舆情分析语音识别又称自动语音识别,是指对输入计算机的语音信号进行识别并转换成书面语言表示出来。语音识别技术所涉及的领域众多,其中包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。NLP研究内容研究内容9.语音识别语音识别自动校对是对文字拼写、用词、语法或文档格式等进行自动检查、校对和编排的
13、过程。电子信息的形成可通过多种途径,最通常的方法是用键盘输入,因而不免会造成一些输入错误,由此产生了利用计算机进行文本自动校对的研究。自动校对系统可应用于报刊、出版社、打字业等需要进行文本校对的行业。NLP研究内容研究内容10.自动校队自动校队NLP不仅是一种新兴的商业技术,更是一种广泛使用的流行技术。几乎所有涉及语言的功能都包含NLP算法。NLP在人们的日常生活中有广泛的应用,常见应用场景如下。百度翻译图灵机器人微信语音转文字新闻分类NLP的几个应用场景的几个应用场景百度翻译是百度公司发布的在线翻译服务,其依托互联网数据资源和NLP技术的优势,致力于帮助用户跨越语言鸿沟,方便快捷地获取信息和
14、服务。百度翻译是一款比较成熟的机器翻译产品,百度翻译如下图所示。NLP的几个应用场景的几个应用场景1.百度翻译百度翻译图灵机器人是以语义技术为核心驱动力的人工智能产品,其三大核心功能之一就是智能问答。图灵机器人提供超过了500种实用生活服务技能,涵盖生活、出行、学习、金融、购物等多个领域,能提供一站式服务满足用户的需求。NLP的几个应用场景的几个应用场景2.图灵机器人图灵机器人微信中有一种将语音转化成文字的功能,其中的原理就是利用NLP、语音识别等技术,在基于语言模型和声学模型的转写引擎下,将持续语流转写成文字。此技术的好处之一是方便快速阅读和理解,另一好处是可以方便对内容的二次推广以及多次利
15、用。成年人正常的语速为160字/分钟,语速比绝大多数人打字的速度都快,微信语音转文字功能的加入,可以极大地节省时间,提高工作效率。NLP的几个应用场景的几个应用场景3.微信语音转文字微信语音转文字网络中存在越来越多的新闻信息积累,传统的手工新闻分类存在耗费大量人力和物力等诸多的弊端。为了提高新闻分类的准确率和速度,新闻自动分类成为了发展方向。新闻分类有助于实现新闻的有序化管理,并对新闻进行挖掘分析。百度就实现了新闻的分类,它涵盖了军事、财经、娱乐、游戏等多个分类,可以实现每隔一段时间自动获取更新,自动分类等操作,百度新闻分类如下图所示。NLP的几个应用场景的几个应用场景4.新闻分类新闻分类NL
16、P是人工智能研究的一个子领域,也是人工智能中最为困难的问题之一。人工智能技术即是让机器能够像人类一样自动化完成智能任务的技术,其关键点在于智能和自动化。NLP与人工智能技术人工智能在1955年达特茅斯特会议上被提出,而后人工智能先后经历了三次浪潮。20世纪70年代第一次AI浪潮泡沫破灭之后,相关研究者转而研究机器学习、数据挖掘、NLP等各个方向。1990年AI迎来第二次黄金时代,但是随着第五代计算机研制的失败,人工智能再次进入沉寂期。2008年左右,由于数据量的大幅度增长和计算力的大幅度提升,深度学习开始引领人工智能进入第三波浪潮。深度学习引入到NLP领域中,在机器翻译、问答系统、自动摘要等方
17、向取得成功。NLP与人工智能技术与人工智能技术1.人工智能发展历程人工智能发展历程深度学习可以在NLP中取得这样的成绩主要归结为两点。海量的数据。海量的数据。经过之前互联网的发展,积累了足够多的数据可以用于学习。当数据量增大之后,以支持向量机(SVM)、条件随机场(CRF)为代表的传统浅层模型,无法对海量数据中的高维非线性映射做建模。以循环神经网络(RNN)为代表的深度模型,可以随着模型复杂度的增大而增强,更好贴近数据的本质映射关系,达到更优的效果。深度学习算法的革新。深度学习算法的革新。一方面,深度学习的word2vec的出现,可以将词表示为更加低维的向量空间,相对于one-hot方式,这既
18、缓解了语义鸿沟问题,又降低了输入特征的维度,从而降低了输入层的维度,另一方面,深度学习模型非常灵活,使得之前的很多任务,可以使用端到端的方式进行训练,提升了性能。NLP与人工智能技术与人工智能技术2.深度学习与深度学习与NLPNLP在过去几十年的发展中,从基于简单的规则方法到基于统计学方法,再到现在的基于深度学习神经网络的方法,技术越来越成熟,在很多领域都取得了巨大的成就。展望未来十年,随着数据的积累、云计算、芯片技术发展以及人工智能技术的发展等,自然语言必将越来越贴近人工智能。除此之外,随着人工智能各领域的研究细化,跨领域的研究整合将是未来的发展方向。可预见的是NLP将会和计算机视觉、听觉、
19、触觉等领域高度融合,反映在人工智能技术上就是语音识别和图像识别,达到包含语言、知识和推理的真正意义上的智能。NLP研究与应用已经取得较为丰硕的成果,但同时也面临着许多新的挑战。实际上对于NLP的很多问题,人类本身也不能达到非常准确、满意的解决。并不是不允许人们对某项技术提出更高的要求和希望,重要的是应该如何建立有效的理论模型和实现方法,这也是NLP这门学科所面临的问题和挑战。NLP与人工智能技术NLP的发展已经进入了繁荣期,各行各业越来越多涉及NLP,使得NLP的学习成为了一种迫切的需要。由于自然语言的复杂性和多变性使得对于NLP的学习变得困难,具体面对的困难如下。多学科场景的困难。多学科场景
20、的困难。NLP是一门融语言学、计算机科学、数学、统计学于一体的交叉学科,语言的多样性多变性以及歧义性给NLP的学习带来了困难。理论学习的困难。理论学习的困难。NLP运用了多种复杂难懂的数学模型、例如概率图模型、隐马尔可夫过程(HMM)、最大熵模型、条件随机场模型(CRF)等,这些理论的理解对初学者来说有一定的难度。语料的困难。语料的困难。在NLP的实际项目中,通常要使用大量的语言数据或者语料,对应初学者来说,获取这些语料是比较困难的。学习学习NLP的困难的困难1NLP基本流程基本流程目录自然语言处理概述自然语言处理概述2NLP的开发环境的开发环境3中文NLP流程和英文相比有一些特殊性,主要表现
21、在文本预处理环节。首先,中文文本是没有像英文的单词空格那样隔开,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。一般需要用分词算法完成分词。其次,中文的编码不是utf-8,而是unicode,在预处理的时候,需要处理编码的问题。这两点构成了中文相比英文的一些不同点。中文NLP流程由语料获取、语料预处理、文本向量化、模型构建、模型训练和模型评价6部分组成。NLP基本流程基本流程在NLP之前,需要得到文本语料。文本语料的获取一般有下面几种方法。利用已经建好的数据集,或第三方语料库,这样可以省去很多处理成本。获取网上数据。很多时候所要解决的是某种特定领域的应用,仅靠开放语料库经常无法
22、满足需求,这就需要用爬虫技术去获取需要的信息。制定数据搜集策略来搜集数据。可以通过制定数据搜集策略,从业务的角度来搜集所需要的数据。与第三方的合作获取数据。通过购买的方式满足部分需求文本数据。语料获取语料获取获取语料后还需要对语料进行预处理,常见的语料预处理如下。去除数据中非文本部分。去除数据中非文本部分。大多数情况下,获取的文本数据存在很多无用的部分,如爬取来的一些html代码、css标签和不需要用的标点符号等,这些都需要分步骤去除。少量的非文本内容可以直接用Python的正则表达式删除,复杂的非文本内容可以通过Python的一个库BeautifulSoup去除。中文分词。中文分词。中文文本
23、没有像英文单词空格那样隔开的,因此不能直接像英文一样可以直接用空格和标点符号完成分词。中文文本一般需要用分词算法完成分词。常用的中文分词软件有很多,如jieba、FoolNLTK、HanLP、THULAC、NLPIR、LTP等,本书使用jieba库为分词工具。jieba库是使用Python语言编写的,其安装步骤很简单,使用pipinstalljieba命令即可完成。词性标注。词性标注。给词语标上词类标签,比如名词、动词、形容词等,常用的词性标注方法有基于规则的、基于统计的算法等。去停用词。去停用词。停用词就是句子中没必要的单词,去掉停用词对理解整个句子的语义没有影响。中文文本中存在大量的虚词、
24、代词或者没有特定含义的动词、名词,在文本分析的时候需要去掉。语料预处理料预处理数据处理经过除去数据中非文本部分、中文分词和去停用词,基本上是干净的文本了。但是无法直接把文本用于任务计算,需要通过某些处理手段,预先将文本量化为特征向量。一般可以调用一些模型来对的文本进行处理,常用的模型有五个。词袋模型(BagofWords)one-hot表示TF-IDF表示n元语法(n-gram)模型Word2vec模型。文本向量化文本向量化文本向量化后,根据文本分析的需求进行模型构建。过于复杂的模型往往反而不是最优的选择。模型的复杂度与模型训练时间呈现正相关,模型复杂度越高,模型训练时间往往也越长,而结果的精
25、度可能与简单的模型相差无几。自然语言处理中的使用的模型包括机器学习和深度学习两种。常用的有机器学习模型有KNN、SVM、NaiveBayes、决策树、K-means等。深度学习模型有RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN等。模型构建模型构建构建模型完成后,则进行模型训练,其中包括了模型微调等。在模型训练的过程中要注意两个问题。一个为在训练集上表现很好,但在测试集上表现很差的过拟合问题。另一个为模型不能很好地拟合数据的欠拟合问题。同时,也要防止出现梯度消失和梯度爆炸问题。仅训练一次的模型往往无法达到理想的精度与效果,需要进行模型调优迭代,提升模型的效果。模型调
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NLP 全书 电子 教案 正本 课件 全套 ppt 教学 教程 讲义
限制150内