书签分享收藏举报版权申诉 / 38

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 基于神经网络的吟诗作对技术研究与应用.doc

基于神经网络的吟诗作对技术研究与应用.doc

上传人：温桑

文档编号：48761063

上传时间：2022-10-07

格式：DOC

页数：38

大小：2.82MB

( 4.5 )

《基于神经网络的吟诗作对技术研究与应用.doc》由会员分享，可在线阅读，更多相关《基于神经网络的吟诗作对技术研究与应用.doc（38页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、基于神经网络的吟诗作对技术研究与应用摘要自古以来，中华民族每年都有吟诗作对的传统习俗，是中国的传统文化。在吟诗作对时讲究平仄要协调，对仗要工整，朗诵起来要有很强的美感，被很多人所喜爱。如何在运用机器语言来实现这一特殊的语言形式受到了广泛的关注。因此本文便是自然语言处理方面的技术，在RNN的基础上进行“吟诗作对”的研究与应用，设计与实现了一个根据指定序列生成目标序列的模型。因此根据实际需求是一项序列的自动生成工作。通过给定的输入序列，生成输出序列。在这种情况下，有人提出了一种编码和解码的模型。编码就是将文字以根据实际情况用相等长度的向量表示，解码就是将编码的序列再进行转化。本文采用双向循环神

2、经网络进行编码，采用循环神经网络进行解码，在进行词向量处理的时候也要将上下文的关系考虑进去，同时考虑上下联对应位置的字的相关性，因此在解码阶段采用了注意力机制来完成这一规则。同时为了防止神经网络出现过拟合的情况在实验过程中加入Dropout机制，提高生成模型的效果。最后通过用静态页面的方法，输入上联经过模型自动生成下联。本文经过RNN的模型在实际应用中得到了很好的效果，自动生成的下联可以与上联的格式相同、文字相对应。关键词：循环神经网络；对联生成；dropout；注意力机制The method and application of reciting poems and composing p

3、airs based on Neural NetworkabstractSince ancient times, the Chinese nation has the traditional custom of reciting poems and composing right every year, which is the traditional culture of China. When reciting poems, we should pay attention to the coordination of the level and the tone, the alignmen

4、t should be neat, and the recitation should have a strong aesthetic feeling, which is loved by many people. How to use machine language to realize this special language form has been widely concerned. Therefore, this paper is the technology of natural language processing. On the basis of RNN, the re

5、search and application of reciting poems and making pairs is carried out, and a model of generating target sequences according to specified sequences is designed and implemented. Therefore, according to the actual needs is a sequence of automatic generation work. The output sequence is generated by

6、the given input sequence. In this case, a coding and decoding model is proposed. Encoding is to represent the text with vectors of equal length according to the actual situation. Decoding is to transform the encoded sequence again. In this paper, two-way recurrent neural network is used to code, and

7、 recurrent neural network is used to decode. In the word vector processing, the context relationship should also be taken into account, and the word correlation of the corresponding position of the upper and lower links should be considered. Therefore, attention mechanism is used to complete this ru

8、le in the decoding stage. At the same time, in order to prevent the neural network from over fitting, the dropout mechanism is added in the experimental process to improve the effect of model generation. Finally, by using the method of static page, the input uplink is automatically generated by the

9、model. In this paper, the RNN model has been applied in practice and good results have been achieved. The automatically generated lower link can be in the same format as the upper link and correspond to the text.Keywords: cyclic neural network; couplet generation; dropout; attention mechanism目录第一章绪

10、论11.1 选题背景、目的及意义11.2 国内外研究现状31.3 本文工作5第二章任务描述与数据预处理72.1任务描述72.2数据预处理8第三章基于RNN的吟诗作对方法技术93.1基础知识介绍93.1.1 标准循环神经网络93.1.2 长短时记忆网络113.1.3 双向循环神经网络123.2 Dropout机制133.3 注意力机制153.4 序列到序列模型163.4.1经典的序列到序列模型163.4.2 基于注意力机制的序列到序列模型173.5 基于序列到序列的对联自动生成实现193.5.1 输入处理203.5.2 编码阶段213.5.3 解码阶段233.6 模型训练与结果分析243.6

11、.1 模型训练243.6.2 结果分析25第四章基于吟诗作对方法的应用274.1 系统设计274.2 系统实现28总结与展望30参考文献31致谢33第一章绪论在当今世界正在迈入人工智能时代。在最开始的时候，由于智能问题的复杂性、计算机的硬件设施比较落后、数据的缺少等问题，导致了人工智能的发展缓慢。但是随着科技的发展以及大数据、神经网络的快速发展。人工智能在各个方面得到的应用有了很好的效果，并且部分已经融入到社会的生产生活当中，有的方面已经取得了惊人的成绩，甚至在某些领域有的完成了人们不能亲自做的事情。在大数据时代的来临，自然语言处理的应用到各个层面，而且它也正在尝试着学习人类的表达方式，同

12、时也让人工智能领域的发展可以得到一个很大的提升。自然语言处理主要包括先认识语言然后再学习语言这两个部分。而在中国语言生成的最具有代表意义的就是诗歌和对联，并且是各位专业学者经常作为的研究对象。1.1 选题背景、目的及意义在中国自古以来都有吟诗作对的传统文化习俗，特别是在每年的春节家家户户都会在家门口贴对联，在元宵节猜灯谜，吟诗作对一番。其中有严格的格式，要求上下联字数相等，对应位置词语关系紧密，同时在进行吟诗作对之时还需要讲究平仄协调，格式严谨，是中华民泽非常特色的艺术展现方法，很多人都喜欢。而且经过时间的熏陶，形成了比较成熟完整的体系，而且应用广泛，与人民的生活也有着十分紧密的联系，也作为社

13、会形态的一份独特的存在。对联的最早开始于秦汉时期悬挂桃符的日常生活中，五代时又让在桃符上刻字，在后蜀的时候孟旭让辛寅逊在桃符板上写一些祝福的话语。在之后一段时间在明清时代得到了非常迅速的发展，到现在也已经有了一千多年的时间了。三千年前，中国早期时代的人们开始使用对偶句了。后来在商朝和周朝这两个方面用的对偶句和后来的诗词歌赋中所用的骈俪句，都为对联的产生做了一些铺垫。随着时间的推移，到后来的朝代经过人民智慧的结晶出现了越来越严密和精准的格式要求同时也保留着一些格律诗的一部分准则。因此在很久以前人们经常在娱乐之时常用来把吟诗作对当做是文人墨客会友的一种常见的娱乐项目，以文会友。而且对联从古至今都有

14、很多的用处，从最早时候的悬挂桃符开始，来寻求平安等，后来人民就把对联的话写在了桃木板上，后来在五代朝代等以后，出现了一些对联，在每个时代来说都出现与之相对应的对联如下表1-1所示每个朝代所出现的对联形式。表1-1 每个朝代出现的对联朝代对联后蜀新年纳余庆，嘉节号长春北宋千门万户曈曈日，总把新桃换旧符明朝风格多样，种类在上表中出现的对联都有其特殊的意义在后蜀代表着当时出现的一些事件，而在北宋年间的对联则是当时过年时候所出现过年的场景。在明朝的时候则不在用之前的桃木板子了，换成了红纸，也就出现了现在的对联。而在明朝的时候朱元璋微服出巡之时让每家每户门前都加上一副对联，来进行观赏取乐，这也就出现了过

15、年贴对联的传统习俗。随着时间的推移，对联的形式和种类也多种多样，不论是在喜事还是在白事上都会出现，只不过在内容上差别很大。而且其中一种叫做楹联的不仅在国内广受关注，在国外也很受欢迎。为了让对联这种特殊的文学形式，在社会发展时代如此之快的形式之下，也需要让每一个人都能重视起来。尤其是当今大数据人工智能时代，必须通过现代的技术来实现我们传统文化的继承，在自然语言处理领域关于对联的生成问题对于我们炎黄子孙来说必须要弘扬祖国的传统文化，而且传统文化的继承问题也应该随着科技的进步而进步，让所有人都知道传统文化也可以在不同的领域的到应用与发展，因此在本文当中采用神经网络来对对联这一形式进行应用处理。因此

16、让计算机在人们生活中越来越能理解人们的语言文化艺术方面得到更好应用，体现的越来越必要。而且对联这一特殊的文化形式如果让计算机能够识别，而且通过让对联的爱好者和初学者能够更加简单方便的学习其相关的知识的话，既方便了人们的学习相关的知识，同时也对中华民族的传统文化也让更多人学习。在本文就以对联为研究，通过计算机生成训练队模型来生成对联制作可视化界面进行运用。 1.2 国内外研究现状1.2.1 基于词向量的生成方法把自然语言的问题转化为机器所能识别的问题，就需要将语言转化为2进制，让计算机能够认识这种语言。在这里，需要将字典里的每个汉字表示成一个向量。在自然语言处理中，最先出现的方式是 one-h

17、ot 方法，这种方法的向量维度是字典大小，每个字都有数据自己的向量，在它自己的向量里面只有一个数字为1，其余的数字全为0，这个1就是这个字在实际中设置的字典中的地方。举个例子，“祖”表示为0 0 1 0 0 0 .，“国”表示为0 0 0 0 0 1 . ，这种方法表示的向量非常稀疏，如果采用稀疏方式记录会非常简洁，给每个字都有自己的编号。但在实际操作的时候，这样的表达形式会出现一些问题，主要有这两个问题：（1）如果在实验中所设计的字典很大的话，计算机的计算范围有限不能进行操作。（2）字与字之间的相似性关系不能表现出来，即有“词汇鸿沟”现象。为了克服上述缺点，于是另一种词向量的表示方式产生

18、了，即 Distributed epresentation。Distributed Representation 的想法是在1986 年 Hinton 在发表的论文中有了的 1。相比于 one-hot 表示方式，Distributed representation 还能体现不同词之间的语义关联，因此在自然语言的处理上得到了广泛的应用。如果采用不同训练词向量的方法，那么所得到的结果也不同，当前来说人们常用的有word2vec和 glove。 1.2.2 基于统计机器翻译的生成方法在自然语言生成中，诗歌和对联生成在微软研究院周明等人看成是统计机器翻译Statistical Machine Tran

19、slation，SMT）问题2 3。这种方法吧诗歌和对联的翻译过程，根据前一句翻译后一句，根据给出的上联翻译下联。在用户输入上一句的时候，接着根据用户输入第一句，接着根据统计机器翻译的模型来生成第二句。实验部分，通过人工和自动两个方面对实验结果进行评估。在人为评估的话按照一定的方式方法进行评估，对于机器评估的话人们常用BLEU 4来评估。因为机器进行解码的时候不仅只考虑当前的数据，而且还会与其有关的句子进行考虑，所以用这种方法在句子的意思方面会与比较好的结果，并且不依赖于人工设计评估函数，模型通过语料进行自动学习。但在实际的生活中，人们的目标往往只有开始的一句有关，并不会考虑其他的，生成的结果

20、不能满足需求，也没有主题意思。除此之外，此系统对用户的输入也有严格的限制要求。1.2.3 基于深度学习的生成方法随着深度学习技术的出现和发展，深度学习已经融入到很多方面，如语音识别、图像处理、机器翻译等等。同样在诗歌和对联的得到了很大的成功。后来人们根据现有的神经网络进行符合实际需求的改进来满足对联的自动生成问题。其中最多的是循环神经网络的生成方法RNN-based Poem Generator，RNNPG）5、基于神经机器翻译的生成方法6（Attention based Neural Machine Translation Network ANMT）、基于规划的生成方法7（Planning

21、based Poetry Generation，PPG）、基于记忆网络的生成方法8等，这些方法对自然语言处理有很大的价值。1.2.3.1 基于循环神经网络的生成方法在2014年Zhang等人提出的基于循环神经网络生成方法RNNPG，算是比较早的将机器学习的技术应用到古代诗歌的产生上去 9。图1-1展示了RNNPG系统框图。RNNPG系统首先根据用户输入的关键词，得出第一句. RNNPG的大概生成过程是这样的当有人输入主要的词语来生成开头句，有一定的约束规范，其主要目的是确保格式是正确的，其余的则是根据已经生成的来生成后面的以此类推。RNNPG模型由三个核心部分组成：CSM、RCM和RGM。其中

22、CSM是一个基于卷积神经网络（Convolutional Neural Networks，CNN）的模块，用于提出句子特征，并生成向量。RCM是一个基于循环神经网络(Recurrent Neural Network，RNN)的模块，依照之前线索产生句子的语义向量。RGM也是神经网络的一部分，通过之前的信息和RCM的输出结果共同作用之下来产生下一个字。在实际的操作过程则需要进行加权处理来输出结果，重复生成完整的目标。图1-1 RNNPG系统框图与传统方法不同，RNNPG是一种基于深度学习的方法，它可以从训练数据中学习文本特征的动态学习不需要人工提取特征、设计规则模板和评价函数，生成诗歌效果也比较

23、高。RNNPG使诗歌的生成更加简单和灵活。RNNPG的不足在于只用重点的词语来生成的诗，主题的话只是与它相关，不受其他行的影响。在生成的过程中，主题容易漂移，诗的最终主题不明确与传统方法相比，RNNPG是一种基于深度学习的方法，它可以从训练数据中学习文本特征的动态学习不需要人工提取特征、设计规则模板和评价函数，也不需要生成诗歌这首歌唱得更好。RNNPG使诗歌的生成更加简单和灵活1.2.3.2 基于规划的生成方法Wang等人10提出一种基于规划的诗歌生成器（PPG）。该工作同样采用基于注意力机制的编码-解码框架，方法创新地将写作时运用的提纲技巧引入到机器生成问题中，在模型生成时引入规划信息大大防

24、止了主题漂移的问题。PPG方法由规划模型和生成模型组成。规划模型用于得到规划信息，过程为首先根据用户输入的文本信息获取多个关键词作为规划信息。生成模型用于生成诗歌，过程为将规划模型得到的规划信息融入到生成模型中，通过ANMT的生成方法来生成每一行诗句，直到整首诗生成完成。如图1-2所示为PPG方法生成的诗歌示例。与前面的方法相比，PPG的方法创新地将人类创作的提纲技巧引入到机器写作问题中，大大防止了主题漂移的问题，开启了基于主题的诗歌生成新篇章。尽管PPG方法取得了相当不错的结果，甚至可以与人类作诗相媲美，但是PPG方法也存在着可以改进的地方。PPG方法生成的诗歌受规划信息导向，规划信息的好

25、坏很大程度上决定诗歌生成的好坏，规划信息由多个关键词来组成，每个关键词导向着每行诗句的生成，关键词的获取大大影响着最终诗歌生成的效果，所以改进可从规划信息的获取角度考虑。其次，PPG方法亦可以从模型训练语料方面进行改进，联合其他任务对语料进行扩充，引入其他外界信息，如此可以增强模型的泛化能力，提高表现结果。图1-2 PPG 方法生成的诗歌示例1.3 本文工作1.3.1 本文主要内容在本文当中主要是针对神经网络自动生成对联训练的模型进行设计和实现。按照模型生成的相关工作在本文中需要做了很多相关的工作，首先我们在进行模型建立之前，需要获得大量的数据，因此在本文中通过在对联和诗歌的相关网站下载足够的

26、数量，如果只严格按照对联的进行下载的话数据量不能满足本文的需求，而且诗歌的格式与内容上有很多的相似之处，因此可以下载一些作为训练的数据。然后通过采用序列到序列的模型进行模型的构建，在编码阶段采用的双向循环神经网络，因为对联这种特殊的格式下联的生成结果不仅与上下文相关，而且与上联相应位置的字相对应。而在解码阶段根据对联的实际要求采用的单向循环神经网络。通过生成的模型在本文中用HTML设计前台的界面，然后用FLASk框架设计后台，编写接口进行模型效果的展示。经过设计与验证之后，通过生成的对联与上联进行比对按照对联平仄押韵的格式进行评测，本文中的模型效果十分好。1.3.1 论文结构安排在本文内容的安

27、排上，一共分为五章。第一章：绪论。首先介绍了对联从古至今对人们的重要意义以及现在人们关于自动生成对联的关注情况，然后介绍词向量的相关内容，然后根据当今神经网络的发展在对联生成的应用，最后介绍本文的论文组织结构。第二章：任务描述与数据预处理。本章主要介绍的是在实现模型的所需的工作包括数据的选择，神经网络如何选择，以及模型的搭建以及模型检验。还有数据的预处理过程。第三章：基于RNN吟诗作对的方法。本章介绍相关理论知识的详细介绍，以及模型实现的过程。第四章：基于吟诗作对方法的应用。本章主要介绍的是演示系统的设计和功能的介绍，还有演示系统的实现自己测试的结果。总结与展望：对实验中创建的模型进行概括，有

28、一些不足的地方提出来，并且对今后的预想提出来。第二章任务描述与数据预处理本章节主要是对本文在实验过程中所需要完成的任务的详细介绍和本文建立的模型进行数据预处理的过程。2.1 任务描述对联作为中华民族的文化瑰宝，在很多中国的传统礼仪上都是不可缺少的一部分，而且在近年来在自然语言处理领域受到人们的关注。本文基于RNN的吟诗作对研究与应用的基础上设计并实现了通过用户输入上联通过模型自动生成下联的任务，主要是以下几个方面。1）获取训练集的建立。本文所设计并实现的吟诗作对模型，根据上联生成与之对应的下联，那么首先的任务需要相应的数量的对联，来建立数据集。本文所需要的数据集来源于对联网站的数据，将这些数

29、据下载下来保存到本地，然后其格是每一行代表着的是对联的上联或者是对联的下联。在下载的数据当中也有一些诗歌的一部分内容，诗歌的格式与对联的内容要求有很多的相似之处，这样的话可以获得大量的数据使得模型更加可靠。当数据集下载完成之后，我们根据实际的需求需要训练词向量，为了不使用分词的方法，直接进行词向量的训练，本文中将获取的9130个汉字每个字作为一行放入到文件里面。这样的话可以直接训练。2）吟诗作对模型的建立。本文是在RNN的基础上，因为对联这种特殊的格式要求因此在本文中采用的是双向循环神经网络，框架的选择当然是当前比较热门的框架编码-解码模型（Encode-Decode）来设计实现的。本文在编码

30、-解码的模型上进行进一步的设计使得更加符合实际需求，具体的网络选择在实际的模型生成上根据实际的情况进行选择，依次在编码阶段采用双向循环神经网络来进行编码使得对联这样特殊形式的关联性得到很好地体现，在解码阶段则采用的是单向循环神经网络并且加入注意力机制来增强模型的实际效果。3）应用系统的实现。本文采用通过输入上联自动生成下联的模式，采用的python的Flask框架来进行设计，在前台用的Html的技术制作的静态页面让用户通过已有的上联进行输入处理，点击生成按钮将上联的数据上传到模型中去然后进行展示结果。2.2 数据预处理本论文的数据来源主要为各个对联网站、论坛的数据，对联的内容丰富，包括了各种风

31、格，另外的是来源于古代的诗词歌赋，从诗词中截取格式内容与对联相符合的部分作为本文的数据来源，虽然古诗和对联的格式并非完全一致，但是作为本文的训练数据还是可以的，在本文中对联和诗词共计770491条数据。将收集到的对联数据分为训练集和测试集。本文收集得到的数据，在实际的收集过程中就进行了一下预处理，把收集过来的数据一行只有一句话，这一句话不是对联的上联，就是对联的下联，每个字之间也有一定的间隔，每个字就是一个独立的词，这样的话就不需要进行分词了。本文下载的数据按照每一行进行排版，虽然不需要进行分词的处理，但是计算机无法直接识别因此需要将数据转化为计算机可以识别的二进制序列，因此本文需要训练词向

32、量，首先需要准备一个词典用来训练词向量。在本文中采用word2vec的方法进行训练词向量，当然在进行训练之前需要进项构建一个词典，本文在网上下载的9130个字就作为本文的词典。并且每一个字就作为一行因此无需进行分词处理，直接进行词向量的训练。关于word2vec词向量的原理是将每一次选一行进行扫描。将生成一个向量，其中每个字中只有一个值为1，其余的全为0.在之前的文章中提到过例子。而对于Word2vec模型其实就是简化的神经网络，区别就在于它的隐藏层没有激活函数，也就是常说的线性单元。输入层和输出层都是采用的Softmax回归函数。第三章基于RNN的吟诗作对方法技术3.1 基础知识介绍本文

33、属于自然语言处理的问题，采用的技术也是神经网络的内容。在20世纪末，随着神经网络的发展出现的循环神经网络，并且已经广泛的应用到文本分类、文本生成、智能语音识别、自动摘要等领域，并且都取得了很好的效果。特别是本文采用的序列到序列模型，本模型是在2014年谷歌公司提出来的，自从提出以来在机器翻译、文本生成等领域都取得了很大的进步。在今后的深度学习中包含了诸多及技术的都在有了很大的发展。本章主要是对研究的相关技术做介绍，依次介绍循环神经网络、Dropout、注意力机制、序列到序列模型。3.1.1 标准循环神经网络标准循环神经网络（RNN）是Saratha Sathasivam在半个世纪以前提出的霍普

34、尔德网络11。但是在它刚刚出现的时候并没有得到很好的应用，但是在最近几年得到了广泛的应用，因为GPU的出现提高了学习效率和神经网络的不断发展取得了很大的进步。特别是RNN在处理序列得到了非常好的效果，使得它在自然语言领域取得了非常好的成果，在各个方面都得到了很好的应用。传统的神经网络模型中的三个层，在输入和隐藏之间是全连接的，同样在隐藏和输出之间也是这样的，在每一层的所有节点，他们之间没有连接，都是属于自己的独立个体。这是最简单的全连接神经网络，其特点是结构简单非常清晰，但是有很多问题不能够应用到。比如用这个网络进行预测一个词之后的下一个词，显然这种不能够满足需求，而对于这种关系可以采用RNN

35、来解决这个问题。实际上，由于RNN的结构特点就是来处理序列数据的。图2-1 传统神经网络图2-2 循环神经网络RNN之说以说是循环的，是因为序列的当前的输出结果与之前的输出结果有关，在网络结构中最明显的特征就是隐藏层节点之间的连接，隐藏层的输入由输入层和上一时刻隐藏层的输出组成，简单来说就是保留一部分前面的信息，并把这些信息用于当前的计算中去。虽说，RNN能够处理不同长度的序列，但是如果序列太长的话，而且没有选择保留的话会让模型非常的不好，而且效果也不好，所以一般只假设当前状态只与它之前若干个状态相关。图2-3 RNN折叠结构图图2-4 RNN展开结构图从图2-4RNN展开结构图可以看

36、出，当前的输入来源由2个部分组成，一部分上一时刻的隐藏层的输出，另外的就是正在输入的，也就是说隐藏层的节点与多种连接方式可以进行，这个的输出结果也是一会将要进行的隐藏单元的输出。在某一时刻输出的结果会反过来到隐藏单元，这就是所谓的反向传播。如果将RNN展开成一个全连接的神经网络，句子的长度就是展开的网络的层数，每一层就代表着一个字。RNN网络的计算过程如下：1）表示第 t 步的输入，是一个词的向量表示形式。2）为隐藏层的当前时刻的状态，是用来记忆的单元，它的计算是依靠之前一步的隐藏层和输入层的结果来进行的公式是=f(+) (2.1)这里 f 是非线性的激活函数，一般是 ReLU12或 tan

37、h，在计算 s0的时候，由于它没有上一步的隐藏层状态，一般取 0 向量。3) 是第 t 步的输出，=softmax() (2.2)3.1.2 长短时记忆网络长短时记忆网络（Long Short Term Memory，LSTM）的设计专门用于解决RNN的长期依赖问题，而RNN能被成功应用的关键就是LSTM13。LSTM是由Hochreiter和Schmidhuber于1997年提出的，它是一种特别的循环体结构14。LSTM和RNN主要区别在于隐藏层，LSTM的隐藏层比RNN更为复杂，用来解决长期依赖问题。LSTM的隐藏层与普通的网络有一点不同，就是遗忘门的应用。 LSTM的门结构让细胞单元有选

38、择的记忆之前的信息，从而来改变当前的输出状态。该网络的门用的方法是sigmoid和按位相乘的过程，这样做的目的主要是选择，简单来说就是选择多少信息的问题。而对于sigmoid它只有0和1，前者是拒绝通过，后者是可以通过。图2-5 LSTM模型结构示意图LSTM通过门结构解决RNN梯度消失和梯度爆炸问题，让每个细胞单元保存有用的历史信息，解决了长期依赖的问题。如图2-5LSTM模型结构示意图，其工作原理：1）决定从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门的层完成。该门会读取h_(t-1)和，结果会在0到 1之间，给每个在细胞状态C_(t-1)中的数字。1 表示留下来，0表示不要。=(,

39、+) (2.3)2)决定让多少信息加入到cell状态中来,其中分为两步:一是sigmoid层决定哪些信息需要更新；一个tanh层生成一个新的结果，这个结果作为候选作为可能更新的那一部分，然后将这两个部分整合到一起，产生一个新的细胞状态。= (*h(t-1),+) 2.4) (2.5)上面两个门，“遗忘门”和“输入门”已经选择好了留下来的东西，神魔东西要放弃，这时就要在cell state上进行操作了： (2.6)3)根据sigmoid层所给出的信息得到结果，将结果通过tanh操作过之后并和sigmod门的结果相乘，得到目标： = (*h(t-1),+) (2.7) (2.8)3.1.3 双向循

40、环神经网络在一个方向的循环神经网络，一般来讲隐藏层的状态都是从前向后的，通过之前得结果来影响之后的结果。但是，在有些时候并不能满足一些输出的信息不仅仅要与历史信息相关还要与未来的信息相关，此时的单向循环神经网络已经不能够满足目标需求，因此在本文就要采取双向循环神经网络。双向神经网络是由两个单向的循环神经网络叠加而成的神经网络，一个从前面到后面进行传递一个从后面向前面进行传递，两个相反方向的传递将之前的信息和后来的信息集中到当前的输出来。如图2-6所示的双向循环神经网络结构图。图2-6 双向循环神经网络结构图双向循环神经网络在每时每刻都是由两个相反方向的单向循环神经网络进行传入，每一个的单向循环

41、神经网络都会有一个结果，一个从前向后传递的信息代表着历史的信息，从后向前传代表着未来的信息，将两个信息进行合并作为双向循环神经网络最后的输出。双向循环神经网络可以由标准的循环网络，也可以是长短时记忆网络。双向标准循环神经网络的隐藏输出计算过程可以表示如下：前=RNN() (2.9)后=RNN() (2.10) = (2.11)双向长短时记忆循环神经网络的隐藏层计算过程可以表示如下：前=LSTM() (2.12)后=LSTM() (2.13) = (2.14)3.2 Dropout机制Dropout在神经网络中广泛的应用，它是由Hinton等人提出来的15 。这个机制提出来的目的主要是在机器学习

42、的时候有时候设置的参数太多了，而且实验中没有那么多的数据可以用来训练，这样的出来的结果有很大的可能会出现过拟合的现象。尔而过拟合讲的就是模型的损失函数非常的小，而且准确率也是非常的高，但是当用测试集去测试时，这时候损失函数变得非常的大，这样生成的模型是无法使用的。而且过拟合对于机器学习来说，这是非常常见的一种毛病。在这个时候就需要阻止这种情况的发生。这就是Dropout发挥作用的时候了，它主要是不让特征检测器一起发挥作用的，以此来提高网络的效果。在实际的应用中，通过减少一半的特征检测器，来减少可能出现的过拟合。加入Dropout这种机制减少网络中隐藏层节点的相互作用，达到很好的效果。Dropo

43、ut用简单的话说就是，在神经网络中正向进行的时候，当某一个神经元达到一定的值就停下来，不在继续。这样的话让生成的模型能满足绝大多数的要求，不会过分依赖部分的内容如图2-7所示。（a）原始神经网络（b）Dropout后神经网络图2-7 Dropout机制示意图Dropout在实际中的工作，如果要用到这样一个神经网络，如图2-8所示.图2-8 标准的神经网络输入一个x得到的结果是y，一般来说过程是这样的：把x在网络中正向传出去，然后把得到的误差结果反向传到网络中进行学习，让后让网络进行学习使用Dropout之后，过程变成如下：1）首先选择网络中一般的隐藏神经单元让这些单元不工作，当然输入和输

44、出是不用改变的（图2-9中那些虚线部分是不让工作的神经元）图2-9 部分临时删除的神经元2）经过x训练过之后调整过之后的网络继续向前进行，把得到的损失结果在修改后的网络反过来传。当一定数据训练完毕之后，在剩余的神经元上按照随机下降进行更新参数（w,b）。3）接下来就是重复以下过程：将不工作的神经元进行恢复，这时候工作的神经元已经有了新的状态。然后继续从隐藏层选择一般进行不工作，选择完毕之后同样选一批数据进行训练，训练之后更新。3.3 注意力机制注意力机制一开始来说来源于人们的视觉。简单说，当人看东西的时候不会全部都看，会选择自己好奇或者感兴趣的那一部分，如果这个东西是移动着的时候，人们对目光也

45、会随着这个东西进行转移，这也就是说不同的人即使是在同一个地方，他们所关注的内容也是不同的。举一个简单的例子来说，当人们在说一件事情的时候，通常或说道一些东西或者人物，这时相关性会不断的改变，同时话题也会有所改变。正如上边说的这种情形，注意力机制有两种方向，一个是空间注意力，一个是时间注意力。加入注意力机制的动机有以下两个方面：1）序列输入时，如果序列在不断的增加，这时候不仅计算机无法承受其过长的序列，而且模型的表现效果也会越来越差，这就是模型设计时存在的缺陷，而且不会会根据实际的情况进行改变，整个模型的效果也会下降。2）编解码器的结构没有办法进行合理的工作，后续的工作无法进行。Attenti

46、on机制首先会让编码器的结果进行有规则的展示出来，如果用集合c=,表示，如果在集合当中的每个元素都代表着某个时刻的输入信息的话，输出结果就是当前的时刻，某个上下文分别表示对应的注意力，在经过softmax得到最后的得分。Attention机制的另外一种模型Soft attention机制的作用主要是给上下文的信息进行评分，它的作用就像是在解码前的预处理作用就是告诉编码器那些内容比较重要，这也就是注意力机制的具体含义。这个就能很好的体现注意机制的内容了。Soft的意思是，这个模型所打的分数是通过softmax进行归一化，最后让每一个输入的上下文表示上对应的权重和为1.Attention的出现就是

47、为了两个目的：1. 对计算机而言，能够减少数据的计算负担，把数据的维度降下去。2.更有效的保留最有效的数据提高结果的质量。而对于注意力机制的应用而言，他主要用于解码器的类型，学习到一些关联度比较强的数据，从而更好的掌握这种关系，让实验中的模型更加符合实际的需求，同时也能将一些注意不到的，关联性比较强的隐藏关系找到，这样的效果会更好。正是由于注意力机制的优势让很多问题的解决显得非常高效。 3.4 序列到序列模型3.4.1经典的序列到序列模型序列到序列模型（seq2seq）也就是人们说的编码-解码模型，这个模型的提出是谷歌公司在Sequence to sequence learning with neural networks中提出16。序列到序列模型提出以来在深度学习领域获得了很大的影响。该模型被广泛的应用到机器翻译、文本生成、

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于神经网络吟诗作对技术研究应用

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于神经网络的吟诗作对技术研究与应用.doc
链接地址：https://www.taowenge.com/p-48761063.html