基于神经网络的吟诗作对技术研究与应用.doc





《基于神经网络的吟诗作对技术研究与应用.doc》由会员分享,可在线阅读,更多相关《基于神经网络的吟诗作对技术研究与应用.doc(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于神经网络的吟诗作对技术研究与应用摘 要 自古以来,中华民族每年都有吟诗作对的传统习俗,是中国的传统文化。在吟诗作对时讲究平仄要协调,对仗要工整,朗诵起来要有很强的美感,被很多人所喜爱。如何在运用机器语言来实现这一特殊的语言形式受到了广泛的关注。因此本文便是自然语言处理方面的技术,在RNN的基础上进行“吟诗作对”的研究与应用,设计与实现了一个根据指定序列生成目标序列的模型。因此根据实际需求是一项序列的自动生成工作。通过给定的输入序列,生成输出序列。在这种情况下,有人提出了一种编码和解码的模型。编码就是将文字以根据实际情况用相等长度的向量表示,解码就是将编码的序列再进行转化。本文采用双向循环神
2、经网络进行编码,采用循环神经网络进行解码,在进行词向量处理的时候也要将上下文的关系考虑进去,同时考虑上下联对应位置的字的相关性,因此在解码阶段采用了注意力机制来完成这一规则。同时为了防止神经网络出现过拟合的情况在实验过程中加入Dropout机制,提高生成模型的效果。最后通过用静态页面的方法,输入上联经过模型自动生成下联。本文经过RNN的模型在实际应用中得到了很好的效果,自动生成的下联可以与上联的格式相同、文字相对应。关键词: 循环神经网络;对联生成;dropout;注意力机制The method and application of reciting poems and composing p
3、airs based on Neural NetworkabstractSince ancient times, the Chinese nation has the traditional custom of reciting poems and composing right every year, which is the traditional culture of China. When reciting poems, we should pay attention to the coordination of the level and the tone, the alignmen
4、t should be neat, and the recitation should have a strong aesthetic feeling, which is loved by many people. How to use machine language to realize this special language form has been widely concerned. Therefore, this paper is the technology of natural language processing. On the basis of RNN, the re
5、search and application of reciting poems and making pairs is carried out, and a model of generating target sequences according to specified sequences is designed and implemented. Therefore, according to the actual needs is a sequence of automatic generation work. The output sequence is generated by
6、the given input sequence. In this case, a coding and decoding model is proposed. Encoding is to represent the text with vectors of equal length according to the actual situation. Decoding is to transform the encoded sequence again. In this paper, two-way recurrent neural network is used to code, and
7、 recurrent neural network is used to decode. In the word vector processing, the context relationship should also be taken into account, and the word correlation of the corresponding position of the upper and lower links should be considered. Therefore, attention mechanism is used to complete this ru
8、le in the decoding stage. At the same time, in order to prevent the neural network from over fitting, the dropout mechanism is added in the experimental process to improve the effect of model generation. Finally, by using the method of static page, the input uplink is automatically generated by the
9、model. In this paper, the RNN model has been applied in practice and good results have been achieved. The automatically generated lower link can be in the same format as the upper link and correspond to the text.Keywords: cyclic neural network; couplet generation; dropout; attention mechanism目录第一章 绪
10、论11.1 选题背景、目的及意义11.2 国内外研究现状31.3 本文工作5第二章 任务描述与数据预处理72.1任务描述72.2数据预处理8第三章 基于RNN的吟诗作对方法技术93.1基础知识介绍93.1.1 标准循环神经网络93.1.2 长短时记忆网络113.1.3 双向循环神经网络123.2 Dropout机制133.3 注意力机制153.4 序列到序列模型163.4.1经典的序列到序列模型163.4.2 基于注意力机制的序列到序列模型173.5 基于序列到序列的对联自动生成实现193.5.1 输入处理203.5.2 编码阶段213.5.3 解码阶段233.6 模型训练与结果分析243.6
11、.1 模型训练243.6.2 结果分析25第四章 基于吟诗作对方法的应用274.1 系统设计274.2 系统实现28总结与展望30参考文献31致谢33第一章 绪论在当今世界正在迈入人工智能时代。在最开始的时候,由于智能问题的复杂性、计算机的硬件设施比较落后、数据的缺少等问题,导致了人工智能的发展缓慢。但是随着科技的发展以及大数据、神经网络的快速发展。人工智能在各个方面得到的应用有了很好的效果,并且部分已经融入到社会的生产生活当中,有的方面已经取得了惊人的成绩,甚至在某些领域有的完成了人们不能亲自做的事情。在大数据时代的来临,自然语言处理的应用到各个层面,而且它也正在尝试着学习人类的表达方式,同
12、时也让人工智能领域的发展可以得到一个很大的提升。自然语言处理主要包括先认识语言然后再学习语言这两个部分。而在中国语言生成的最具有代表意义的就是诗歌和对联,并且是各位专业学者经常作为的研究对象。1.1 选题背景、目的及意义在中国自古以来都有吟诗作对的传统文化习俗,特别是在每年的春节家家户户都会在家门口贴对联,在元宵节猜灯谜,吟诗作对一番。其中有严格的格式,要求上下联字数相等,对应位置词语关系紧密,同时在进行吟诗作对之时还需要讲究平仄协调,格式严谨,是中华民泽非常特色的艺术展现方法,很多人都喜欢。而且经过时间的熏陶,形成了比较成熟完整的体系,而且应用广泛,与人民的生活也有着十分紧密的联系,也作为社
13、会形态的一份独特的存在。对联的最早开始于秦汉时期悬挂桃符的日常生活中,五代时又让在桃符上刻字,在后蜀的时候孟旭让辛寅逊在桃符板上写一些祝福的话语。在之后一段时间在明清时代得到了非常迅速的发展,到现在也已经有了一千多年的时间了。三千年前,中国早期时代的人们开始使用对偶句了。后来在商朝和周朝这两个方面用的对偶句和后来的诗词歌赋中所用的骈俪句,都为对联的产生做了一些铺垫。随着时间的推移,到后来的朝代经过人民智慧的结晶出现了越来越严密和精准的格式要求同时也保留着一些格律诗的一部分准则。因此在很久以前人们经常在娱乐之时常用来把吟诗作对当做是文人墨客会友的一种常见的娱乐项目,以文会友。而且对联从古至今都有
14、很多的用处,从最早时候的悬挂桃符开始,来寻求平安等,后来人民就把对联的话写在了桃木板上,后来在五代朝代等以后,出现了一些对联,在每个时代来说都出现与之相对应的对联如下表1-1所示每个朝代所出现的对联形式。表1-1 每个朝代出现的对联朝代对联后蜀新年纳余庆,嘉节号长春北宋千门万户曈曈日,总把新桃换旧符明朝风格多样,种类在上表中出现的对联都有其特殊的意义在后蜀代表着当时出现的一些事件,而在北宋年间的对联则是当时过年时候所出现过年的场景。在明朝的时候则不在用之前的桃木板子了,换成了红纸,也就出现了现在的对联。而在明朝的时候朱元璋微服出巡之时让每家每户门前都加上一副对联,来进行观赏取乐,这也就出现了过
15、年贴对联的传统习俗。随着时间的推移,对联的形式和种类也多种多样,不论是在喜事还是在白事上都会出现,只不过在内容上差别很大。而且其中一种叫做楹联的不仅在国内广受关注,在国外也很受欢迎。 为了让对联这种特殊的文学形式,在社会发展时代如此之快的形式之下,也需要让每一个人都能重视起来。尤其是当今大数据人工智能时代,必须通过现代的技术来实现我们传统文化的继承,在自然语言处理领域关于对联的生成问题对于我们炎黄子孙来说必须要弘扬祖国的传统文化,而且传统文化的继承问题也应该随着科技的进步而进步,让所有人都知道传统文化也可以在不同的领域的到应用与发展,因此在本文当中采用神经网络来对对联这一形式进行应用处理。因此
16、让计算机在人们生活中越来越能理解人们的语言文化艺术方面得到更好应用,体现的越来越必要。而且对联这一特殊的文化形式如果让计算机能够识别,而且通过让对联的爱好者和初学者能够更加简单方便的学习其相关的知识的话,既方便了人们的学习相关的知识,同时也对中华民族的传统文化也让更多人学习。在本文就以对联为研究,通过计算机生成训练队模型来生成对联制作可视化界面进行运用。 1.2 国内外研究现状1.2.1 基于词向量的生成方法 把自然语言的问题转化为机器所能识别的问题,就需要将语言转化为2进制,让计算机能够认识这种语言。在这里,需要将字典里的每个汉字表示成一个向量。在自然语言处理中,最先出现的方式是 one-h
17、ot 方法,这种方法的向量维度是字典大小,每个字都有数据自己的向量,在它自己的向量里面只有一个数字为1,其余的数字全为0,这个1就是这个字在实际中设置的字典中的地方。举个例子,“祖”表示为0 0 1 0 0 0 .,“国”表示为0 0 0 0 0 1 . ,这种方法表示的向量非常稀疏,如果采用稀疏方式记录会非常简洁,给每个字都有自己的编号。但在实际操作的时候,这样的表达形式会出现一些问题,主要有这两个问题:(1)如果在实验中所设计的字典很大的话,计算机的计算范围有限不能进行操作。 (2)字与字之间的相似性关系不能表现出来,即有“词汇鸿沟”现象。 为了克服上述缺点,于是另一种词向量的表示方式产生
18、了,即 Distributed epresentation。Distributed Representation 的想法是在1986 年 Hinton 在发表的论文中有了的 1。相比于 one-hot 表示方式,Distributed representation 还能体现不同词之间的语义关联,因此在自然语言的处理上得到了广泛的应用。如果采用不同训练词向量的方法,那么所得到的结果也不同,当前来说人们常用的有word2vec和 glove。 1.2.2 基于统计机器翻译的生成方法在自然语言生成中,诗歌和对联生成在微软研究院周明等人看成是统计机器翻译Statistical Machine Tran
19、slation,SMT)问题2 3。这种方法吧诗歌和对联的翻译过程,根据前一句翻译后一句,根据给出的上联翻译下联。在用户输入上一句的时候,接着根据用户输入第一句,接着根据统计机器翻译的模型来生成第二句。实验部分,通过人工和自动两个方面对实验结果进行评估。在人为评估的话按照一定的方式方法进行评估,对于机器评估的话人们常用BLEU 4来评估。因为机器进行解码的时候不仅只考虑当前的数据,而且还会与其有关的句子进行考虑,所以用这种方法在句子的意思方面会与比较好的结果,并且不依赖于人工设计评估函数,模型通过语料进行自动学习。但在实际的生活中,人们的目标往往只有开始的一句有关,并不会考虑其他的,生成的结果
20、不能满足需求,也没有主题意思。除此之外,此系统对用户的输入也有严格的限制要求。1.2.3 基于深度学习的生成方法随着深度学习技术的出现和发展,深度学习已经融入到很多方面,如语音识别、图像处理、机器翻译等等。同样在诗歌和对联的得到了很大的成功。后来人们根据现有的神经网络进行符合实际需求的改进来满足对联的自动生成问题。其中最多的是循环神经网络的生成方法RNN-based Poem Generator,RNNPG)5、基于神经机器翻译的生成方法6(Attention based Neural Machine Translation Network ANMT)、基于规划的生成方法7(Planning
21、based Poetry Generation,PPG)、基于记忆网络的生成方法8等,这些方法对自然语言处理有很大的价值。1.2.3.1 基于循环神经网络的生成方法在2014年Zhang等人提出的基于循环神经网络生成方法RNNPG,算是比较早的将机器学习的技术应用到古代诗歌的产生上去 9。图1-1展示了RNNPG系统框图。RNNPG系统首先根据用户输入的关键词,得出第一句. RNNPG的大概生成过程是这样的当有人输入主要的词语来生成开头句,有一定的约束规范,其主要目的是确保格式是正确的,其余的则是根据已经生成的来生成后面的以此类推。RNNPG模型由三个核心部分组成:CSM、RCM和RGM。其中
22、CSM是一个基于卷积神经网络(Convolutional Neural Networks,CNN)的模块,用于提出句子特征,并生成向量。RCM是一个基于循环神经网络(Recurrent Neural Network,RNN)的模块,依照之前线索产生句子的语义向量。RGM也是神经网络的一部分,通过之前的信息和RCM的输出结果共同作用之下来产生下一个字。在实际的操作过程则需要进行加权处理来输出结果,重复生成完整的目标。图1-1 RNNPG系统框图与传统方法不同,RNNPG是一种基于深度学习的方法,它可以从训练数据中学习文本特征的动态学习不需要人工提取特征、设计规则模板和评价函数,生成诗歌效果也比较
23、高。RNNPG使诗歌的生成更加简单和灵活。RNNPG的不足在于只用重点的词语来生成的诗,主题的话只是与它相关,不受其他行的影响。在生成的过程中,主题容易漂移,诗的最终主题不明确与传统方法相比,RNNPG是一种基于深度学习的方法,它可以从训练数据中学习文本特征的动态学习不需要人工提取特征、设计规则模板和评价函数,也不需要生成诗歌这首歌唱得更好。RNNPG使诗歌的生成更加简单和灵活1.2.3.2 基于规划的生成方法Wang等人10提出一种基于规划的诗歌生成器(PPG)。该工作同样采用基于注意力机制的编码-解码框架,方法创新地将写作时运用的提纲技巧引入到机器生成问题中,在模型生成时引入规划信息大大防
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 吟诗 作对 技术研究 应用

限制150内