循环神经网络 RNN发展史概述.docx

上传人：太**

文档编号：94141433

上传时间：2023-07-23

格式：DOCX

页数：3

大小：11.97KB

( 4.5 )

《循环神经网络 RNN发展史概述.docx》由会员分享，可在线阅读，更多相关《循环神经网络 RNN发展史概述.docx（3页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、循环神经网络RNN发展史概述循环神经网络(Recurrent Neural Network, RNN)是一类以序列 (sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 0对循环神经网络的研究始于二十世纪80-90年代，并在二H一世纪初发展为深度学习(deep learning)算法之一，其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks, LSTM)是常见的

2、循环神经网络。1982年，美国加州理工学院物理学家John Hopfield发明了一种单层反馈神经网络Hopfield Network,用来解决组合优化问题。这是最早的RNN的雏形。86年，另一位机器学习的泰斗Michael I. Jordan 定义了 Recurrent的概念，提出Jordan Network。1990年，美国认知科学家Jeffrey L. Elman对Jordan Network进行了简化，并采用BP算法进行训练，便有了如今最简单的包含单个自连接节点的RNN模型。但此时RNN由于梯度消失(Gradient Vanishing)及梯度爆炸(Gradient Explo

3、ding)的问题，训练非常困难，应用非常受限。直到1997年，瑞士人工智能研究所的主任Jurgen Schmidhuber提出长短期记忆(LSTM), LSTM使用门控单元及记忆机制大大缓解了早期RNN训练的问题。同样在 1997 年，Mike Schuster 提出双向 RNN 模型(Bidirectional RNN)。这两种模型大大改进了早期RNN结构，拓宽了 RNN的应用范围，为后续序列建模的发展奠定了基础。此时RNN虽然在一些序列建模任务上取得了不错的效果，但由于计算资源消耗大，后续几年一直没有太大的进展。2010 年，Tomas Mikolov 对 Bengio 等人提出的

4、 feedforward Neural network language model (NNLM)进行了改进，提出了基于RNN的语言模型(RNNLM),并将其用在语音识别任务中，大幅提升了识别精度。在此基础上Tomas Mikolov于2013年提出了大名鼎鼎的word2veco与NNLM及RNNLM不同,word2vec的目标不再专注于建模语言模型, 而是专注于如何利用语言模型学习每个单词的语义化向量 (distributed representation), 当然 distributed representation 概念最早要来源于Hinton 1986年的工作。word2vec引发

5、了深度学习在自然语言处理领域的浪潮，除此之外还启发了 knowLEDge representation, network representation 等新的领域。另一方面,2014年Bengio团队与Google几乎同时提出了 seq2seq 架构，将RNN用于机器翻译。没过多久，Bengio团队又提出注意力 Attention机制，对seq2seq架构进行改进。自此机器翻译全面进入到神经机器翻译(NMT)的时代，NMT不仅过程简单，而且效果要远超统计机器翻译的效果。目前主流的机器翻译系统几乎都采用了神经机器翻译的技术，除此之外，Attention机制也被广泛用于基于深度学习的各种

6、任务中。近两年，相关领域仍有一些突破性进展，2017年，XXXbook人工智能实验室提出基于卷积神经网络的seq2seq架构，将RNN替换为带有门控单元的CNN,提升效果的同时大幅加快了模型训练速度。此后不久，XXgle提出Transformer架构，使用Self-Attention代替原有的RNN及CNN,更进一步降低了模型复杂度。在词表示学习方面，Allen 人工智能研究所2018年提出上下文相关的表示学习方法ELMo,利用双向LSTM语言模型对不同语境下的单词，学习不同的向量表示，在6个 NLP任务上取得了提升。OpenAI团队在此基础上提出预训练模型GPT, 把LSTM替换为T

7、ransformer来训练语言模型，在应用到具体任务时，与之前学习词向量当作特征的方式不同，GPT直接在预训练得到的语言模型最后一层接上Softmax作为任务输出层，然后再对模型进行微调，在多项任务上GPT取得了更好的效果。不久之后，XXXgle提出BERT模型，将GPT中的单向语言模型拓展为双向语言模型(Masked Language Model),并在预训练中引入了 sentence prediction任务。BERT模型在11个任务中取得了最好的效果，是深度学习在NLP领域又一个里程碑式的工作。BERT自从在arXiv 上发表以来获得了研究界和工业界的极大关注，感觉像是打开了深度学习在NLP应用的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练(pre-trained)模型，有引入BERT中双向上下文信息的广义自回归模型XLNet,也有改进BERT训练方式和目标的RoBERTa和SpanBERT, 还有结合多任务以及知识蒸储(Knowledge Distillation)强化BERT的 MT-DNN等。这些种种，还被大家称为BERTology。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 循环神经网络 RNN发展史概述循环神经网络 RNN 发展史概述

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：循环神经网络 RNN发展史概述.docx
链接地址：https://www.taowenge.com/p-94141433.html