欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    循环神经网络 RNN发展史概述.docx

    • 资源ID:94141433       资源大小:11.97KB        全文页数:3页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    循环神经网络 RNN发展史概述.docx

    循环神经网络RNN发展史概述循环神经网络(Recurrent Neural Network, RNN)是一类以序列 (sequence)数据为输入,在序列的演进方向进行递归(recursion)且所 有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 0对循环神经网络的研究始于二十世纪80-90年代,并在二H一世纪初发展为深度学习(deep learning)算法之一,其中双向循环 神 经网络(Bidirectional RNN, Bi-RNN)和长 短期记 忆网络(Long Short-Term Memory networks, LSTM)是常见的循环神经网络。1982年,美国加州理工学院物理学家John Hopfield发明了一种 单层反馈神经网络Hopfield Network,用来解决组合优化问题。这是 最早的RNN的雏形。86年,另一位机器学习的泰斗Michael I. Jordan 定义了 Recurrent的概念,提出Jordan Network。1990年,美国认知 科学家Jeffrey L. Elman对Jordan Network进行了简化,并采用BP算 法进行训练,便有了如今最简单的包含单个自连接节点的RNN模型。但此时RNN由于梯度消失(Gradient Vanishing)及梯度爆炸(Gradient Exploding)的问题,训练非常困难,应用非常受限。直到1997年,瑞 士人工智能研究所的主任Jurgen Schmidhuber提出长短期记忆(LSTM), LSTM使用门控单元及记忆机制大大缓解了早期RNN训练的问题。同样 在 1997 年,Mike Schuster 提出双向 RNN 模型(Bidirectional RNN)。这两种模型大大改进了早期RNN结构,拓宽了 RNN的应用范围,为后 续序列建模的发展奠定了基础。此时RNN虽然在一些序列建模任务上 取得了不错的效果,但由于计算资源消耗大,后续几年一直没有太大的进展。2010 年,Tomas Mikolov 对 Bengio 等人提出的 feedforward Neural network language model (NNLM)进行了改进,提出了基于RNN的语言 模型(RNNLM),并将其用在语音识别任务中,大幅提升了识别精度。 在此基础上Tomas Mikolov于2013年提出了大名鼎鼎的word2veco与NNLM及RNNLM不同,word2vec的目标不再专注于建模语言模型, 而是专注于如何利用语言模型学习每个单词的语义化向量 (distributed representation), 当然 distributed representation 概念最早要来源于Hinton 1986年的工作。word2vec引发了深度学习 在自然语言处理领域的浪潮,除此之外还启发了 knowLEDge representation, network representation 等新的领域。另一方面,2014年Bengio团队与Google几乎同时提出了 seq2seq 架构,将RNN用于机器翻译。没过多久,Bengio团队又提出注意力 Attention机制,对seq2seq架构进行改进。自此机器翻译全面进入到 神经机器翻译(NMT)的时代,NMT不仅过程简单,而且效果要远超统计 机器翻译的效果。目前主流的机器翻译系统几乎都采用了神经机器翻 译的技术,除此之外,Attention机制也被广泛用于基于深度学习的各 种任务中。近两年,相关领域仍有一些突破性进展,2017年,XXXbook人工 智能实验室提出基于卷积神经网络的seq2seq架构,将RNN替换为带 有门控单元的CNN,提升效果的同时大幅加快了模型训练速度。此后不 久,XXgle提出Transformer架构,使用Self-Attention代替原有的RNN及CNN,更进一步降低了模型复杂度。在词表示学习方面,Allen 人工智能研究所2018年提出上下文相关的表示学习方法ELMo,利用双 向LSTM语言模型对不同语境下的单词,学习不同的向量表示,在6个 NLP任务上取得了提升。OpenAI团队在此基础上提出预训练模型GPT, 把LSTM替换为Transformer来训练语言模型,在应用到具体任务时, 与之前学习词向量当作特征的方式不同,GPT直接在预训练得到的语言 模型最后一层接上Softmax作为任务输出层,然后再对模型进行微调, 在多项任务上GPT取得了更好的效果。不久之后,XXXgle提出BERT模型,将GPT中的单向语言模型拓展 为双向语言模型(Masked Language Model),并在预训练中引入了 sentence prediction任务。BERT模型在11个任务中取得了最好的效 果,是深度学习在NLP领域又一个里程碑式的工作。BERT自从在arXiv 上发表以来获得了研究界和工业界的极大关注,感觉像是打开了深度 学习在NLP应用的潘多拉魔盒。随后涌现了一大批类似于“BERT”的 预训练(pre-trained)模型,有引入BERT中双向上下文信息的广义自 回归模型XLNet,也有改进BERT训练方式和目标的RoBERTa和SpanBERT, 还有结合多任务以及知识蒸储(Knowledge Distillation)强化BERT的 MT-DNN等。这些种种,还被大家称为BERTology。

    注意事项

    本文(循环神经网络 RNN发展史概述.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开