欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    神经网络与深度学习.docx

    • 资源ID:71085884       资源大小:16.98KB        全文页数:5页
    • 资源格式: DOCX        下载积分:14.8金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要14.8金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    神经网络与深度学习.docx

    神经网络与深度学习w进展惩罚可以缓解这种问题。4.8为什么要对参数进展随机初始化4.9梯度消失问题是否可以通过增加学习率来缓解网络优化网络优化深度神经网络是一个高度非线性的模型其风险函数是一个非凸函数因此风险最小化是一个非凸优化问题在高维空间中大局部驻点都是鞍点平坦最小值当一个模型收敛到一个平坦的部分最小值时其鲁棒性会更好即微小的参数变动不会剧烈影响模型才能而当一个模型收敛到一个锋利的部分最小值时其鲁棒性也会比拟差具备良好泛化才能的模型通常应该是鲁棒的因此理想的部分最小值应该是平坦的部分最小值的等价性batch的选择批量大小不影响随机梯度的期望但是会影响随机梯度的方差批量大小越大时随机梯度的方差越小引入的噪声也越小训练也越稳定因此可以设置较大的学习率。批量大小较小时需要设置较小的学习率否那么模型会不收敛学习率通常要随着批量大小的增大而相应地增大学习率调整学习率衰减逆时衰减InverseTimeDecay指数衰减ExponentialDecay其中1为衰减率自然指数衰减NaturalExponentialDecay余弦衰减CosineDecay学习率预热当批量大小的设置比拟大时通常需要比拟大的学习率刚开场训练时由于参数是随机初始化的梯度往往也比拟大再加上比拟大的初始学习率会使得训练不稳定为了进步训练稳定性我们可以在最初几轮迭代时采用比拟小的学习率等梯度下降到一定程度后再恢复到初始的学习率这种方法称为学习率预热LearningRateWarmup周期性学习率调整为了使得梯度下降法可以逃离鞍点或者锋利最小值一种经历性的方式是在训练经过中周期性地增大学习率当参数处于锋利最小值附近时增大学习率有助于逃离锋利最小值当参数处于平坦最小值附近时增大学习率仍然有可能在该平坦最小值的*吸引域(BasinofAttraction)*内从长期来看有助于找到更好的部分最优解循环学习率CyclicLearningRate让学习率在一个区间内周期性地增大以及缩小通常可以使用线性缩放来调整学习率称为三角循环学习率TriangularCyclicLearningRate带热重启的随机梯度下降StochasticGradientDe-scentwithWarmRestartsSGDR优化器内容详细并且包含并行SGD以及梯度噪音AdaGrad借鉴2正那么化的思想每次迭代时自适应地调整每个参数的学习率在AdaGrad算法中假如某个参数的偏导数累积比拟大其学习率相对较小相反假如其偏导数累积较小其学习率相对较大但整体是随着迭代次数的增加学习率逐渐缩小AdaGrad算法的缺点是在经过一定次数的迭代仍然没有找到最优点时由于这时的学习率已经非常小很难再继续找到最优点RMSprop自适应学习率的方法可以在有些情况下防止AdaGrad算法中学习率不断单调下降以致于过早衰减的缺点其中为衰减率一般取值为0.9是初始的学习率比方0.001AdaDelta没太看懂Momentum除了调整学习率之外还可以进展梯度估计GradientEstimation的修正在随机小批量梯度下降法中假如每次选取样本数量比拟小损失会呈现振荡的方式下降也就是讲随机梯度下降方法中每次迭代的梯度估计以及整个训练集上的最优梯度并不一致具有一定的随机性每次迭代的梯度可以看作加速度计算负梯度的“加权挪动平均作为参数的更新方向一般而言在迭代初期梯度方向都比拟一致动量法会起到加速作用可以更快地到达最优点在迭代后期梯度方向会不一致在收敛值附近振荡动量法会起到减速作用增加稳定性从某种角度来讲当前梯度叠加上局部的上次梯度一定程度上可以近似看作二阶梯度NesterovNesterovAcceleratedGradient简称NAG内斯特洛夫有空细看一下优化局部公式1Momentum的数学形式

    注意事项

    本文(神经网络与深度学习.docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开