神经网络与深度学习.docx
《神经网络与深度学习.docx》由会员分享,可在线阅读,更多相关《神经网络与深度学习.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、神经网络与深度学习w进展惩罚可以缓解这种问题。4.8为什么要对参数进展随机初始化4.9梯度消失问题是否可以通过增加学习率来缓解网络优化网络优化深度神经网络是一个高度非线性的模型其风险函数是一个非凸函数因此风险最小化是一个非凸优化问题在高维空间中大局部驻点都是鞍点平坦最小值当一个模型收敛到一个平坦的部分最小值时其鲁棒性会更好即微小的参数变动不会剧烈影响模型才能而当一个模型收敛到一个锋利的部分最小值时其鲁棒性也会比拟差具备良好泛化才能的模型通常应该是鲁棒的因此理想的部分最小值应该是平坦的部分最小值的等价性batch的选择批量大小不影响随机梯度的期望但是会影响随机梯度的方差批量大小越大时随机梯度的方
2、差越小引入的噪声也越小训练也越稳定因此可以设置较大的学习率。批量大小较小时需要设置较小的学习率否那么模型会不收敛学习率通常要随着批量大小的增大而相应地增大学习率调整学习率衰减逆时衰减InverseTimeDecay指数衰减ExponentialDecay其中1为衰减率自然指数衰减NaturalExponentialDecay余弦衰减CosineDecay学习率预热当批量大小的设置比拟大时通常需要比拟大的学习率刚开场训练时由于参数是随机初始化的梯度往往也比拟大再加上比拟大的初始学习率会使得训练不稳定为了进步训练稳定性我们可以在最初几轮迭代时采用比拟小的学习率等梯度下降到一定程度后再恢复到初始的学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 神经网络 深度 学习
限制150内