(19.1.1)--第19讲__深度学习正则化方法.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(19.1.1)--第19讲__深度学习正则化方法.pdf》由会员分享,可在线阅读,更多相关《(19.1.1)--第19讲__深度学习正则化方法.pdf(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据机器学习第十九讲:深度学习正则化方法目录 框架设计 计算图形式的BP算法 正则化方法 参数范数惩罚 正则化和欠约束问题 作为约束的范数 数据集增强 噪声鲁棒性 半监督学习 多任务学习 提前终止 参数绑定和参数共享 Bagging 和其它集成方法 Dropout Maxout 对抗训练深度学习架构设计 深度学习架构设计:神经网络的深度,或者说层数,以及每一层的宽度或单元数;网络层数越多:更少的单元数,更少的参数,更好的泛化性,但也更难以优化;万能近似定理:只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数。问题:不能保证训
2、练算法能够学得到这个函数;训练的优化算法可能找不到用于期望函数的参数值;训练算法可能由于过拟合而选择了错误的函数。深度学习架构设计 Montufar et al.(2014)指出:具有d 个输入、深度为l、每个隐藏层具有n 个单元的深度网络可以描述的线性区域的数量是:卷积神经网络架构设计Xudong Cao et al.2016:优化问题:k是滤波器核的大小,假设图像大小:I=2 m1K/t 第一个块内的卷积层的数量:n1=K/(K-1)t,后面块卷积层数量 n1/2深度学习架构设计 深度学习架构设计计算图(computational graph)计算图:反向传播算法梯度计算的重要工具Tens
3、orflow graph计算图(computational graph)(xw)2计算图 代价函数:向量的梯度计算 设xRm,yRn,g是Rm到Rn的映射,f 是从Rn到R 的映射。如果y=g(x)并且z=f(y),那么 使用向量记法,可以等价地写成向量的梯度计算 概念上,对张量的与使用向量的反向传播完全相同,唯一的区别是如何将数字排列成网格以形成张量。为了表示值z 关于张量X 的梯度,我们记为,对所有可能的变量i:使用这种记法,可以写出适用于张量的链式法则 如果Y=g(X)并且z=f(Y),计算图的BP算法 将正则化后的目标函数记为:Vector W表示所有应受范数惩罚影响的权重,而向量 v
4、ector 表示所有参数(包括w 和无需正则化的参数)L2 parameter regularization L1 parameter regularization、参数范数惩罚 L2 参数正则化 参数的梯度 参数更新:L2参数正则化先缩小再更新 训练过程发生了什么?令w*为不含正则化项目标函数训练误差极值时参数值 在w*近邻做二次近似,如果目标函数是二次的,该近似完美 该函数取极值时:为0 整体函数极值:L2参数正则化 训练过程发生了什么?W*对应第i个特征值的部分,尺度变化:L2参数正则化 训练过程发生了什么?沿着H 特征值较大的方向,正则化的影响较小沿着H 特征值较小的方向,正则化的影响
5、较大L2参数正则化 结论:L2参数正则化主要针对损失函数特征向量不重要的方向:对应Hessian矩阵较小的特征值,改变参数不会显著增加梯度,不重要方向对应的分量会在训练过程中因正则而衰减;L2参数正则化 L2最常用,但是有时也用L1 和L2 有什么区别呢?采用同样方法分析:正则化对梯度的影响不再是线性地缩放每个 wi 添加了一项与sign(wi)同号的常数;使用这种形式的梯度之后,不一定能得到 J(X;y;w)二次近似的直接算术解;L2参数正则化怎么解决?逼近更复杂模型的代价函数的截断泰勒级数 重要:简化假设 Hessian 是对角的,即 H=diag(H1,1.Hn,n),PCA预处理 Hi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 19.1 19 _ 深度 学习 正则 方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内