深度学习及其优化方法(PPT54页)36585.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《深度学习及其优化方法(PPT54页)36585.ppt》由会员分享,可在线阅读,更多相关《深度学习及其优化方法(PPT54页)36585.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、深度学习(DeepLearning)及其优化方法1/25报告人:胡海根报告人:胡海根E-mail:浙江工业大学计算机学院Outline 深度学习基本介绍Loss Function一般形式及数学概念一般形式及数学概念深度学习梯度优化方法深度学习梯度优化方法深度学习优化方法深度学习优化方法2/25深度学深度学习习的概念的概念3/25u什么是deeplearning?深度学习:一种基于无监督特征学习和特征层次结构的学习方法。本质:通过构建多隐层的模型和海量训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。u含多隐层的多层感知器就是一种深度学习结构。DL训练过训练过程程4/25u深度学习的
2、基本思想:对于DeepLearning,需要自动地学习特征,假设有一堆输入I,输出是O,设计一个系统S(有n层),形象地表示为:I=S1=S2=.=Sn=O,通过调整系统中参数,使得它的输出仍然是输入I,那么就可以自动地获取得到输入I的一系列层次特征,即S1,.,Sn。u用自下而上的无监督学习1)逐层构建单层神经元。2)每层采用wake-sleep算法进行调优。每次仅调整一层,逐层调整。5/25u第二步:自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础上,在最顶的编码层添加一个分类器(如,SVM等),而后通过带标签数据的监督学习,利用梯度下降法去微调整个网络参数。DL训练过训练过程程
3、6/25u深度学习的具体模型及方法:u1、自动编码器(AutoEncoder)u2、稀疏自动编码器(Sparse AutoEncoder)u3、限制波尔兹曼机(Restricted Boltzmann Machine)u4、深信度网络(Deep Belief Networks)u5、卷积神经网络(Convolutional Neural Networks)DL训练过训练过程程自自动编码动编码器器7/25u1、自动编码器(AutoEncoder)通过调整encoder和decoder的参数,使得重构误差最小,就得到了输入input信号的第一个表示了,也就是编码code了。u因为是无标签数据,所以
4、误差的来源就是直接重构后与原输入相比得到。稀疏自稀疏自动编码动编码器器8/25u如上图,其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效。u2、稀疏自动编码器(Sparse AutoEncoder)AutoEncoder的基础上加上L1的Regularity限制(L1主要是约束每一层中的节点中大部分都要为0,只有少数不为0),就可以得到SparseAutoEncoder法。RBM9/25u3、限制波尔兹曼机(RBM)定义:假设有一个二部图,同层节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值(0,1)变量节点
5、,同时假设全概率分布p(v,h)满足Boltzmann分布,称这个模型是RBM。RBM10/25u给定隐层h的基础上,可视层的概率确定:(可视层节点之间是条件独立的)u给定可视层v的基础上,隐层的概率确定:u给定一个满足独立同分布的样本集:D=v(1),v(2),v(N),我们需要学习参数=W,a,b。最大似然估计:对最大对数似然函数求导,就可以得到L最大时对应的参数W了。DBN11/25uDBNs由多个限制玻尔兹曼机(RBM)层组成,一个典型的神经网络类型如下图所示。CNN12/25u5、卷积神经网络(Convolutional Neural Networks)卷积神经网络是一个多层的神经网
6、络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。CNNs是第一个真正成功训练多层网络结构的学习算法。核心思想:局部感受野、权值共享以及时间或空间子采样这三种结构思想结合起来获得某种程度的位移、尺度、形变不变性。Loss Function一般形式一般形式13/25Loss Function一般形式一般形式14/25u回归函数及目标函数u以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式。数学概念数学概念15/251、梯度(一阶导数)u某一点的梯度方向是在该点坡度最陡的方向,而梯度的大小告诉我们坡度到底有多陡;u对于一个含有n个变量的标量函数,即函数输入一个n维的向量
7、,输出一个数值,梯度可以定义为:数学概念数学概念16/252、Hesse矩阵(二阶导数)uHesse矩阵常被应用于牛顿法解决的大规模优化问题,主要形式如下:u当f(x)是下列形式:其中x为列向量,A是n阶对称矩阵,b是n维列向量,c是常数。f(x)梯度是Ax+b,Hesse矩阵等于A。数学概念数学概念17/253、Jacobian矩阵uJacobian矩阵实际上是向量值函数的梯度矩阵,假设F:RnRm是一个从n维欧氏空间转换到m维欧氏空间的函数。这个函数由m个实函数组成:u这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵(mbyn),这就是所谓的雅可比矩阵:优优化方法化方法18/251、
8、GradientDescentuGradientdescent(steepestdescent),也叫批量梯度下降法BatchGradientDescent,BSD,利用一阶的梯度信息找到函数局部最优解的一种方法,主要迭代公式如下:其中,是第k次迭代我们选择移动的方向,是第k次迭代用linesearch方法选择移动的距离,每次移动的距离系数可以相同,也可以不同,有时候我们也叫学习率(learningrate)。优优化方法化方法19/251、GradientDescentu该方法利用目标函数的局部性质,得到局部最优解,具有一定的“盲目性”,如果目标函数是一个凸优化问题,那么局部最优解就是全局最优
9、解;u每一次迭代的移动方向都与出发点的等高线垂直,此外,锯齿现象(zig-zagging)将会导致收敛速度变慢:优优化方法化方法20/252、Newtonsmethodu牛顿法则是利用局部的一阶和二阶偏导信息,推测整个目标函数的形状;u进而可以求得出近似函数的全局最小值,然后将当前的最小值设定近似函数的最小值;u相比最速下降法,牛顿法带有一定对全局的预测性,收敛性质也更优良。优优化方法化方法21/252、Newtonsmethodu推导过程如下:u利用Taylor级数求得原目标函数的二阶近似:u把x看做自变量,所有带有xk的项看做常量,令一阶导数为0,即可求近似函数的最小值:即:u将当前的最小
10、值设定近似函数的最小值(或者乘以步长)。优优化方法化方法22/252、Newtonsmethodu牛顿法主要存在的问题是:uHesse矩阵不可逆时无法计算;u矩阵的逆计算复杂为n的立方,当问题规模比较大时,计算量很大;u解决的办法是采用拟牛顿法如BFGS,L-BFGS,DFP,BroydensAlgorithm进行近似;u如果初始值离局部极小值太远,Taylor展开并不能对原函数进行良好的近似。优优化方法化方法23/252、Newtonsmethodu在牛顿法的迭代中,需要计算海赛矩阵的逆矩阵H-1这一计算比较复杂,考虑用一个n阶矩阵来近似代替H-1,这就是拟牛顿法的基本思路。uDFP(Dav
11、idon-Fletcher-Powell)使用一个n阶矩阵Gk+1来近似H-1uBFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一个n阶矩阵Bk来逼近HuL-BFGS(Limited-BFGS):由于上述两种拟牛顿法都要保存一个n阶矩阵,对于内存消耗非常大,因此在此基础上提出了一种节约内存的方法L-BFGS。优优化方法化方法24/253、ConjugateGradientsu共轭梯度法是介于最速下降法与牛顿法之间的一个方法;u它仅需利用一阶导数信息,u但克服了最速下降法收敛慢的缺点;u避免牛顿法需要存储和计算Hesse矩阵并求逆的缺点.u共轭梯度法不仅是解决大型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 及其 优化 方法 PPT54 36585
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内