深度学习之反向传播.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《深度学习之反向传播.docx》由会员分享,可在线阅读,更多相关《深度学习之反向传播.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流深度学习之反向传播【精品文档】第 5 页深度学习之反向传播算法(BackPropagation)1. 算法简介反向传播算法(BP算法)主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。BP算法要求每个人工神经元(节点)所使用的激励函数必须是可微的。BP算法特别适合用来训练前向神经网络。2. 算法原理假设有一个固定样本集,它包含个样例。可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例,其代价函数(或损失函数)为:这是一个(二分之一的)方差代价函数。给定一个包含个样例的数据集,可以定义整体代价函数为:以
2、上公式中的第一项是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。注:通常权重衰减的计算并不使用偏置项,比如在的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。权重衰减参数用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义:是针对单个样例计算得到的方差代价函数;是整体样本代价函数,它包含权重衰减项。以上的代价函数经常被用于分类和回归问题。在分类问题中,利用或1,来代表两种类型的标签(这是因为 sigmoid激活函数的值域为;如果我们使用双曲正切型激活函数,那么应该选用和作为标签)。对于回归问题,
3、我们首先要变换输出值域,以保证其范围为(同样地,如果使用双曲正切型激活函数,要使输出值域为)。我们的目标是针对参数和来求其函数的最小值。为了求解神经网络,需要将每一个参数和初始化为一个很小的、接近零的随机值(比如说,使用正态分布生成的随机值,其中设置为),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有,都会取相
4、同的值,那么对于任何输入都会有:(图1)。随机初始化的目的是使对称失效。梯度下降法中每一次迭代都按照如下公式对参数和进行更新:其中是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。下面来介绍一下如何使用反向传播算法来计算和,这两项是单个样例的代价函数的偏导数。一旦求出该偏导数,就可以推导出整体代价函数的偏导数:以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于而不是。3. 算法实例图1 三层神经网络上图是典型的三层神经网络的基本构成,Layer L1是输入层,Layer L2是隐含层,Layer L3是隐含层,给定一些数据x1,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 反向 传播
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内