神经网络 第五章精品文稿.ppt
《神经网络 第五章精品文稿.ppt》由会员分享,可在线阅读,更多相关《神经网络 第五章精品文稿.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、神经网络 第五章第1页,本讲稿共55页5.1 随机型神经网络的基本思想 误差反向传播算法的基本思想:通过对网络参数(连接权、输出阈值)的逐步调整实现网络学习的。它是在提供给网络的学习模式集合的全局误差按梯度下降的条件下达到网络记忆目的。当学习过程进行到全局误差开始有上升的趋势时就停止了,这往往导致网络误差陷入局部极小值,而达不到全局最小点。这种算法被形象地称为“贪心”算法,即急于找到最小解结果则是欲速则不达。第2页,本讲稿共55页 对于Hopfield网络,其工作规则也是使网络的能量函数朝梯度下降的力向变化,即随着网络状态的不断更新,网络能能量函数单调下降,其结果也往往是是使网络陷入局部极小值
2、,最终得不到网络的最优解。分析以上两种网络结构与算法的特点:导致网络学习过程陷入局部极小点的原因主要有:结构上:存在着输入与输出之间的非线性函数关系,从而使网络误差或能量函数所构成的空 间是一个含有多极点的非线性空间;第3页,本讲稿共55页算法上:网络的误差或能量函数只能按单方向减 小而不能有丝毫的上升趋势。对于第一点,是为保证、网络具有非线性映衬能力而必不可少的。解决网络收敛问题的途径就只能从第二点入手,即不但让网络的误差或能量函数向减小的方向变化,而且,还可按某种方式向增大的方向变化,目的是使网络有可能跳出局部极小值而向全局最小点收敛。这就是随机型神经网络算法的基本思想。第4页,本讲稿共5
3、5页第5页,本讲稿共55页4.2 模拟退火算法 模拟退火算法(Simulated Annealing Algorithm),就是模拟金属构件退火过程的一种算法。第6页,本讲稿共55页 金属或某类固体物质退火处理过程是:先用高温将其加热熔化,使其中的粒子可以自由运动;逐渐降低温度,粒子的自由运动趋势也逐渐减弱,并逐渐形成低能态晶格。若在凝结点附近温度下降的速度足够慢,则金属或固体物质一定会形成最低能量的基态,即最稳定结构状态。实际上,在整个降温的过程中,各个粒子都可能经历了由高能态向低能态、有时又暂时由低能态向高能态最终趋向低能态的变化过程。第7页,本讲稿共55页启发:n 如果把神经网络的状态看
4、作金属内部的“粒子”,把网络在各个状态下的能量函数E看作是粒子所处的能态;n 在算法中设置一种控制参数T,当T较大时,网络能量由低向高变化的可能性也较大;随着T的减小,这种可能性也减小。如 果 把这 个参 数 看 作 温 度,让 其 由 高 慢 慢 地 下 降,则 整 个 网络 状态变 化过程就完全模拟了金属的退火过程,当参数了下降到一定程度时,网络将收敛于能量的最小值。第8页,本讲稿共55页在模拟退火算法中,有两点是算法的关键:控制参数T;能量由低向高变化的可能性。这 两 点 必须结 合 起 来 考虑,当T大时,可 能 性 也 大,T小时,可能性也小,把“可能性”当作参数T的函数。“可能性”
5、用数学模型来表示就是概率。由此可以得到模拟退火算法如下:第9页,本讲稿共55页第10页,本讲稿共55页 上式表明:在模拟退火算法中,某神经元的输出不象Hopfield算法中那样,是由以内部状态Hi为输入的非线性函数的输出(阶跃函数)所决定的,而是由Hi为变量的概率PHi(1)或PHi(0)所决定的。不同的Hi,对应不同的概率)PHi(1)或PHi(0)。第1 1页,本讲稿共55页 以上各式体现了模拟退火算法的两个关键点。将Hopfield网络能量函数的变化式重写:第12页,本讲稿共55页 这在Hopfield算法中是不允许的。而这里却允许比较小的概率(负横轴所对应的概率)接受这种变化。从图还可
6、以看出:n 当温度T较高时,PHi(1)相对于Hi的变化反应迟钝,曲线趋于平坦,特别是当 时曲线变为一条恒为05的直线。此时ui取1和0的概率相等,这意味着在T较高的期间,网络各神经元有更多的机会进行状态选择,相当于金属内部的粒子作激烈的自由运动;n 当温度降低时,PHi(1)曲线变陡 PHi(1)相对于Hi的变化相当敏感。当 时,曲线退化为一阶跃函数,则算法也从模拟退火算法过渡到Hopfield算法。可以说:Hopfield算法是模拟退火算法在 时 的特例。第13页,本讲稿共55页 反复进行网络的状态更新,且更新次数N足够大以后,网络某状态出现的概率将服从分布:式中,Ei为状态ui所对应的网
7、络能量。第14页,本讲稿共55页 这 一 概 率 分 布 就 是 由 统 计 力 学 家 Ludwig Boltzmann(18441906年)提出的Boltzmann分布。式中的Z是为使分布规一化而设置的常数(网络所有状态的能量之和为常数)。由这一分布可以看出:状态的能量越小,这一状态出现的概率就越大。这是Boltzmann分布的一大特点,即“最小能量状态以最大的概率出现”。第15页,本讲稿共55页5.3 Boltzmann机与Boltzmann机工作规则 按模拟退火算法实现网络状态的更新时,网络各状态出现的概率将服从Boltzmann分布。实际上,模拟退火算法的提出并不是针对神经网络的,它
8、最早是由Metrpolis于1953年针对模拟统计物理中液体结晶问题而提出的一种算法思想。1985年,Hinton等人把模拟退火算法引入神经网络中,提出了Boltzman机模型,简称BM网络(Boltzmann Machine)。第16页,本讲稿共55页 Boltzmann机网络结构基本上与离散型Hopfield网络结构相似,由N个神经元构成,每个神经元取0、1二值输出,且神经元之间以对称连接权相互连接。与Hopfield网络所不同的是:Boltzmann机网络一般把整个神经元分为可视层与隐含层两大部分,可视层又可分为输入部分和输出部分。但它与一般的阶层网络结构不同之处是网络没有明显的层次界限
9、,且神经元之间不是单向连接而是双向连接的,如图所示。第17页,本讲稿共55页第18页,本讲稿共55页Bo1tzmann机网络的算法根据其两大用途分为:工作规则:也就是网络的状态更新规则,主要用于 优化组合问题。学习规则:也就是网络连接权和输出阈值的修正规 则,主要用于以网络作为一种外界概率 分布的模拟机。这也是Boltzmann机网络 的一个独特的用途。第19页,本讲稿共55页 Boltzmann机网络工作规则与Hopfield网络工作规则十分相似,只是以概率方式取代阶跃函数方式来决定网络根据其神经元的内部状态而进行的状态更新,并且网络的温度参数随着网络状态更新的进行而逐渐减小。实际上,可以说
10、Boltzmann机网络工作规则就是模拟退火算法的具体体现。现将其步骤归纳如下:第20页,本讲稿共55页第21页,本讲稿共55页第22页,本讲稿共55页第23页,本讲稿共55页4)关于降温策略,由于在Boltzmann机工作规则中引入了概率,所以网络不是收敛于1个状态而是收敛于平衡状态。即在N次网络状态更新过程中,网络各个状态出现的概率分布保持不变,符合Boltzmann分布。由这一分布可知,温度参数T对收敛概率分布有很大影响。当温度参数 时,最小能量的状态实现概率为1,这也正是我们所期望的。第24页,本讲稿共55页 但是如果开始就以T0进行状态更新,则网络状态很可能陷入局部极小点。因此需采用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 神经网络 第五章精品文稿 第五 精品 文稿
限制150内