人工神经网络原理与仿真实例第2版-教学ppt课件--第6章-随机神经网络及模拟退火算法.ppt
-
资源ID:69930465
资源大小:662KB
全文页数:83页
- 资源格式: PPT
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
人工神经网络原理与仿真实例第2版-教学ppt课件--第6章-随机神经网络及模拟退火算法.ppt
在线教务辅导网:在线教务辅导网:http:/教材其余课件及动画素材请查阅在线教务辅导网教材其余课件及动画素材请查阅在线教务辅导网QQ:349134187 或者直接输入下面地址:或者直接输入下面地址:http:/*合肥工业大学 计算机与信息学院 图像信息处理研究室第第6章章 随机神经网络及模拟退火算法随机神经网络及模拟退火算法 n6.1 Boltzmann机机n6.2 Boltzmann机的改进机的改进n6.3 模拟退火算法模拟退火算法n6.4 仿真实例仿真实例*合肥工业大学 计算机与信息学院 图像信息处理研究室前言前言n 随机神经网络是统计力学思想引入神经网络研究随机神经网络是统计力学思想引入神经网络研究的结果。的结果。n统计力学是研究大系统宏观平衡性质的学科,这种统计力学是研究大系统宏观平衡性质的学科,这种大系统的组成元素服从微观机制。统计力学的主要大系统的组成元素服从微观机制。统计力学的主要目的是寻找从微观粒子(原子、电子)的运动开始目的是寻找从微观粒子(原子、电子)的运动开始的宏观物体的热力学性质,由于所遇到的自由度数的宏观物体的热力学性质,由于所遇到的自由度数目很大,因此只能使用概率的方法进行研究。目很大,因此只能使用概率的方法进行研究。*合肥工业大学 计算机与信息学院 图像信息处理研究室 随机神经网络与其他网络的比较:随机神经网络与其他网络的比较:名称名称 网络类型网络类型 网络结构网络结构 学习算法学习算法BP网络网络多层前向网多层前向网络络含输入层、隐层、含输入层、隐层、输出层。层内神输出层。层内神经元无连接经元无连接网络按误差减网络按误差减少的最大梯度少的最大梯度方向调整权值方向调整权值Hopfield 网络网络反馈神经网反馈神经网络络单层神经网络,单层神经网络,层内神经元全互层内神经元全互连连网络按照其用网络按照其用途来设计或训途来设计或训练网络权值练网络权值Boltzmann 机机随机神经网随机神经网络络含输入部、输出含输入部、输出部和中间部。神部和中间部。神经元互连经元互连网络向误差减网络向误差减小的方向运行小的方向运行概率大,但也概率大,但也可能向误差增可能向误差增大方向运行大方向运行*合肥工业大学 计算机与信息学院 图像信息处理研究室nBP网络是一种网络是一种“贪心贪心”算法,容易陷入局部最算法,容易陷入局部最小点。小点。nHopfieldHopfield网络很难避免出现伪状态,网络是严格网络很难避免出现伪状态,网络是严格按照能量减小的方向运行的,容易陷入局部极小按照能量减小的方向运行的,容易陷入局部极小点,而无法跳出。点,而无法跳出。n所以,在用所以,在用BP网络和网络和Hopfield网络进行最优化网络进行最优化的计算时,由于限定条件的不足,往往会使网络的计算时,由于限定条件的不足,往往会使网络稳定在误差或能量函数的局部最小点,而不是全稳定在误差或能量函数的局部最小点,而不是全局最小点,即所得的解不是最优解。局最小点,即所得的解不是最优解。*合肥工业大学 计算机与信息学院 图像信息处理研究室n网络陷入局部最小点的原因主要有两点:网络陷入局部最小点的原因主要有两点:(1)网网络络结结构构上上存存在在着着输输入入到到输输出出之之间间的的非非线线性性函函数数关关系系,从从而而使使网网络络误误差差或或能能量量函函数数所所构构成的空间是一个含有多极点的非线性空间。成的空间是一个含有多极点的非线性空间。(2)在在算算法法上上,网网络络的的误误差差或或能能量量函函数数只只能能单单方向减小,不能有一点上升。方向减小,不能有一点上升。*合肥工业大学 计算机与信息学院 图像信息处理研究室n随机神经网络的基本思想:随机神经网络的基本思想:网络向误差或能量函数减小方向运行的概率大,网络向误差或能量函数减小方向运行的概率大,同时向误差或能量函数增大方向运行的概率存在,同时向误差或能量函数增大方向运行的概率存在,这样网络跳出局部极小点的可能性存在,而且向全这样网络跳出局部极小点的可能性存在,而且向全局最小点收敛的概率最大。局最小点收敛的概率最大。*合肥工业大学 计算机与信息学院 图像信息处理研究室 n 20世纪世纪80年代,年代,Ackley,Hinton 和和Sejnowski等人等人以模拟退火思想为基础,对以模拟退火思想为基础,对Hopfield网络引入了网络引入了随机机制,推出随机机制,推出Boltzmann机。机。n Boltzmann机是第一个受统计力学启发的多层学机是第一个受统计力学启发的多层学习机,它是典型的随机神经网络。其命名来源于习机,它是典型的随机神经网络。其命名来源于Boltzmann机在统计力学中的早期工作和网络本机在统计力学中的早期工作和网络本身的动态分布行为(其平衡状态服从身的动态分布行为(其平衡状态服从Boltzmann分布),其运行机制服从模拟退火算法。分布),其运行机制服从模拟退火算法。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.1 Boltzmann机机n6.1.1 Boltzmann机的网络结构机的网络结构n6.1.2 Boltzmann机的工作原理机的工作原理n6.1.3 Boltzmann机的运行步骤机的运行步骤n6.1.4 Boltzmann机的学习规则机的学习规则*合肥工业大学 计算机与信息学院 图像信息处理研究室 6.1.1 Boatman机的网络结构机的网络结构图图6-1 boltzmann机的网络结构机的网络结构*合肥工业大学 计算机与信息学院 图像信息处理研究室n Boltzmann机由输入部、输出部和中间部构成。机由输入部、输出部和中间部构成。输入神经元和输出神经元可称为显见神经元,它输入神经元和输出神经元可称为显见神经元,它们是网络与外部环境进行信息交换的媒介。中间们是网络与外部环境进行信息交换的媒介。中间部的神经元称为隐见神经元,它们通过显见神经部的神经元称为隐见神经元,它们通过显见神经元与外部进行信息交换。元与外部进行信息交换。n 每一对神经元之间的信息传递是双向对称的,即每一对神经元之间的信息传递是双向对称的,即wij=wji,而且自身无反馈即,而且自身无反馈即wii=0。学习期间,显。学习期间,显见神经元将被外部环境见神经元将被外部环境“约束约束”在某一特定的状在某一特定的状态,而中间部隐见神经元则不受外部环境约束。态,而中间部隐见神经元则不受外部环境约束。*合肥工业大学 计算机与信息学院 图像信息处理研究室Boltzmann机中单个神经元的运行特性机中单个神经元的运行特性*合肥工业大学 计算机与信息学院 图像信息处理研究室 n Boltzmann机中每个神经元的兴奋或抑制具机中每个神经元的兴奋或抑制具有随机性,其概率取决于神经元的输入。有随机性,其概率取决于神经元的输入。n 神经元神经元i的全部输入信号的总和为的全部输入信号的总和为ui为:为:式中式中bi是是该神经元的阈值。该神经元的阈值。可以将可以将bi归并归并到总的加权和中去,即得:到总的加权和中去,即得:*合肥工业大学 计算机与信息学院 图像信息处理研究室 n 神经元的输出神经元的输出vi依概率取依概率取1或或0:vi取取1的概率:的概率:vi取取0的概率:的概率:n 由此可见,由此可见,vi取取1的概率受两个因素的影响:的概率受两个因素的影响:(1)ui越大越大vi则取则取1的概率越大,而取的概率越大,而取0的概的概 率越小。率越小。(2)参数参数T称为称为“温度温度”,在不同的温度下,在不同的温度下vi 取取1的概率的概率P随随ui的变化如图所示。的变化如图所示。*合肥工业大学 计算机与信息学院 图像信息处理研究室 pu的关系的关系*合肥工业大学 计算机与信息学院 图像信息处理研究室n可可见见,T越越高高时时,曲曲线线越越平平滑滑,因因此此,即即使使ui有有很很大大变变动动,也也不不会会对对vi取取1的的概概率率变变化化造造成成很很大大的的影影响响;反反之之,T越越低低时时,曲曲线线越越陡陡峭峭,当当ui有有稍稍许许变变动动时时就就会会使使概概率率有有很很大大差差异异。即即温温度度高高时时状状态态变变化化接接近随机,随着温度的降低向确定性的动作靠近。近随机,随着温度的降低向确定性的动作靠近。n当当T0时时,每每个个神神经经元元不不再再具具有有随随机机特特性性,而而具具有有确确定定的的特特性性,激激励励函函数数变变为为阶阶跃跃函函数数,这这时时Boltzmann机趋向于机趋向于Hopfield 网络。网络。*合肥工业大学 计算机与信息学院 图像信息处理研究室 6.1.1 Boltzmann机的工作原理机的工作原理 Boltzmann机机采采用用下下式式所所示示的的能能量量函函数数作作为为描述其状态的函数。描述其状态的函数。将将Boltzmann机机视视为为一一动动力力系系统统,能能量量函函数数的的极极小小值值对对应应系系统统的的稳稳定定平平衡衡点点,由由于于能能量量函函数数有有界界,当当网网络络温温度度以以某某种种方方式式逐逐渐渐下下降降到到某某一一特特定定值值时时,系系统统必必趋趋于于稳稳定定状状态态Boltzmann机的运行过程就是逐步降低其能量函数的过程。机的运行过程就是逐步降低其能量函数的过程。*合肥工业大学 计算机与信息学院 图像信息处理研究室nBoltzmann机机在在运运行行时时,假假设设每每次次只只改改变变一一个个神神经经元元的的状状态态,如如第第i个个神神经经元元,设设vi取取0和和取取1时时系系统统的的能量函数分别为能量函数分别为0和和 ,它们的差值为,它们的差值为Ei nEi的取值可能有两种情况的取值可能有两种情况:Ei 0或或Ei 0即即 0 时,时,神经元取神经元取1的概率:的概率:神经元取神经元取0的概率:的概率:当当 Ei 0时,时,这这时神经元时神经元i的状态取的状态取1的可能性比取的可能性比取0的可能性大,的可能性大,即网络状态取能量低的可能性大。即网络状态取能量低的可能性大。*合肥工业大学 计算机与信息学院 图像信息处理研究室(2 2)同理当)同理当Ei 0,即能量差即能量差Ei0,取,取vi=1为为神经元神经元i的下一状态值。若的下一状态值。若ui0,计算概率计算概率:*合肥工业大学 计算机与信息学院 图像信息处理研究室n第四步:判断第四步:判断网络在温度网络在温度Tm下是否达到稳定,下是否达到稳定,若未达到稳定,则继续在网络中随机选取另一若未达到稳定,则继续在网络中随机选取另一神经元神经元j,令,令ji,转至第二步重复计算,直至,转至第二步重复计算,直至网络在网络在Tm下达到稳定。若网络在下达到稳定。若网络在Tm下已达到下已达到稳定则转至第五步计算。稳定则转至第五步计算。n第第五五步步:以以一一定定规规律律降降低低温温度度,使使Tm+1Tm,判判断断Tm+1是是否否小小于于Tfinal,若若Tm+1大大于于等等于于Tfinal,则则Tm=Tm1,转转至至第第二二步步重重复复计计算算;若若Tm+1小小于于Tfinal,则则运运行行结结束束。此此时时在在Tm下下所求得的网络稳定状态,即为网络的输出。所求得的网络稳定状态,即为网络的输出。*合肥工业大学 计算机与信息学院 图像信息处理研究室Boltzmann机学习需要注意几点机学习需要注意几点:n(1)初始温度)初始温度T0的选择方法。初始温度的选择方法。初始温度T0的的选取主要有以下方法:随机选取网络中选取主要有以下方法:随机选取网络中k个神个神经元,选取这经元,选取这k个神经元能量的方差作为个神经元能量的方差作为T0;在初始网络中选取使在初始网络中选取使E最大的两个神经元,最大的两个神经元,取取T0为为Emax的若干倍;按经验值给出的若干倍;按经验值给出T0等。等。n(2)确定终止温度阈值)确定终止温度阈值Tfinal的方法。主要根的方法。主要根据经验选取,若在连续若干温度下网络状态据经验选取,若在连续若干温度下网络状态保持不变,也可认为已达到终止温度。保持不变,也可认为已达到终止温度。*合肥工业大学 计算机与信息学院 图像信息处理研究室n(3)概概率率阈阈值值的的确确定定方方法法。的的选选取取方方法法主主要要有有:在在网网络络初初始始化化时时按按照照经经验验确确定定或或在在网网络络每每次次运运行行过过程程中中选选取取一一个个0,0.5之之间间均均匀匀分分布的随机数。布的随机数。n(4)网络权值)网络权值wij的确定方法。将在下一章节的确定方法。将在下一章节讨论。讨论。n(5)在每一温度下达到热平衡的条件。通常)在每一温度下达到热平衡的条件。通常在每一温度下,实验足够多的次数,直至网络在每一温度下,实验足够多的次数,直至网络状态在此温度下不再发生变化为止。状态在此温度下不再发生变化为止。*合肥工业大学 计算机与信息学院 图像信息处理研究室n(6)降降温温的的方方法法。通通常常采采用用指指数数的的方方法法进进行行降温,即:降温,即:n为加快网络收敛速度也可采用倍乘一个小于为加快网络收敛速度也可采用倍乘一个小于1的降温系数的方法进行快速降温。的降温系数的方法进行快速降温。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.1.4 Boltzmann机的学习规则机的学习规则nBoltzmann机机是是一一种种随随机机神神经经网网络络,可可使使用用概概率率中中的的似似然然函函数数量量度度其其模模拟拟外外界界环环境境概概率率分分布布的的性性能能。因因此此,Boltzmann机机的的学学习习规规则则就就是是根根据据最最大大似似然然规规则则,通通过过调调整整权权值值wij,最最小小化化似然函数或其对数。似然函数或其对数。n假设给定需要网络模拟其概率分布的样本集合假设给定需要网络模拟其概率分布的样本集合 ,Vx是是样样本本集集合合中中的的一一个个状状态态向向量量,Vx即即可可代代表表网网络络中中显显见见神神经经元元的的一一个个状状态态,假假设设向向量量Vy表表示示网网络络中中隐隐见见神神经经元元的的一一个个可可能能状状态态,则则V=Vx Vy即可表示整个网络所处的状态。即可表示整个网络所处的状态。*合肥工业大学 计算机与信息学院 图像信息处理研究室n由由于于网网络络学学习习的的最最终终目目的的是是模模拟拟外外界界给给定定样样本本集集合合的的概概率率分分布布,而而Boltzmann机机含含有有显显见见神神经经元元和和隐隐见见神神经经元元,因因此此Boltzmann机机的的学学习习过程包括以下两个阶段:过程包括以下两个阶段:(1)主主动动阶阶段段:网网络络在在外外界界环环境境约约束束下下运运行行,即即由由样样本本集集合合中中的的状状态态向向量量Vx控控制制显显见见神神经经元元的的状状态态。定定义义神神经经元元i和和j的的状状态态在在主主动动阶阶段段的的平均关联为:平均关联为:*合肥工业大学 计算机与信息学院 图像信息处理研究室n 其中概率其中概率P(Vy|Vx)表示网络的显见神经元约束在表示网络的显见神经元约束在Vx下隐见神经元处于下隐见神经元处于Vy的条件概率,它与网络在的条件概率,它与网络在主动阶段的运行过程有关。主动阶段的运行过程有关。2)被被动动阶阶段段:网网络络不不受受外外界界环环境境约约束束,显显见见神神经经元元和和隐隐见见神神经经元元自自由由运运行行,不不受受约约束束。被被动动阶阶段段的平均关联为:定义神经元的平均关联为:定义神经元i和和j的状态在的状态在*合肥工业大学 计算机与信息学院 图像信息处理研究室n P(V)为为网网络络处处于于V状状态态时时的的概概率率,vi和和vj分分别别是是神神经经元元i和和j的的输输出出状状态态。由由于于网网络络在在自自由由运运行行阶阶段段服服从从Boltzmann分布,因此分布,因此:E(V)为网络处于为网络处于V状态时的能量。状态时的能量。n 网络的权值网络的权值wij需遵循下面的调整规则:需遵循下面的调整规则:*合肥工业大学 计算机与信息学院 图像信息处理研究室nwij(t)为在第为在第t步时神经元步时神经元i,j之间的连接权值,之间的连接权值,为为学习速率,学习速率,T是网络温度。是网络温度。nBoltzmann机的优点机的优点:(1)通通过过训训练练,神神经经元元体体现现了了与与周周围围环环境境相相匹匹配配的的概率分布;概率分布;(2)网网络络提提供供了了一一种种可可用用于于寻寻找找、表表示示和和训训练练的的普普遍方法;遍方法;(3)若若保保证证学学习习过过程程中中温温度度降降低低的的足足够够慢慢,根根据据状状态的演化,可以使网络状态的能量达到全局最小点。态的演化,可以使网络状态的能量达到全局最小点。*合肥工业大学 计算机与信息学院 图像信息处理研究室n但但是是在在Boltzmann机机的的学学习习过过程程中中被被动动阶阶段段的的存存在具有两个很大的在具有两个很大的缺点缺点:(1)增增加加计计算算时时间间。在在外外界界环环境境约约束束条条件件下下,一一些些神神经经元元由由外外部部环环境境约约束束,而而在在自自由由运运行行条条件件下下,所所有有的的神神经经元元自自由由运运行行,这这样样增增加加了了Boltzmann机的随机仿真时间。机的随机仿真时间。(2)对对于于统统计计错错误误的的敏敏感感。Boltzmann机机的的学学习习规规则则包包含含了了主主动动阶阶段段关关联联和和被被动动阶阶段段关关联联的的差差值值。当当这这两两种种关关联联相相类类似似时时,取取样样噪噪声声的的存存在在使使得得这这个差值更加不准确。个差值更加不准确。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.2 Boltzmann机的改进机的改进n6.2.1 确定性确定性Boltzmann机机n6.2.2 Sigmoid置信度网络置信度网络*合肥工业大学 计算机与信息学院 图像信息处理研究室 6.2.1 确定性确定性Boltzmann机机n由于由于Boltzmann机在学习过程中需要计算网络中机在学习过程中需要计算网络中每对神经元的平均关联。可以证明每对神经元的平均关联。可以证明Boltzmann机机的学习时间同网络神经元的数目呈指数关系。的学习时间同网络神经元的数目呈指数关系。Boltzmann机在学习过程中存在的运算时间过长机在学习过程中存在的运算时间过长的问题使其很难在实际问题中加以应用。的问题使其很难在实际问题中加以应用。n目目前前,还还没没有有一一种种数数学学方方法法可可以以精精确确评评价价Boltzmann机机的的行行为为,但但是是可可以以使使用用平平均均场场逼逼近近的的方方法法来来逼逼近近。在在实实际际中中,只只需需知知道道网网络络状状态态的的平均值或网络中神经元状态的平均值即可。平均值或网络中神经元状态的平均值即可。*合肥工业大学 计算机与信息学院 图像信息处理研究室平均场理论平均场理论n为为 研研 究究 物物 理理 学学 中中 的的 Ising或或 者者 Sherrington-Kirkpatrick模模型型,Landau于于1937年年提提出出了了平平均均场场理理论论,这这是是研研究究连连续续相相变变的的普普遍遍理理论论。1985年年D.J.Amit采采用用平平均均场场理理论论研研究究联联想想记记忆忆问问题题。1987年年Peterson和和Anderson使使用用平平均均场场理理论论来来研究确定性研究确定性Boltzmann机。机。n其方法是基于其方法是基于“考虑来自周围物质的影响时,考虑来自周围物质的影响时,不是分别考虑各自的影响,而是以全部的平均不是分别考虑各自的影响,而是以全部的平均影响影响度近似度近似”。*合肥工业大学 计算机与信息学院 图像信息处理研究室n根根据据平平均均场场理理论论,首首先先需需要要知知道道网网络络中中每每个个神神经经元元状状态态的的平平均均值值,令令表表示示网网络络中中神神经经元元i状状态态的的平平均均值值。神神经经元元i的的输输出出状状态态以以概概率率规规则描述如下:则描述如下:*合肥工业大学 计算机与信息学院 图像信息处理研究室n因此,可以用神经元因此,可以用神经元i的输入表达的输入表达:这就是这就是Boltzmann机神经元的平均场逼近。机神经元的平均场逼近。n平平均均场场逼逼近近的的基基本本概概念念在在于于:将将每每个个神神经经元元i的的真真实输入替换为其平均值实输入替换为其平均值,即:即:*合肥工业大学 计算机与信息学院 图像信息处理研究室n因因 此此,需需 要要 计计 算算 由由 n个个 神神 经经 元元 组组 成成 的的Boltzmann机中神经元机中神经元i的平均输出的平均输出。n上上式式表表明明:一一个个随随机机变变量量函函数数的的平平均均值值可可以以由由此随机变量平均值的函数逼近。此随机变量平均值的函数逼近。*合肥工业大学 计算机与信息学院 图像信息处理研究室确定性确定性Boltzmann机机n通过平均场逼近可以得到确定的标准通过平均场逼近可以得到确定的标准Boltzmann学习规则近似为:学习规则近似为:n其其中中 和和 分分别别是是显显见见神神经经元元i在在约约束束条条件件和和自自由由运运行行条条件件下下的的平平均均输输出出,为为学学习习速速率率参参数数。这这种种方方法法称称作作“确确定定性性Boltzmann学学习习规规则则”,而而 这这 种种 神神 经经 网网 络络 则则 称称 作作 确确 定定 性性Boltzmann机。机。*合肥工业大学 计算机与信息学院 图像信息处理研究室 确定性确定性Boltzmann机在实际应用中需注意的两点:机在实际应用中需注意的两点:n(1)确确定定性性Boltzmann学学习习规规则则只只在在有有监监督督条条件件下下起起作作用用。无无监监督督学学习习不不能能在在所所有有的的平平均均场场框框架架中中起起作作用用,因因为为平平均均状状态态不不能能很很好好的的表表示示自由运行状态的概率分布。自由运行状态的概率分布。n(2)在在有有监监督督学学习习中中,确确定定性性Boltzmann学学习习要要求求神神经经网网络络只只有有一一个个单单隐隐层层(Galland,1993)。在在理理论论中中可可使使用用多多个个隐隐层层,但但在在实实际际中中,使使用用超超过过一一个个隐隐层层会会导导致致(1)中中所所提提到到的无监督学习的相同问题。的无监督学习的相同问题。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.2.2 Sigmoid置信度网络置信度网络n针针对对Boltzmann机机学学习习过过程程中中被被动动阶阶段段存存在在增增加加计计算算时时间间和和对对统统计计错错误误敏敏感感的的缺缺点点,Neal在在1992年年提提出出了了Sigmoid置置信信度度网网络络,也也称称为为逻逻辑辑推推理理网网络络。提提出出此此网网络络的的目目的的在在于于寻寻找找一一种种随随机机神神经经网网络络,使使其其可可以以具具有有Boltzmann机机从从二二值值向向量量中中学学习习任任意意概概率率分分布布的的能能力力,而而又又没没有有Boltzmann机机学学习习过过程程中中需需要要被被动动阶阶段段的的缺缺点点。Sigmoid置置信信度度网网络络通通过过控控制制学学习习过过程程而而不是使用被动阶段,来避免上述的缺点。不是使用被动阶段,来避免上述的缺点。*合肥工业大学 计算机与信息学院 图像信息处理研究室1.Sigmoid置信度网络的结构置信度网络的结构*合肥工业大学 计算机与信息学院 图像信息处理研究室nSigmoid置信度网络将置信度网络将Boltzmann机中的对称连机中的对称连接转变为无反馈直接连接的形式,无反馈的连接特接转变为无反馈直接连接的形式,无反馈的连接特性可简化概率计算。性可简化概率计算。Sigmoid置信度网络由多层置信度网络由多层结构的二值随机神经元构成,并使用结构的二值随机神经元构成,并使用Sigmoid函函数计算每个神经元的条件概率。数计算每个神经元的条件概率。nSigmoid置信度网络结构为典型的前向网络,其置信度网络结构为典型的前向网络,其输入、输出为二值变量。输入、输出为二值变量。*合肥工业大学 计算机与信息学院 图像信息处理研究室n设设Sigmoid置置信信度度网网络络由由n个个神神经经元元组组成成,每每个个神神经经元元的的状状态态由由二二值值随随机机变变量量V1,V2,Vn表表示示,则则向向量量V=V1,V2,Vn即即可可表表示示网网络络的的状状态态。定定义义pa(Vi)为为网网络络中中前前i-1个个神神经经元元状状态态的的一一个个子集,表示如下:子集,表示如下:pa(Vi)是随机向量是随机向量V的子集。因此的子集。因此*合肥工业大学 计算机与信息学院 图像信息处理研究室n第第i个神经元的激活概率由个神经元的激活概率由Sigmoid函数定义为:函数定义为:n此处此处wij为从神经元为从神经元j到神经元到神经元i的连接权值,的连接权值,f()为为Sigmoid函数。从上式中可以看出,条函数。从上式中可以看出,条件概率件概率P(Vi=vi|pa(Vi)只与只与pa(Vi)有关。上式有关。上式所定义的第所定义的第i个神经元的激活概率是在网络中传个神经元的激活概率是在网络中传播推理的基础。播推理的基础。*合肥工业大学 计算机与信息学院 图像信息处理研究室Sigmoid置信度网络中需注意以下两点:置信度网络中需注意以下两点:(1)对于不属于)对于不属于pa(Vi)的所有的所有Vj,wij=0(2)对于所有的,)对于所有的,wij=0n第第一一点点由由pa(Vi)的的定定义义所所决决定定。第第二二点点是是由由于于Sigmoid置置信信度度网网络络神神经经元元的的直直接接无无反反馈馈连连接接。Sigmoid置置 信信 度度 网网 络络 的的 随随 机机 操操 作作 比比Boltzmann机机要要复复杂杂。这这种种随随机机神神经经网网络络在在概率空间中使用梯度下降的学习算法。概率空间中使用梯度下降的学习算法。*合肥工业大学 计算机与信息学院 图像信息处理研究室2.Sigmoid置信度网络学习算法置信度网络学习算法n令表示训练样本集,代表需要网络学习的某种令表示训练样本集,代表需要网络学习的某种概率分布。假设每个样本都是二值的。由状态概率分布。假设每个样本都是二值的。由状态向量向量V决定网络神经元数量。定义状态向量的决定网络神经元数量。定义状态向量的子集子集Vx代表训练数据的特征,即代表训练数据的特征,即Vx是表示显见是表示显见神经元的状态向量。剩下的状态向量表示为神经元的状态向量。剩下的状态向量表示为Vy,即,隐见神经元的状态向量。,即,隐见神经元的状态向量。n对于给定状态向量对于给定状态向量V,Sigmoid置信度网络的置信度网络的设计高度依赖于显见神经元和隐见神经元的排设计高度依赖于显见神经元和隐见神经元的排列方式。因此,显见神经元与隐含神经元不同列方式。因此,显见神经元与隐含神经元不同的排列方式会导致不同的结构。的排列方式会导致不同的结构。*合肥工业大学 计算机与信息学院 图像信息处理研究室n按按照照梯梯度度下下降降的的思思路路,将将Sigmoid置置信信度度网网络络神神经经元元的的阈阈值值归归并并至至连连接接权权值值wij中中。则则Sigmoid置置信信度度网网络络第第t+1步步的的权权值值调调整整规规则则如下:如下:n其中:其中:*合肥工业大学 计算机与信息学院 图像信息处理研究室神经元神经元i和和j的平均关联的平均关联wij(t)为第为第t步时步时神经元神经元i,j的连接权值,的连接权值,为学习速率,为学习速率,T是是网络温度。网络温度。Sigmoid置信度网络在学习过程中摈弃了置信度网络在学习过程中摈弃了自由运行的过程,即网络只需在训练样本约自由运行的过程,即网络只需在训练样本约束条件下进行学习,从而达到去除被动阶段束条件下进行学习,从而达到去除被动阶段的目的。的目的。*合肥工业大学 计算机与信息学院 图像信息处理研究室n与与Boltzmann机不同,在机不同,在Sigmoid置信网络中只置信网络中只有一个阶段需要学习。这种简化的原因在于:经过有一个阶段需要学习。这种简化的原因在于:经过Sigmoid函数函数f(),状态向量的概率分布在每个,状态向量的概率分布在每个神经元的局部水平达到标准化。给定从训练样本集神经元的局部水平达到标准化。给定从训练样本集合中抽取的合中抽取的vx的值,可以正确建模随机向量的值,可以正确建模随机向量V的条的条件分布。件分布。Boltzmann机学习过程中的自由运行阶机学习过程中的自由运行阶段由因子段由因子 所取代。所取代。*合肥工业大学 计算机与信息学院 图像信息处理研究室nSigmoid置信度网络将前向网络结构引入随机置信度网络将前向网络结构引入随机神经网络的研究中,从而避免神经网络的研究中,从而避免Boltzmann机神机神经元全互联结构增加计算概率时间的缺点。另经元全互联结构增加计算概率时间的缺点。另一方面,一方面,Sigmoid置信度网络在结构上与前向置信度网络在结构上与前向网络类似,但在前向网络结构的基础上引入了网络类似,但在前向网络结构的基础上引入了优越的随机机制,从而避免前向网络无法跳出优越的随机机制,从而避免前向网络无法跳出局部极小点等方面的缺点。因此,它结合了随局部极小点等方面的缺点。因此,它结合了随机神经网络与前向神经网络的优点。机神经网络与前向神经网络的优点。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.3 模拟退火算法模拟退火算法n6.3.1 模拟退火原理模拟退火原理n3.3.2 模拟托活算法用于组合优化模拟托活算法用于组合优化*合肥工业大学 计算机与信息学院 图像信息处理研究室n 模拟退火算法(模拟退火算法(Simulated Annealing)来源于来源于固体退火原理,将固体加温至充高,再让其徐徐固体退火原理,将固体加温至充高,再让其徐徐冷却,加温时,固体内部粒子随温度升高变为无冷却,加温时,固体内部粒子随温度升高变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。态,内能减为最小。n它由它由Metropolis算法和退火过程(算法和退火过程(Annealing Procedure,AP)组成。)组成。*合肥工业大学 计算机与信息学院 图像信息处理研究室 模拟退火算法的基本思路:模拟退火算法的基本思路:n首先在高温下进行搜索,此时各状态出现概率相差首先在高温下进行搜索,此时各状态出现概率相差不大,可以很快进入不大,可以很快进入“热平衡状态热平衡状态”,这时进行的,这时进行的是一种是一种“粗搜索粗搜索”,也就是大致找到系统的低能区,也就是大致找到系统的低能区域;域;n随着温度的逐渐降低,各状态出现概率的差距逐渐随着温度的逐渐降低,各状态出现概率的差距逐渐被扩大,搜索精度不断提高。这就可以越来越准确被扩大,搜索精度不断提高。这就可以越来越准确的找到网络能量函数的全局最小点。的找到网络能量函数的全局最小点。*合肥工业大学 计算机与信息学院 图像信息处理研究室n模拟退火的最初目的是寻找代表复杂系统的代价模拟退火的最初目的是寻找代表复杂系统的代价函数的全局最小值。因此,这种方法为解决凹平函数的全局最小值。因此,这种方法为解决凹平面最优问题提供了一个强有力的工具,其中心思面最优问题提供了一个强有力的工具,其中心思想在于:在用模拟退火最优化一个复杂系统(如:想在于:在用模拟退火最优化一个复杂系统(如:一个拥有很多自由度的系统)时,误差或能量函一个拥有很多自由度的系统)时,误差或能量函数绝大部分的时间在下降,但不是一直下降,即数绝大部分的时间在下降,但不是一直下降,即误差或能量函数的总趋势向减小的方向变化,但误差或能量函数的总趋势向减小的方向变化,但有时也向增大的方向变化,这样可跳出局部极小有时也向增大的方向变化,这样可跳出局部极小点,向全局最小点收敛。点,向全局最小点收敛。*合肥工业大学 计算机与信息学院 图像信息处理研究室n模拟退火与传统迭代最优算法的比较:模拟退火与传统迭代最优算法的比较:(1)当当系系统统在在非非零零温温度度下下时时,从从局局部部最最优优中中跳跳出出是是非非常常可可能能的的,因因此此不不会会陷陷入入局部最优。局部最优。(2)系系统统最最终终状状态态的的总总特特征征可可以以在在较较高高温温度度下下看看到到,而而状状态态的的好好的的细细节节却却在在低低温温下下表表现现,因因此此,模模拟拟退退火火是是自自适适应应的的.。*合肥工业大学 计算机与信息学院 图像信息处理研究室6.3.1 模拟退火原理模拟退火原理 1.Metropolis抽样过程抽样过程 假假定定一一随随机机变变量量在在某某一一时时刻刻的的状状态态为为vi。在在另另一一时时刻刻的的状状态态为为vj。假假设设这这种种状状态态的的转转移移满满足足以以下下条件:条件:E表示系统从状态表示系统从状态vi转移至状态转移至状态vj所引起的能量差。所引起的能量差。n如果能量差如果能量差E为负,这种转移就导致状态能量的为负,这种转移就导致状态能量的降低,这种转移就被接受。接下来,新状态作为降低,这种转移就被接受。接下来,新状态作为算法下一步的起始点。算法下一步的起始点。*合肥工业大学 计算机与信息学院 图像信息处理研究室n若能量差为正,算法在这一点进行概率操作。若能量差为正,算法在这一点进行概率操作。首先,选定一个在首先,选定一个在0,1内服从均匀分布的随内服从均匀分布的随机数机数。如果。如果e-E/T,则接受这种转移。否,则接受这种转移。否则,拒绝这种转移;即在算法的下一步中拒绝则,拒绝这种转移;即在算法的下一步中拒绝旧的状态。如此反复,达到系统在此温度下的旧的状态。如此反复,达到系统在此温度下的热平衡。热平衡。n这这 个个 过过 程程 称称 作作 Metropolis抽抽 样样 过过 程程。Metropolis抽抽样样过过程程就就是是在在一一确确定定温温度度下下,使系统达到热平衡的过程。使系统达到热平衡的过程。*合肥工业大学 计算机与信息学院 图像信息处理研究室 2.退火过程(降温过程)退火过程(降温过程)在在Metropolis抽抽样样过过程程中中温温度度T缓缓慢慢的的降降低低。模模拟拟退退火火过过程程就就是是通通过过T参参数数的的变变化化使使状状态态收收敛敛于于最最小小能能量量处处。因因而而,T参参数数的的选选择择对对于于算算法法最最后后的的结结果果有有很很大大影影响响。初初始始温温度度和和终终止止温温度度设设置置的的过过低低或或过过高高都都会会延延长长搜搜索索时时间间。降降温温步步骤骤太太快快,往往往往会会漏漏掉掉全全局局最最优优点点,使使算算法法收收敛敛至至局局部部最最优优点点。降降温温步步骤骤太太慢慢,则则会会大大大大延延长长搜搜索索全全局局最最优优点点的的计计算算时时间间,从从而而难难以以实实际际应用。因此,应用。因此,T可以理解为一个控制参数。可以理解为一个控制参数。*合肥工业大学 计算机与信息学院 图像信息处理研究室n 为寻找在有限时间逼近全局最优的模拟退火为寻找在有限时间逼近全局最优的模拟退火算法,设置了许多控制算法收敛的参数。在退算法,设置了许多控制算法收敛的参数。在退火过程中指定了有限的退火温度值和在每一温火过程中指定了有限的退火温度值和在每一温度下的转移数目。度下的转移数目。Kirlpatrick等人在退火步等人在退火步骤中设定的参数如下:骤中设定的参数如下:n(1)初始温度值:初始温度值)初始温度值:初始温度值T0要选的足够要选的足够高,保证模拟退火算法中所有可能的转移都能高,保证模拟退火算法中所有可能的转移都能被接受。被接受。*合肥工业大学 计算机与信息学院 图像信息处理研究室(2)温温度度的的下下降降:原原先先使使用用指指数数函函数数实实现现温温度度的的下下降降。但但是是这这种种方方法法使使降降温温幅幅度度过过小小,从从而而延长搜索时间。在实际中,通常使用下式:延长搜索时间。在实际中,通常