Boltzmann神经网络模型与学习算法.ppt
智能中国网提供学习支持智能中国网提供学习支持2.10 Boltzmann神经网络模型与学习算法 概述概述pAckleyAckley、HintonHinton等人以模拟退火思想为基等人以模拟退火思想为基础,对础,对HopfieldHopfield模型引入了随机机制,提模型引入了随机机制,提出了出了BoltzmannBoltzmann机。机。Geoffrey Hinton David H.Ackley 概述概述pBoltzmannBoltzmann机是第一个受统计力学启发的多层学机是第一个受统计力学启发的多层学习机,它是一类典型的随机神经网络,属于反习机,它是一类典型的随机神经网络,属于反馈神经网络类型馈神经网络类型 p其命名来源于其命名来源于BoltzmannBoltzmann在统计热力学中的早期在统计热力学中的早期工作和网络本身的动态分布行为工作和网络本身的动态分布行为 pBoltzmannBoltzmann机结合机结合BPBP网络和网络和HopfieldHopfield网络在网络网络在网络结构、学习算法和动态运行机制的优点,是建结构、学习算法和动态运行机制的优点,是建立在立在HopfieldHopfield网基础上的,具有学习能力,能网基础上的,具有学习能力,能够通过一个模拟退火过程寻求解答。不过,其够通过一个模拟退火过程寻求解答。不过,其训练时间比训练时间比BPBP网络要长。网络要长。2.10.1 Boltzmann机的网络结构pBoltzmannBoltzmann机由输入部、输出部和中间部机由输入部、输出部和中间部构成构成 2.10.1 Boltzmann机的网络结构p输入部和输出部神经元统称为显见神经元,输入部和输出部神经元统称为显见神经元,是网络与外部环境进行信息交换的媒介,中是网络与外部环境进行信息交换的媒介,中间部的神经元称为隐见神经元,它们通过显间部的神经元称为隐见神经元,它们通过显见神经元与外界进行信息交换见神经元与外界进行信息交换p每一对神经元之间的信息传递是双向对称的,每一对神经元之间的信息传递是双向对称的,即即 而且自身无反馈,即而且自身无反馈,即 。p显见神经元将被外部环境显见神经元将被外部环境“约束约束”在某一特在某一特定的状态,而中间部隐见神经元则不受外部定的状态,而中间部隐见神经元则不受外部环境约束。环境约束。2.10.1 Boltzmann机的网络结构pBoltzmannBoltzmann机神经元模型机神经元模型每个神经元的兴奋或抑制具有随机性,其概率取决于神经元的输入 图中vj表示神经元 j 的输出 2.10.1 Boltzmann机的网络结构pBoltzmannBoltzmann机神经元模型机神经元模型每个神经元的兴奋或抑制具有随机性,其概率取决于神经元的输入 图中vi表示神经元i的输出 2.10.1 Boltzmann机的网络结构p神经元的全部输入信号的总和由下式给出神经元的全部输入信号的总和由下式给出p 为神经元的阈值为神经元的阈值,并将其看作连接权值为并将其看作连接权值为1 1的输的输入,可以归并到总的加权和中去,即得到下式入,可以归并到总的加权和中去,即得到下式p神经元的输出依概率取神经元的输出依概率取1 1或或0 0:p 越大,则越大,则 取取1 1的概率越大,而取的概率越大,而取0 0的概率越小的概率越小 2.10.1 Boltzmann机的网络结构p神经元的全部输入信号的总和由下式给出神经元的全部输入信号的总和由下式给出p 为神经元的阈值为神经元的阈值,并将其看作连接权值为并将其看作连接权值为1 1的输的输入,可以归并到总的加权和中去,即得到下式入,可以归并到总的加权和中去,即得到下式2.10.1 Boltzmann机的网络结构pui 越大,则越大,则 vi 取取1 1的概率越大,而取的概率越大,而取0 0的的概率越小概率越小 p神经元的输出依概率取神经元的输出依概率取1 1或或0 0:(1)(2)2.10.1 Boltzmann机的网络结构p温度温度T T的作用的作用如图所示,T越高时,曲线越平滑,即使ui有很大变动,也不会对vi取1的概率变化造成很大的影响;反之,T越低时,曲线越陡峭,当uj有稍许变动时就会使概率有很大差异,当T趋向于0时,每个神经元不再具有随机特性,激励函数变为阶跃函数,这时Boltzmann机演变为Hopfield网络 横坐标横坐标表示神表示神经元的经元的输入总输入总和,纵和,纵坐标表坐标表示概率示概率2.10.1 Boltzmann机的网络结构p温度温度T T的作用的作用如图所示,T越高时,曲线越平滑,即使uj有很大变动,也不会对vj取1的概率变化造成很大的影响;反之,T越低时,曲线越陡峭,当uj有稍许变动时就会使概率有很大差异,当T趋向于0时,每个神经元不再具有随机特性,激励函数变为阶跃函数,这时Boltzmann机演变为Hopfield网络 2.10.1 Boltzmann机的网络结构横坐标表示神经元的输入总和,纵坐标表示概率横坐标表示神经元的输入总和,纵坐标表示概率网络能量函数网络能量函数 与与Hopfield神经网络一样,神经网络一样,BM神经网络用能神经网络用能量函数作为描述网络状态的函数,能量函数采用与量函数作为描述网络状态的函数,能量函数采用与Hopfield网络相同形式网络相同形式或或 由上式可以看出,如果相应于具有相同状态的元由上式可以看出,如果相应于具有相同状态的元vi和和vj之间权值之间权值wij大多取正值,而具有相反状态大多取正值,而具有相反状态wij大多大多取负值,取负值,E才会具有最低的值;反之,才会具有最低的值;反之,E就相对较高。就相对较高。显然低能量的网络状态表达着网络的更加有序性,这显然低能量的网络状态表达着网络的更加有序性,这与热力学系统是完全对应的,也是与与热力学系统是完全对应的,也是与Hebb规则相呼规则相呼应的。应的。E降至其全局最小点时,网络即达到其最佳状降至其全局最小点时,网络即达到其最佳状态,这就是我们要搜索的最优解。态,这就是我们要搜索的最优解。2.10.2 Boltzmann2.10.2 Boltzmann机学习算法机学习算法 p算法原理算法原理Boltzmann机可视为一动力系统,其能量函数的极小值对应系统的稳定平衡点将待求解优化问题的目标函数与网络的能量函数相对应,神经网络的稳定状态就对应优化目标的极小值p算法分类算法分类状态更新算法用于解决优化组合问题用于解决优化组合问题 联想记忆算法 用于解决依照一定概率重现记忆的问题用于解决依照一定概率重现记忆的问题 BMBM网络状态演变的能量特征网络状态演变的能量特征 为简化讨论,假设为简化讨论,假设BMBM神经网络按异步神经网络按异步方式运行,每次只改变一个神经元的状态。方式运行,每次只改变一个神经元的状态。设设xi取取0 0和取和取1 1时系统的能量函数的差值为时系统的能量函数的差值为Ei,则,则Ei=Exi=0=0-Exi=1=1=ui.式中式中ui是是i号号神经元的净输入。神经元的净输入。在在HNNHNN中,我们很容易证明了中,我们很容易证明了E0,0,0,说明网络在其第说明网络在其第i i号神经元取号神经元取1 1时的能量时的能量小于取小于取0 0时的能量,这时可计算出时的能量,这时可计算出 即在下一个时刻即在下一个时刻xixi取取1 1的概率当然高于取的概率当然高于取0 0的概率。的概率。反之,则可计算出反之,则可计算出 BMBM网络状态演变的能量特征网络状态演变的能量特征 可见,网络运行过程总是以更大的概率朝能可见,网络运行过程总是以更大的概率朝能量下降的方向演化。不过,这是概率事件,完全量下降的方向演化。不过,这是概率事件,完全存在朝能量上升方向演化的可能。而从概率的角存在朝能量上升方向演化的可能。而从概率的角度来看,如果度来看,如果Ei越是一个大正数,越是一个大正数,xi取取1 1的概率的概率越大,越大,Ei越是一个大负数,越是一个大负数,xi取取0 0的概率越大。的概率越大。这样我们就把(这样我们就把(1 1)()(2 2)转换成网络状态出现概)转换成网络状态出现概率与兑现这种状态时网络能量的变化,以及它们率与兑现这种状态时网络能量的变化,以及它们对温度对温度T T的依赖联系在一起的依赖联系在一起BMBM网络状态演变的能量特征网络状态演变的能量特征 这样,随着逐次调整,系统的总能量总是呈这样,随着逐次调整,系统的总能量总是呈下降趋势,直至达到一个稳定点。下降趋势,直至达到一个稳定点。我们可以计算出我们可以计算出BMBM神经网络处于不同状态的神经网络处于不同状态的概率。假设概率。假设BMBM神经网络中有神经网络中有vi=1=1和和vi=0=0的的a、b两种两种状态,在这两种状态下所有其它神经元的取值相状态,在这两种状态下所有其它神经元的取值相同。设同。设a状态的出现概率是状态的出现概率是Pa,b状态的出现概率状态的出现概率是是Pb,假设假设Pa可以表示为可以表示为BMBM网络状态演变的能量特征网络状态演变的能量特征则则式中式中K K为一个常数。于是为一个常数。于是 上式关系是普遍的,稍加推导即可证明,若网络上式关系是普遍的,稍加推导即可证明,若网络中任意两个状态中任意两个状态和和出现的概率为出现的概率为P和和P ,它们,它们的能量为的能量为E和和E ,如下关系总是成立,如下关系总是成立这就是著名的这就是著名的BoltzmannBoltzmann分布,也是分布,也是BMBM网络名称的由来。网络名称的由来。BMBM网络状态演变的能量特征网络状态演变的能量特征 由此式可见,对网络进行足够多次迭代搜索由此式可见,对网络进行足够多次迭代搜索后,后,BMBM神经网络处于哪一种状态的概率,即取决神经网络处于哪一种状态的概率,即取决于该网络在此状态下的能量,也取决于温度参数于该网络在此状态下的能量,也取决于温度参数T T。显然非常重要的一点是能量低的状态出现的概率显然非常重要的一点是能量低的状态出现的概率大,例如大,例如 因此相应于各极小点的状态出现的概率就大因此相应于各极小点的状态出现的概率就大于周围状态出现的概率,进而全局最小点出现的于周围状态出现的概率,进而全局最小点出现的概率就大于局部极小点出现的概率。概率就大于局部极小点出现的概率。BMBM网络状态演变的能量特征网络状态演变的能量特征 另一方面,温度另一方面,温度T T对网络的状态影响很大。在高温下,对网络的状态影响很大。在高温下,即使即使Ei值有较大变化,神经元状态概率差别较小。反之,值有较大变化,神经元状态概率差别较小。反之,在低温下神经元状态对在低温下神经元状态对Ei的变化更加敏感。显然,如果温的变化更加敏感。显然,如果温度参数度参数T T低到趋于低到趋于0 0,则每一个神经元不再具有随机性,输入,则每一个神经元不再具有随机性,输入-输出接近硬限幅函数关系,这时输出接近硬限幅函数关系,这时BMBM神经网络退化为神经网络退化为HNN.HNN.因此因此T T很高时,各状态出现概率的差异大大减小,网络不很高时,各状态出现概率的差异大大减小,网络不会陷在某个极小点中摆脱不出来,它能越过位能壁垒进入其会陷在某个极小点中摆脱不出来,它能越过位能壁垒进入其它极小点;当温度比较低时,微小的能量差异使相应状态出它极小点;当温度比较低时,微小的能量差异使相应状态出现概率的差距被加大,由于网络在全局最小点状态的能量远现概率的差距被加大,由于网络在全局最小点状态的能量远小于各局部最小点的能量,则网络在搜索结束时停留在全局小于各局部最小点的能量,则网络在搜索结束时停留在全局最小点的概率将远大于局部最小点。最小点的概率将远大于局部最小点。2.10.2 Boltzmann2.10.2 Boltzmann机学习算法机学习算法p状态更新算法状态更新算法(1)网络初始化 给初始状态赋给初始状态赋-1-1,11之间的随机数,设定起始温度之间的随机数,设定起始温度T0和目标温度值和目标温度值Tfinal。(2)求解内部状态 从从N N个神经元中随机选取一个神经元,根据下式求解出个神经元中随机选取一个神经元,根据下式求解出神经元的输入总和,即内部状态。神经元的输入总和,即内部状态。2.10.2 Boltzmann2.10.2 Boltzmann机学习算法机学习算法p状态更新算法状态更新算法(3)更新神经元状态 根据下面公式更新神经元的状态:根据下面公式更新神经元的状态:2.10.2 Boltzmann2.10.2 Boltzmann机学习算法机学习算法(4)除i外的神经元的输出状态保持不变,即除i外的神经元的状态由下面公式求解得出:(5)令 ,按照下式计算出新的温度参数:(6)第5步计算出的温度参数是否小于目标温度,小于目标温度则算法结束,否则返回(2),进入下一轮计算。注意事项注意事项起始温度T0的选择方法随机选取网络中随机选取网络中K K个神经元,取这个神经元,取这K K个神经元能量的方个神经元能量的方差为差为T0在初始网络中选取使在初始网络中选取使EE最大的两个神经元,取最大的两个神经元,取T0为为EmaxEmax的若干倍。的若干倍。按经验给出按经验给出确定目标(终止)温度值Tfinal 主要根据经验选取,若在连续若干温度下网络状态保持不变,也可认为已达到终止温度。注意事项注意事项概率阀值的确定方法在网络初始化时按经验确定,或在运行过程中选取一个0,0.5之间均匀分布的随机数。网络权值的确定方法在每一温度下达到热平衡的条件降温方法 通常采用指数降温,即为加快网络收敛速度,也可采用一个倍乘小于1的降温系数的办法。BoltzmannBoltzmann机学习算法的机学习算法的MATLABMATLAB实现实现p在在MATLABMATLAB的工具箱中,没有的工具箱中,没有BoltzmannBoltzmann神神经网络的相关函数,在学习完第经网络的相关函数,在学习完第4 4章后,章后,根据自己的需要,利用根据自己的需要,利用MATLABMATLAB中的数学计中的数学计算函数来扩展算函数来扩展nnToolKitnnToolKit工具包,实现工具包,实现BoltzmannBoltzmann神经网络的学习算法,完成特神经网络的学习算法,完成特定的需要。定的需要。仿真实例仿真实例一个含有三个神经元的一个含有三个神经元的BMBM神经网络神经网络结构如图所示,其网络权值矩阵和结构如图所示,其网络权值矩阵和阀值为阀值为V1V2V3试仿真其运行过程,并确定网络的最后热平衡状态。试仿真其运行过程,并确定网络的最后热平衡状态。小结小结p概述概述pBoltzmannBoltzmann机的网络结构机的网络结构 p Boltzmann Boltzmann机的学习算法机的学习算法p Boltzmann Boltzmann机与机与HopfieldHopfield网络的关系网络的关系 谢谢!谢谢!