2022年神经网络-BP网络实用 .pdf
《2022年神经网络-BP网络实用 .pdf》由会员分享,可在线阅读,更多相关《2022年神经网络-BP网络实用 .pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、11 第一章前传网络 .12 1.1 线性感知器 .12 1.1.1概述 .12 1.1.2线性感知器 .13 1.2 BP网络 .17 1.3 BP 网络的应用 .23 1.3.1 手写 ZIP 码识别 .23 1.3.2 图像压缩 .24 1.3.3 股票预测 .25 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 15 页 -12 第一章前传网络1.1 线性感知器1.1.1概述图 1.1 给出了一个简单的单层前传网络(神经元)的示意图。它也是许多更复杂的神经网络的基本构件之一。神经元对外界传入的N个信号经权值向量W处理后,用线性求和器得到“综合印象”,再由活化函数)(g对此
2、综合印象作出非线性反应。这种反应机制是对真正的生物神经元反应机制的一种简单而又常常有效的模拟。将大量简单神经元按某种方式连接起来,并通过某种学习过程确定单元之间的连接强度(权值W),就得到各种人工神经网络,用来完成逼近、分类、预测、控制和模拟等各种任务。图 1.1神经元模型设 给 定J 个 输 入 样 本 模 式Jjj1,其 中NTjNjjR),(1,以 及 理 想 输 出11ROJjj。另外,给定一个非线性函数11:)(RRxg。单层前传网络(神经元)的学习过程就是利用样本模式,通过某种学习算法来选择权向量NTNRWWW),(1和阈值1R,使得),()(1NnjnnjjjWgWgOJj,1(
3、1.1.1)其中j为网络的实际输出。然后,我们就可以向网络输入NR中其它模式向量,得到相应输出,这就是神经网络的工作过程。(1.1.1)中的函数)(xg称为活化函数,常见的有符号函数及其逼近、S型函数(Sigmoid 函数)、径向基函数、随机值函数等等。网络的输出值j及理想输出jO可以只取有限个离散值(例如双极值 1 或二进制 0,1),这时网络相当于一个分类器;也可以取连续值,这时网络相当于输入与输出O之间函数关系的一种数值逼近器。当存在W和使(1.1.1)成立时,我们说该问题是可解的,或样本模式Jjj1是可分的。否则,称为不可解的,或不可分的;这时只能选取W和使得误差jjO尽可能地小。名师
4、资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 15 页 -13 1.1.2线性感知器注 1.1令TNWWW),(1,TjNjj)1,(1,将W和一起作为新的权值W来进行选择,于是(1.1.1)中j的定义可以更紧凑地写成jjWg(1.1.2)下面,我们在(1.1.1)中取)(xg为如下符号函数0,10,1)sgn(xxx(1.1.3)且理想输出jO取值亦为1。(也可以考虑符号函数的取值为0,1。一般地说,取值为 0,1 时电路实现方便,而取1时数学处理比较简单。)对输入样本模式j,网络实际输出为jjWsgn(1.1.4)此时,式(1.1.4)所表示的神经网络称为线性感知器。图 1.2
5、符号函数(函数值为 0,1或1,-1)注 1.2 (1.1.4)中主要的运算为便于并行处理的向量乘法。另一方面,除了在原点附近,符号函数(以及后面将要用到的符号函数的各种逼近)对于自变量的变化并不敏感,即容错性好。事实上,各种神经网络用到的主要运算就是向量乘法,并且广泛采用符号函数及其各种逼近。典型的神经网络都可以用电路、光路等硬件来实现(参见Murray 1997 戴葵 1998);这时不论N多大,(1.1.4)中的向量乘法所需的时间基本不变(参看图1.1),使得便于并行处理的特点更加突出。并行、容错、可以硬件实现以及后面将要讨论的自我学习特性,是神经网络的几个基本优点,也是神经网络计算方法
6、与传统计算方法的重要区别。当然神经网络也可以用计算机模拟实现,尤其对于只需进行一次的学习过程,这时并行的优点就不突出了。以2N为例。线性感知器的目标就是求法向量W和阈值,使得与W垂直的直线(一般地是1N维超平面)W将样本模式Jjj1分成jW和jW(即1j和1j)两类,分别位于W的两侧(见图 1.3)。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 15 页 -14 图 1.3用线性感知器分类图 1.4 给出另一种等价的几何解释。定义jjjOx(参见注 1.1),则线性感知器的目标成为:选取1NRW使JjxWj,10(1.1.5)如图 1.4,设1l,2l张成包含Jjjx1的最小扇
7、形域,是其张开的角度。于是,角度差刻画了Jjjx1(从而Jjj1)的可分性。若0,则不可分;若0,则可分(对线性感知器,常称为 线性可分)。并且越大,可分性越好(即W的允许范围越大)。图 1.4j的可分性注:点是满足0jw的那些样本点经过变换jjx得到的。容易证明,若Jjj1线性无关,则一定是线性可分的。在图1.5 和 1.6 中给出线性不可分的两个典型例子,其中图 1.5 所描绘的即为著名的XOR 问题。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 15 页 -15 图 1.5 XOR 问题图 1.6321,线性不可分权向量W是通过学习得到的。下面给出所谓感知器学习规则。为简
8、便起见,在本章其余地方,我们总假设0(参见注 1.1)。输入一个样本向量j,得到网络的当前实际输出j,然后按下式修改当前权向量oldW:WWWoldnew(1.1.6)jjjOW)(21 (1.1.7)其中常数0是学习速率。如果还希望样本模式j别太靠近划分超平面0|xWx,则可以选定常数0d,要求(jjjOx)dxWj(1.1.8)其中,jjjOx。这里,注意在W和jx长度固定的前提下,d越大则jx离划分超平面0|xWx越远。因此,常数d可以理解为jx向量与超平面0|xWx的距离。这时,(1.1.7)可换成jjxxWdW(1.1.9)这里)(t是符号函数:0,00,1ttt注 1.3 近年来引
9、起广泛注意的支持向量机神经网络的基本想法是,对给定的训练集,设法求得d(可以是负数)的最大值Md,并且求得使MjdxW的那些训练样本(支持向量)。这样,就得到最优的划分平面,并且确定了对样本划分最为重要的那些支持向量。参见 张学工 2000刘江华 2002。感知器学习规则为:将j按任一顺序排成一个无穷序列1)(kk,使得每一j皆在其中出现无穷多次。选定任一初始向量1W。令1k。选定非负常数d。输入k,按下式更新权值1kkkWWW(1.1.10)jjxxWdW(1.1.11)若1kW满足精度要求(例如所有或大多数训练样本都满足(1.1.8))或者迭代步数k足够大,则停止;否则k增加 1,转。名师
10、资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 15 页 -16 现在,设样本集Jjj1按(1.1.8)的意义可分,即存在NRWW和0d,使得(1.1.8)对Jj,1成立。我们下面来证明,迭代序列kW有限步收敛,即k足够大后,kW不再改变。收敛性证明*:不失一般性,为记号简便我们设10,W1W。这样,便有JjjkxkjMW1,(1.1.12)其中kjM,表示在得到kW的过程中,实际用到jx来更新权值的次数。这样,得到kW时所有实际更新的总次数是JjkkjMM1,(1.1.13)由于W满足(1.1.8)并且1W,我们有JjkJjjkkkdMdkjMWxkjMWWWWW11,(1.1.1
11、4)(1.1.14)给出了kW下界的一个估计。接着,考察kW的上界。若1kkWW(即输入向量k已经被权向量1kW正确划分),则当然有0212kkWW (1.1.15)反之,由(1.1.10)(记kkkOx,kO是k的理想输出))1(1kkkxWW (1.1.16)并且这时dxWkk)1(1 (1.1.17)因此22212(1)1(1)222kkkkkWWxWxDd (1.1.18)其中2)(1maxjJjxD。综合式(1.1.16)及式(1.1.18),并注意10W,从 0 到k求和便得kkMdDW)2(22 (1.1.19)综合kW的下界估计(1.1.14)及上界估计(1.1.19)便得kk
12、kMdDWMd)2(22222 (1.1.20)因此,kkMdDMd)2(2222。由此立得212ddDMk (1.1.21)收敛性于是得证。若样本集Jjj1不是线性可分的,则按感知器规则(1.1.10)(1.1.11)来求权值W的迭代过程不收敛。这时,可以使用基于梯度下降法的-LMS(Least Mean Square)算法。为此,对当前输入样本向量j,定义误差函数名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 15 页 -17 2)(21)(jjWOWH (1.1.22)其梯度为,jjWHDjjjWO (1.1.23)为使)(WH减小,W应朝)(WH的梯度反方向走。因此迭代公
13、式为jjoldoldnewWW (1.1.24)joldjjoldWO容易推得22(1)jjnewjjoldjjjjjnewoldoldOWOW从而,为使得newW满足joldjnew应有112j或等价地202j (1.1.25)总之我们应有2jjjoldnewWW (1.1.26)其中20 (1.1.27)此即为-LMS算法。实际应用中,常选为11.0。注 1.4迭代公式(1.1.26)是一种-学习算法。(1.1.27)是-学习算法收敛的一个典型的必要条件。注 1.5 用迭代算法来迭代确定权值W时,样本向量j可以按j=,2,1,2,1NN顺序依次输入,也可以按随机的顺序输入。本章以后各节的类
14、似问题,都可以照此办理。注 1.6 网络结构、工作流程和学习方法,是一个神经网络的三大要素。对于线性感知器来说,这三大要素分别由图1.1()sgn()(xxg)、(1.1.4)和(1.1.6)(1.1.7)(或(1.1.10)(1.1.11))给出。1.2 BP 网络BP 网络是现在应用最为广泛的神经网络。它采用光滑活化函数,具有一个或多个隐层,相邻两层之间通过权值全连接。它是前传网络,即所处理的信息逐层向前流动。而当学习权值时,却是根据理想输出与实际输出的误差,由前向后逐层修改权值(误差的向后传播,即Back Propagation)。BP网络的拓扑结构见图1.7(以带一个隐层和一个输出单元
15、的BP网络为例)。名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 15 页 -18 图 1.7 BP 网络结构选 定 一 个 非 线 性 光 滑 活 化 函数11:RRg,并 按 稍 后 给 出 的 规 则 确 定 了 权 矩 阵mpMPWW和NnPppnww1,1之后,对任一输入信息向量NNR),(1,网络的实际输出为MmWgWgPppmpmm,1,)()(1 (1.2.1a)其中隐层输出为PpwgwgNnnpnpp,1,)()(1 (1.2.1b)现在,假设给定一组样本输入向量NJjjR1及相应的理想输出MJjjRO1,并记MJjjR1为相应的网络实际输出。定义误差函数JjJ
16、jMmPpNnjnpnmpjmjjwgWgOOwWE1112112)(2121),(1.2.2)权值矩阵wW和的确定(即学习过程)应使误差函数),(wWE达到极小。为此,一个简单而又常用的方法是梯度下降法。取当前权值mpW的改变量为11()()JJjjjjjjmpmmmpmpjjmpEWOg HW (1.2.3)其中0为学习速率,)()(jmjmjmjmHgO (1.2.4)而PpjpmpjmWH1 (1.2.5)是隐层单元对第 m个输出层单元的线性输入。进一步,我们可以得到当前权值pnw的改变量应为:名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 15 页 -19 Jjjnjp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年神经网络-BP网络实用 2022 神经网络 BP 网络 实用
限制150内