前馈型神经网络模型.ppt
《前馈型神经网络模型.ppt》由会员分享,可在线阅读,更多相关《前馈型神经网络模型.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 前馈型神经网络模型前馈型神经网络模型 3.1 感知器(感知器(Perception)3.2 多层前馈型神经网络多层前馈型神经网络 3.3 误差逆传播算法(误差逆传播算法(BP算法)算法)3.4 误差逆传播算法误差逆传播算法(BP算法算法)的若干改进的若干改进3.5 使用遗传算法使用遗传算法(GA)训练前馈型神经网络方训练前馈型神经网络方法法3.6 前馈型神经网络结构设计方法前馈型神经网络结构设计方法 2873.7 基于算法的前馈型神经网络在识别问题中基于算法的前馈型神经网络在识别问题中的应用的应用 3.8 自适应线性元件自适应线性元件 3.9 径向基函数神经网络径向基函数神经网络
2、 3873.1 感知器(感知器(Perception)3.1.1 单层感知器单层感知器3.1.2 感知器的收敛定理感知器的收敛定理 3.1.3 多层感知器网络多层感知器网络3.1.4 感知器用于分类问题的算例感知器用于分类问题的算例 4873.1.1 单层感知器单层感知器 一、单层感知器网络一、单层感知器网络 单层感知器神经网络,输入向量为X=(X1,X2,Xm),输出向量为Y=(Y1,Y2,Yn)。感知器的输入向量为XRn,权值向量为WRn单元的输出为Y1,1。其中:其中,X=(X,1),W=(W,)。587w21wmjw22wmnw12w11xmx1x2y1y2yn12nw1nw2mwmj
3、wijw2jw1jyjxix1x2xm 图图3.1 单层感知器网络单层感知器网络 图图3.2 最简单的感知器最简单的感知器 wm1687 二、单层感知器的学习算法二、单层感知器的学习算法 令Wn+1=,Xn+1=-1,则,具体算法如下:具体算法如下:初始化 给Wi(0)各赋一个较小的随机非零值。这里Wi(t)为t时刻第i个输入的权值(1in),Wn+1(t)为t时刻的阈值。输入样本X=(X1,X2,Xn,T),T 称为教师信号,在两类样本分类中,如果XA类,则T=1;如果XB类,则T=-1。787 计算实际输出 修正权值 WWi i(t+1t+1)=)=WWi i(t t)+)+(T T Y
4、Y(t t)X Xi i i i=(=(1,2,1,2,n,n+1,n,n+1)其中,01用于控制修正速度,通常不能太大,会影响Wi(t)的稳定,也不能太小,会使Wi(t)的收敛速度太慢。转到直到W对一切样本均稳定不变为止。用单层感知器可实现部分逻辑函数,如:用单层感知器可实现部分逻辑函数,如:X X1 1X X2 2:Y=1X Y=1X1 1+1X+1X2 2-2-2 即即WW1 1=W=W2 2=1,=2=1,=2 X X1 1X X2 2:Y=1XY=1X1 1+1X+1X2 2-0.5-0.5 即即WW1 1=W=W2 2=1,=0.5=1,=0.5 :Y Y=(=(-1-1)XX1
5、1+0.5+0.5 即即WW1 1=-1=-1,=-0.5=-0.5887三、单层感知器的局限性三、单层感知器的局限性 异或逻辑为 ,假定单层感知器能实现异或逻辑,那么,Y=W1X1+W2X2,要求:表表 3.1 异或逻辑异或逻辑 输入样本输出000011101110987 W1+W2-0W1+W2 0+0-00 0+W2-0W2(a)XOR 逻辑逻辑 (b)AND逻辑逻辑 (c)OR逻辑逻辑 图图 3.3 线性可分性线性可分性(0,0)(0,0)(0,0)(0,1)(0,1)(0,1)(1,1)(1,1)(1,1)(1,0)(1,0)(1,0)1087 3.1.2 感知器的收敛定理感知器的收
6、敛定理 一、线性可分函数一、线性可分函数 对给定的X和Y,存在W和和线性映像函数f,使得:f:Rn 1,1,XRn,则称 f为线性可分函数。所谓的线性可分是指存在一个超平面(二 维为一条直线)能将两类样本分开。对于上面的异或逻辑可用一个平面将其输出类别分开。平面方程为:X1W1+X2W2+X3W3=,X1W1+X2W2+(X1X2)W3=。1187 表表3.2 三维异或逻辑三维异或逻辑输入样本输入样本输出输出00000101100111101287图图 3.4 异或问题的三维表示异或问题的三维表示 13871487 二、定理二、定理3.1 感知器收敛定理感知器收敛定理 若函数f是线性可分的,则
7、感知器的学习算法在有限次叠代后收敛。为证明此定理,先做一些简化。(1)令Xk=1(即学习样本都是单位向量);(2)若Yk0(因f是线性可分的);这样,要证明上述定理只要证明以下的结论即可。1587 因为k个样本是线性可分的,若存在一个W*,对所有的样本k使得W*Xk 都成立,0。则下面步骤中的第步仅需有限次。置t=1,选初值W(t)为不等于0的值;任选k1,N,置X(t)=Xk;若W(t)X(t)0 返回,否则 令W(t+1)=W(t)+X(t),t=t+1,返回。1687证明:C(t)表示向量W(t)与W*间夹角余弦,即 W*W(t+1)=W*W(t)+X(t)=W*W(t)+W*X(t)W
8、*W(t)+W*W(t)tW(t+1)2=W(t)2+2W(t)X(t)+X(t)2W(t)2+1 W(t)2t,C(t)0(W12 X1+W22 X2-2)0(W13 X1+W23 X2-3)0 Y3=(X1,X2)Y12Y22 3 6 =(X1,X2)(W1jX1+W2j X2-j)0)(W1j X1 j=1 j=4 +W2j X2-j)0)2387 (A)(B)图图3.6 多层感知器对输入空间的划分多层感知器对输入空间的划分 2487 Y11=1X1+1 X2-1 Y21=(-1)X1+(-1)X2-(-1.5)Y2=1 Y11+1 Y21-2图图 3.7 解决异或问题的三层感知器解决异
9、或问题的三层感知器X1X22587 图图3.8 单层与多层感知器的决策分类能力单层与多层感知器的决策分类能力 26873.1.4 感知器用于分类问题的算例感知器用于分类问题的算例 感知器的结构见图 3.9所示。图图3.9 感知器结构感知器结构 Yw1w2x1x22787 其中,u=W1X1+W2X2,在此特选定输出单元为非线性函数,其输出为:输入模式为:(0.5,0.05)、(0.05,0.5)A类 (0.95,0.5)、(0.5,0.95)B类 教师信号为:2887 W1(t+1)=W1(t)+(T-Y)X1 W2(t+1)=W2(t)+(T-Y)X2 (t+1)=(t)+(T-Y)总的误差
10、之和为:2987NYW和用随即数初始化计算y更新W和输入一个学习样本(x,T)样本全部输入完吗?E小于上限吗?学习次数到吗?结束开始YNNY图图3.10程序框图程序框图3087 表表 3.3(a)表表 3.3(b)参数参数取值取值X1X2YW随机范围随机范围0.200.500.050.99随机范围随机范围0.100.050.500.99u00.200.950.500.010.400.50 0.95 0.010.30误差上限误差上限0.01最大学习次数最大学习次数 2003187100学习次数200误差 xpb(0,0)(10)(1,0)y(1,1)papbpa501500100200图图 3.
11、11 (a)误差曲线误差曲线 (b)直线变化情况直线变化情况3287 3.2 多层前馈型神经网络多层前馈型神经网络 3.2.1 网络结构及工作过程网络结构及工作过程 3.2.2 误差函数与误差曲面误差函数与误差曲面 3.2.3 网络的学习规则网络的学习规则梯度下降算法梯度下降算法 33873.2.1 网络结构及工作过程网络结构及工作过程 一、学习样本一、学习样本 输入样本为:(XK,TK),其中K1,2,N,N为学习样本数,XKRn,TKRm。二、工作过程二、工作过程3487 图图 3.12 前馈型神经网络结构前馈型神经网络结构 3587三、非线性单元常采用的转移函数三、非线性单元常采用的转移
12、函数 11xy1 0.5xy00图图3.13 常用的转移函数常用的转移函数(a)Sigmoid函函数数 (b)双双曲曲正正切切函函数数3687(0 f(x)1)通常增加参数和来调整函数的斜率和使其左右平移,Sigmoid函数为一单调递增连续函数,且处处可导,其导数为:3787 Sigmoid函数通过下式能够映射到(1,1)范围:双曲正切函数的表达式为:(-1 f(x)0。存在正整数N和常数Ci、i(i=1,2,N)和Wij(i=1,2,N;j=1,2,n)使:(3.3.16)成立。此定理说明对于任意0,存在一个三层网络,其隐单元的输出函数为(X),输入输出单元为线性的,对于任意连续映射f:Rn
13、Rm,在任意的有界闭集合上能以任意精度逼近。5987 BP算法虽然简单,对各个方面都有重要意义,但是它存在有以下问题:1从数学上看它是一个非线性优化的问题,这就不可避免地存在局部极小的问题。2学习算法的收敛速度很慢,通常需要几千步迭代或更多。3网络的运行还是单向传播,没有反馈,目前这种模型并不是一个非线性动力学系统,只是一个非线性映射。6087 4网络的隐节点数目选取尚无理论上的指导,而是根据经验或实验选取。5对于新加入的样本要影响已经学完的样本,不能在线学习,同时描述每一个样本的特征数目也要求必须相同。61873.4 误差逆传播算法误差逆传播算法(BP算法算法)的若干改进的若干改进 3.4.
14、1 基于全局学习速率自适应调整的基于全局学习速率自适应调整的BP算法算法 3.4.2 基于局部学习速率自适应调整的基于局部学习速率自适应调整的BP算法算法 3.4.3 BI(Back Impedance)算法算法 62873.4.1 基于全局学习速率自适应调整的基于全局学习速率自适应调整的BP算法算法 1加入动量项 其中,为动量系数,一般取0.9左右。引入这个动量项之后,使得调节向着底部的平均方向变化,不致产生大的摆动,即动量起到缓冲平滑的作用。若系统进入误差曲面的平坦区,那么误差将变化很小,于是(t+1)近似等于(t),而平均的将变为:式中-/(1-)变化大,将调节尽快脱离饱和区和截至区。6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 前馈型 神经网络 模型
限制150内