Ch人工神经网络.pptx





《Ch人工神经网络.pptx》由会员分享,可在线阅读,更多相关《Ch人工神经网络.pptx(132页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本章内容9.1 人工神经网络概述人工神经网络概述 9.1.1 生物神经元 9.1.2 人工神经网络的构成9.2 人工神经网络基本模型人工神经网络基本模型 9.2.1 感知器模型 9.2.2 线性神经网络 9.2.3 BP神经网络 9.2.4 其他神经网络第1页/共132页9.3 BP神经网络理论 9.3.1 网络结构 9.3.2 数学模型 9.3.3 学习算法 9.3.4 网络的泛化能力 9.3.5 算法的改进 9.3.6 网络结构参数的确定 9.4 BP神经网络应用 9.4.1 9.4.1 函数逼近函数逼近 9.4.2 9.4.2 字符识别字符识别 第2页/共132页9.1人工神经网络概述人
2、工神经网络概述第3页/共132页 生物神经系统是一个有高度组织和相互作用的数量巨大的细胞组织群体。人类大脑的神经细胞大约在1011一1013个左右。神经细胞也称神经元,是神经系统的基本单元,它们按不同的结合方式构成了复杂的神经网络。通过神经元及其联接的可塑性,使得大脑具有学习、记忆和认知等各种智能。9.1.1 生物神经元第4页/共132页1、结构第5页/共132页神经元由细胞体(Soma)和延伸部分组成。延伸部分按功能分有两类,一种称为树突(Dendrite),用来接受来自其他神经元的信息;另一种用来传递和输出信息,称为轴突(Axon)。神经元之间的相互连接从而让信息传递的部位披称为突触(Sy
3、napse),突触的联接是可塑的,也就是说突触特性的变化是受到外界信息的影响或自身生长过程的影响。第6页/共132页 2、特征 (1)并行分布处理 大脑中单个神经元的信息处理速度是很慢的,每次约1毫秒,比通常的电子门电路要慢几个数量级。但是人脑对某一复杂过程的处理和反应却很快,一般只需几百毫秒。而在这个处理过程中,与脑神经系统的一些主要功能,如视觉、记亿、推理等有关。按照上述神经元的处理速度,如果采用串行工作模式,就必须在几百个串行步内完成,这实际上是不可能办到的。因此只能把它看成是一个由众多神经元所组成的超高密度的并行处理系统。例如在一张照片寻找一个熟人的面孔,对人脑而言,几秒钟便可完成,但
4、如用计算机来处理,以现有的技术,是不可能在短时间内完成的。第7页/共132页 (2)神经系统的可塑性和自组织性 从生理学的角度看,它体现在突触的可塑性和联接状态的变化。例如在某一外界信息反复刺激下接受该信息的神经细胞之间的突触结合强度会增强。这种可塑性反映出大脑功能既有先天的制约因素,也有可能通过后天的训练和学习而得到加强。(3)信息处理与信息存贮合二为一 由于大脑神经元兼有信息处理和存贮功能,所以在进行回亿时,不但不存在先找存贮地址而后再调出所存内容的问题,而不像现行计算机那样存贮地址和存贮内容是彼此分开的。第8页/共132页(4)信息处理的系统性 大脑的各个部位是一个大系统中的许多子系统。
5、各个子系统之间具有很强的相互联系,一些子系统可以调节另一些子系统的行为。例如,视觉系统和运动系统就存在很强的系统联系,可以相互协调各种信息处理功能。(5)能接受和处理模糊的、模拟的、随机的信息 第9页/共132页9.1.2 人工神经网络 人工神经网络(Artificial Neural Network,ANN)是对人类大脑特性的一种描述。它是一个数学模型,可以用电子线路实现,也可以用计算机程序来模拟。是人工智能研究的一种方法。第10页/共132页2023/2/21111、定义、定义 1)HechtNielsen(1988年)年)人工神经网络是一个并行、分布处理结构,它由处理单元及其称为联接的无
6、向讯号通道互连而成。这些处理单元(PEProcessingElement)具有局部内存,并可以完成局部操作。每个处理单元有一个单一的输出联接,这个输出可以根据需要被分枝成希望个数的许多并行联接,且这些并行联接都输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。第11页/共132页2023/2/2112(1)HechtNielsen(1988年)(续)年)(续)处理单元的输出信号可以是任何需要的数学模型,每个处理单元中进行的操作必须是完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。第12页/共132页2023
7、/2/2113强调:强调:并行、分布处理结构;一个处理单元的输出可以被任意分枝,且大小不变;输出信号可以是任意的数学模型;处理单元完全的局部操作 第13页/共132页2023/2/2114(2)Rumellhart,McClelland,Hinton的的PDP 1)一组处理单元一组处理单元(PE或AN);2)处理单元的激活状态激活状态(ai);3)每个处理单元的输出函数输出函数(fi);4)处理单元之间的联接模式联接模式;5)传递规则传递规则(wijoi);6)把处理单元的输入及当前状态结合起来产生激活值的激活规则激活规则(Fi);7)通过经验修改联接强度的学习规则学习规则;8)系统运行的环境
8、(样本样本集合)。第14页/共132页2023/2/2115(3)Simpson(1987年)年)人工神经网络是一个非线性的有向图,图中含有可以通过改变权大小来存放模式的加权边,并且可以从不完整的或未知的输入找到模式。第15页/共132页2023/2/21162、关键特征、关键特征(1 1)信息的分布表示(2 2)运算的全局并行与局部操作(3 3)处理的非线性特征第16页/共132页 下图是一个神经元的结构图,通过与生物神经元的比较可以知道它们的有机联系,生物神经元中的神经体与人工神经元中的结点相对应,树突(神经末梢)与输入相对应,轴突与输出相对应,突触与权值相对应。第17页/共132页 3、
9、ANN研究与应用的主要内容 (1)人工神经网络模型的研究 神经网络原型研究,即大脑神经网络的 生理结构、思维机制。神经元的生物特性如时空特性、电化 学性质等的人工模拟。易于实现的神经网络计算模型。神经网络的学习算法与学习系统。第18页/共132页(2)神经网络基本理论 神经网络的非线性特性,包括自组织、自适应等作用。神经网络的基本性能,包括稳定性、收敛性、容错性、鲁棒性、动力学复杂性。神经网络的计算能力与信息存贮容量。第19页/共132页(3)神经网络智能信息处理系统的应用 认知与人工智能,包括模式识别、计算机视觉与听觉、特征提取、语音识别语言翻译、联想记忆、逻辑推理、知识工程、专家系统、故障
10、诊断、智能机器人等。优化与控制,包括决策与管理、系统辨识、鲁棒性控制、自适应控制、并行控制、分布控制等。信号处理,自适应滤波、时间序列预测、消噪、非线性预测、非线性编码等。第20页/共132页(4)神经网络的软件模拟和硬件实现(5)神经网络计算机的实现第21页/共132页 4、ANN的信息处理能力 存贮能力和计算能力是现代计算机科学中的两个基本问题,同样,它们也构成了人工神经网络研究中的基本问题。人工神经网络的信息处理能力包括两方面的内容:神经网络信息存贮能力 即要解决这样的一个问题:在一个有N个神经元的神经网络中,可存贮多少值的信息?神经网络的计算能力第22页/共132页(1)神经网络的存贮
11、能力 定义:一个存贮器的信息表达能力定义为其可分辨的信息类型的对数值。在一个M1的随机存贮器RAM中,有M位地址,一位数据,它可存贮2M位信息。M1的RAM的存贮能力为:C2M(位)。第23页/共132页(2)神经网络的计算能力 数学的近似映射 概率密度函数的估计 从二进制数据基中提取相关的知识 形成拓扑连续及统计意义上的同构映射 最近相邻模式分类 数据聚类 最优化问题 用来求解局部甚至是全局最优解。第24页/共132页2023/2/21259.1.3人工神经网络发展回顾 1、产生期(20世纪40年代)人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期,到1949年止。1943年,心
12、理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。发表于数学生物物理学会刊BulletinofMathematicalBiophysics1949年,心理学家D.O.Hebb提出神经元之间突触联系是可变的假说Hebb学习律。第25页/共132页2023/2/21262高潮时期(19501968)以 Marvin Minsky,Frank Rosenblatt,Bernard Widrow等 为 代 表 人 物,代 表 作 是 单 级 感 知 器(Perceptron)。可用电子线路模拟。人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项
13、研究,希望尽快占领制高点。第26页/共132页2023/2/21273低潮时期(19691982)M.L.Minsky和S.Papert,Perceptron,MITPress,1969年 异或”运算不可表示 二十世纪70年代和80年代早期的研究结果 认识规律:认识实践再认识 第27页/共132页2023/2/21284、第二高潮期(19831990)1982年,J.Hopfield提出循环网络用Lyapunov函数作为网络性能判定的能量函数,建立ANNANN稳定性的判别依据阐明了ANNANN与动力学的关系用非线性动力学的方法来研究ANNANN的特性指出信息被存放在网络中神经元的联接上 第28
14、页/共132页2023/2/21292)1984年,J.Hopfield设计研制了后来被人们称为Hopfield网的电路。较好地解决了著名的TSP问题,找到了最佳解的近似解,引起了较大的轰动。3)1985年,UCSD的Hinton、Sejnowsky、Rumelhart等人所在的并行分布处理(PDP)小组的研究者在Hopfield网络中引入了随机机制,提出所谓的Boltzmann机。第29页/共132页2023/2/21304)1986年,并行分布处理小组的Rumelhart等研究者重新独立地提出多层网络的学习算法BP算法,较好地解决了多层网络的学习问题。(Paker1982和Werbos19
15、74年)国内首届神经网络大会是1990年12月在北京举行的。第30页/共132页2023/2/21315 5、再认识与应用研究期(1991)问题:1)应用面还不够宽2)结果不够精确3 3)存在可信度的问题 第31页/共132页2023/2/2132研究:1)开发现有模型的应用,并在应用中根据实际运行情况对模型、算法加以改造,以提高网络的训练速度和运行的准确度。2)充分发挥两种技术各自的优势是一个有效方法3)希望在理论上寻找新的突破,建立新的专用/通用模型和算法。4 4)进一步对生物神经系统进行研究,不断地丰富对人脑的认识。第32页/共132页9.2 人工神经网络基本模型人工神经网络基本模型第3
16、3页/共132页 9.2.1 感知器模型 感知器是一种早期的神经网络模型,由美国学者于1957年提出.感知器中第一次引入了学习的概念,使人脑所具备的学习功能在基于符号处理的数学到了一定程度的模拟,所以引起了广泛的关注。感知器在形式上与MP模型差不多,它们之间的区别在于神经元间连接权的变化。感知器的连接权定义为可变的,这样感知器就被赋予了学习的特性。第34页/共132页1、感知器的结构 第35页/共132页感知器处理单元对n个输入进行加权和操作:其中,xi为第i个输入,wi为第i个输入到处理单元的连接权值,为阈值。f是阶跃函数。为简化表示,把阈值 当作输入-w0 ,写成向量形式:返返 回回第36
17、页/共132页 2、感知器的学习算法感知器的学习是有导师学习感知器的训练算法的基本原理来源于著名的Hebb学习律基本思想:逐步地将样本集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权矩阵 第37页/共132页2023/2/2138感知器学习算法 1用适当的小伪随机数初始化权矩阵W;2.初置精度控制参数,学习率,精度控制变量d=+1;3While d do 3.1 d=0;3.2 for 每个样本(X,Y)do3.2.1 输入X(=(x1,x2,xn));3.2.2 求O=F(XW);3.2.3 修改权矩阵W:for i=1 to n,j=1 to m dowij=wij
18、+(yj-oj)xi;3.2.4 累积误差for j=1 to m dod=d+(yj-oj)2第38页/共132页2023/2/21391、1962年,Rosenblatt证明:Perceptron可以学会它能表示的任何东西 2、Minsky在1969年证明,有许多基本问题是感知器无法解决3、问题线性可分性可能与时间有关4、很难从样本数据集直接看出问题是否线性可分5、未能证明,一个感知器究竟需要经过多少步才能完成训练。第39页/共132页2023/2/21403线性不可分问题 异或(ExclusiveOR)问题 G(x,y)y01x001110第40页/共132页2023/2/2141线性不
19、可分函数R.O.Windner 1960年年 自变量个数函数的个数线性可分函数的个数144216143256104465,536188254.3*10994,57261.8*10195,028,134第41页/共132页2023/2/2142线性不可分问题的克服 用多个单级网组合在一起,并用其中的一个去综合其它单级网的结果,我们就可以构成一个两级网络,该网络可以被用来在平面上划分出一个封闭或者开放的凸域来一个非凸域可以拆分成多个凸域。按照这一思路,三级网将会更一般一些,我们可以用它去识别出一些非凸域来。解决好隐藏层的联接权的调整问题是非常关键的 第42页/共132页 9.2.2 9.2.2 线
20、性神经网络线性神经网络 1、网络结构 50年代末,Widrow提出的Adaline是最早的线性神经网络,它是由一个或多个线性神经元构成,每个神经元的传递函数是一个线性函数,因此,线性神经网络的输出可以是任意值。一个线性神经元的网络结构如下图:w(1,1)w(1,R)bp(1)p(2)p(R)a第43页/共132页 2、传递函数 线性神经网络的传递函数是一个线性函数,如下图所示:Pa-b/w0+b/w第44页/共132页 3、线性神经元输出 在matlab中,线性传递函数purelin是计算神经元输出的,当只有一个神经元时,输出为:a=purelin(w*p+b)当输入是矩阵形式,神经元个数不止
21、一个时,输出为:a=purelin(w*p,b)第45页/共132页思考:线性神经网络与感知器的区别?第46页/共132页 9.2.3 BP神经网络 1、网络学习算法提出 60年代末,Minsky和Papert指出了感知机的功能和处理能力的局限性,在感知机中引入隐含神经元,增加神经网络的层次,提高神经网络的处理能力,但却无法给出相应的网络学习算法。1986年,Rumelhart等人在多层神经网络模型的基础上,提出了多层神经网络模型的反向传播学习算法BP(Back propagation)算法,实现了Minsky的多层网络设想。第47页/共132页 2、隐层传递函数 BP网络的隐层传递函数通常是
22、S型函数,常用logsig()和tansig()函数,也可以采用线性传递函数purelin()。函数如下图:Pa-b/w0-1+1a=logsig(w*p,b)a-b/w0-1+1Pa=tansig(w*p,b)a-b/w0+b/wPa=purelin(w*p,b)第48页/共132页 3、输出层函数 如果输出层是S型神经元,那么整个网络的输出被限制在一个较小的范围内,如果输出层使用线性神经元,那么输出可以取任意值。因此,一般隐层使用S型函数,输出层使用线性函数。传递函数均是可微的单调增函数。第49页/共132页 9.2.4 其它神经网络 1、径向基函数网络 BP网络用于函数逼近时,权值的调整
23、采用的是梯度下降法,但存在着局部极小和收敛速度慢等缺点,而径向基函数网络在逼近能力、分类能力和学习速度等方面均优于BP网络,它的传递函数采用的是径向基函数,其输出是权值向量与输入向量P之间的距离乘以阈值b,即,a=radbas(dist(W,P)*b)2、回归网络 Matlab神经网络工具箱包括两种回归网络:Elman网络和J.Hopfield网络。Elman网络是一个两层网络,在第一层有一个反馈环节,第50页/共132页9.3BP神经网络理论神经网络理论第51页/共132页9.3.1网络结构 下图是一个神经元的结构图,生物神经元中的神经体(Soma)与人工神经元中的结点相对应,神经末梢(De
24、ndrites,树突)与输入相对应,轴突(Axon)与输出相对应,突触(Synapse)与权值相对应。第52页/共132页 BP神经网络是一个多层网络,它的拓扑结构如下图所示。输入层i隐含层k输出层jwkiwjk第53页/共132页 在这一神经网络模型中,引入了中间隐含神经元层。标准的BP神经网络的拓扑结构由三层组成,最左层称为输入层,中间层称为隐含层,最右层称为输出层。输入层、输出层的个数可以由所求的问题决定,而中间层的神经元个数的确定需要探讨。各层次的神经元之间形成全互连连接,各层次内的神经元之间没有连接。三层神经网络已经足以模拟输入与输出之间的复杂的非线性映射关系。更多的网络层虽然能提高
25、神经网络学习复杂映射关系的能力,但因为随着网络层的增加,神经元及其连接权将大规模增加,所占用的计算机资源过多,网络学习收敛反而慢了。第54页/共132页 各个神经元之间的连接并不只是一个单纯的传输信号的通道,而是在每对神经元之间的连接上有一个加权系数,这个加权系数就是权值,它起着生物神经系统中神经元的突触强度的作用,它可以加强或减弱上一个神经元的输出对下一个神经元的刺激。修改权值的规则称为学习算法,它可以根据经验或学习来改变。第55页/共132页9.3.2 数学模型输入层与隐层间权值为:阈值为:隐层与输出层间权值为:阈值为:网络的作用函数称为S型函数:假定:第56页/共132页,输入层神经元
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ch 人工 神经网络

限制150内