《AI-第7章 人工神经网络(1)-概述和BP算法.pptx》由会员分享,可在线阅读,更多相关《AI-第7章 人工神经网络(1)-概述和BP算法.pptx(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人工智能导论7.1 概述7.2 前馈神经网络7.3 反馈神经网络第七章第七章 人工神经网络与人工神经网络与深度学习深度学习7.17.1概述概述4人工神经网络概述人工神经网络概述57.1.1 7.1.1 人人脑神经系统脑神经系统u神经细胞即神经元是神经系统中独立的营养和功能单元。生物神经系统,包括中枢神经系统和大脑,均是由各类神经元组成。其独立性是指每一个神经元均有自己的核和自己的分界线或原生质膜。u据估计,人脑神经系统的神经细胞约为10111013个。它们按不同的结合方式构成了复杂的神经网络。通过神经元及其联接的可塑性,使得大脑具有学习、记忆和认知等各种智能。6生物神经元生物神经元u即,神经细
2、胞,是构成神经系统的基本单元。u主要由三个部分组成:细胞体、轴突、树突。7生物神经元生物神经元u细胞膜内外有电位差,称为膜电位,大小约为几十微伏。u膜电压接受其它神经元的输入后,电位上升或者下降。u若输入冲动的时空整合结果使膜电位上升,并超过动作电位阈值时,神经元进入兴奋状态,产生神经冲动,由轴突输出。u若整合结果使膜电位下降并低于动作电压阈值时,神经元进入抑制状态,无神经冲动输出。u一般一个神经元只有一个轴突,有个别神经元没有。8生物神经元兴奋脉冲生物神经元兴奋脉冲9生物神经元突触结构生物神经元突触结构10突触传递过程突触传递过程11生物神经元生物神经元u(1)突触传递效率的变化。首先是突触
3、的膨胀以及由此产生的突触后膜表面积扩大,从而突触所释放出的传递物质增多,使得突触的传递效率提高。其次是突触传递物质质量的变化,包括比例成分的变化所引起传递效率的变化。u(2)突触接触间隙的变化。在突触表面有许多形状各异的小凸芽,调节其形状变化可以改变接触间隙,并影响传递效率。u(3)突触的发芽。当某些神经纤维被破坏后,可能又会长出新芽,并重新产生附着于神经元上的突触形成新的回路。由于新的回路的形成,使得结合模式发生变化,也会引起传递效率的变化。u(4)突触数目的增减。由于种种复杂环境条件的刺激等原因,或者由于动物本身的生长或衰老,神经系统的突触数目会发生变化,并影响神经元之间的传递效率。127
4、.1.27.1.2 ANN ANN研究内容研究内容u神经网络原型研究,即大脑神经网络的生理结构、思维机制;u神经元的生物特性如时空特性、不应期、电化学性质等的人工模拟;u易于实现的神经网络计算模型;u利用物理学的方法进行单元间相互作用理论的研究,如:联想记忆模型;u神经网络的学习算法与学习系统。u神经网络的非线性特性,包括自组织、自适应等作用;u神经网络的基本性能,包括稳定性、收敛性、容错性、鲁棒性、动力学复杂性;u神经网络的计算能力与信息存贮容量;u结合认知科学的研究,探索包括感知、思考、记忆和语言等的脑信息处理模型。13ANNANN基本研究内容(基本研究内容(2 2)u在通用计算机、专用计
5、算机或者并行计算机上进行软件模拟,或由专用数字信号处理芯片构成神经网络仿真器。u由模拟集成电路、数字集成电路或者光器件在硬件上实现神经芯片。软件模拟的优点是网络的规模可以较大,适合于用来验证新的模型和复杂的网络特性。硬件实现的优点是处理速度快,但由于受器件物理因素的限制,根据目前的工艺条件,网络规模不可能做得太大。仅几千个神经元。但代表了未来的发展方向,因此特别受到人们的重视。u计算机仿真系统;u专用神经网络并行计算机系统,例如数字、模拟、数模混合、光电互连等。u光学实现;u生物实现;14人工神经网络的特点人工神经网络的特点 u每一个神经元的功能和结构都很简单,但是由大量神经元构成的整体却具有
6、很强的处理能力u单个神经元或者连接对网络整体功能的影响比较小u信息的存储与处理是合二为一u信息的分布存提供容错功能u表现出较强的“去噪音、容残缺”能力,具有很强的泛化(Generalization)能力与抽象能力。u具有一般非线性动力系统的共性,即不可预测性、耗散性、高维性、不可逆性、广泛连接性和自适应性等等。157.1.37.1.3 ANN ANN基本形态基本形态也称为前馈网络神经元分层排列,分别组成输入层、中间层(隐层)和输出层。每一层神经元只接收来自前一层神经元的输出。16人工神经网络拓扑人工神经网络拓扑从输出层到输入层有反馈的网络17人工神经网络拓扑人工神经网络拓扑层内有互连的网络同层
7、神经元之间有横向联系。所以同层神经元之间有相互作用,可以形成竞争。18人工神经网络拓扑人工神经网络拓扑任意两个神经元之间都有可能相互连接。这种拓扑的人工神经网络很少见。因为这种系统太复杂了,是一个极度非线性的动力学系统。现有理论还缺乏对其稳定性的认识 197.2 7.2 前馈神经网络前馈神经网络207.2.17.2.1 感知器模型感知器模型u感知器处理单元对n个输入进行加权和操作y即:u其中,wi为第i个输入到处理单元的连接权值,为阈值,f取阶跃函数 21感知器模型的数学形式感知器模型的数学形式22感知器的数学模型感知器的数学模型u学习一个感知器意味着选择权w0,wn的值。u所以感知器学习要考
8、虑的候选假设空间H就是所有可能的实数值权向量的集合(1)选择一组初始权值wi(0)。(2)计算某一输入模式对应的实际输出与期望输出的误差(3)如果小于给定值,结束,否则继续。(4)更新权值(阈值可视为输入恒为1的一个权值):wi(t+1)wi(t+1)-wi(t)=d-y(t)xi(t)式中为在区间(0,1)上的一个常数,称为学习步长,它的取值与训练速度和w收敛的稳定性有关;d、y为神经元的期望输出和实际输出;xi为神经元的第i个输入。(5)(5)返回(2)(2),重复,直到对所有训练样本模式,网络输出均能满足要求23感知器的表征能力感知器的表征能力u与、或、与非、或非异或异或异或异或XORX
9、ORXORXOR24简单感知器的致命缺陷简单感知器的致命缺陷线性不可分问题就是无法用一个平面(直线)把超空间(二维平面)中的点正确划分为两部分的问题。异或函数(异或函数(异或函数(异或函数(XORXORXORXOR)25多层感知器多层感知器u用多个单级网组合在一起,并用其中的一个去综合其它单级网的结果,我们就可以构成一个两级网络,该网络可以被用来在平面上划分出一个封闭或者开放的凸域来。u一个非凸域可以拆分成多个凸域。按照这一思路,三级网将会更一般一些,我们可以用它去识别出一些非凸域来26多层感知器多层感知器u在输入和输出层间加上一层或多层的神经元(隐层神经元),就可构成多层前向网络,即多层感知
10、器。27多层感知器的能力多层感知器的能力1962年,Rosenblatt宣布:人工神经网络可以学会它能表示的任何东西对于一个N个输入的感知器,如果样本输入函数是线性可分的,那么对任意给定的一个输入样本x,要么属于某一区域F+,要么不属于这一区域,记为F-。F+,F-两类样本构成了整个线性可分样本空间。如果样本输入函数是线性可分的,那么感知器学习算法经过有限次迭代后,可收敛到正确的权值或权向量。假定隐含层单元可以根据需要自由设置,那么用双隐层的感知器可以实现任意的二值逻辑函数。28感知器结构与决策区域类型感知器结构与决策区域类型 可在数据空间中划分出任意形状(复杂度由隐层单元数目决定)可在数据空
11、间中划分出开凸区域或者闭凸域区有一个超平面把数据空间划分成两部分区域形状区域形状决策区域类型决策区域类型网络结构网络结构297.2.27.2.2 反向传播算法反向传播算法uRumelhart领导的PDP小组(包括Hinton和Williams)1986年独立地给出了BP算法清楚而简单的描述u实际上,1974年Werbos已提出了该方法思想;u1982年Paker也完成了相似工作。u广泛的适应性和有效性。u训练速度非常慢;u局部极小点的逃离问题,算法不一定收敛到全局最小点。30基本基本BPBP算法算法u网络拓扑与多层感知器一样。一般为3层。u神经元的网络输入:netj=x1jw1j+x2jw2j
12、+xnjwnju神经元的输出:o=f(net)=1/(1+exp(-net)f(net)=exp(-net)/(1+exp(-net)2=o-o2=o(1-o)31BPBP算法中的激活函数算法中的激活函数SigmoidSigmoidSigmoidSigmoid函数函数函数函数可以用其它的函数作为激活函数,只要该函数是可导的。Tanh(Tanh(Tanh(Tanh(双曲正切双曲正切双曲正切双曲正切)函数函数函数函数32BPBP算法基本学习过程算法基本学习过程u逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok及其误差E1,u然后对各层神经元的权值W(1),W(2),W(L)各做一次调整,u
13、重复这个循环,直到Ep(所有样本的误差之和)。u用输出层的误差调整输出层权矩阵,并用此误差估计输出层的直接前导层的误差,u再用输出层前导层误差估计更前一层的误差。u如此获得所有隐层的误差估计,并用这些估计实现对权矩阵的修改。u形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程。33BPBP算法基本过程算法基本过程34基本基本BPBP算法的伪码算法的伪码 35输出层权值的调整输出层权值的调整36隐藏层权的调整隐藏层权的调整37BPBP算法的理论解释算法的理论解释u用理想输出与实际输出的方差作为相应的误差测度:38梯度最速下降法梯度最速下降法法向量期望 w法向量期望 w39 4
14、0输出层权值调整量输出层权值调整量41隐层(第隐层(第K-1K-1层)权值调整量层)权值调整量42隐层(第隐层(第K-1K-1层)权值调整量层)权值调整量43随机梯度下降随机梯度下降u当所有所有所有的训练数据(x,y)都用一遍之后,才一次性调整w。u每使用一个一个一个训练数据(xi,yi)就调整w。用近似梯度代替梯度。u使用一批一批一批训练数据(xi,yi)后,才调整w。对近似梯度的折衷。44BPBP算法中的问题算法中的问题收敛速度很慢,其训练需要很多步迭代。一种改进思路是加入惯性项逃离/避开局部极小点:修改W、V的初值并不是总有效。逃离统计方法;Wasserman,1986将Cauchy训练
15、与BP算法结合起来,可以在保证训练速度不被降低的情况下,找到全局极小点。自适应步长 45BPBP算法的学习曲线算法的学习曲线过度拟合过度拟合过度拟合过度拟合可以用交叉验证方法来估计较合适的训练终止点,从而减小过度拟合的风险46BPBP算法算法小结BP是最常见的神经网络学习算法其假设空间是拓扑不变网络所能表示的所有函数使用梯度下降方法搜索可能假设的空间,迭代减小网络的误差以拟合训练数据梯度下降收敛到训练误差相对网络权值的局部极小值。只要训练误差是假设参数的可微函数,梯度下降可用来搜索任意连续参数构成的假设空间BP算法能够学习出输入数据中没有明确出现的特征477.2.37.2.3 卷积卷积神经网络神经网络深度学习表现出优异性能深度学习表现出优异性能模式识别类问题(例如:图像识别、语音识别)模式识别类问题(例如:图像识别、语音识别)自然语言处理类问题(例如:机器翻译,语言模式)自然语言处理类问题(例如:机器翻译,语言模式)卷积神经网络(卷积神经网络(Convolutional Neural NetworksConvolutional Neural Networks,CNNCNN)深度学习的典型代表之一深度学习的典型代表之一前馈人工神经网络继BP网络之后,再次掀起ANN研究高潮极大地解决了模式识别应用化问题当前AI浪潮的动力之一待续待续
限制150内