人工神经网络课件.pptx
《人工神经网络课件.pptx》由会员分享,可在线阅读,更多相关《人工神经网络课件.pptx(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/1/311第四章人工神经网络第四章人工神经网络4.1 4.1 简介简介4.2 4.2 神经网络表示神经网络表示4.3 4.3 适合神经网络学习的问题适合神经网络学习的问题4.4 4.4 感知器感知器4.5 4.5 多层网络和反向传播算法多层网络和反向传播算法4.6 4.6 反向传播算法的说明反向传播算法的说明4.7*4.7*举例:人脸识别举例:人脸识别4.8*4.8*人工神经网络的高级课题人工神经网络的高级课题小结小结2023/1/312 4.1 简介(简介(1/2)人工神经网络人工神经网络(ANNANN)的研究在一定程度上的研究在一定程度上受到了生物学的启发受到了生物学的启发,因为
2、,因为生物的学习系统生物的学习系统(如大脑如大脑)是由相互连接的神经元是由相互连接的神经元(neuron)(neuron)组成的异常复杂组成的异常复杂的网络。由于的网络。由于ANNANN只是只是在一定程度上在一定程度上受生物神经系统的启发,所以受生物神经系统的启发,所以ANNANN并未并未模拟生物神经系统中的很多复杂特征。模拟生物神经系统中的很多复杂特征。nANNANN是由一系列简单的单元相互密集连接构成的是由一系列简单的单元相互密集连接构成的:n每一个单元有一定数量的实值输入每一个单元有一定数量的实值输入(可能是其他单元的输出可能是其他单元的输出)n每一个单元产生单一的实数值输出每一个单元产
3、生单一的实数值输出(可能成为其他很多单元的输入可能成为其他很多单元的输入)。nANNANN领域的研究者分为两个团体领域的研究者分为两个团体:n一个团体的目标是使用一个团体的目标是使用ANNANN研究和模拟生物学习过程研究和模拟生物学习过程(本身)本身)n另一个团体的目标是另一个团体的目标是获得高效的机器学习算法(应用)获得高效的机器学习算法(应用),不管这种算,不管这种算法是否反映了生物过程。法是否反映了生物过程。2023/1/313 4.1 简介(简介(2/2)n神经网络学习方法对于神经网络学习方法对于逼近实数值、离散值或向量值逼近实数值、离散值或向量值的目的目标函数提供了一种标函数提供了一
4、种健壮性很强健壮性很强的方法。的方法。n在模式识别领域,如学习解释复杂的现实世界中的传感器在模式识别领域,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的数据,人工神经网络是目前知道的最有效的学习方法最有效的学习方法。比如,。比如,学习识别手写字符、学习识别口语等。学习识别手写字符、学习识别口语等。n常用的常用的反向传播算法反向传播算法,使用梯度下降来调节网络参数,以,使用梯度下降来调节网络参数,以最佳拟合友输入输出对组成的训练数据,在很多实际的问题最佳拟合友输入输出对组成的训练数据,在很多实际的问题中取得了惊人的成功。中取得了惊人的成功。2023/1/314 4.2 神经网络
5、表示例:神经网络表示例:ALVINN系统系统2023/1/3154.3适合神经网络学习的问题适合神经网络学习的问题n实例是用很多实例是用很多“属性一值属性一值”对表示的对表示的:要学习的目标函数是要学习的目标函数是定义在可以用向量描述的实例之上的,向量由预先定义的特定义在可以用向量描述的实例之上的,向量由预先定义的特征组成。征组成。n目标函数的输出目标函数的输出可能是离散值、实数值或者由若干实数属性可能是离散值、实数值或者由若干实数属性或离散属性组成的向量。或离散属性组成的向量。n训练数据可能包含错误训练数据可能包含错误:ANN:ANN学习算法对于训练数据中的错误学习算法对于训练数据中的错误有
6、非常好的健壮性。有非常好的健壮性。n可容忍长时间的训练可容忍长时间的训练:网络训练算法通常比像决策树学习这网络训练算法通常比像决策树学习这样的算法需要更长的训练时间。样的算法需要更长的训练时间。n人类能否理解学到的目标函数是不重要的人类能否理解学到的目标函数是不重要的:神经网络方法学神经网络方法学习到的权值经常是人类难以解释的。学到的神经网络比学到习到的权值经常是人类难以解释的。学到的神经网络比学到的规则难以传达给人类。的规则难以传达给人类。2023/1/316 4.4感知器感知器(1/2)一种类型的一种类型的ANNANN系统是以系统是以感知器感知器的单元为基础的。如图的单元为基础的。如图4-
7、24-2所示。感知所示。感知器以器以一个实数值向量作为输入一个实数值向量作为输入,计算这些输入的线性组合,如果结果大于,计算这些输入的线性组合,如果结果大于某个某个阈值阈值,就,就输出输出1 1,否则,否则输出一输出一1 1。图图4-24-2感知器感知器2023/1/317 4.4感知器感知器(2/2)还可以把感知器函数写为:还可以把感知器函数写为:其中:其中:学习一个感知器意味着选择权学习一个感知器意味着选择权w w0 0,w wn n的值。所以感知的值。所以感知器学习要考虑的器学习要考虑的候选假设空间候选假设空间H H就是所有可能的实数值权向量就是所有可能的实数值权向量的集合。的集合。20
8、23/1/3184.4.1感知器的表征能力(感知器的表征能力(1/4)可以把感知器看作是可以把感知器看作是n n维实例空间维实例空间(即点空间即点空间)中的中的超平超平面决策面:面决策面:n对于超平面一侧的实例,感知器输出对于超平面一侧的实例,感知器输出1 1,对于另一侧的实,对于另一侧的实例输出一例输出一1 1,这个决策,这个决策超平面方程是超平面方程是:n某些正反样例集合不可能被任一超平面分割。那些可以被某些正反样例集合不可能被任一超平面分割。那些可以被分割的称为分割的称为线性可分线性可分(linearly separable)(linearly separable)样例集合。样例集合。2
9、023/1/3194.4.1感知器的表征能力(2/4)图图4-34-3两输入感知器表示的决策面两输入感知器表示的决策面a)a)一组训练样例和一个能正确分类这些样例的感知器决策面。一组训练样例和一个能正确分类这些样例的感知器决策面。b)b)一组非线性可分的训练样例一组非线性可分的训练样例(也就是不能用任一直线正确分类的也就是不能用任一直线正确分类的样例样例)。x x1 1和和x x2 2是感知器的输入。是感知器的输入。“+”表示正例,表示正例,“一一”表示反例表示反例。2023/1/31104.4.1感知器的表征能力(3/4)单独的感知器可以用来表示很多布尔函数。单独的感知器可以用来表示很多布尔
10、函数。假定用假定用1(1(真真)和一和一1(1(假假)表示布尔值,那么使用一个有两输表示布尔值,那么使用一个有两输入的感知器入的感知器:n实现实现与函数与函数(AND)(AND)的一种方法是设置权的一种方法是设置权w w0 0=一一0.8,0.8,并且并且w wl l=w w2 2=0.5=0.5。n实现实现或函数或函数(OR)(OR),那么只要改变它的,那么只要改变它的y y阈值阈值w w0 0=一一0.30.3nANDAND和和OROR可被看作可被看作m-of-nm-of-n函数函数的特例的特例:也就是要使函数输出为真,也就是要使函数输出为真,那么那么感知器的感知器的n n个输入中至少个输
11、入中至少m m个必须为真个必须为真:nOROR函数对应于函数对应于m=1m=1nANDAND函数对应于函数对应于m=nm=n。n任意任意m-of-nm-of-n函数可以很容易地用感知器表示,函数可以很容易地用感知器表示,只要设置所有输入只要设置所有输入的权为同样的值的权为同样的值(如如0.5)0.5),然后据此恰当地设置阈值。,然后据此恰当地设置阈值。n感知器可以表示所有的原子布尔函数感知器可以表示所有的原子布尔函数:与、或、与非和或非与、或、与非和或非。n然而,一些布尔函数无法用单一的感知器表示,例如然而,一些布尔函数无法用单一的感知器表示,例如异或函数异或函数(XOR)(XOR),它当且仅
12、当,它当且仅当x1x1 x2x2时输出为时输出为1 1。4.4.1感知器的表征能力(4/4)2023/1/31124.4.2感知器训练法则(1/3)感知器的学习任务感知器的学习任务是决定一个权向量,它可以使感知器对是决定一个权向量,它可以使感知器对于给定的训练样例输出正确的于给定的训练样例输出正确的1 1或或-1(-1(拟合训练数据)。拟合训练数据)。两种算法两种算法:感知器法则感知器法则和和deltadelta法则法则。这两种算法保证收敛。这两种算法保证收敛到可接受的假设,在不同的条件下收敛到的假设略有不同。到可接受的假设,在不同的条件下收敛到的假设略有不同。这两种方法提供了学习多个单元构成
13、的网络的基础。这两种方法提供了学习多个单元构成的网络的基础。2023/1/31134.4.2感知器训练法则(2/3)为了得到可接受的权向量,一种办法是:为了得到可接受的权向量,一种办法是:n从随机的权值从随机的权值开始开始n然后然后反复地应用这个感知器到每个训练样例反复地应用这个感知器到每个训练样例n只要只要它误分类样例就它误分类样例就修改感知器的权值修改感知器的权值。n重复重复这个过程,这个过程,直到直到感知器正确分类所有的训练样例。感知器正确分类所有的训练样例。每一步根据每一步根据感知器训练法则感知器训练法则来修改权值:来修改权值:w wi iw wi i+w+wi i wwi i(t(t
14、o)xo)xi it t是当前训练样例的目标输出,是当前训练样例的目标输出,o o是感知器的输出,是感知器的输出,是一个正是一个正的常数称为的常数称为学习速率学习速率。学习速率的作用是缓和每一步调整。学习速率的作用是缓和每一步调整权的程度。权的程度。可以证明可以证明:在有限次地使用在有限次地使用感知器训练法则感知器训练法则后,上面的训练过后,上面的训练过程会收敛到一个能正确分类所有训练样例的权向量,程会收敛到一个能正确分类所有训练样例的权向量,前前提提是训练样例线性可分,并且使用了充分小的是训练样例线性可分,并且使用了充分小的。如果数据不是线性可分的,那么不能保证训练过程如果数据不是线性可分的
15、,那么不能保证训练过程收敛。收敛。4.4.2感知器训练法则(3/3)2023/1/31154.4.3梯度下降和delta法则(1/2)n问题提出问题提出:如果训练样本不是线性可分的,那么:如果训练样本不是线性可分的,那么感知器训感知器训练法则练法则不能保证训练过程收敛不能保证训练过程收敛,deltadelta法则法则会收敛到目标会收敛到目标概念的最佳近似。概念的最佳近似。ndeltadelta法则的关键思想法则的关键思想是使用是使用梯度下降梯度下降来搜索可能的权向来搜索可能的权向量的假设空间,以找到最佳拟合训练样例的权向量。量的假设空间,以找到最佳拟合训练样例的权向量。ndeltadelta法
16、则法则为反向传播算法提供了基础为反向传播算法提供了基础。且对于包含多种。且对于包含多种不同类型的连续参数化假设的假设空间,梯度下降是必不同类型的连续参数化假设的假设空间,梯度下降是必须遍历这样的假设空间的所有学习算法的基础。须遍历这样的假设空间的所有学习算法的基础。2023/1/31164.4.3梯度下降和delta法则(2/2)把把deltadelta训练法则理解为训练一个训练法则理解为训练一个无阈值无阈值的感知器,也就的感知器,也就是一个是一个线性单元线性单元,它的输出,它的输出o o如下:如下:(感知器:(感知器:)为了推导线性单元的权值学习法则,先指定一个度量标为了推导线性单元的权值学
17、习法则,先指定一个度量标准来衡量准来衡量假设相对于训练样例的训练误差假设相对于训练样例的训练误差。一个常用的特别。一个常用的特别方便的方便的度量标准度量标准为为:在一定的条件下,在一定的条件下,对于给定的全部训练数据使对于给定的全部训练数据使E E最小化的最小化的假设也就是假设也就是H H中最可能的假设中最可能的假设。2023/1/31171.可视化假设空间(1/2)图44不同假设的误差按照按照E的定义,的定义,对于线性单元,对于线性单元,这个误差曲面必这个误差曲面必然是具有单一全然是具有单一全局最小值的抛物局最小值的抛物面。面。具体的抛物面形具体的抛物面形状依赖于具体的状依赖于具体的训练样例
18、集合。训练样例集合。2023/1/31181.可视化假设空间(2/2)确定一个使确定一个使E E最小化的权向量最小化的权向量:n梯度下降搜索从一个任意的初始权向量梯度下降搜索从一个任意的初始权向量开始开始n然后然后以很小的步伐反复修改这个向量以很小的步伐反复修改这个向量:每一步都沿误差曲面产生每一步都沿误差曲面产生最陡峭下降最陡峭下降的方向修改权向量的方向修改权向量(参见图参见图4-4)4-4),n继续继续这个过程这个过程,直到直到得到全局的最小误差点。得到全局的最小误差点。2023/1/31192.梯度下降法则的推导(1/4)可以通过计算可以通过计算E E相对向量相对向量 的每个分量的导数来
19、得到沿误差的每个分量的导数来得到沿误差曲面最陡峭下降的这个方向。这个向量导数被称为曲面最陡峭下降的这个方向。这个向量导数被称为E E对于对于 的梯的梯度度(gradient)(gradient),记作:,记作:既然梯度确定了既然梯度确定了E E最陡峭上升的方向,那么梯度下降的训练法则最陡峭上升的方向,那么梯度下降的训练法则是是:其中:其中:2023/1/31202.梯度下降法则的推导(2/4)n训练法则也可以写成它的分量形式训练法则也可以写成它的分量形式:其中:其中:2023/1/31212.梯度下降法则的推导(3/4)可以从公式可以从公式(4.2)(4.2)中计算中计算E E的微分,从而得到
20、组成这个的微分,从而得到组成这个梯度向量的分量梯度向量的分量 。过程如下:。过程如下:2023/1/31222.梯度下降法则的推导(4/4)所以有:2023/1/3123训练线性单元的梯度下降算法训练线性单元的梯度下降算法(标准梯度下降)(标准梯度下降)GRADIENT-DESCENT(training-examples,GRADIENT-DESCENT(training-examples,)training-examplestraining-examples中每一个训练样例形式为序偶中每一个训练样例形式为序偶,其中,其中x x是输入值向量,是输入值向量,t t是目标输出值,是目标输出值,是学
21、习速率是学习速率(例如例如0.05)0.05)初始化每个初始化每个w wi i为某个小的随机值为某个小的随机值 遇到遇到终止条件终止条件之前,做以下操作之前,做以下操作:初始化每个初始化每个w wi i为为0 0 对于训练样例对于训练样例training-examplestraining-examples中的中的每个每个做做:把实例把实例x x输人到此单元,计算输出输人到此单元,计算输出o o 对于线性单元的每个权对于线性单元的每个权w wi i做做 w wi iwwi i+(t(to)xo)xi i 对于线性单元的每个权对于线性单元的每个权w wi i做:做:2023/1/31243.梯度下
22、降的随机近似(1/3)(随机梯度下降随机梯度下降)n梯度下降梯度下降是一种重要的通用学习范型。它是搜索庞大假设空是一种重要的通用学习范型。它是搜索庞大假设空间或无限假设空间的一种策略,它可应用于满足以下条件的间或无限假设空间的一种策略,它可应用于满足以下条件的任何情况任何情况:(1)(1)假设空间包含连续参数化的假设,例如,一个线性单假设空间包含连续参数化的假设,例如,一个线性单元的权值元的权值;(2)(2)误差对于这些假设的参数可微。误差对于这些假设的参数可微。n应用梯度下降的主要应用梯度下降的主要实践问题是实践问题是:(1)(1)有时收敛过程可能非常慢有时收敛过程可能非常慢(它可能需要数千
23、步的梯度下它可能需要数千步的梯度下降降););(2)(2)如果在误差曲面上有多个局部极小值,那么不能保证如果在误差曲面上有多个局部极小值,那么不能保证这个过程这个过程会找到全局最小值。找到全局最小值。2023/1/31253.梯度下降的随机近似(2/3)(随机梯度下降随机梯度下降)缓解这些困难的一个常见的梯度下降变体被称为缓解这些困难的一个常见的梯度下降变体被称为增量梯度下降或随机增量梯度下降或随机梯度下降梯度下降。n标准梯度下降训练法则在对标准梯度下降训练法则在对D D中的中的所有训练样例求和后所有训练样例求和后计算权值更新。计算权值更新。n随机梯度下降的思想随机梯度下降的思想是根据是根据每
24、个单独样例的误差增量每个单独样例的误差增量计算权值更新,得计算权值更新,得到近似的梯度下降搜索。到近似的梯度下降搜索。n修改后的训练法则与公式:修改后的训练法则与公式:相似,只是在相似,只是在迭代计算每个训练样例时迭代计算每个训练样例时根据下面的公式来更新权值,也称根据下面的公式来更新权值,也称增量法则或最小均方(增量法则或最小均方(LMSLMS)法则)法则:w wi i(t(to)xo)xi i随梯度下降为每个单独的训练样例随梯度下降为每个单独的训练样例d定义不同的误差函数:定义不同的误差函数:训练线性单元的梯度下降算法训练线性单元的梯度下降算法(随机梯度下降)(随机梯度下降)GRADIEN
25、T-DESCENT(training-examples,GRADIENT-DESCENT(training-examples,)training-examplestraining-examples中每一个训练样例形式为序偶中每一个训练样例形式为序偶,其,其中中x x是输入值向量,是输入值向量,t t是目标输出值,是目标输出值,是学习速率是学习速率(例如例如0.05)0.05)初始化每个初始化每个w wi i为某个小的随机值为某个小的随机值 遇到终止条件之前,做以下操作遇到终止条件之前,做以下操作:初始化每个初始化每个w wi i为为0 0 对于训练样例对于训练样例training-exampl
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工 神经网络 课件
限制150内