书签分享收藏举报版权申诉 / 93

立即下载

当前位置：首页 > 教育专区 > 大学资料 > (本科）第15章-人工神经网络.pdf

(本科）第15章-人工神经网络.pdf

上传人：春哥&#****71;

文档编号：15305080

上传时间：2022-05-12

格式：PDF

页数：93

大小：1.79MB

( 4.5 )

《(本科）第15章-人工神经网络.pdf》由会员分享，可在线阅读，更多相关《(本科）第15章-人工神经网络.pdf（93页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、(c) 2020，陈强，机器学习及 R 应用，高等教育出版社 1 第第 15 章章人工神经网络人工神经网络人类大脑是由大约 1 千亿个“神经元”(neurons)相连而构成的“神经网络”(neural network)。 McCulloch and Pitts (1943)首先提出神经元的简化数学模型。 Rosenblatt(1958)提出 “感知机” (perceptron)，通过引入 “学习” (learning)，使得感知机具备将事物分类的能力。但这种单层的神经网络无法得到非线性的决策边界，直到出现“多层感知机” (multilayer perceptron)，即 “多层神经网

2、络” (multilayer neural network)。随着算法日益改进，演化成炙手可热的“深度学习”(deep learning)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 2 15.1 人工神经网络的思想人工神经网络的思想在人工智能(Artificial Intelligence，简记 AI)领域，主要有两大派系。一个派系为“符号主义”(Symbolicism)，又称逻辑主义，主张用公理和逻辑体系搭建一套人工智能系统。符号主义者认为，人工智能应模仿人类的逻辑方式获取知识。另一派系则是“连接主义”(Connectionism)，也称仿生学派，主张模仿人类的

3、神经元，用神经网络的连接机制实现人工智能。连接主义者奉行大数据和学习来获得知识。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 3 人工神经网络(Artificial Neural Networks，简记 ANN)是连接主义的代表作。人类大脑是由大量 “神经细胞” (neural cells)为基本单位而组成的神经网络。神经细胞也称 “神经元” (neurons)。图 15.1 为神经元的基本结构示意图。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 4 图 15.1 神经元结构示意图 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 5 在

4、图 15.1 中，一个神经元通过左边的“树突”(dendrite)从其他神经元的“轴突”(axon)及“轴突末梢”(axon terminal)获取电子或化学信号(未在图中显示其他神经元)。两个神经元之间的连接部位(junction)，称为“神经突触”(synapse)(在图中标为 “神经末梢” )。连接在一起的神经元，可以共同兴奋，即所谓 “neurons wired together, fire together” 。从树突(dendrites)获得不同的信号后，神经元的“细胞体”(cell body)将这些信号进行加总处理。如果这些信号的总量超过某个阈值，则神经元会兴奋起来，

5、并通过轴突向外传输信号，经过神经突触(synapses)，而为其他神经元的树突所接收。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 6 1943 年，美国神经生理学家 Warren McCulloch 与数学家 Walter Pitts 将生物神经元简化为一个数学模型 (McCulloch and Pitts, 1943)，简称 M-P 神经元模型，参见图 15.2。从图 15.2 可见，M-P 神经元模型与生物神经元在形式上类似。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 7 图 15.2 M-P 神经元的数学模型 (c) 2020，陈强，机器学习及

6、R 应用，高等教育出版社 8 将神经元视为一个计算单位，它首先从树突(dendrites)输入信号1()pxx x，在细胞体(cell body)进行加权求和1piiiw x，其中1()pww w为权重(不同信号的重要性不同)。如果求和之后的总数，超过某个阈值(比如，b)，则神经元兴奋起来，通过轴突(axon)向外传递信号；反之，则神经元处于抑制状态： (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 9 111100piipiiipiiiiifw xbIw xbifw xb (15.1) 其中，参数b表示阈值(门槛值)，称为偏置(bias)。示性函数( )I 称为激活函数(ac

7、tivation function)。 M-P 神经元模型本质上只是一个纯数学模型(尽管也通过电阻得到物理实现)，其中的参数w与b需要人为指定，而无法通过训练样本进行学习。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 10 15.2 感知机感知机 Rosenblatt (1958)提出感知机(Perceptron)，使得 M-P 神经元模型具备学习能力，成为神经网络模型的先驱。对于二分类问题，考虑使用分离超平面“0bw x”进行分类，而响应变量1,1y。如果0bw x，则预测1y 。如果0bw x，则预测1y 。如果0bw x，可随意预测。正确分类要求()0

8、iiy bw x。若()0iiy bw x，则错误分类。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 11 从某个初始值00(,)bw出发，感知机希望通过调整参数( , )bw，使得模型的错误分类最少。感知机的目标函数为最小化所有分类错误观测值的“错误程度”之和： ,min( , )()iibiLby b www xM (15.2) 其中，M为所有错误分类(misclassified)的个体下标之集合。假定M不变(若M有变，在迭代过程中更新即可)，则此目标函数的梯度向量为 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 12 ( , )iiiLby wx

9、wM (15.3) ( , )iiLbyb wM (15.4) 使用梯度下降法，沿着负梯度方向更新，则参数的更新规则为 iiiywwxM (15.5) iibbyM (15.6) 其中，为“学习率”(learning rate)，也称“步长”(step size)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 13 通过迭代，可使损失函数( , )Lbw不断减小，直到变为 0 为止。感知机算法的直观解释：当一个样本点被错误分类，即出现在分离超平面“0bw x”的错误一侧时，则调整参数( , )bw，使得分离超平面向该误分类点的一侧移动，以减少此误分类点与超平面的距离，直至正

10、确分类为止。可以证明，对于线性可分的数据，感知机一定会收敛。这表明，只要给予足够的数据，感知机具备学得参数( , )bw的能力，仿佛拥有“感知”世界的能力(比如，自动将事物分类)，故名“感知机” 。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 14 对于线性可分的数据，感知机虽然一定会收敛，但从不同的初始值出发，一般会得到不同的分离超平面，无法得到唯一解。由于所得超平面未必是“最优分离超平面”(optimal separating hyperplane)，故感知机的泛化能力也没有保证。如果数据为线性不可分，则感知机的算法不会收敛。感知机更严重的缺陷是，它的决策边

11、界依然为线性函数。可将感知机的预测函数写为 ( )fsignbxw x (15.7) 其中，( )sign 为符号函数，满足 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 15 10( )10if zsign zif z (15.8) 虽然符号函数( )sign 为非线性，但感知机的决策边界为0b w x，依然为线性函数。感知机无法适用于决策边界为非线性的数据。例感知机无法识别 “异或函数” 。在逻辑学中，有几个常见的逻辑运算，包括“与”(AND)、 “或”(OR)、 “与非”(NOT AND)、 “异或”(Exclusive Or，简记 XOR)。 (c) 202

12、0，陈强，机器学习及 R 应用，高等教育出版社 16 “异或” 是一种排他性(exclusive)的 “或” ，即当二者取值不同时为 “真”(TRUE)，而当二者取值相同时即为“假”(FALSE)。图 15.3 异或函数的非线性决策边界逻辑判断 TRUE 记为 1(以蓝点表示)，而 FALSE 记为 0(以黑点表示)。(c) 2020，陈强，机器学习及 R 应用，高等教育出版社 17 以图中最左边的 AND 运算为例，只有当输入值都是 1(TRUE)时，经过AND 运算后才是 1(TRUE)，以右上角的蓝点表示；在这种情况下，存在线性的决策边界。对于 OR 与 NAND 的运算，也存在

13、线性的决策边界。对于 XOR 的运算，由于 TRUE 与 FALSE 分别分布在两个对角上，故无法找到线性的决策边界，存在非线性的决策边界。 1969 年，Marvin Minsky 与 Seymour Papert 在专著 Perceptrons 指出，感知机连基本的异或函数都无法区分，功能十分有限。当时学界普遍认为感知机无发展前途，使人工神经网络研究陷入低谷。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 18 15.3 神经网络的模型神经网络的模型事实上，在感知机的基础上，并不难得到非线性的决策边界。只要引入多层神经元，经过两个及以上的非线性激活函数迭代之后，

14、即可得到非线性的决策边界。非线性的激活函数是关键：如果使用线性的激活函数，则无论叠加或嵌套多少次(相当于复合函数)，所得结果还是线性函数。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 19 首先，考虑具有多个输出结果(multi output)的感知机，如图 15.4 所示。图 15.4 多输出的感知机 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 20 在图 15.4 中，共有两个输出(响应)变量，1 y与2 y。其中，1111piiizbw x与2221piiizbw x，均为在施加激活函数之前的加总值；而( )f 为激活函数。其次，图 15.4

15、中的多个输出结果，可重新作为输入变量，经过加权求和后，再次施以激活函数，参见图 15.5。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 21 图 15.5 多层感知机 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 22 在图 15.5 中，最终输出结果为 (2)(2)(2)1122( )()yf bwf zwf z (15.9) 即对1( )f z与2()f z再次加权求和，然后再施加激活函数( )f 。函数(15.9)所对应的决策边界为非线性的。在图 15.5 中，最左边为输入层(input layer)，中间为隐藏层(hidden layer)，而

16、最右边为输出层(output layer)。之所以将中间层称为“隐藏层” ，因为该层的计算在算法内部进行，从外面并不可见。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 23 隐藏层可有更多的神经元，而输出层也可有多个输出结果，参见图 15.6。图 15.6 单隐藏层的神经网络 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 24 更一般地，神经网络模型可有多个隐藏层，参见图 15.7。图 15.7 双隐藏层的神经网络 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 25 这种标准的神经网络，称为前馈神经网络(feedforward neu

17、ral network)，因为输入从左向右不断前馈。也称为全连接神经网络(fully-connected neural network)，因为相邻层的所有神经元都相互连接。针对特殊的数据类型，可能还需要特别的网络结构，比如卷积神经网络(适用于图像识别)、循环神经网络(适用于自然语言等时间序列)等。如果神经网络的隐藏层很多，则称为深度神经网络(deep neural networks)，简称深度学习(deep learning)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 26 15.4 神经网络的激活函数神经网络的激活函数感知机使用符号函数(15.8)作为激活函

18、数，是不连续的“阶梯函数”(step function)，不便于进行最优化。激活函数必须为非线性函数，因为这个世界本质上是非线性的。神经网络模型中常用的激活函数包括： (1) S 型函数(Sigmoid Function)，参见图 15.8。狭义的 S 型函数就是逻辑分布的累积分布函数，其表达式为 1( )1zze (15.10) (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 27 图 15.8 两种 S 型激活函数 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 28 此函数也用于逻辑回归(Logit regression)，在机器学习中有时记为( ) z，也

19、称为“逻辑函数”(logistic function)。 Sigmoid 函数可视为一种“挤压函数”(squashing function)，即把输入的任何实数都挤压到(0,1)区间。输入值z在 0 附近时，sigmoid 函数近似为线性函数；而当输入值z靠近两端()时，则对输入进行抑制。输入越小，则输出越接近于 0；而输入越大，则输出越接近于 1；此特点与生物神经元类似。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 29 由于sigmoid函数的输出值介于0与1之间，故可将其解释为概率分布。与感知机所用的阶梯激活函数相比，sigmoid 函数为连续可导(contin

20、uously differentiable，即导函数存在且连续)，其数学性质更好。但当输入靠近两端(z很大)时，sigmoid 函数的导数( ) z趋向于 0，故在训练神经网络时，可能导致“梯度消失”(vanishing gradient)的问题，使得梯度下降法失效。具体来说，sigmoid 函数的导数为 ( )( ) 1( )zzz (15.11) 当z 或z 时，lim( )0z。这种情形称为“两端饱和” 。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 30 (2) 双曲正切函数(Hyperbolic Tangent Function)，参见图 15.8。双曲正切函数是

21、一种广义的 S 型函数，因为它的形状也类似于拉长的英文大写字母S，其表达式为 tanh( )zzzzeezee (15.12) Tanh 函数可看作是将 Logistic 函数进一步拉伸到( 1,1)区间。二者有如下关系： tanh( )2 (2 )1zz (15.13) 其中，上式右边可写为 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 31 222112 (2 ) 12111tanh( )zzzzzzzezeeeezee (15.14) Tanh 函数的输出是零中心化的(zero-centered)，而 Logistic 函数的输出一定大于 0。非零中心化的输出(例如

22、 Logistic 函数)，会使得下一层的神经元输入发生“偏置偏移”(bias shift)，使得梯度下降的收敛速度变慢。 Tanh 函数也是两端饱和的，依然可能发生梯度消失的问题。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 32 (3) 修正线性单元(Rectified Linear Unit，简记 ReLU)，也称“线性整流函数” ，参见图 15.9。为了解决 Logistic 函数与 Tanh 函数的两端饱和问题，Nair and Hinton(2010)提出如下 ReLU 函数，成为目前深度神经网络中经常使用的激活函数： 0ReLU( )max(0, )00zi

23、f zzzif z (15.15) ReLU 实际上是一个斜坡(ramp)函数。当输入0z ，其输出也是z，即所谓 “线性单元” (linear unit)；而当输入0z 时，则将输出 “修正” (rectified)为 0。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 33 图 15.9 ReLU 与泄露 ReLU 激活函数 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 34 以 ReLU 函数作为激活函数，其计算非常方便。相比于S型函数的两端饱和， ReLU函数为 “左饱和函数” ，即当z 时，ReLU 函数的导数趋向于 0。当0z 时， ReL

24、U 函数的导数恒等于 1，这可在一定程度上缓解神经网络训练中的梯度消失问题，加快梯度下降的收敛速度。 ReLU 函数被认为具有生物学上的解释，比如单侧抑制、宽兴奋边界(即兴奋度可以很高)。在生物神经网络中，同时处于兴奋状态的神经元一般很稀疏。S 型激活函数会导致非稀疏的神经网络，而 ReLU 激活函数可导致较好的稀疏性。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 35 ReLU 函数也是非零中心化的，导致下一层出现“偏置偏移” ，影响梯度下降的效率。更严重的问题是，由于当0z 时，ReLU 函数的导数恒等于 0，这导致神经元在训练时可能 “死亡” ，称为 “死亡 R

25、eLU 问题” (dying ReLU problem)。所谓 “神经元死亡” ，就是无论该神经元的输入是什么，其输出永远是 0，故无法更新其输入的权重。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 36 (4) 泄露 ReLU(Leaky ReLU，简记 LReLU)，参见图 15.9。解决“死亡ReLU 问题”的一种方式是，当输入0z 时，依然保持一个很小的梯度0。这使得当神经元处于非激活状态时，也有一个非零梯度可更新参数，避免永远不能被激活(Maas et al., 2013)。露 ReLU 函数的定义为 0LReLU( )0zif zzzif z (15.16)

26、其中，0是一个很小的正数，比如 0.01。当1时，泄露 ReLU 可写为 LReLU( )max( ,)zzz (15.17) (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 37 (5) 软加函数(Softplus Function)，参见图 15.10。 ReLU 函数并不光滑，而且在0z 时，导数一直为 0。软加函数可视为 ReLU 函数的光滑版本，正好弥补 ReLU 的这些缺点。Softplus 函数的定义为 Softplus( )ln(1)zze (15.18) Softplus 函数也具有单侧抑制、宽兴奋边界的特性。但没有 ReLU 函数的稀疏激活性(因为 So

27、ftplus 函数的导数永远为正)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 38 图 15.10 软加函数与 ReLU 函数 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 39 15.5 通用函数近似器通用函数近似器前馈神经网络具有很强的函数拟合能力。在一定意义上，神经网络可作为一种“通用近似器”(universal approximator)来使用。 Cybenko(1988)与 Hornik, Stinchcombe and White(1989)证明了神经网络的“通用近似定理”(Universal Approximation Theorem)。

28、主要结论为，包含单一隐藏层的前馈神经网络模型，只要其神经元数目足够多，则可以任意精度逼近任何一个在有界闭集上定义的连续函数。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 40 首先，包含单隐藏层的前馈神经网络所代表的函数可写为 1( )()miiiiGfbxw x (15.19) 其中，(,)iibw为第i个神经元的权重与偏置参数，( )f 为激活函数，i为连接隐藏层与输出层的参数，而m为神经元的数目。通用近似定理表明，形如(15.19)的函数在定义于有界闭集上的连续函数之集合中是“稠密的”(dense)。这意味着对于任意有界闭集上的连续函数，都可找到形如(15.19)

29、的函数(即单隐层的前馈神经网络)，使二者的距离任意接近。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 41 命题 15.1(通用近似定理) 令( )f 为一个合适的激活函数(详见下文)，pI是一个p维的单位超立方体(unit hypercube)0,1p，而()pCI是定义在pI上的所有连续函数之集合。对于任意一个函数()pgCI，给定任意小的正数0，则存在一个正整数m(即神经元数目)，一组实数(,)iib，以及实数向量piw，1,im ，使得方程(15.19)所定义的函数( )G x，可以任意地接近( )g x，即 ( )( ),pGg xxxI (15.20) (

30、c) 2020，陈强，机器学习及 R 应用，高等教育出版社 42 在上述定理中，假设定义域为p维单位超立方体0,1p，只是为了叙述方便。通用近似定理在任意p维实数空间p的有界闭集上依然成立。在文献中，通用近似定理的激活函数可采取不同形式的非线性函数，既包括非常数(nonconstant)、有界(bounded)且单调递增的连续函数(例如 S 型函数、双曲正切函数)，也包括无界(unbounded)且单调递增的连续函数(例如ReLU)，甚至允许不连续函数(例如阶梯函数)。通用近似定理表明，神经网络可作为“万能”函数来使用。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社

31、43 但通用近似定理只是说明，对于任意有界闭集上的连续函数，都存在与它非常接近的单隐层前馈神经网络。但并未给出找到此神经网络的方法，也不知道究竟需要多少个神经元，才能达到既定的接近程度。在实际应用中，一般并不知道真实函数( )g x，而我们更关心神经网络( )G x的泛化能力。由于神经网络的强大拟合能力，反而容易在训练集上过拟合，故需要避免过拟合，以降低测试误差。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 44 15.6 神经网络的损失函数神经网络的损失函数未经训练的神经网络就像空白的大脑，并不具备预测与分类的能力。 “训练”意味着估计神经网络模型的诸多参数。对于神

32、经网络而言，知识就储存在这些参数中。神经网络的通常训练方法为，在参数空间使用梯度下降法，使损失函数最小化。神经网络的损失函数之一般形式可写为 *11argmin,( ;)niiiL y GnWWx W (15.21) 其中，参数矩阵W包含神经网络模型的所有参数(包括偏置)，其每一列对应于神经网络每一层的参数 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 45 *W为W的最优值，(;)iGx W为神经网络对观测值ix所作的预测(即iy)，而,iiL yy为损失函数。整个样本的损失函数为每个观测值之损失,( ;)iiL y Gx W的平均值。对于响应变量为连续的回归问题，

33、一般使用平方损失函数(squared loss function)，最小化训练集的均方误差： 2*11argmin( ;)niiiyGnWWx W (15.22) (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 46 对于响应变量为离散的分类问题，则一般使用“交叉熵损失函数”(cross-entropy loss function)，即多项逻辑回归(Multinomial Logit)的对数似然函数之负数。对于二分类问题，一般使用 “二值交叉熵损失函数” (binary cross-entropy loss function)，即逻辑回归的对数似然函数之负数： *11argm

34、inln( ;)(1)ln 1( ;)niiiiiyGyGnWWx Wx W (15.23) (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 47 15.7 神经网络的算法神经网络的算法由于神经网络通常包含很多参数，且涉及较多非线性的激活函数，故一般不便于求二阶导数(黑塞矩阵)，无法使用牛顿法。常使用梯度下降法训练神经网络，故需要计算神经网络(;)iGx W的梯度向量。对于神经网络，最常用的计算梯度向量方法为反向传播算法(Back Propagation，简记 BP)。 BP 算法最早由 Werbos (1974)提出，但时值 AI 寒冬，未引入重视；此后由 Rumelh

35、art, Hinton and Williams(1986)重新发明。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 48 对于多层的神经网络，越靠近网络右边(后端)的参数，其导数越容易计算，因为它们离输出层更近。反向传播算法就是使用微积分的“链式法则”(chain rule)，将靠左边(前端)的参数之导数，递归地表示为靠右边(后端)的参数之导数之函数。具体来说，记第l个隐层的第i个神经元的输出值(激活值，activation)为( )lia，则 ( )( )( )(1)( )()lillllijijijzafw af z (15.24) (c) 2020，陈强，机器学习及

36、 R 应用，高等教育出版社 49 其中，( ) ljiw为第(1)l 隐层第j个神经元的激活值(1)lja对( )lia的作用权重，而( )f 为激活函数。在施加激活函数之前，记“净输入”(net input)为 ( )( )(1)lllijijjzw a (15.25) 其中，为简化符号，将偏置( )lib也视为权重，对应于恒等于 1 的特征变量(即常数项)；参见图 15.11。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 50 图 15.11 误差反向传播的求导示意图 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 51 记神经网络的损失函数为L。考虑将损

37、失函数L对参数( ) ljiw求导。由于( ) ljiw仅通过影响净输入( )liz而作用于L，故根据链式法则可得： ( )( )(1)( )(1)( )( )( )( )lillllijijlllljiijiizLLLaawzwz (15.26) 其中，( )( )liliLz称为“误差”(error)；因为如果已达到局部最小值，则( )0li，无须再更新参数( ) ljiw。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 52 ( )liz影响损失函数L的途径为，通过第(1)l 层所有神经元的净输入(1)lkz。故再次使用链式法则，可得到( )li的表达式： (1)(1

38、)( )(1)( )(1)( )( )llllkkikllllkkikiizzLLzzzz (15.27) 其中，根据定义，(1)(1)lklkLz。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 53 进一步，由于(1)(1)( )()lllkikiizwf z，故 (1)(1)( )( )()lllkikilizwfzz (15.28) 将上式代入方程(15.27)可得： ( )(1)(1)( )( )(1)(1)()()lllllllikikiikikkkwfzfzw (15.29) 上式将第l隐层的误差( )li表示为第(1)l 隐层的误差(1)lk之函数，这是一种反

39、向的递推公式。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 54 可以用递归(recursive)的方法计算误差( )li，然后代入方程(15.26)，即可得到偏导数( ) ljiLw。在计算误差( )( )liliLz时，先算最后 1 个隐层的误差，再算倒数第 2个隐层的误差，以此类推。这种算法称为误差反向传播(error back propagation 或 backward pass)，简称 BP 算法(back-propagation algorithm)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 55 在计算梯度向量时，依然需要知道每一层

40、所有神经元的净输入( ) ljz与激活值( ) lja。故首先需要将每个观测值(,)iiyx输入神经网络，从左到右进行正向传播(forward propagation 或 forward pass)，得到每一层所有神经元的( ) ljz与( ) lja。然后通过反向传播，计算每一层的误差( ) lj；再根据方程(15.26)计算每一层参数的偏导数，并通过梯度下降法更新参数。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 56 在训练神经网络之前，一般建议将全部特征变量 “归一化” (normalization，即最小值变为 0 而最大值变为 1)或“标准化”(standa

41、rdization，即均值变为 0 而标准差变为 1)。这是因为，如果特征变量的取值范围差别较大，则会影响神经网络的权重参数，不利于神经网络的训练。对于回归问题，若对特征变量进行归一化处理，则所有特征变量0,1x，此时建议也将响应变量作归一化处理，便于模型的训练与预测。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 57 在选择参数矩阵W的初始值0W时，一般并不将其所有元素都设为相同的取值(比如，都设为 0 或 1)。通常从标准正态分布(0,1)N或取值介于0.7,0.7的均匀分布中随机抽样，这样有利于不同神经元之间的分化，避免趋同。 (c) 2020，陈强，机器学习及

42、 R 应用，高等教育出版社 58 15.8 神经网络的小批量训练神经网络的小批量训练对于神经网络的训练，考虑最小化如下损失函数： 11min,( ;)niiiL y GnWx W (15.30) 其中，(;)iGx W为一个前馈神经网络模型。由于(;)iGx W通常是一个高度非线性的函数，故上式中的求和式无法进一步简化。如果样本容量为 100 万，则目标函数中共有 100 万项相加(对应于 100万个观测值的损失之和)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 59 在求损失函数的梯度向量时，需要对每个观测值的损失,(

43、;)iiL y Gx W分别求梯度向量，然后再将这 100 万个梯度向量加总。如果样本容量很大，则通常的梯度下降法过于费时，并不可行。一种解决方法是，每次无放回地(without replacement)随机抽取一个观测值(,)iiyx，计算该观测值的梯度向量,(;)iiL y Gx WW，然后沿着负梯度方向，使用合适的学习率，进行参数更新： ,(;)iiL y Gx WWWW (15.31) (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 60 这种方法称为随机梯度下降(Stochastic Gradient Descent，简记 SGD)，最早由 Robbins a

44、nd Monro(1951)与 Kiefer and Wolfowitz(1952)提出。 SGD 的计算速度大大加快，因为每次仅需计算一个观测值的梯度向量。但单个观测值的负梯度方向并不一定与整个样本的负梯度方向一致或类似，这导致随机梯度下降的过程充满噪音(noisy)，有时反而会使损失函数上升。当然，经过不断迭代后，SGD 的长期趋势依然指向损失函数的最小值，参见图 15.12。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 61 图 15.12 三种梯度下降法的示意图 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 62 为克服随机梯度下降的不稳定与噪音，

45、一种折衷方法应运而生。每次无放回地(without replacement)随机抽取部分观测值，比如B个观测值(例如32B )，计算这B个观测值的梯度向量，再作平均，然后进行参数更新： 1,(;)1BiiiL y GBx WWWW (15.32) 这种方法称为小批量梯度下降(Mini-batch Gradient Descent)。由于B通常不大，故小批量梯度下降依然计算较快。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 63 经过对B个观测值平均之后，可得到对于全样本的真实梯度向量更为准确的估计，故小批量梯度下降的过程更为稳定。传统的梯度下降法，在计算梯度向量时，同

46、时考虑所有观测值，故称为批量梯度下降(Batch Gradient Descent)。以上三种梯度下降的方法，主要区别在于其“批量规模”(batch size)。对于随机梯度下降，批量规模1B 。对于批量梯度下降，批量规模就是样本容量，即Bn。对于小批量梯度下降，则1Bn；常见的B选择包括 32，64，128或 256(设为 2 的指数次方，以适应二进制的 CPU 或显卡 GPU 的内存)。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 64 另一相关概念为轮(epoch)。在训练模型时，将所有样本数据都用了一遍，即称为 “一轮” (one epoch)。经过一轮之

47、后，所有观测值都有机会影响参数更新。对于批量梯度下降，每次迭代(iteration)都用全部样本计算梯度向量，故一次迭代就是一轮。对于随机梯度下降，每次仅用一个观测值计算梯度向量，故n次迭代才算一轮(n为样本容量)。对于小批量梯度下降，由于每次无放回地使用B个观测值计算梯度向量，故n B(假设可整除)次迭代后，才算一轮。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 65 15.9 神经网络的正则化神经网络的正则化包含多个隐藏层的深度神经网络是表达能力很强的模型(very expressive models)，可学习输入与输出之间非常复杂的函数关系。如果进行很多轮(

48、epoch)的训练，则容易导致过拟合。需要对神经网络模型进行“正则化”(regularization)处理。常见的正则化方法包括： (1) 早停(Early Stopping)。这意味着，提前停止训练，而不必等到神经网络达到损失函数或训练误差的最小值。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 66 如何知道在何时停止训练呢？一般建议将全样本随机地一分为三，即训练集(training set)、验证集(validation set)与测试集(test set)。首先，在训练集中进行训练，并同时将学得的神经网络模型同步地在验证集中作预测，并计算“验证误差”(valida

49、tion error)。其次，当验证误差开始上升时，即停止训练。最后，将所得的最终模型在测试集中进行预测，并计算 “测试误差” (test error)，参见图 15.13。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 67 图 15.13 以早停防止过拟合 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 68 (2) 丢包(Dropout) 为避免过拟合，Geoffrey Hinton 的团队(Srivastava et al., 2014)提出，在训练样本时，随机地让某些神经元的激活值取值为 0，即让某些神经元 “死亡” ，而不再影响神经网络。

50、通常随机地丢弃 50%的神经元(以及它们在网络中的连接)，这样可以迫使神经网络不过分依赖于某些神经元而导致过拟合，参见图 15.14。 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 69 图 15.14 以丢包防止过拟合 (c) 2020，陈强，机器学习及 R 应用，高等教育出版社 70 (3) 惩罚(Penalization)。在神经网络模型的目标函数中，可引入类似于“岭回归”(ridge regression)的2L惩罚项，以进行正则化： 2211min,( ;)niiiL y GnWx WW (15.33) 其中，2W为矩阵W的 “弗罗宾尼斯范数” (Frobenius

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

30 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 本科 15 人工神经网络

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：(本科）第15章-人工神经网络.pdf
链接地址：https://www.taowenge.com/p-15305080.html