《机器学习导论-第9章深度学习.ppt》由会员分享,可在线阅读,更多相关《机器学习导论-第9章深度学习.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第9章章 深度学习深度学习n了解人了解人脑脑神神经经元的元的结结构及特点,熟悉人工神构及特点,熟悉人工神经经元模型。元模型。n掌握感知机的基本原理,熟悉前掌握感知机的基本原理,熟悉前馈馈神神经经网网络络的特征以及反向的特征以及反向传传播的思想。播的思想。n熟悉熟悉Sigmoid、Tanh、ReLU、LReLU等激活函数的特点及等激活函数的特点及应应用。用。n熟悉卷熟悉卷积积神神经经网网络络的基本的基本结结构以及局部构以及局部连连接和接和权权重共享等特点,掌握卷重共享等特点,掌握卷积积、池化操作。池化操作。n熟悉熟悉LSTM中的中的输输入入门门、遗遗忘忘门门和和输输出出门门的工作机制和作用。的
2、工作机制和作用。n掌握生成式掌握生成式对对抗网抗网络络的基本原理,熟悉生成器和判的基本原理,熟悉生成器和判别别器的作用。器的作用。n了解原始了解原始GAN的的优优缺点以及各种衍生模型的特点及缺点以及各种衍生模型的特点及应应用。用。本章学习目标本章学习目标第第9章章 深度深度学习学习n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习n人工神经网络发展史(人工神经网络发展史(第一第一阶段阶段)l1943年年,McCulloch和和Pitts 提提出出第第一一个个神神经经元元
3、数数学学模模型型,即即M-P模模型型,并并从从原原理理上上证证明了人工神明了人工神经经网网络络能能够计够计算任何算数和算任何算数和逻辑逻辑函数。函数。l1949年年,Hebb 发发表表The Organization of Behavior一一书书,提提出出生生物物神神经经元元学学习习的机理的机理,即即Hebb学学习规则习规则。l1958年年,Rosenblatt 提出提出感知机感知机(Perceptron)模型和其学)模型和其学习规则习规则。l1960年年,Widrow和和Hoff提提出出自自适适应应线线性性神神经经元元(Adaline)模模型型和和最最小小均均方方学学习习算法。算法。l19
4、69年年,Minsky和和Papert 发发表表Perceptrons一一书书,指指出出单单层层神神经经网网路路不不能能解解决决非非线线性性问问题题,多多层层网网络络的的训训练练算算法法尚尚无无希希望望。这这个个论论断断导导致致神神经经网网络络进进入入低低谷。谷。9.1 人工神经网络基础人工神经网络基础l1982年年,物物理理学学家家Hopfield提提出出了了一一种种具具有有联联想想记记忆忆、优优化化计计算算能能力的力的递归递归网网络络模型模型,即即Hopfield网网络络。l1986年年,Rumelhart 等等 编编 辑辑 的的 著著 作作 Parallel Distributed Pr
5、ocessing:Explorations in the Microstructures of Cognition报报告了告了反向反向传传播算法播算法l1987年年,IEEE在在美美国国加加州州圣圣地地亚亚哥哥召召开开第第一一届届神神经经网网络络国国际际会会议议(ICNN)。)。l1990年年代代初初,伴伴随随统统计计学学习习理理论论和和SVM的的兴兴起起,神神经经网网络络由由于于理理论论不不够够清楚清楚,试错试错性性强强,难难以以训练训练,再次再次进进入低谷。入低谷。9.1 人工神经网络基础人工神经网络基础n人工神经网络发展史(人工神经网络发展史(第二阶段第二阶段)l2006年年,Hinto
6、n提提出出了了深深度度信信念念网网络络(DBN),通通过过“预预训训练练+微微调调”使使得得深度学深度学习习模型的最模型的最优优化化变变得相得相对对容易。容易。l2012年年,Hinton 组组参参加加ImageNet 竞竞赛赛,使使用用 CNN 模模型型以以超超过过第第二二名名10个百分点的成个百分点的成绩夺绩夺得当年得当年竞赛竞赛的冠的冠军军。l伴伴随随云云计计算算、大大数数据据时时代代的的到到来来,计计算算能能力力的的大大幅幅提提升升,使使得得深深度度学学习习模模型型在在计计算算机机视视觉觉、自自然然语语言言处处理理、语语音音识识别别等等众众多多领领域域都都取取得了得了较较大的成功。大的
7、成功。9.1 人工神经网络基础人工神经网络基础n人工神经网络发展史(人工神经网络发展史(第三阶段第三阶段)9.1 人工神经网络基础人工神经网络基础9.1.1 人脑神经元结构及特点人脑神经元结构及特点图9-1 人脑神经元结构9.1 人工神经网络基础人工神经网络基础9.1.2 人人工工神经元神经元模型模型n人人工工神神经经元元模模型型的的建建立立来来源源于于生生物物神神经经元元结结构构的的仿仿生生模模拟拟,用用来来模模拟拟人工神经网络。人工神经网络。n人人们们提提出出的的神神经经元元模模型型有有很很多多,其其中中最最早早提提出出并并且且影影响响较较大大的的是是由由心心理理学学家家 W.McCull
8、och 和和数数学学家家 W.Pitts 于于1943年年提提出出的的模模型型。该该模模型型称称为为McCulloch-Pitts神神经经元模型,元模型,简简称称MCP 神神经经元模型元模型。nMCP 神神经经元以人元以人脑脑神神经经元元为为原型,受到了其激活机制的启原型,受到了其激活机制的启发发和影响。和影响。nMCP 神神经经元模型元模型经过经过不断改不断改进进后,形成后,形成现现在广泛在广泛应应用的用的BP神神经经元模型元模型。9.1 人工神经网络基础人工神经网络基础n一个简单的人工神经元模型可以表示为一个简单的人工神经元模型可以表示为n一个典型的人工神经元的模型一个典型的人工神经元的模
9、型:图图9-2 人工神经元模型人工神经元模型9.1.2 人人工工神经元神经元模型模型l输入输入:来自其他:来自其他 n 个神经元传个神经元传递过来的输入信号递过来的输入信号l处理处理:输入信号通过带权重的:输入信号通过带权重的连接进行传递,神经元接受到连接进行传递,神经元接受到总输入值将与神经元的阈值进总输入值将与神经元的阈值进行比较行比较l输出输出:通过:通过激活函数激活函数的处理以的处理以得到输出得到输出9.1 人工神经网络基础人工神经网络基础9.1.2 人人工工神经元神经元模型模型9.1 人工神经网络基础人工神经网络基础n1958年,年,Rosenblatt 提出了由提出了由两两层层神神
10、经经元元组组成的神成的神经经网网络络,称称为为感知感知机(机(Perceptron)。n输入层输入层接受外界输入信号传递给接受外界输入信号传递给输输出层出层,输出层是,输出层是MCP神经元(阈值神经元(阈值逻辑单元)。逻辑单元)。n感知机能够容易地实现逻辑感知机能够容易地实现逻辑“与与”、“或或”、“非非”运算运算 9.1.3 感知机感知机9.1 人工神经网络基础人工神经网络基础n单层感知机只有输出层神单层感知机只有输出层神经元进行激活函数处理,经元进行激活函数处理,即只有一层功能神经元,即只有一层功能神经元,学习能力非常有限,只能学习能力非常有限,只能解决线性可分问题。解决线性可分问题。n可
11、以求解线性可分的逻辑可以求解线性可分的逻辑“与与”、“或或”、“非非”问题,不能求解线性不可问题,不能求解线性不可分的分的“异或异或”问题。问题。n单层单层感知机感知机的局限性的局限性n解决异或解决异或问题问题的多的多层层感知机感知机l输出层与输入层之间的一层神经元,被称之为输出层与输入层之间的一层神经元,被称之为隐层或隐含层隐层或隐含层,隐含层和,隐含层和输出层神经元都是具有激活函数的功能神经元。输出层神经元都是具有激活函数的功能神经元。9.1 人工神经网络基础人工神经网络基础9.1 人工神经网络基础人工神经网络基础n前馈神经网络前馈神经网络(FNN)是一种)是一种单向单向的的多层感知机多层
12、感知机,即信息是从输入层开始,即信息是从输入层开始,逐层向一个方向传递,一直到输出层结束。逐层向一个方向传递,一直到输出层结束。n所谓的所谓的“前馈前馈”是指输入信号的传播方向为前向,在此过程中并不调整各是指输入信号的传播方向为前向,在此过程中并不调整各层神经元连接的权值参数层神经元连接的权值参数。n反向传播时是将误差逐层向后传递,通过反向传播时是将误差逐层向后传递,通过反向传播反向传播(BP)方法来调整各)方法来调整各层网络中神经元之间连接的权重参数。层网络中神经元之间连接的权重参数。9.1.4 前馈神经网络前馈神经网络9.1 人工神经网络基础人工神经网络基础9.1.4 前馈神经网络前馈神经
13、网络n前向传播过程:前向传播过程:输入已知学习样本,通过设置的网络结构和前一次迭代的输入已知学习样本,通过设置的网络结构和前一次迭代的权值和阈值,从网络的第一层向后计算各神经元输出。权值和阈值,从网络的第一层向后计算各神经元输出。n反向传播过程:反向传播过程:反向传播时,对权值和阈值进行修改:从最后一层向前计反向传播时,对权值和阈值进行修改:从最后一层向前计算各权值和阈值对总误差的影响(梯度),据此对各权值和阈值进行修改。算各权值和阈值对总误差的影响(梯度),据此对各权值和阈值进行修改。以上两个过程反复交替,直到达到收敛为止。以上两个过程反复交替,直到达到收敛为止。由由于于误误差差逐逐层层往往
14、回回传传递递,以以修修正正层层与与层层间间的的权权值值和和阈阈值值,所所以以称称该该算算法法为为误误差差反反向向传传播播(Back Propagation,BP)算算法法,这这种种误误差差反反传传学学习习算算法法可可以以推推广广到到有有若若干干个个中中间间层层的的多多层层网网络络,因因此此该该多多层层网网络络常常称称之之为为 BP 网网络络。标标准准的的BP 算算法法,其其权权值值的的修修正正是是沿沿着着误误差差性能函数梯度的反方向性能函数梯度的反方向进进行的。行的。9.1.4 前馈神经网络前馈神经网络9.1 人工神经网络基础人工神经网络基础9.1 人工神经网络基础人工神经网络基础9.1.5
15、神经网络的激活函数神经网络的激活函数n激活函数模拟了人脑神经元特性:接受一组输入信号并产生输出。激活函数模拟了人脑神经元特性:接受一组输入信号并产生输出。l理想的激活函数是理想的激活函数是阶跃阶跃函数函数,0表示抑制神表示抑制神经经元,元,1表示激活神表示激活神经经元。元。l阶跃阶跃函数具有不函数具有不连续连续、不光滑等不好的性、不光滑等不好的性质质。l下面介绍几种较有代表性的激活函数。下面介绍几种较有代表性的激活函数。9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nSigmoid 函数函数:Sigmoid 函数也称函数也称为为Logistic函数函数
16、9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nTanh 函数函数:Tanh 函数是双曲正切函数,其数学表达式函数是双曲正切函数,其数学表达式为为9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nReLU 函数函数:修正修正线线性性单单元(元(Rectified Linear Unit,ReLU)函数函数,又,又称整流称整流线线性性单单元或元或线性整流函数。线性整流函数。9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nLReLU 函数函数:带泄露的修正线性单元带泄露的修正
17、线性单元(LReLU)函数函数9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nPReLU 函数函数:参数化修正线性单元参数化修正线性单元(PReLU)函数函数9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nELU函数函数:指数线性单元指数线性单元(ELU)函数)函数n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.2 卷积神经网络卷积神经网络9.2.1 引言引言n卷卷积积神神经经网网
18、络络(CNN)是一种具有是一种具有局部局部连连接接、权权重共享重共享等特性的前等特性的前馈馈神神经经网网络络。n20世世纪纪80 年年代代中中期期日日本本学学者者福福岛岛邦邦彦彦等等提提出出的的“神神经经认认知知机机”(Neocognition)模模型型,是是第第一一个个基基于于神神经经元元之之间间的的局局部部连连接接性性和和层层次次结结构构组组织织的的人人工工神神经经网网络络,可可以被以被视视为为卷卷积积神神经经网网络络的的雏雏形。形。n1989年年,YannLeCun等等对对权权重重进进行行随随机机初初始始化化后后使使用用了了反反向向传传播播算算法法对对网网络络进进行行训训练练,并并首首次
19、次使使用用了了“卷卷积积”一一词词,将将卷卷积积神神经经网网络络成成功功应应用用到到美美国国邮邮局局的的手手写写字字符符识别识别系系统统中。中。n1998年年,YannLeCun等等人人在在之之前前卷卷积积神神经经网网络络的的基基础础上上构构建建了了经经典典的的卷卷积积神神经经网网络络模型模型LeNet-5,并再次提高手写字符,并再次提高手写字符识别识别的准确率。的准确率。n2006年年逐逐层层训训练练参参数数与与预预训训练练方方法法使使得得卷卷积积神神经经网网络络可可以以设设计计得得更更复复杂杂,训训练练效效果更好。果更好。1981 年的年的诺贝诺贝尔尔医学医学奖奖,颁发给颁发给了了 Dav
20、id Hubel、Torsten Wiesel以及以及 Roger Sperry。前两位的主要前两位的主要贡贡献是献是“发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制”:视觉视觉皮皮层层是分是分级级的。的。人脑人脑中有中有150150多亿个神经元多亿个神经元9.2 卷积神经网络卷积神经网络9.2.2 视觉皮层的工作机理视觉皮层的工作机理n上上述述发发现现激激发发了了人人们们对对于于神神经经系系统统的的进进一一步步思思考考。神神经经-中中枢枢-大大脑脑的的工作工作过过程,或程,或许许是一个不断是一个不断迭代迭代、不断、不断抽象抽象的的过过程。程。n人人类类的的逻逻辑辑思思维维,经经常常
21、使使用用高高度度抽抽象象的的概概念念。从从原原始始信信号号做做低低级级抽抽象象,逐逐渐渐向高向高级级抽象迭代。抽象迭代。n人人的的视视觉觉系系统统的的信信息息处处理理是是分分级级的的。从从V1区区提提取取低低级级的的边边缘缘特特征征,再再到到V2区区提提取取形形状状或或者者目目标标的的部部分分等等,再再到到更更高高层层,整整个个目目标标、目目标标的行的行为为等等。n这这个个发现发现促成促成了了计计算机人工智能在算机人工智能在40年后的突破性年后的突破性发发展。展。9.2 卷积神经网络卷积神经网络9.2.2 视觉皮层的工作机理视觉皮层的工作机理9.2 卷积神经网络卷积神经网络9.2.2 视觉皮层
22、的工作机理视觉皮层的工作机理减少参数的方法:减少参数的方法:每个神经元无需对全局图像做感受,只需感受局部区域(FeatureMap),在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。nCNN依旧是层级网络依旧是层级网络n但层的功能和形式做了变化但层的功能和形式做了变化9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n数据输入层数据输入层/Input layern卷积层卷积层/CONV layernReLU激励层激励层/ReLU layern池化层池化层/Pooling l
23、ayern全连接层全连接层/FC layer9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n数据输入数据输入层层/Input layer 有有3种常种常见见的的图图像数据像数据处处理理方式方式n去均值去均值n把把输输入数据各个入数据各个维维度都中心化到度都中心化到0n归一化归一化n幅度幅度归归一化到同一化到同样样的的范范围围nPCA/白化白化n用用PCA降降维维n白化是白化是对对数据每个特征数据每个特征轴轴上的幅度上的幅度归归一化一化9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n卷积层卷积层/CONV lay
24、ern局部关联,每个神经元看做一个局部关联,每个神经元看做一个filter。n窗口窗口(receptive field,局部感受野局部感受野)滑动,滑动,filter对局部数据计算对局部数据计算n权值共享机制,即每个神经元连接数据窗的权重是固定的权值共享机制,即每个神经元连接数据窗的权重是固定的n固定每个神经元连接权重,固定每个神经元连接权重,可以看做模板可以看做模板n需要估算的权重个数减少需要估算的权重个数减少:AlexNet 1亿亿=3.5wn一组固定的权重和不同窗口内数据做内积一组固定的权重和不同窗口内数据做内积:卷积卷积9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构
25、卷积神经网络的基本结构n卷积层卷积层/CONV layer9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n激励层激励层/ReLU layer 把卷把卷积层输积层输出出结结果做非果做非线线性映射性映射nSigmoidnTanh(双曲正切双曲正切)n ReLU(The Rectified Linear Unit,修正线性单元,修正线性单元)n Leaky ReLUn ELUn Maxout9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n激励激励层层/ReLU layer 9.2 卷积神经网络卷积神经网络9.2.3
26、卷积神经网络的基本结构卷积神经网络的基本结构n池池化层化层/Pooling layer n位于相邻的卷积层中间位于相邻的卷积层中间n压缩压缩数据和参数的量数据和参数的量,特征降维特征降维9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n池化层池化层/Pooling layer 9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n全全连接层连接层/FC layer n两两层之间所有神经元都有权重层之间所有神经元都有权重连接连接n通常通常全连接全连接层位于卷积层位于卷积神经网络尾部神经网络尾部9.2 卷积神经网络卷积神经
27、网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网络9.2.5 卷积神经网络的特点卷积神经网络的特点图9-20 全连接(左图)与局部连接(右图)的对比示意图n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.3 循环神经网络循环神经网络9.3.1 基本
28、的循环神经网络基本的循环神经网络9.3 循环神经网络循环神经网络9.3.1 基本的循环神经网络基本的循环神经网络9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-24 RNN简化模型9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-25 LSTM单元结构图9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-26 LSTM中单元格状态9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-27 LSTM中门的结构9.3 循
29、环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-28 遗忘门结构9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-29 输入门结构9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-30 更新单元格状态9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-31 输出门结构n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.4 生成式对抗网络生成式对抗网络9.4.1 生成式
30、对抗网络基本原理生成式对抗网络基本原理n生成式生成式对对抗网抗网络络(GAN)是通)是通过过“对对抗抗”的方式去学的方式去学习习数据分布的数据分布的“生成式生成式”模型。模型。n生成式生成式对对抗网抗网络络由生成器由生成器G(Generator)和判)和判别别器器D(Discriminator)两个相互)两个相互对对抗的模型抗的模型组组成成。9.4 生成式对抗网络生成式对抗网络9.4.1 生成式对抗网络基本原理生成式对抗网络基本原理图9-33 GAN工作原理框图9.4 生成式对抗网络生成式对抗网络9.4.1 生成式对抗网络基本原理生成式对抗网络基本原理图9-34 GAN训练过程的参数优化示意图
31、9.4 生成式对抗网络生成式对抗网络9.4.3 条件生成式对抗网络条件生成式对抗网络图 9-35 条件生成式对抗网络模型示意图9.4 生成式对抗网络生成式对抗网络9.4.4 深度卷积生成式对抗网络深度卷积生成式对抗网络图9-36 DCGAN生成器结构示意图9.4 生成式对抗网络生成式对抗网络9.4.4 深度卷积生成式对抗网络深度卷积生成式对抗网络图9-37 DCGAN判别器结构示意图9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-38 图像翻译的实例9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-39 CycleGAN 结构示意图9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-40 前向循环一致性损失示意图9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-41 反向循环一致性损失示意图9.4 生成式对抗网络生成式对抗网络9.4.7 最小二乘生成式对抗网络最小二乘生成式对抗网络图9-42 交叉熵损失函数和最小二乘损失函数曲线图9.4 生成式对抗网络生成式对抗网络9.4.8 半监督生成式对抗网络半监督生成式对抗网络图9-43 SGAN结构示意图Question?
限制150内