2022年2022年卷积神经网络全面解析之代码详解 .pdf
《2022年2022年卷积神经网络全面解析之代码详解 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年卷积神经网络全面解析之代码详解 .pdf(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、卷积神经网络全面解析之代码详解本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano ,代码来自 :Convolutional Neural Networks (LeNet)。一、CNN 卷积神经网络原理简介要讲明白卷积神经网络, 估计得长篇大论,网上有很多博文已经写得很好了,所以本文就不重复了,如果你了解CNN ,那可以往下看,本文主要是详细地解读CNN 的实现代码。CNN 的最大特点就是稀疏连接(局部感受)和权值共享,如下面两图所示,左为稀疏连接,右为权值共享。稀疏连接和权值共享可以减少所要训练的参数,减少计算复杂度。至于 CNN 的结构,以经典的LeNet5来说
2、明:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 24 页 - - - - - - - - - 这个图真是无处不在, 一谈 CNN , 必说 LeNet5 , 这图来自于这篇论文:Gradient-Based Learning Applied to Document Recognition,论文很长,第 7 页那里开始讲LeNet5这个结构,建议看看那部分。我这里简单说一下, LeNet5这张图从左到右,先是input ,这是输入层,即输入的图片。 input-laye
3、r到 C1 这部分就是一个卷积层(convolution运算),C1 到 S2 是一个子采样层 (pooling运算),关于卷积和子采样的具体过程可以参考下图:然后, S2 到 C3 又是卷积, C3 到 S4 又是子采样,可以发现,卷积和子采样都是成对出现的,卷积后面一般跟着子采样。S4 到 C5 之间是全连接的,这就相当于一个MLP 的隐含层了(如果你不清楚MLP,参考DeepLearning tutorial(3)MLP 多层感知机原理简介 + 代码详解)。C5 到 F6 同样是全连接,也是相当于一个MLP 的隐含层。最后从F6到输出 output,其实就是一个分类器,这一层就叫分类层。
4、ok ,CNN 的基本结构大概就是这样,由输入、卷积层、子采样层、全连接层、分类层、输出这些基本“ 构件” 组成,一般根据具体的应用或者名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 24 页 - - - - - - - - - 问题,去确定要多少卷积层和子采样层、采用什么分类器。当确定好了结构以后,如何求解层与层之间的连接参数?一般采用向前传播(FP)+ 向后传播( BP)的方法来训练。具体可参考上面给出的链接。二、CNN 卷积神经网络代码详细解读(基于python+t
5、heano)代码来自于深度学习教程:Convolutional Neural Networks (LeNet),这个代码实现的是一个简化了的LeNet5 ,具体如下:没有实现 location-specific gain and bias parameters用的是 maxpooling,而不是 average_pooling分类器用的是 softmax,LeNet5用的是 rbfLeNet5第二层并不是全连接的,本程序实现的是全连接另外,代码里将卷积层和子采用层合在一起,定义为“ LeNetConvPoolLayer“(卷积采样层),这好理解,因为它们总是成对出现。但是有个地方需要注意, 代
6、码中将卷积后的输出直接作为子采样层的输入,而没有加偏置b 再通过 sigmoid函数进行映射,即没有了下图中 fx 后面的 bx 以及 sigmoid映射,也即直接由fx 得到 Cx。最后,代码中第一个卷积层用的卷积核有20 个,第二个卷积层用50个,而不是上面那张LeNet5图中所示的 6 个和 16 个。了解了这些,下面看代码:(1)导入必要的模块名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 24 页 - - - - - - - - - import cPickle
7、 import gzip import os import sys import time import numpy import theano import theano.tensor as T from theano.tensor.signal import downsample from theano.tensor.nnet import conv (2)定义 CNN 的基本 构件CNN 的基本构件包括卷积采样层、隐含层、分类器,如下定义 LeNetConvPoolLayer (卷积 +采样层)见代码注释: 卷积+下采样合成一个层 LeNetConvPoolLayer rng: 随机数生
8、成器,用于初始化W input:4维的向量, theano.tensor.dtensor4 filter_shape:(number of filters, num input feature maps,filter height, filter width) image_shape:(batch size, num input feature maps,image height, image width) poolsize: (#rows, #cols) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - -
9、 - - - - 第 4 页,共 24 页 - - - - - - - - - class LeNetConvPoolLayer(object): def _init_(self, rng, input, filter_shape, image_shape, poolsize=(2, 2): #assert condition,condition为 True,则继续往下执行, condition为 False ,中断程序#image_shape1 和 filter_shape1都是 num input feature maps,它们必须是一样的。 assert image_shape1 = f
10、ilter_shape1 self.input = input #每个隐层神经元(即像素)与上一层的连接数为num input feature maps * filter height * filter width。#可以用 numpy.prod(filter_shape1:)来求得 fan_in = numpy.prod(filter_shape1:) #lower layer上每个神经元获得的梯度来自于:num output feature maps * filter height * filter width /pooling size fan_out = (filter_shape0
11、* numpy.prod(filter_shape2:) / numpy.prod(poolsize) #以上求得 fan_in 、fan_out ,将它们代入公式,以此来随机初始化W,W 就是线性卷积核 W_bound = numpy.sqrt(6. / (fan_in + fan_out) self.W = theano.shared( numpy.asarray( 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 24 页 - - - - - - - - - rng.
12、uniform(low=-W_bound, high=W_bound, size=filter_shape), dtype=theano.config.floatX ), borrow=True ) # the bias is a 1D tensor - one bias per output feature map #偏置 b 是一维向量,每个输出图的特征图都对应一个偏置,#而输出的特征图的个数由filter个数决定,因此用 filter_shape0即 number of filters来初始化 b_values = numpy.zeros(filter_shape0,), dtype=t
13、heano.config.floatX) self.b = theano.shared(value=b_values, borrow=True) #将输入图像与 filter卷积, conv.conv2d 函数#卷积完没有加 b 再通过 sigmoid ,这里是一处简化。 conv_out = conv.conv2d( input=input, filters=self.W, filter_shape=filter_shape, image_shape=image_shape ) #maxpooling ,最大子采样过程 pooled_out = downsample.max_pool_2d(
14、 input=conv_out, 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 24 页 - - - - - - - - - ds=poolsize, ignore_border=True ) #加偏置,再通过 tanh 映射,得到卷积 +子采样层的最终输出#因为 b 是一维向量,这里用维度转换函数dimshuffle将其 reshape。比如 b 是(10,) ,#则 b.dimshuffle(x, 0, x, x)将其 reshape 为(1,10,1,1) sel
15、f.output = T.tanh(pooled_out + self.b.dimshuffle(x, 0, x, x) #卷积+采样层的参数 self.params = self.W, self.b 定义隐含层 HiddenLayer这个跟上一篇文章DeepLearning tutorial(3)MLP 多层感知机原理简介+ 代码详解中的 HiddenLayer是一致的,直接拿过来: 注释:这是定义隐藏层的类,首先明确:隐藏层的输入即input ,输出即隐藏层的神经元个数。输入层与隐藏层是全连接的。假设输入是 n_in 维的向量(也可以说时 n_in 个神经元) ,隐藏层有 n_out 个神
16、经元,则因为是全连接,一共有 n_in*n_out个权重,故 W大小时 (n_in,n_out),n_in行 n_out 列,每一列对应隐藏层的每一个神经元的连接权重。b 是偏置,隐藏层有n_out 个神经元,故 b 时 n_out 维向量。rng 即随机数生成器, numpy.random.RandomState,用于初始化 W 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 24 页 - - - - - - - - - input 训练模型所用到的所有输入,并不是M
17、LP 的输入层, MLP的输入层的神经元个数时 n_in ,而这里的参数 input 大小是( n_example,n_in ), 每一行一个样本,即每一行作为MLP的输入层。activation:激活函数 , 这里定义为函数 tanh class HiddenLayer(object): def _init_(self, rng, input, n_in, n_out, W=None, b=None, activation=T.tanh): self.input = input #类 HiddenLayer 的 input即所传递进来的input 注释:代码要兼容 GPU ,则必须使用 dt
18、ype=theano.config.floatX,并且定义为 theano.shared 另外, W的初始化有个规则:如果使用tanh 函数,则在-sqrt(6./(n_in+n_hidden)到 sqrt(6./(n_in+n_hidden)之间均匀抽取数值来初始化W ,若时 sigmoid 函数,则以上再乘4 倍。 #如果 W未初始化,则根据上述方法初始化。 #加入这个判断的原因是:有时候我们可以用训练好的参数来初始化W ,见我的上一篇文章。 if W is None: W_values = numpy.asarray( rng.uniform( low=-numpy.sqrt(6. /
19、(n_in + n_out), high=numpy.sqrt(6. / (n_in + n_out), size=(n_in, n_out) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 24 页 - - - - - - - - - ), dtype=theano.config.floatX ) if activation = theano.tensor.nnet.sigmoid: W_values *= 4 W = theano.shared(value=W_val
20、ues, name=W, borrow=True) if b is None: b_values = numpy.zeros(n_out,), dtype=theano.config.floatX) b = theano.shared(value=b_values, name=b, borrow=True) #用上面定义的 W 、b 来初始化类 HiddenLayer 的 W 、b self.W = W self.b = b #隐含层的输出 lin_output = T.dot(input, self.W) + self.b self.output = ( lin_output if acti
21、vation is None else activation(lin_output) ) #隐含层的参数 self.params = self.W, self.b 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 24 页 - - - - - - - - - 定义分类器(Softmax 回归)采用 Softmax,这跟DeepLearning tutorial(1)Softmax回归原理简介+ 代码详解中的 LogisticRegression是一样的,直接拿过来: 定义分
22、类层 LogisticRegression,也即 Softmax 回归在 deeplearning tutorial中,直接将 LogisticRegression视为 Softmax,而我们所认识的二类别的逻辑回归就是当n_out=2 时的 LogisticRegression #参数说明:#input ,大小就是 (n_example,n_in),其中 n_example 是一个 batch 的大小,#因为我们训练时用的是Minibatch SGD ,因此 input 这样定义#n_in, 即上一层 (隐含层 ) 的输出#n_out, 输出的类别数class LogisticRegress
23、ion(object): def _init_(self, input, n_in, n_out): #W大小是 n_in 行 n_out 列,b 为 n_out 维向量。即:每个输出对应W的一列以及 b 的一个元素。 self.W = theano.shared( value=numpy.zeros( (n_in, n_out), dtype=theano.config.floatX ), name=W, borrow=True 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10
24、 页,共 24 页 - - - - - - - - - ) self.b = theano.shared( value=numpy.zeros( (n_out,), dtype=theano.config.floatX ), name=b, borrow=True ) #input 是(n_example,n_in), W是 (n_in,n_out ) , 点乘得到 (n_example,n_out) ,加上偏置 b,#再作为 T.nnet.softmax的输入,得到 p_y_given_x #故 p_y_given_x 每一行代表每一个样本被估计为各类别的概率#PS :b 是 n_out 维
25、向量,与 (n_example,n_out) 矩阵相加,内部其实是先复制n_example 个 b,#然后(n_example,n_out) 矩阵的每一行都加b self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b) #argmax返回最大值下标, 因为本例数据集是MNIST , 下标刚好就是类别。 axis=1表示按行操作。 self.y_pred = T.argmax(self.p_y_given_x, axis=1) #params,LogisticRegression的参数 self.params = self.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年卷积神经网络全面解析之代码详解 2022 卷积 神经网络 全面 解析 代码 详解
限制150内