2022年计算机视觉空洞卷积.pdf

上传人：文***

文档编号：93398706

上传时间：2023-07-04

格式：PDF

页数：6

大小：904.56KB

( 4.5 )

《2022年计算机视觉空洞卷积.pdf》由会员分享，可在线阅读，更多相关《2022年计算机视觉空洞卷积.pdf（6页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、计算机视觉空洞卷积目录.一、空洞卷积的提出.二、空洞卷积原理.三、空洞卷积问题 O 感受野跳跃 O 小尺度物体检测.四、网络设计研究五、常用框架 A P I介绍 o TensorFlow 接口 o MXNet 接口六、参考 X回到顶部一、空洞卷积的提出空洞卷积（atrous convolutions）又名扩张卷积（dilated convolutions），向卷积层引入了一个称为“扩张率（dilation rate）”的新参数

2、，该参数定义了卷积核处理数据时各值的间距。该结构的目的是在不用 pooling（pooling层会导致信息损失）且计算量相当的情况下，提供更大的感受野。顺便一提，卷积结构的主要问题如下：池化层不可学内部数据结构丧失；空间层级化信息丧失。小物体信息无法重建（假设有四个 pooling la y e r则任何小于 24=16 p ix e l的物体信息将理论上无法重建。）而空

3、洞卷积就有内部数据结构的保存和防止使用 down-sampling这样的特性，优点明显。回到顶部二、空洞卷积原理如下如，卷积核没有红点标记位置为 0,红点标记位置同正常卷积核。假设原始特征为 featO,首先使用扩张率为 1 的空洞卷积生成 featl,fe a tl上一点相对 featO感受野为 3x3（如图 a）；然后使用扩张率为 2 的空洞卷积处理 fe a tl生成 feat2（如图

4、b）,使第一次空洞卷积的卷积核大小等于第二次空洞卷积的一个像素点的感受野，图 b 即 fe a tl上一个点综合了图 a 即 featO上 3x3地域的信息，则生成的 feat2感受野为 7 x 7,即整个图 b 深色地域；第三次处理同上，第二次空洞卷积的整个卷积核大小等于第三次空洞卷积的一个像素点的感受野，图 c 即 feat2上每个点综合了 featO上 7x7的信息（感受野），则采

5、纳扩张率为 3 的空洞卷积，生成的 feat3每一个点感受野为 15x15。相比拟之下，使用 stride为 1 的一般 3x3卷积，三层之后感受野仅仅为（kernel-1）xlayer+1=7。回到顶部三、空洞卷积问题感受野跳跃我们对同一张图连续三次使用扩张率为 1 的空洞卷积，观察整张图的中心点的感受野（如下列图）很明显，感受野不连续（我们上一小结的例子就没这个问题，所以空洞

6、卷积依赖网络设计）。小尺度物体检测类似第一个问题，仍旧需要调整扩张率的组合来解决这个问题。回到顶部四、网络设计研究第一个特性是，叠加卷积的 dilation ra te不能有大于 1 的公约数。比方 2,4,6 则不是一个好的三层卷积，依旧会出现 gridding effect第二个特性是,我们将 dilation ra te设计成锯齿状结构，例如 1,2,5,1,2,5 循环结构。第三个特性

7、是，我们需要满足一下这个式子：其中是 i 层的 dilation ra te而是指在 i 层的最大 dilation ra te,那么假设总共有 n 层的话，默认。假设我们应用于 ke rn e l为 k x k 的话，我们的目标则是,这样我们至少可以用 dilation rate 1 即 standard convolution的方法来覆盖掉全部洞。一个简单的例子：dilation rate 1,2,5with 3 x 3 kernel（可行的方案）：而

8、这样的锯齿状本身的性质就比拟好的来同时满足小物体大物体的分割要求（小 dilationra te来关怀近距离信息，大 dilation ra te来关怀远距离信息）。单分支设计的研究通向标准化设计：Hybrid Dilated Convolution（HDC）,可以很好的满足分割需要，如下列图所示，多分支研究解决多尺度分割仅仅（在一个卷积分支网络下）使用 dilated convolution去抓

9、取多尺度物体是一个不正统的方法.比方说，我们用一个 H D C的方法来猎取一个大（近）车辆的信息，然而对于一个小（远）车辆的信息都不再受用。假设我们再去用小 dilated convolution的方法重新猎取小车辆的信息，则这么做非常的冗余。基于港中文和商汤组的 PSPN et里的 Pooling module（其网络同样获得当年的 SOTA结果），A S P P则在网络 decoder上对于不

10、同尺度上用不同大小的 dilation ra te来抓去多尺度信息，每个尺度则为一个独立的分支，在网络最后把他合并起来再接一个卷积层输出预测 label。这样的设计则有效防止了在 encoder上冗余的信息的猎取，直接关注与物体之间之内的相关性。回到顶部五、常用框架 API介绍 TensorFlow 接口 conv2d(value,filters,rate,padding,name=None)value：指需要

11、做卷积的输入图像，要求是一个 4 维 T e n s o r,具有 batch,height,width,channels 这样的 s h a p e,具体含义是训练时一个 batch的图片数量，图片高度，图片宽度，图像通道数 filters：相当于 CNN 中的卷积核，要求是一个 4 维 T e n so r,具有 filter_height,filter_width,channels,out_channels 这样的 s h a p e,具体含义是卷积核的高度，卷积

12、核的宽度，图像通道数，卷积核个数,同理这里第三维 channels,就是参数 value的第四维 rate：要求是一个 in t型的正数，正常的卷积操作应该会有 stride(即卷积核的滑动步长)，但是空洞卷积是没有 stride参数的，这一点尤其要注意。取而代之，它使用了新的 rate参数，那么 rate参数有什么用呢？它定义为我们在输入图像上卷积时的采样间隔，你可以理解为卷积核

13、当中穿插了(ra te-1)数量的“0”,把原来的卷积核插出了很多“洞洞”，这样做卷积时就相当于对原图像的采样间隔变大了。具体怎么插得，可以看后面更加详细的描述。此时我们很简单得出 rate=1时，就没有 0 插入，此时这个函数就变成了一般卷积。padding：string类型的量，只能是 SAME V A L ID 其中之一，这个值决定了不同边缘填充方法。函数默认 stride=1,无

14、法改变。结果返回一个 T e n s o r,填充方法为“VALID”时，返回 batch,height-2x(filter_width-1),width-2x(filter_height-1),out_channelsKl T ensor,填充方法为 S A M E 时，返回 batch,height,width,out_channels的 Tensor。测试代码如下:123456789101112img=tf.constant(value=l,2,3,4,1,2,3,4,1,2,3,4,dtype=tf.iimg=tf.concat(values

15、=img,img,axis=3)filter=tf.constant(value=l,shape=3,3,2,5,dtype=tf.float32)out_imgl=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img2=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img3=tf.nn.atrous_conv2d(value=img,filters=filter,rate=2,padding errorout_img4=tf.nn

16、.atrous_conv2d(value=img,filters=filter,rate=2,padding=，V/扩张率为 1 时，空洞卷积等价于一般卷积。对于 SAME和 VALID模式计算方法如下列图所示，13141516171819with tf.Session()as sess:print(f rate=l,SAME mode result:?)print(sess.run(out_imgl)print C rate=l,VALID mode result:*)print(sess.run(out_img2)print C rate=

17、2,SAME mode result:)print(sess.run(out_img3)error print 5 rate=2,VALID mode result:print(sess.run(out_img4)扩张率为 2 的 VALID模式计算过程，扩张率为 2 的 VALID模式会报错，此时卷积核大于图片，无法卷积。MXNet 接口 MXNet卷积操作自带扩张率参数，详见文档。MXNet的通道存储与 TensorFlow不太一致，所以我们打印一下（比照上面的图，可以

18、体会到为什么除了 t f外大多框架把通道放在第二维），12345678910111213import mxnet as mximport mxnet.ndarray as ndimg=nd.array(1,2,3,4,1,2,3L41,2,3,4LU,2,3L4)img=nd.concat(img,img,dim=-l)img=nd.transpose(img,axes=(0,3,1,2)w=nd.ones(5,2,3,3)b=nd.array(0 for _ in range(5)img1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1

19、.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1 nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(l,1pad=(l,1),dilate=(l,1)12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.

20、54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(1,pad=(2,2),dilate=(2,2)16.24.16.24丁 16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.2 4.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022 计算机视觉空洞卷积

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年计算机视觉空洞卷积.pdf
链接地址：https://www.taowenge.com/p-93398706.html