2022年计算机视觉空洞卷积.pdf

资源ID：93398706 资源大小：904.56KB 全文页数：6页
资源格式： PDF 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2022年计算机视觉空洞卷积.pdf

计算机视觉空洞卷积目录.一、空洞卷积的提出.二、空洞卷积原理.三、空洞卷积问题 O 感受野跳跃 O 小尺度物体检测.四、网络设计研究五、常用框架 A P I介绍 o TensorFlow 接口 o MXNet 接口六、参考 X回到顶部一、空洞卷积的提出空洞卷积（atrous convolutions）又名扩张卷积（dilated convolutions），向卷积层引入了一个称为“扩张率（dilation rate）”的新参数，该参数定义了卷积核处理数据时各值的间距。该结构的目的是在不用 pooling（pooling层会导致信息损失）且计算量相当的情况下，提供更大的感受野。顺便一提，卷积结构的主要问题如下：池化层不可学内部数据结构丧失；空间层级化信息丧失。小物体信息无法重建（假设有四个 pooling la y e r则任何小于 24=16 p ix e l的物体信息将理论上无法重建。）而空洞卷积就有内部数据结构的保存和防止使用 down-sampling这样的特性，优点明显。回到顶部二、空洞卷积原理如下如，卷积核没有红点标记位置为 0,红点标记位置同正常卷积核。假设原始特征为 featO,首先使用扩张率为 1 的空洞卷积生成 featl,fe a tl上一点相对 featO感受野为 3x3（如图 a）；然后使用扩张率为 2 的空洞卷积处理 fe a tl生成 feat2（如图 b）,使第一次空洞卷积的卷积核大小等于第二次空洞卷积的一个像素点的感受野，图 b 即 fe a tl上一个点综合了图 a 即 featO上 3x3地域的信息，则生成的 feat2感受野为 7 x 7,即整个图 b 深色地域；第三次处理同上，第二次空洞卷积的整个卷积核大小等于第三次空洞卷积的一个像素点的感受野，图 c 即 feat2上每个点综合了 featO上 7x7的信息（感受野），则采纳扩张率为 3 的空洞卷积，生成的 feat3每一个点感受野为 15x15。相比拟之下，使用 stride为 1 的一般 3x3卷积，三层之后感受野仅仅为（kernel-1）xlayer+1=7。回到顶部三、空洞卷积问题感受野跳跃我们对同一张图连续三次使用扩张率为 1 的空洞卷积，观察整张图的中心点的感受野（如下列图）很明显，感受野不连续（我们上一小结的例子就没这个问题，所以空洞卷积依赖网络设计）。小尺度物体检测类似第一个问题，仍旧需要调整扩张率的组合来解决这个问题。回到顶部四、网络设计研究第一个特性是，叠加卷积的 dilation ra te不能有大于 1 的公约数。比方 2,4,6 则不是一个好的三层卷积，依旧会出现 gridding effect第二个特性是,我们将 dilation ra te设计成锯齿状结构，例如 1,2,5,1,2,5 循环结构。第三个特性是，我们需要满足一下这个式子：其中是 i 层的 dilation ra te而是指在 i 层的最大 dilation ra te,那么假设总共有 n 层的话，默认。假设我们应用于 ke rn e l为 k x k 的话，我们的目标则是,这样我们至少可以用 dilation rate 1 即 standard convolution的方法来覆盖掉全部洞。一个简单的例子：dilation rate 1,2,5with 3 x 3 kernel（可行的方案）：而这样的锯齿状本身的性质就比拟好的来同时满足小物体大物体的分割要求（小 dilationra te来关怀近距离信息，大 dilation ra te来关怀远距离信息）。单分支设计的研究通向标准化设计：Hybrid Dilated Convolution（HDC）,可以很好的满足分割需要，如下列图所示，多分支研究解决多尺度分割仅仅（在一个卷积分支网络下）使用 dilated convolution去抓取多尺度物体是一个不正统的方法.比方说，我们用一个 H D C的方法来猎取一个大（近）车辆的信息，然而对于一个小（远）车辆的信息都不再受用。假设我们再去用小 dilated convolution的方法重新猎取小车辆的信息，则这么做非常的冗余。基于港中文和商汤组的 PSPN et里的 Pooling module（其网络同样获得当年的 SOTA结果），A S P P则在网络 decoder上对于不同尺度上用不同大小的 dilation ra te来抓去多尺度信息，每个尺度则为一个独立的分支，在网络最后把他合并起来再接一个卷积层输出预测 label。这样的设计则有效防止了在 encoder上冗余的信息的猎取，直接关注与物体之间之内的相关性。回到顶部五、常用框架 API介绍 TensorFlow 接口 conv2d(value,filters,rate,padding,name=None)value：指需要做卷积的输入图像，要求是一个 4 维 T e n s o r,具有 batch,height,width,channels 这样的 s h a p e,具体含义是训练时一个 batch的图片数量，图片高度，图片宽度，图像通道数 filters：相当于 CNN 中的卷积核，要求是一个 4 维 T e n so r,具有 filter_height,filter_width,channels,out_channels 这样的 s h a p e,具体含义是卷积核的高度，卷积核的宽度，图像通道数，卷积核个数,同理这里第三维 channels,就是参数 value的第四维 rate：要求是一个 in t型的正数，正常的卷积操作应该会有 stride(即卷积核的滑动步长)，但是空洞卷积是没有 stride参数的，这一点尤其要注意。取而代之，它使用了新的 rate参数，那么 rate参数有什么用呢？它定义为我们在输入图像上卷积时的采样间隔，你可以理解为卷积核当中穿插了(ra te-1)数量的“0”,把原来的卷积核插出了很多“洞洞”，这样做卷积时就相当于对原图像的采样间隔变大了。具体怎么插得，可以看后面更加详细的描述。此时我们很简单得出 rate=1时，就没有 0 插入，此时这个函数就变成了一般卷积。padding：string类型的量，只能是 SAME V A L ID 其中之一，这个值决定了不同边缘填充方法。函数默认 stride=1,无法改变。结果返回一个 T e n s o r,填充方法为“VALID”时，返回 batch,height-2x(filter_width-1),width-2x(filter_height-1),out_channelsKl T ensor,填充方法为 S A M E 时，返回 batch,height,width,out_channels的 Tensor。测试代码如下:123456789101112img=tf.constant(value=l,2,3,4,1,2,3,4,1,2,3,4,dtype=tf.iimg=tf.concat(values=img,img,axis=3)filter=tf.constant(value=l,shape=3,3,2,5,dtype=tf.float32)out_imgl=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img2=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img3=tf.nn.atrous_conv2d(value=img,filters=filter,rate=2,padding errorout_img4=tf.nn.atrous_conv2d(value=img,filters=filter,rate=2,padding=，V/扩张率为 1 时，空洞卷积等价于一般卷积。对于 SAME和 VALID模式计算方法如下列图所示，13141516171819with tf.Session()as sess:print(f rate=l,SAME mode result:?)print(sess.run(out_imgl)print C rate=l,VALID mode result:*)print(sess.run(out_img2)print C rate=2,SAME mode result:)print(sess.run(out_img3)error print 5 rate=2,VALID mode result:print(sess.run(out_img4)扩张率为 2 的 VALID模式计算过程，扩张率为 2 的 VALID模式会报错，此时卷积核大于图片，无法卷积。MXNet 接口 MXNet卷积操作自带扩张率参数，详见文档。MXNet的通道存储与 TensorFlow不太一致，所以我们打印一下（比照上面的图，可以体会到为什么除了 t f外大多框架把通道放在第二维），12345678910111213import mxnet as mximport mxnet.ndarray as ndimg=nd.array(1,2,3,4,1,2,3L41,2,3,4LU,2,3L4)img=nd.concat(img,img,dim=-l)img=nd.transpose(img,axes=(0,3,1,2)w=nd.ones(5,2,3,3)b=nd.array(0 for _ in range(5)img1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1 nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(l,1pad=(l,1),dilate=(l,1)12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(1,pad=(2,2),dilate=(2,2)16.24.16.24丁 16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.2 4.

注意事项

本文（2022年计算机视觉空洞卷积.pdf）为本站会员（文***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。