2022年计算机视觉空洞卷积.pdf
计 算 机 视 觉 空 洞 卷 积 目 录.一、空 洞 卷 积 的 提 出.二、空 洞 卷 积 原 理.三、空 洞 卷 积 问 题 O 感 受 野 跳 跃 O 小 尺 度 物 体 检 测.四、网 络 设 计 研 究 五、常 用 框 架 A P I介 绍 o TensorFlow 接 口 o MXNet 接 口 六、参 考 X回 到 顶 部 一、空 洞 卷 积 的 提 出 空 洞 卷 积(atrous convolutions)又 名 扩 张 卷 积(dilated convolutions),向 卷 积 层 引 入 了 一 个 称 为“扩 张 率(dilation rate)”的 新 参 数,该 参 数 定 义 了 卷 积 核 处 理 数 据 时 各 值 的 间 距。该 结 构 的 目 的 是 在 不 用 pooling(pooling层 会 导 致 信 息 损 失)且 计 算 量 相 当 的 情 况 下,提 供 更 大 的 感 受 野。顺 便 一 提,卷 积 结 构 的 主 要 问 题 如 下:池 化 层 不 可 学 内 部 数 据 结 构 丧 失;空 间 层 级 化 信 息 丧 失。小 物 体 信 息 无 法 重 建(假 设 有 四 个 pooling la y e r则 任 何 小 于 24=16 p ix e l的 物 体 信 息 将 理 论 上 无 法 重 建。)而 空 洞 卷 积 就 有 内 部 数 据 结 构 的 保 存 和 防 止 使 用 down-sampling这 样 的 特 性,优 点 明 显。回 到 顶 部 二、空 洞 卷 积 原 理 如 下 如,卷 积 核 没 有 红 点 标 记 位 置 为 0,红 点 标 记 位 置 同 正 常 卷 积 核。假 设 原 始 特 征 为 featO,首 先 使 用 扩 张 率 为 1 的 空 洞 卷 积 生 成 featl,fe a tl上 一 点 相 对 featO感 受 野 为 3x3(如 图 a);然 后 使 用 扩 张 率 为 2 的 空 洞 卷 积 处 理 fe a tl生 成 feat2(如 图 b),使 第 一 次 空 洞 卷 积 的 卷 积 核 大 小 等 于 第 二 次 空 洞 卷 积 的 一 个 像 素 点 的 感 受 野,图 b 即 fe a tl上 一 个 点 综 合 了 图 a 即 featO上 3x3地 域 的 信 息,则 生 成 的 feat2感 受 野 为 7 x 7,即 整 个 图 b 深 色 地 域;第 三 次 处 理 同 上,第 二 次 空 洞 卷 积 的 整 个 卷 积 核 大 小 等 于 第 三 次 空 洞 卷 积 的 一 个 像 素 点 的 感 受 野,图 c 即 feat2上 每 个 点 综 合 了 featO上 7x7的 信 息(感 受 野),则 采 纳 扩 张 率 为 3 的 空 洞 卷 积,生 成 的 feat3每 一 个 点 感 受 野 为 15x15。相 比 拟 之 下,使 用 stride为 1 的 一 般 3x3卷 积,三 层 之 后 感 受 野 仅 仅 为(kernel-1)xlayer+1=7。回 到 顶 部 三、空 洞 卷 积 问 题 感 受 野 跳 跃 我 们 对 同 一 张 图 连 续 三 次 使 用 扩 张 率 为 1 的 空 洞 卷 积,观 察 整 张 图 的 中 心 点 的 感 受 野(如 下 列 图)很 明 显,感 受 野 不 连 续(我 们 上 一 小 结 的 例 子 就 没 这 个 问 题,所 以 空 洞 卷 积 依 赖 网 络 设 计)。小 尺 度 物 体 检 测 类 似 第 一 个 问 题,仍 旧 需 要 调 整 扩 张 率 的 组 合 来 解 决 这 个 问 题。回 到 顶 部 四、网 络 设 计 研 究 第 一 个 特 性 是,叠 加 卷 积 的 dilation ra te不 能 有 大 于 1 的 公 约 数。比 方 2,4,6 则 不 是 一 个 好 的 三 层 卷 积,依 旧 会 出 现 gridding effect第 二 个 特 性 是,我 们 将 dilation ra te设 计 成 锯 齿 状 结 构,例 如 1,2,5,1,2,5 循 环 结 构。第 三 个 特 性 是,我 们 需 要 满 足 一 下 这 个 式 子:其 中 是 i 层 的 dilation ra te而 是 指 在 i 层 的 最 大 dilation ra te,那 么 假 设 总 共 有 n 层 的 话,默 认。假 设 我 们 应 用 于 ke rn e l为 k x k 的 话,我 们 的 目 标 则 是,这 样 我 们 至 少 可 以 用 dilation rate 1 即 standard convolution的 方 法 来 覆 盖 掉 全 部 洞。一 个 简 单 的 例 子:dilation rate 1,2,5with 3 x 3 kernel(可 行 的 方 案):而 这 样 的 锯 齿 状 本 身 的 性 质 就 比 拟 好 的 来 同 时 满 足 小 物 体 大 物 体 的 分 割 要 求(小 dilationra te来 关 怀 近 距 离 信 息,大 dilation ra te来 关 怀 远 距 离 信 息)。单 分 支 设 计 的 研 究 通 向 标 准 化 设 计:Hybrid Dilated Convolution(HDC),可 以 很 好 的 满 足 分 割 需 要,如 下 列 图 所 示,多 分 支 研 究 解 决 多 尺 度 分 割 仅 仅(在 一 个 卷 积 分 支 网 络 下)使 用 dilated convolution去 抓 取 多 尺 度 物 体 是 一 个 不 正 统 的 方 法.比 方 说,我 们 用 一 个 H D C的 方 法 来 猎 取 一 个 大(近)车 辆 的 信 息,然 而 对 于 一 个 小(远)车 辆 的 信 息 都 不 再 受 用。假 设 我 们 再 去 用 小 dilated convolution的 方 法 重 新 猎 取 小 车 辆 的 信 息,则 这 么 做 非 常 的 冗 余。基 于 港 中 文 和 商 汤 组 的 PSPN et里 的 Pooling module(其 网 络 同 样 获 得 当 年 的 SOTA结 果),A S P P则 在 网 络 decoder上 对 于 不 同 尺 度 上 用 不 同 大 小 的 dilation ra te来 抓 去 多 尺度 信 息,每 个 尺 度 则 为 一 个 独 立 的 分 支,在 网 络 最 后 把 他 合 并 起 来 再 接 一 个 卷 积 层 输 出 预 测 label。这 样 的 设 计 则 有 效 防 止 了 在 encoder上 冗 余 的 信 息 的 猎 取,直 接 关 注 与 物 体 之 间 之 内 的 相 关 性。回 到 顶 部 五、常 用 框 架 API介 绍 TensorFlow 接 口 conv2d(value,filters,rate,padding,name=None)value:指 需 要 做 卷 积 的 输 入 图 像,要 求 是 一 个 4 维 T e n s o r,具 有 batch,height,width,channels 这 样 的 s h a p e,具 体 含 义 是 训 练 时 一 个 batch的 图 片 数 量,图 片 高 度,图 片 宽 度,图 像 通 道 数 filters:相 当 于 CNN 中 的 卷 积 核,要 求 是 一 个 4 维 T e n so r,具 有 filter_height,filter_width,channels,out_channels 这 样 的 s h a p e,具 体 含 义 是 卷 积 核 的 高 度,卷 积 核 的 宽 度,图 像 通 道 数,卷 积 核 个 数,同 理 这 里 第 三 维 channels,就 是 参 数 value的 第 四 维 rate:要 求 是 一 个 in t型 的 正 数,正 常 的 卷 积 操 作 应 该 会 有 stride(即 卷 积 核 的 滑 动 步 长),但 是 空 洞 卷 积 是 没 有 stride参 数 的,这 一 点 尤 其 要 注 意。取 而 代 之,它 使 用 了 新 的 rate参 数,那 么 rate参 数 有 什 么 用 呢?它 定 义 为 我 们 在 输 入 图 像 上 卷 积 时 的 采 样 间 隔,你 可 以 理 解 为 卷 积 核 当 中 穿 插 了(ra te-1)数 量 的“0”,把 原 来 的 卷 积 核 插 出 了 很 多“洞 洞”,这 样 做 卷 积 时 就 相 当 于 对 原 图 像 的 采 样 间 隔 变 大 了。具 体 怎 么 插 得,可 以 看 后 面 更 加 详 细 的 描 述。此 时 我 们 很 简 单 得 出 rate=1时,就 没 有 0 插 入,此 时 这 个 函 数 就 变 成 了 一 般 卷 积。padding:string类 型 的 量,只 能 是 SAME V A L ID 其 中 之 一,这 个 值 决 定 了 不 同 边 缘 填 充 方 法。函 数 默 认 stride=1,无 法 改 变。结 果 返 回 一 个 T e n s o r,填 充 方 法 为“VALID”时,返 回 batch,height-2x(filter_width-1),width-2x(filter_height-1),out_channelsKl T ensor,填 充 方 法 为 S A M E 时,返 回 batch,height,width,out_channels的 Tensor。测 试 代 码 如 下:123456789101112img=tf.constant(value=l,2,3,4,1,2,3,4,1,2,3,4,dtype=tf.iimg=tf.concat(values=img,img,axis=3)filter=tf.constant(value=l,shape=3,3,2,5,dtype=tf.float32)out_imgl=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img2=tf.nn.atrous_conv2d(value=img,filters=filter,rate=l,padding out_img3=tf.nn.atrous_conv2d(value=img,filters=filter,rate=2,padding errorout_img4=tf.nn.atrous_conv2d(value=img,filters=filter,rate=2,padding=,V/扩 张 率 为 1 时,空 洞 卷 积 等 价 于 一 般 卷 积。对 于 SAME和 VALID模 式 计 算 方 法 如 下 列 图 所 示,13141516171819with tf.Session()as sess:print(f rate=l,SAME mode result:?)print(sess.run(out_imgl)print C rate=l,VALID mode result:*)print(sess.run(out_img2)print C rate=2,SAME mode result:)print(sess.run(out_img3)error print 5 rate=2,VALID mode result:print(sess.run(out_img4)扩 张 率 为 2 的 VALID模 式 计 算 过 程,扩 张 率 为 2 的 VALID模 式 会 报 错,此 时 卷 积 核 大 于 图 片,无 法 卷 积。MXNet 接 口 MXNet卷 积 操 作 自 带 扩 张 率 参 数,详 见 文 档。MXNet的 通 道 存 储 与 TensorFlow不 太 一 致,所 以 我 们 打 印 一 下(比 照 上 面 的 图,可 以 体 会 到 为 什 么 除 了 t f外 大 多 框 架 把 通 道 放 在 第 二 维),12345678910111213import mxnet as mximport mxnet.ndarray as ndimg=nd.array(1,2,3,4,1,2,3L41,2,3,4LU,2,3L4)img=nd.concat(img,img,dim=-l)img=nd.transpose(img,axes=(0,3,1,2)w=nd.ones(5,2,3,3)b=nd.array(0 for _ in range(5)img1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1.2.3.4.1 nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(l,1pad=(l,1),dilate=(l,1)12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.12.24.36.28.18.36.54.42.18.36.54.42.12.24.36.28.nd.Convolution(img,w,b,kernel=w.shape2:,num_filter=w.shapeO,stride=(1,pad=(2,2),dilate=(2,2)16.24.16.24丁 16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.24.16.2 4.