2022年计算机视觉空洞卷积.pdf
《2022年计算机视觉空洞卷积.pdf》由会员分享,可在线阅读,更多相关《2022年计算机视觉空洞卷积.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 计 算 机 视 觉 空 洞 卷 积 目 录.一、空 洞 卷 积 的 提 出.二、空 洞 卷 积 原 理.三、空 洞 卷 积 问 题 O 感 受 野 跳 跃 O 小 尺 度 物 体 检 测.四、网 络 设 计 研 究 五、常 用 框 架 A P I介 绍 o TensorFlow 接 口 o MXNet 接 口 六、参 考 X回 到 顶 部 一、空 洞 卷 积 的 提 出 空 洞 卷 积(atrous convolutions)又 名 扩 张 卷 积(dilated convolutions),向 卷 积 层 引 入 了 一 个 称 为“扩 张 率(dilation rate)”的 新 参 数
2、,该 参 数 定 义 了 卷 积 核 处 理 数 据 时 各 值 的 间 距。该 结 构 的 目 的 是 在 不 用 pooling(pooling层 会 导 致 信 息 损 失)且 计 算 量 相 当 的 情 况 下,提 供 更 大 的 感 受 野。顺 便 一 提,卷 积 结 构 的 主 要 问 题 如 下:池 化 层 不 可 学 内 部 数 据 结 构 丧 失;空 间 层 级 化 信 息 丧 失。小 物 体 信 息 无 法 重 建(假 设 有 四 个 pooling la y e r则 任 何 小 于 24=16 p ix e l的 物 体 信 息 将 理 论 上 无 法 重 建。)而 空
3、 洞 卷 积 就 有 内 部 数 据 结 构 的 保 存 和 防 止 使 用 down-sampling这 样 的 特 性,优 点 明 显。回 到 顶 部 二、空 洞 卷 积 原 理 如 下 如,卷 积 核 没 有 红 点 标 记 位 置 为 0,红 点 标 记 位 置 同 正 常 卷 积 核。假 设 原 始 特 征 为 featO,首 先 使 用 扩 张 率 为 1 的 空 洞 卷 积 生 成 featl,fe a tl上 一 点 相 对 featO感 受 野 为 3x3(如 图 a);然 后 使 用 扩 张 率 为 2 的 空 洞 卷 积 处 理 fe a tl生 成 feat2(如 图
4、b),使 第 一 次 空 洞 卷 积 的 卷 积 核 大 小 等 于 第 二 次 空 洞 卷 积 的 一 个 像 素 点 的 感 受 野,图 b 即 fe a tl上 一 个 点 综 合 了 图 a 即 featO上 3x3地 域 的 信 息,则 生 成 的 feat2感 受 野 为 7 x 7,即 整 个 图 b 深 色 地 域;第 三 次 处 理 同 上,第 二 次 空 洞 卷 积 的 整 个 卷 积 核 大 小 等 于 第 三 次 空 洞 卷 积 的 一 个 像 素 点 的 感 受 野,图 c 即 feat2上 每 个 点 综 合 了 featO上 7x7的 信 息(感 受 野),则 采
5、 纳 扩 张 率 为 3 的 空 洞 卷 积,生 成 的 feat3每 一 个 点 感 受 野 为 15x15。相 比 拟 之 下,使 用 stride为 1 的 一 般 3x3卷 积,三 层 之 后 感 受 野 仅 仅 为(kernel-1)xlayer+1=7。回 到 顶 部 三、空 洞 卷 积 问 题 感 受 野 跳 跃 我 们 对 同 一 张 图 连 续 三 次 使 用 扩 张 率 为 1 的 空 洞 卷 积,观 察 整 张 图 的 中 心 点 的 感 受 野(如 下 列 图)很 明 显,感 受 野 不 连 续(我 们 上 一 小 结 的 例 子 就 没 这 个 问 题,所 以 空 洞
6、 卷 积 依 赖 网 络 设 计)。小 尺 度 物 体 检 测 类 似 第 一 个 问 题,仍 旧 需 要 调 整 扩 张 率 的 组 合 来 解 决 这 个 问 题。回 到 顶 部 四、网 络 设 计 研 究 第 一 个 特 性 是,叠 加 卷 积 的 dilation ra te不 能 有 大 于 1 的 公 约 数。比 方 2,4,6 则 不 是 一 个 好 的 三 层 卷 积,依 旧 会 出 现 gridding effect第 二 个 特 性 是,我 们 将 dilation ra te设 计 成 锯 齿 状 结 构,例 如 1,2,5,1,2,5 循 环 结 构。第 三 个 特 性
7、 是,我 们 需 要 满 足 一 下 这 个 式 子:其 中 是 i 层 的 dilation ra te而 是 指 在 i 层 的 最 大 dilation ra te,那 么 假 设 总 共 有 n 层 的 话,默 认。假 设 我 们 应 用 于 ke rn e l为 k x k 的 话,我 们 的 目 标 则 是,这 样 我 们 至 少 可 以 用 dilation rate 1 即 standard convolution的 方 法 来 覆 盖 掉 全 部 洞。一 个 简 单 的 例 子:dilation rate 1,2,5with 3 x 3 kernel(可 行 的 方 案):而
8、 这 样 的 锯 齿 状 本 身 的 性 质 就 比 拟 好 的 来 同 时 满 足 小 物 体 大 物 体 的 分 割 要 求(小 dilationra te来 关 怀 近 距 离 信 息,大 dilation ra te来 关 怀 远 距 离 信 息)。单 分 支 设 计 的 研 究 通 向 标 准 化 设 计:Hybrid Dilated Convolution(HDC),可 以 很 好 的 满 足 分 割 需 要,如 下 列 图 所 示,多 分 支 研 究 解 决 多 尺 度 分 割 仅 仅(在 一 个 卷 积 分 支 网 络 下)使 用 dilated convolution去 抓
9、取 多 尺 度 物 体 是 一 个 不 正 统 的 方 法.比 方 说,我 们 用 一 个 H D C的 方 法 来 猎 取 一 个 大(近)车 辆 的 信 息,然 而 对 于 一 个 小(远)车 辆 的 信 息 都 不 再 受 用。假 设 我 们 再 去 用 小 dilated convolution的 方 法 重 新 猎 取 小 车 辆 的 信 息,则 这 么 做 非 常 的 冗 余。基 于 港 中 文 和 商 汤 组 的 PSPN et里 的 Pooling module(其 网 络 同 样 获 得 当 年 的 SOTA结 果),A S P P则 在 网 络 decoder上 对 于 不
10、 同 尺 度 上 用 不 同 大 小 的 dilation ra te来 抓 去 多 尺度 信 息,每 个 尺 度 则 为 一 个 独 立 的 分 支,在 网 络 最 后 把 他 合 并 起 来 再 接 一 个 卷 积 层 输 出 预 测 label。这 样 的 设 计 则 有 效 防 止 了 在 encoder上 冗 余 的 信 息 的 猎 取,直 接 关 注 与 物 体 之 间 之 内 的 相 关 性。回 到 顶 部 五、常 用 框 架 API介 绍 TensorFlow 接 口 conv2d(value,filters,rate,padding,name=None)value:指 需 要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 计算机 视觉 空洞 卷积
限制150内