深度学习及其在目标和行为识别中的新进展_郑胤.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《深度学习及其在目标和行为识别中的新进展_郑胤.doc》由会员分享,可在线阅读,更多相关《深度学习及其在目标和行为识别中的新进展_郑胤.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、175 中图法分类 号 : 文献标识 码 : A 文章编 号 : 1006-8961( 2014) 02-0175-10 论文引用格式 : 郑胤 , 陈权崎 , 章毓晋 . 深度学习及其在目标和行为识别中的新进展 J . 中国图象图形学报 , 2014, 19 ( 2 ) : 175-184. DOI: 10. 11834 / jig. 20140202 深度学习及其在目标和行为识别中的新进展 郑胤 , 陈权崎 , 章毓晋 清华大学电子工程系 , 北京 100084 摘 要 : 目的 深度学习是机器学习中的一个新的研究领域 。 通过深度学习的方法构建深度网络来抽取特征是目 前目标和行为识别中得
2、到关注的研究方向 。 为引起更多计算机视觉领域研究者对深度学习进行探索和讨论 , 并推 动目标和行为识别的研究 , 对深度学习及其在目标和行为识别中的新进展给予概述 。 方法 首先介绍深度学习领 域研究的基本状况 、 主要概念和原理 ; 然后介绍 近期利用深度学习在目标和行为识别应用中的一些新进展 。 结 果 阐述了深度学习与神经网络之间的关系 , 深度学习的优缺点 , 以及目前深度学习理论需要解决的主要问题 。 结论 该文对拟将深度学习应用于目标和行为识别的研究人员有所帮助 。 关键词 : 深度学习 ; 目标识别 ; 行为识别 ; 计算机视觉 Deep learning and its ne
3、w progress in object and behavior recognition Zheng Yin, Chen Quanqi, Zhang Yujin Department of Electronic Engineering, Tsinghua University, Beijing 100084, China Abstract: Objective Deep learning is a new research area in machine learning. Currently, extracting features by deep learning for visual
4、object recognition and behavior recognition capture many attentions. To draw more attention from research community about deep learning, and to push forward the research frontier of object and behavior recognition, we give a general progress overview for deep learning and its application to visual o
5、bject and behavior recognition. Method First, we give a general introduction to deep learning, including the basic situation, main concepts and principle. Then, some new progresses on using deep learning in visual object recognition and behavior recognition are presented. esult A discussion about th
6、e differences between deep learning and neural network as well as the advantage and disadvantage of deep learning are given, the main existing problems that should be solved for deep learning theory are pointed. Conclusion This paper should provide some help for the research community on applying th
7、e deep learning to the visual object and behavior recog- nition. Key words: deep learning; object recognition; behavior recognition; computer vision 0 引 言 计算机视觉是指用计算机实现人的视觉功能 , 希望能根据感知到的图像 ( 视频 ) 对实际的目标和 场景内容做出有意义的判断 1 。 如何能正确识别 目标和行为非常关键 , 其中一个最基本的和最核心 的问题是对图像的有效表达 。 如果所选的表达特征 能够有效地反映目标和行为的本质 , 那么对
8、于理 解 图像就会取得事半功倍的效果 。 正因为如此 , 关于 收稿日期 : 2013-06-28; 修回日期 : 2013-11-18 基金项 目 : 国家自然科学基金项 目 ( 61171118) ; 教育部高等学校博士学科点专项科研基金项目 ( S FDP-20110002110057) 第一作者简介 : 郑胤 ( 1986 ) , 男 , 清华大学电子工程系博士研究生 , 主要研究方向为深度学习 、 机器学习 、 模式识别 、 计算机视觉 、 图像 工程 。 E-mail: y-zheng09 mails. tsinghua. edu. cn 176 Vol 19, No 2, Feb
9、. 2014 特征的构建和选取一直得到广泛关注 。 近些年来人 们已构建出许多特征 , 并且得到了广泛的应用 , 例如 SIFT 2 、 HOG 3 、 LBP 4 、 MSE 5 等等 。 设计特征是 一种利用人类的智慧和先验知识 , 并且将这些知识 应用到目标和行为识别技术中的很好的方式 。 但 是 , 如果能通过无监督的方式让机器自动地从样本 中学习到表征这些样本的更加本质的特征则会使得 人们更好地用计算机来实 现人的视觉功能 , 因此也 是近些年人们关注的一个热点方 向 。 深 度 学 习 ( deep learning) 的目的就是通过逐层的构建一个多 层的网络来使得机器能自动地学习
10、到反映隐含在数 据内部的关系 , 从而使得学习到的特征更具有推广 性和表达力 。 本文旨在向读者介绍深度学习的原理及它在目 标和行为识别 中 的最新动 态 , 希望吸引更多的研究 者进行讨 论 , 并 在 这一新兴的具有潜力的视觉领域 做出更好的 成 果 。 首先对深度学习的动 机 、 历史 以 及应用进行了 概 括说 明 ; 主要介绍了基于限制玻尔 兹曼 机 ( BM) 6-7 的深度 学 习 架构和基于自编码器 ( auto-encoder) 8-9 的深度学习架 构 , 以及 深度学 习 近些年的进 展 , 主要 讨 论了去噪自编 码 器 ( denoising autoencoder)
11、 10 , 卷积限制玻 尔兹曼 机 ( convolutional BM) 11 , 三 元 因 子 玻 尔 兹 曼 机 ( 3-way factorized Boltzmann machine) 12-13 , 以及神经 自回归分布估计 器 ( NADE) 等一些新的深度学习单 元 ; 对目前深 度 学习在计算机视觉中的一些应用以及取得的成 果进 行介 绍 ; 最 后 , 对 深度学习与神经网络的关 系 , 深 度 学习的本质等 问 题加以讨 论 , 提出目前深度学习理 论方面需要解决的主要问 题 。 1 深度学习概述 目前在 典 型使用 的技术中是通 过 “ 特征表达 ” +“ 分类 器
12、” 的框架来 进行目标识 别 、 行为识别等 任 务 的 , 如 图 1 所 示 。 图 1 计算机视觉用于识别的框架 Fig. 1 The framework of recognition in computer vision 传统 的 “ 特征表 达 ” 是通过人们手动设计的特 征提取到 的 , 也 就 是说在目前的计算机视觉框架内 存在一个对输入信号 的 一 个 “ 显 式” 的预处理过 程 。 但是最近神经科学关于哺乳动物的信息表达的研究 发 现 14-15 , 哺乳动物 大脑中 关于执行识别任务的大 脑皮层并没有一 个 “ 显 式 ” 的对信号预处理的过 程 , 而是将输入信号在一个
13、大脑的复杂的层次结构中传 播 , 通过每一层 次 对输入信号进行重新的提取和表 达最终让哺乳动物感知世 界 。 这些研究促成了深度 学习这一机器学习子领域 的兴 起 16 , 它试图通过 让 计算机模拟人 脑 感知视觉信号的机 制 , 进而设计 深 层的网络来实现视觉的功 能 。 目前深度学习已经成 为计算机视觉 中 的一个热点方 向 , 每年都有大量的 研究成果出 现 , 产 生了诸多深度学习的新算法和新 方 向 , 而同时深 度 学习算法的性能也逐渐在一些国 际重大评测中超过了其他方 法 17-18 。 2 深度学习原理 传统的随机初始化模型参数然后用反向传播 ( back-propaga
14、tion) 来优化参数的方法对 于深度网 络 来说容易造成陷入局部极值或者产生梯度弥散等问 题 , 因此人们提 出 使用额外的目标函数来对每层的 参数进行预处 理 , 然后对预处理之后的模型进行反 向传播来进一步优化参 数 。 这其中限制玻尔兹曼机 和自编码器是 两 个常用的预处理单 元 , 而基于这 两 个单元的深度模型也成为了当前深 度学习的主流框 架 。 深度学习 的算法体系如 图 2 所 示 , 根据学习单 元 的 不 同 , 深度学习主要包括基于 限制玻尔兹曼机的深 度置信度网 络 ( DBN) 6 和 基于自编码器的深度网络 ( stacked auto-encoder) 8-9
15、两 类 , 另外还有一些其 他 体 系的深度网 络 。 本节 主要 介绍上 面两种主流的深度 图 2 目前深度学习算法体系结构 Fig. 2 The family of deep learning algorithm 177 郑胤 , 陈权崎 , 章毓 晋 / 深度学习及其在目标和行为识别中的新进展 第 19 卷 / 第 2 期 /2014 年 2 月 学习架构的原理以及在实际操纵中经常要用到的稀 疏性约束的原理和做法 。 2. 1 基于限制玻尔兹曼机的深度学习架构 限制玻尔兹曼机是构成深度置信网络的基础单 元 , 其本质是使得学习到的模型产生符合条件的样 本的概率最大 。 2. 1. 1 玻
16、尔兹曼机 玻尔兹曼机 ( Boltzmann machine) 19 本质上是 一种能量模型 。 能量模型是指对于参数空间 ( con- figuration space) 中每一种情况均有一个标量形式的 能量与之对应 。 能量函数就是从参数空间到能量的 映射函数 , 人们希望通过学习使得能量函数有符合 要求的性质 。 从结构上来说 , 玻尔兹曼机是双层 、 无 向 、 全连通图 , 如图 3 所示 。 为了方便起见 , 这里仅 讨论观测变量和隐变量均是 0、 1 变量的 情况 。 图 3 玻尔兹曼机示意图 Fig. 3 The illustration of Boltzmann machin
17、e 玻尔兹曼机的能量函数为 E( x, h) = bx ch hWx xUx hVh ( 1) 式中 , x 表示可见层 , h 表示隐层 , b 0, 1 K , c 0, 1 D 分别表示可见层和隐层单元的偏置 ( off- set) , K、 D 分别表示可见层和隐层单元的数目 。 W、 U、 V 分别表示观测层和隐层之间 , 观 测层变量之 间 , 隐层变量之间的连接权重矩阵 。 在实际中 , 由于计算样本概率密度时归一化因 子的存在 , 需要使用马尔可夫蒙特卡洛方法 ( MC- MC) 20 来对玻尔兹曼机进行优化 。 但是 MCMC 方 法收敛速度很慢 , 因此人们提出限制玻尔兹曼
18、机和 对比散度方法来解决这一问题 。 2. 1. 2 限制玻尔兹曼机 限制玻尔兹曼机 21 是对全连通的玻尔兹曼机 进行简化 , 其限制条件是在给定可见层或者隐层中 的其中一层后 , 另一层的单元彼此独立 , 即式 ( 1) 中 U 和 V 矩 阵中的元素均等于 0。 层间单元独立的条 件是构成高效的训练限制玻尔兹曼机的方法的条件 之 一 6 , 而 BM 也 因 此 成 为 深 度 置 信 网 络 ( DBN) 6 的构成单元 。 限制玻尔兹曼机的图模型 如图 4 所示 。 可见 , 层内单元之间没有连接关系 , 层 间单元是全连接关系 。 图 4 限制玻尔兹曼机示意图 Fig. 4 The
19、 illustration of restricted Boltzmann machine 将式 ( 1) 中层间连接矩阵 U, V 置零 , 得到限制 玻尔兹曼机的能量函数 E( x, h) = bx ch hWx ( 2) 由于限制玻尔兹曼机取消了层内单元之间的连 接 , 所以可以将其条件概率分布进行分解 , 这样就简 化了模型优化过程中的运算 。 但是在其优化过程中 仍然需 要基于 MCMC 方法的吉布斯采样 , 训练过程 仍然十分漫长 , 因此人们提出对比散度方法来加快 模型优化 。 2. 1. 3 对比散度 对比散度 ( contrastive divergence) 是 Hinto
20、n 6 在 2006 年提出来的快速地训练限制玻尔兹曼机的方 法 , 该方法在实践中得到广泛的应用 。 对比散度主 要是将对数似然函数梯度的求解进行了两个近似 : 1) 使用从条件分布中得到的样本来近似替代 计算梯度时的平均求和 。 这是因为在进行随机梯度下降法进行参数优化 时已经有平均的效果 , 而如果每次计算都进 行均值 求和则这些效果会相互抵消 , 而且会造成很大的计 算时间的浪费 。 2) 在进行吉布斯采样 ( Gibbs sampling) 时只采 用一步 , 即仅仅进行一次吉布斯采样 。 这种一次吉布斯采样方法会使得采样得到的样 本分布与真实分布存在一定的误差 。 但是实践发 现
21、, 如果仅作一次迭代的话 , 就已经能得到令人满意 的结果 。 将限制玻尔兹曼机逐层叠加 , 就构成了深度置 信网络 ( DBN) 。 在深度置信网络中底层的输出作 178 Vol 19, No 2, Feb. 2014 j x j 为上一层的输入 , 每层是一个限制玻尔兹曼机 , 使用 对比散度的方法单独训练 。 为了达到更好的识别效 果 , 往往 还要对深度置信网络每层的参数进行微 调 6, 22 。 使用限制玻尔兹曼机构建成深度网络 , 在 一些公开的数据集上取得了非常好的效果 23 。 2. 2 基于自编码器的深度学习架构 另一种主流的构成深度学习架构的单元是自编 码器 8-9 , 其
22、每一层学习单元的目的是使得重建误差 最小 。 自编码器的示意图如图 5 所示 。 自编码器的 核心思想是将输入信号进行编码 , 使用编码之后的 信号重建原始信号 , 目的是让重建信号与原始信号 相比重建误差最小 。 自编码器的思想在计算机视 觉中有广泛的应用 , 通过将信号编码 成为另一种 形式 , 可以有效地提取信号中的主要信息 , 去除冗 余 , 并且能够更加简洁 地表达 。 从某种意义上来 说 , 可以将计算机视觉中经常用到的 K 均值聚类 、 稀疏编码 、 主成分分析等方法均理解 为是一个自 编码器 。 图 5 自编码器示意图 Fig. 5 The illustration of au
23、to-encoder 如果在编码和解码中使用线性函数 , 误差函数 是均方误差 , 则这种自编码器就等价于主成分分析 ; 而如果使用量化编码 , 误差函数是均方误差 , 则这种 自编码器等效于 K 均值聚类 、 稀疏编码等 。 由于自编码器的编解码过程以及目标函数都是 确定性的 , 因此不必像限制玻尔兹曼机一样采用马 尔可夫蒙特卡洛的方法作近似 , 所以它的优化过程 仅需 要使用根据目标函数对于各个参数的导数采用 对参数进行微调 。 这种微调一般通过在顶层增加一 个逻辑回归层 ( logistic regression layer) 来实现 。 2. 3 稀疏性约束 深度置信网络和深度自编码器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 及其 目标 行为 识别 中的 进展 郑胤
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内