《一种基于深度学习的异构多模态目标识别方法-孟飞.pdf》由会员分享,可在线阅读,更多相关《一种基于深度学习的异构多模态目标识别方法-孟飞.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 47卷第 5期 中南大学学报 (自然科学版 ) Vol.47 No.5 2016年 5月 Journal of Central South University (Science and Technology) May 2016 DOI: 10.11817/j.issn.1672-7207.2016.05.018 一种基于深度学习的异构多模态目标识别方法 文孟飞 1, 2,胡超 3, 4,刘伟荣 1 (1. 中南大学 信息科学与工程学院,湖南 长沙, 410083; 2. 湖南省教育科学研究院,湖南 长沙, 410005; 3. 中南大学 信息与网络中心,湖南 长沙, 410083; 4.
2、 中南大学 医学信息研究湖南省普通高等学校重点实验室,湖南 长沙, 410083) 摘要: 提出一种基于深度学习的异构多模态目标识别方法。首先针对媒体流中 同时存在音频和视频信息的特征,建立一种异构多模态深度学习结构;结合卷积神经网络和限制波尔兹曼机的算法优点,对音频信息和视频信息分别并行处理,生成基于典型关联分析的共享特征表示,并进一步利用时间相关特性进行参数的优化。分别使用标准语音人脸库和截取的实际电影视频对算法进行实验 。研究结果 表明 : 对于这 2种视频来源,所提出方法在目标识别的精度方面都有显著提高。 关键词: 目标识别 ; 深度学习 ; 卷积神经网络 ; 限制玻尔兹曼机 ; 典型
3、关联分析 中图分类号: TP391.4 文献标志码: A 文章编号 : 16727207(2016)05158008 Heterogeneous multimodal object recognition method based on deep learning WEN Mengfei1, 2, HU Chao3, 4, LIU Weirong1 (1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. Hunan Provincial Rese
4、arch Institute of Education, Changsha 410005, China; 3. Information and Network Center, Central South University, Changsha 410083, China 4. Key Laboratory of Medical Information Research of Hunan Province, Central South University, Changsha 410083, China) Abstract: The heterogeneous multimodal objec
5、t recognition method was proposed based on deep learning. Firstly, based on the video and audio co-existing feature of media data, a heterogeneous multimodal structure was constructed to incorporate the convolutional neural network(CNN) and the restricted boltzmann machine(RBM). The audio and video
6、information were processed respectively, generating the share characteristic representation by using the canonical correlation analysis(CCA). Then the temporal coherence of video frame was utilized to improve the recognizing accuracy further. The experiments were implemented based on the standard au
7、dio & face library and the actual movie video fragments. The results show that for both the two kinds of video sources, the proposed method improves the accuracy of target recognition significantly. Key words: object recognition; deep learning; restricted boltzmann machine; convolutional neural netw
8、ork; canonical correlation analysis 收稿日期:2015 0817; 修回日期: 20151014 基金项目(Foundation item) : 湖南省教育科学 “ 十二五” 规划重点项目 (XJK014AJC001);国家自然科学基金资助项目 (61379111, 61003233, 61202342);教育部 中国移动科研基金 资助 项目 (MCM20121031) (Project(XJK014AJC001) supported by the Hunan Provincial Education Science Key Foundation durin
9、g 12th Five-Year Plan; Projects(61379111, 61003233, 61202342) supported by the National Natural Science Foundation of China; Project(MCM20121031) supported by the Science Fund of Education DepartmentChina Mobile) 通信作者:胡超,博士,讲师,从事网络管理、机器学习、教育信息化研究; E-mail: 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1581 网络技术的发
10、展使 互联网上各种非结构化的海量媒体数据流业务迅速增长 1。如何建立起一种高效、准确的媒体数据流目标识别方法已成为国内外学者的研究热点 2。现今互联网上 85%以上的数据业务包含了非结构化的图像、音频和视频等媒体数据 3。 迫切需要根据媒体数据流的特性和规律,进行有效的特征提取和目标识别 4。 机器学习是目标识别的主要方法,目前已经从浅层学习 59发展到深度学习。浅层结构需要依靠人工来抽取样本的特征,难以将其扩展到视频的特征提取 10且自纠错能力比较有限 11。而 HINTON等 12提出的深层学习结构,可表征复杂高维函数并提取多重水平的特征 13。深度学习的 2种典型结构为限制波尔兹曼机 (
11、restricted boltzmann machines, RBM)和卷积神经网络 (convolutional neural network,CNN )。RBM在语音识别体现了较好优势 14。而 LECUN等 15使用 CNN 在处理识别图像信息取得了比其他学习方法更好的结果。目前,随着互联网的发展以及视频编解码技术的成熟,视频数据呈现出爆炸式的增长 16。目前已经有将 深度学习方法应用到视频数据目标识别的若干研究成果 1719。但上述的研究成果往往针对视频的视觉信号进行单一模态的处理。而对于一段视频来说,视觉和听觉信号都能够为目标识别提供重要的信息。因此 ,出现了结合各种不同的模态之间的
12、有效信息的多模态学习方法。如 LEONARDI 等 20使用底层的视觉和音频特征来检测足球视频中的进球镜头。NGIAM 等 21使用多模态方法并行处理人物口型和所发出的音节。 目前这 2种多模态学习方法都采用同一中深层结构处理音频和视频信号。但在多模态方法中使用不同深层结构将会取得更好的效果。 如 RBM 对声音的识别具有较好的识别效果。而卷积神经网络对时间相关的动态视觉信号有较强的鲁棒性 22。为此 ,本文作者 提出一种基于深度学习的异构多模态目标识别方法,综合 RBM 的语音识别能力和卷积神经网络的图像处理能力,并建立 RBM 和卷积神经网络的共享关联表示 ,以 便更有效地识别视频中的目标
13、。在对视觉信号进行处理时,进一步利用 视频中相邻两帧的时间相关性,优化神经网络多层结构的参数,提高目标识别的准确度 。 1 异构多模态深度学习的目标识别方法 多媒体数据中目标识别的关键是能够获取数据的主要特征。网络资源中的多 媒体视频数据具有较大的复杂性与多样性。仅仅利用视频数据中单一模态进行处理往往难以得到较好的效果。使用多模态结合的方法提取数据特征能够更有效应用于媒体数据流的特征提取:将视觉图像和音频数据分别作为 2种模态输入,并行进行处理,同时得到 2种模态的高层特征,进而通过最大化 2种模态之间的关联性建立模态间的共享表示。可得到更好的识别效果。 由于视频信息中视觉信息和听觉信息的特点
14、不同,本文建立了多模态的异构深度学习神经网络,分别利用 RBM和卷积神经网络 CNN处理视频数据流的音频信号和视频图像信号。 1.1 基于 RBM的深度学习模型 RBM是一种特殊形式的玻尔兹曼机,可通过输入数据集学习 概率分布 的随机生成神经网络,具有较好的泛化能力。而由多个 RBM 结构堆叠而成的深度信念网络能提取出多层抽象的特征,从而用于分类和目标识别。 本文采用 RBM模型进行音频处理, RBM的结构如图 1所示,整体是一个二分图的结构,分为 2层:一层为可见层 (visible units),也称为输入层 ; 另一层为隐层(hidden units) 。 图 1 RBM的结构图 Fig
15、. 1 Structure of RBM RBM的隐藏变量 h和可见变量 v之间存在对称性的连接( Wi,j),但是隐藏变量之间或者可见变量之间没有连接。该模型通过模拟热力学能量定义了基于 h和v的联合概率分布 (方程 (1)。由于同层变量之间没有连接,因此根据联合概率分布可方便计算出每一个单元的激发概率。 lg ( , ) ( , )PE v h v h T T T T2211 ()2 W v v c v b v h v (1) 根据方程(1) ,可定义隐层和可见层的概率分布: ()1( )= e EP Z vhvh , (2) 其中: ()e EZ vhvh ,, 它代表所有可能的 v和
16、h之和。由于 RBM 是二分的结构,所以可见层单元之间 中南大学学报 (自然科学版) 第 47卷 1582 在给定隐层单元的情况下都是相互独立的,隐层单元之间在给定可见层单元的情况也是相互独立的,假设有 m个可见层单元, n个隐层单元,则有: 1m ii=P | = P v |v h h (3) 1n jj=P | = P h |h v v (4) 每一个单元的激发概率为: 2 111 | sigm oid ni i ij jjP v a w h h (5) 2 111 | sigm oid mj i ij iiP h b w v v (6) 1.2 基于 CNN的深度学习模型 CNN是多层感
17、知机 (MLP)的一个变种模型,是近几年来快速发展并引起广泛重视的一种高效识别方法。它是从生物学概念中演化而来的。 20 世纪 60 年代, HUBEL 等 23在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经 网络的复杂性,继而提出了 CNN。 一般来说, CNN的基本结构包括 2层: 一 层 为特征提取层,每个神经元的输入与前一层的局部 接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其 他特征间的位置关系也随之确定下来; 另一层为 特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。 特
18、征映射结构采用的 sigmoid 函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。其 具体结构图如图 2所示。 上述过程中每个卷积层 lC 对 1lN 层的输入位面111 ll, ,Nz 执行一次线性 llKK 滤波,输入位面为11llDD ,输出为 1ll, ,Nz位面的中任意选取的 lN层, lN 在 thp 位面中位置 (i, j)处的值计算如下: ( ) ( 1 1 )llKKl l l l
19、1p p p,q,s,t qq s= 1 t= 1z i, j = b + w z i + s, j + t (7) 偏置 lpb 和滤波器权重 lp,q,s,tw 通过反向传播算法进行训练。输出层的位面为 11llDD ,其中1l l 1 lD =D K + 。 子抽样层 lS 在每个出入位面上使用 llKK 平滑滤波: 11( ) ( 1 1 )llKKl l 1p p p qstz i, j = b + w z i + s, j + t (8) 1.3 基于深度编码器和关联分析的异构学习 首先将视频模型描述为视听双模态,其中该模型的输入 是视频帧和与视频帧同步的连续声谱。本文采用基于稀疏
20、理论的深度自动编码器异构多模态的深度学习方法。 深度自动编码器是一种利用无监督逐层贪心预训练和系统性参数优化的多层非线性网络,能够从无标签数据中提取高维复杂输入数据的分层特征,并得到原始数据的分布式特征表示的深度学习神经网络结构,其由编码器、解码器和隐含层组成。 基于稀疏理论的深度自动编码器 10对原始自动编码器的隐含层添加了约束条件并增加了隐含层数量,能提取高维数据变量的稀疏解释性因子,保留原始输入的非零特征,增加表示算法的鲁棒性,增强数据的线性可分性,使物体边界变得更加清晰。 该识别模型分为输入层、共享表示层以及输出层。 输入层:为视频资源的 2个模态,即声谱和视频帧,其中声谱采用 RBM
21、训练 ,视频帧采用 CNN训练。 共享表示层:这一层的关键是找到特征模态的转 图 2 卷积神经网络多层卷积运算和采样过程图 Fig. 2 Multilayer convolution operation and sampling process of convolution neural network 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1583 换表示从而最大化模态之间的关联性。本文采用典型关联分析( canonical correlation analysis, CCA, )的方法寻找声谱波和视频帧数据的线性转换从而形成性能优良的共享表示。 CCA是先将较多变
22、量转化为少数几个典型变量,再通过其间的典型相关系数来综合描述两组多元随机变量之间关系的统计方法,有助于综合地描述两组变量之间的典型相关关系。基本过程是从两组变量各自的线性函数中各抽取一个组成一对,它们应是相关系数达到最大值的一对,称为第 1对典型变量,类似地就可以求出第 2对、第 3对等,这些成对变量之间互不相关,各对典型变量的相关系数称为典型相关系数。所得到的典型相关系数的数目不超过原两组变量中任何一组变量的数目。 输出层:这一层为声谱和视频的重构。还原视频信息的同时,识别视频中的物体。 2 基于视频时间相关特性的参数优化 2.1 视频相关性描述 视频是由一系列图像所组成,图像中目标识别的方
23、法可以用来对视频进行识别,一段视频可以分解成很多帧,同一视频中连续的 2个视频帧很有可能表示同样的内容,视频的这种特性称之为相关特性。将这视频的这种特性用于视频的目标识别,可以使识别效果得到很大程度的提高 22。 利用视频的时间相关性来提高识别准确性已成功用于视频的动作识别 23。实验表明具有时间相关性视频卷积网络的识别效果明显比采用视频单帧进行训练的卷积网络效果优越。 2.2 利用视频相关特性的 优化 CNN 中在每个卷积层和子采样层之后都运用了一个非线性函数 )tanh( ,最后使用经典的全连接层输出识别标签向量,为了解释这些向量的概率,引入“softmax ” 层,计算公式如下: 11e
24、xpexplpp lpqzPz (9) 在普通 CNN 对视频的处理过程中,从视频的全部 图 像 帧 中 抽 取 一 部 分 作 为 训 练 样 本 ,Nnnn yx ,1),( ,x n代表二维的输入图像, yn为分类或识别的标签。对 CNN网络中所有的参数 ,以最小化似然函数 )(L 为目标,优化参数 ,似然函数 )(L的表达式如下: 11lg lg nNNn n ,y nnnL P y | x P x (10) 为达到这目的,采用随机梯度下降算法对式 (10)中的参数 进行训练,从训练样本中取 1 个随机样本),( yx ,计算出梯度 /)(L 后,按照 下 式更新参 数 。 ),( y
25、xL (11) 得到的新参数 能使卷积神经网络对视频中目标识别的性能更准确。其中 是根据实验选择的学习率。 为了使 CNN更好 地训练 ,以达到更好的识别正确率,利用视频中存在的时间相关性进一步对似然函数 )(L 进行优化。 x1和 x2是同一视频的两帧图像,它们在隐含层 l产生的特征表示为 )(1xzl 和 )(2xzl ,利用视频相关特性, 若 2个输入的图像 x1和 x2是连贯的视频图像,则强制 )(1xzl 和 )(2xzl 接近( 在 L1的规范中 ),若 2 个输入图像的不连贯帧,则将 )(1xzl 和 )(2xzl 分开,这时,需要对其中的损失最小化: ),( 21coh xxL
26、 不连续和连续和2112121121,)()(,0m ax (,)()(xxxzxzxxxzxzllll(12) 为边缘尺寸,是一个提前选取好的超参数,例如 =1。 x1和 x2分别作为 2个卷积神经网络的输入,如图3 所示,2 个网络共享同样的参数 ,首先计算出)(1xzl 和 )(2xzl ,然后通过式 (12)计算出关于 的相关 图 3 利用相邻帧的相关特性对深度学习参数进行优化 Fig. 3 Deep learning parameter optimization by using related characteristic of adjacent video frames 中南大学
27、学报 (自然科学版) 第 47卷 1584 梯度 ),( 21coh xxL 。同样使用式 (11)对 进行更新,这样达到了结合 x1和 x2的相关性,利用式 (12)来训练 的目的。上述的 CNN 自身对目标识别的任务和使用视频时间相关性对网络进行优化是同时进行的,最后得到一个优化后的参数: nm nmnnNn yxLyxL , co h1 ),(),( (13) 使得式 (13)最小的参数 即是要训练的 。在式(13)中,为了限制参数的数量,为相关似然函数),( 21coh xxL 设置了相同的 ,如可令 =1。 3 基于时间相关的异构多模态深度学习算法 基于时间相关性的异构多模态的结构如
28、图 4 所 示,将视频中的 2 个模态视频和音频分别采用 CCN和 RBM进行处理得到相应的识别标签向量。 RBM 网络的输入为与视频帧相对应的同步连续声谱,采用深度自动编码的学习模型对音频进行处理,该学习模型仍然与 1.3 节中 类似,分为输入层、共享表示层以及输出层。 RBM 的目标是最大化训练样本集 V 中的概率之积: Warg max ( )vVPv(14) CNN的优化目标则是最大化式 (9)中的概率,则基于时间相关的异构多模态深度学习算法的目的就是对参数 w, ,优化 RBM和 CNN的联合概率: arg max ( )+W vV P v P, (15) 图 4 基于时间相关的异构
29、多模态深度学习结构 Fig. 4 Heterogeneous multimodal structure of deep learning based on time correlation 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1585 利用时间相关性的优化算法如下: Input: 标签数据 (an, xn, yn), n=1, 2, , N,非标签视频数据 an, xn, n=N+1, , N+U。 Output: 神经网络的参数 w, 和识别标签 label repeat: step1: 取 1个随机标签样本 (an, xn, yn); step2: 针对音频输入
30、 an, 执行 1次梯度下降迭代优化 RBM的连接参数 w。 step3: 对视频输入帧中连续的 xn, yn 和似然函数L(, xn, yn), 执 行 1次梯度下降迭代 ; step4: 对视频输入帧中不连续的 xn, xm 和相关似然函数 Lcoh(, xm, yn), 执行 1次梯度下降迭代 ; step5: 针对音频输入 an, 再执行 1次梯度下降迭代优化 RBM的连接参数 w。 选择参数 w, 最大化式(15)中的联合概率 。 until: 迭代误差小于设置的阈值 。 上述算法就是通过交替更新目标识别任务的声谱识别和视频图像帧识别的参数来实现优化,在视频图像帧中同时利用了连续帧和
31、非连续帧的特征进行优化。以达到提高识别效率的目的。 4 实验与分析 为了验证本文提 出的异构多模态深度学习的目标识别方法的性能,利用如下图像和声音数据库作为测试视频的声音和图像帧信息 。 1) Stanford Dataset:是来自于斯坦福大学的 1个网络数据库。选用其中的语音数据部分,使用库中 23名志愿者朗读从 09 的数字,从 AZ 的字母和从TIMIT标准语音库里挑选的语句,以作为声音训练和测试数据。 2) Olivetti Faces:是纽约大学的 1个人脸数据库,由 40个人的 400张图片构成,即每个人的人脸图片为10张。每张图片的灰度级为 8位,每个像素的灰度位于 0255之
32、间,每张图片为 6464。使用图片构造被测视频的图像帧。采用人工设定视频中的人脸视频与语音数据的对应关系。视频帧中的 1,4 ,5 帧作为标签数据,其余的图像作为非标签数据。 此外,为了验证算法的有效性,将所提出异构多模态深度学习方法同已有的近邻取样、支持向量机和传统的卷积神经网络和玻尔兹曼机等目标识别方法进行比较。其中传统的卷积神经网络和波尔兹曼机即采用同构多模态的方式。将所用图像和语音数据平均分成 6 组,分为训练组 L和测试组 T,进行如下操作:1) L=1,T =5。 2) L=2,T =4。3) L=5,T =1。实验将对这 3种情况 比较这些方法对被测对象的识别率。测试的识别结果如
33、表 1所示。 表 1 基于 Stanford Dataset和 Olivetti Faces数据库测试的 算法 识别率 结果比较 Table 1 Comparison of algorithm tests results based on Stanford Dataset and Olivetti Faces database % 方法 L=1, T=5 L=2, T=4 L=5, T=1 近邻取样 69.07 81.08 94.64 支 持向量机 56.43 71.19 88.31 卷积神经网络 82.83 84.58 94.05 玻尔兹曼机 78.32 80.26 92.45 异构多模态深
34、度学习 90.35 94.77 98.86 由表 1可以看出 :随着训练集的规模增大,所有目标识别方法的识别率都得到了显著提高。 与传统的4 种目标识别方法相比,由于本文提出的异构多模态深度学习方法能够抽象 地 学习目标与时间相关的特性信息,能不依赖大量对象集进行目标识别训练,所以异构多模态深度学习方法能始终获得最高的识别率。在训练组较小 L=1,T =5 时, 异构多模态深度学习方法的测试精度是 90.35%,在训练组较多 L=5, T=1时,识别率提升了 8.51%,误差率只有 1.14%。 此外,利用以下 3种具有复杂场景和多种表情动作的视频数据集以验证本算法的有效性: UCF spor
35、t actions, Hollywood2和 YouTube action。这些数据集提取自实际场景,具有场景复杂,待识别目标具有移动性,目标捕捉困难,面对干扰较大等特性。在本次实验中利用较多训练组 L=5, T=1来验证算法的性能,其指标仍然是目标识别率。比较结果如表 2和图 5所示。 表 2 基 于 UCF, Hollywood2和 YouTube action视频库的 算法 识别率 结果 比较 Table 2 Comparison of algorithm tests results based on video database coming from UCF, Hollywood2
36、and YouTube action % 算法 UCF Hollywood2 YouTube action 近邻取样 61.08 37.64 59.34 支持向量机 55.19 38.31 60.86 卷积神经网络 81.58 43.05 68.32 玻尔兹曼机 72.26 49.45 62.21 异构多模态深度学习 86.67 63.86 77.82 中南大学学报 (自然科学版) 第 47卷 1586 图 5 标准视频库和电影视频库的结果对比 Fig. 5 Comparison of algorithm tests results between standard video databas
37、e and movie fragment database 由表 2 和图 5 可以看出 : 在更复杂的场景下, 4种方法的目标识别都更加困难。特别是针对高度复杂的好莱坞电影场景, 目标识别精度最高只有 63.86%。由于 4种数据集场景具有较大的干扰,所以具有滤波作用的玻尔兹曼机方法和异构多模态深度学习方法具有更高的识别精度。此外本文提出的异构多模态深度学习方法能够抽象 出 目标与时间相关的特性信息,特别适用于移动场景目标的识别,能获得最高的目标识别精度。 5 结论 1) 针对网络媒体数据中同时包含音频信号和时间相关的视频图像信号的特点,提出了一种异构的多模态深度学习机制,结合 RBM和 C
38、NN,通过共享特征建立关联。比单模态的处理更能获得有效信息。 2) 在异构多模态的结构中进一步利用相 邻视频帧之间的时间相关性提高识别率。通过引入了“softmax”层定义相邻帧的极大似然函数,通过迭代的梯度下降法求解优化的深度学习参数。 3) 分别使用了标准语音人脸库和截取的电影视频对算法进行实验,对比了不同数量训练用例的分组。其中截取的电影视频有更复杂的背景和表情动作。对于这 2种视频来源,所提出方法相对于所比较的方法在目标识别的精度方面都有显著提高,显示了本文算法的有效性与优越性。 参考文献: 1 王元卓 , 靳小龙 , 程学旗 . 网络大数据 : 现状与展望 J. 计算机学报, 201
39、3, 36(6): 11251138. WANG Yuanzhuo, JIN Xiaolong, CHENG Xueqi. Network big data: present and futureJ. Chinese Journal of Computers, 2013, 36(6): 11251138. 2 CHEN X W, LIN X. Big data deep learning: challenges and perspectivesJ. Access, IEEE, 2014(2): 514525. 3 李国杰. 大数据研究的科学价值 J. 中国计算机学会通讯, 2012, 8(9)
40、: 815. LI Guojie. The scientific value in the study of the big dataJ. China Computer Federation, 2012, 8(9): 815. 4 LOWE D G. Object recognition from local scale-invariant featuresC/ Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999: 11501157. 5
41、 DENG L, YU D. Deep learning: methods and applicationsJ. Foundations and Trends in Signal Processing, 2014, 7(3/4): 197387. 6 ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtractionC/ Proceedings of the 17th International Conference on Pattern Recognition. Cambridge, UK: IEEE
42、, 2004: 2831. 7 QUATTONI A, COLLINS M, DARRELL T. Conditional random fields for object recognitionC/ 18th Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2004: 10971104. 8 SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiersJ.
43、 Neural Processing Letters, 1999, 9(3): 293300. 9 MORGAN N, BOURLARD H. Continuous speech recognition using multilayer perceptrons with hidden Markov modelsC/ International Conference on Acoustics, Speech, and Signal Processing. Albuquerque, New Mexico, USA: IEEE, 1990: 413416. 10 LE Q V, ZOU W Y, Y
44、EUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysisC/ Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2011: 33613368. 11 AREL I, ROSE D C, KARNOWSKI T P. Deep machine learning-a new f
45、rontier in artificial intelligence research research frontierJ. Computational Intelligence Magazine, IEEE, 2010, 5(4): 1318. 12 HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networksJ. Science, 2006, 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1587 313(5786): 504507. 13 刘建伟, 刘媛, 罗雄麟. 深度学习研究进展J. 计算机应用研究, 2014, 31(7): 1921 1930. LIU Jianwei, LIU Yuan, LUO Xionglin. The research and progress of deep learningJ. Application Research of Computers, 2014, 31(7): 19211930. 14 HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the
限制150内