基于深度视频的人体行为特征表示与识别-孙艳丰.pdf
《基于深度视频的人体行为特征表示与识别-孙艳丰.pdf》由会员分享,可在线阅读,更多相关《基于深度视频的人体行为特征表示与识别-孙艳丰.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第42卷第7期2016年7月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.42 No.7Jul. 2016基于深度视频的人体行为特征表示与识别孙艳丰,张 坤,胡永利(北京工业大学城市交通学院多媒体与智能软件技术北京市重点实验室,北京 100124)摘 要:深度视频中的人体行为的识别研究主要集中在对深度视频进行特征表示上,为了获得具有判别性的特征表示,首先提出了深度视频中一种基于表面法向信息的局部二值模式(local binary pattern, LBP)算子作为初级特征,然后基于稀疏表示模型训练初级特征字典,获取初级特征的稀疏表
2、示,最后对用自适应的时空金字塔划分的若干个子序列使用时空池化方法进行初级特征与稀疏系数的规格化,得到深度视频的高级特征,最终的特征表示实现了深度视频中的准确的人体行为识别.在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文提出的特征表示的有效性和优越性.关键词:深度视频;行为识别;深度序列分割;局部二值模式算子;稀疏表示中图分类号: U 461; TP 308文献标志码: A文章编号: 0254 -0037(2016)07 -1001 -08doi: 10.11936/ bjutxb2016010029收稿日期: 2016-01-13基金项目:国
3、家自然科学基金资助项目(61370119)作者简介:孙艳丰(1964 ),女,教授,博士生导师,主要从事多功能感知、模式识别方面的研究, E-mail: yfsun bjut. edu. cnAction Feature Representation and Recognition Based on Depth VideoSUN Yanfeng, ZHANG Kun, HU Yongli(Beijing Key Laboratory of Multimedia and Intelligent Software Technology, College of MetropolitanTranspo
4、rtation, Beijing University of Technology, Beijing 100124, China)Abstract: Researches of human behavior recognition in depth video focused on depth video s actionfeature representation was conducted to obtain a discriminative feature representation. Firstly a LBPoperator based on the surface normal
5、in depth video as a lower feature was proposed. Then the featureswere used to train a dictionary to get sparse representation. Lastly the original depth video was dividedinto some sub depth video by an adaptive spatio-temporal pyramid and a pooling method was adopted tonormalize the lower features a
6、nd the sparse coefficient to get a higher representation. The highrepresentation realizes an accurate recognition of human behavior. The experiments on the actionrecognition dataset MSR Action3D and gesture recognition dataset MSR Gesture3D prove the author蒺simproved encoding algorithms feasibility
7、and superiority.Key words: depth video; action recognition; depth sequences segmentation; LBP(local binary pattern)operator; sparse representation人体行为识别在视频监控、医疗健康看护1等领域已经具有广泛应用.但目前人体行为识别的研究主要集中在传统彩色图像视频上,由于彩色图像视频缺乏人体的三维空间信息,对行为特征的描述不够全面,很难处理遮挡、光照及行为外观变化的特征描述问题,因此其应用效果及范围具有一定局限性2-3.随着图像获取技术的进步,深度图像获取
8、越来越容易.深度图像相比传统的彩色图像能提供更多的人体表观和结构信息,对光照变化不敏感,因此在行为识别领域,引入深度信息,研究基于深度信息北 京 工 业 大 学 学 报2016年的人体特征表示与提取是人体行为识别的关键,已经引起人们的极大关注4-6.局部二值模式(local binary pattern,LBP)是一种计算简单、非参数化的局部纹理模式描述算子,它在二维图像特征表示与提取中获得了成功.由于它对光照变化不敏感,因此,是一种有效的纹理描述算子7-8.受LBP描述算子的启发,为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,本文通过对LBP模式的深入研究,根
9、据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示.全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述.通过在公开使用的MSR Action3D和MSR Gesture3D人体行为数据库上的实验,证实了本文方法的可行性和优越性.1 基于法线信息的LBP算子在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为
10、阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0.这样,一个区域窗口中便可产生一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的LBP值,这个值反映了该区域的局部纹理信息7.鉴于LBP算子在二维模式识别领域中的成功应用9 -10,本文将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子可以很好地描述曲面的曲率变化特性.由于深度序列可以看作是一个三维到一维的函数z = f(x,y,t),这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z) = f(x,y,t)
11、 - z =0的四维超平面.该超平面上点(x,y,z,t)的法线方向为N = 驻S (= 鄣z鄣x,鄣z鄣y,鄣z鄣t, )-1T(1)和传统的梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也可以更精确地表述四维超平面的几何信息5.考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其八邻域点法线间的角度关系定义该点的新的LBP算子为LBP(P) = 移7n =0B(Angle(N,Nn)2nB(x) = 0, x 孜), i 1(4)式中:孜为设定的阈值;sum( )用于计算二值图中非零的个数.不同于
12、均匀划分时间完成视频分割,本文使用均匀划分累积运动能量所对应的时刻来进行视频分割.如图6所示,先对能量进行均匀划分后得到5个时刻t0、t1、t2、t3、t4,利用这几个时刻构造一个3层的时间金字塔:t0 - t4时间段内所有的帧作为第1层;将t0 - t4分为2个子序列t0 - t2、t2 - t4,作为金字塔的第2层;再对t0 - t2、t2 - t4进一步划分得到4个子序列t0 - t1、t1 - t2、t2 - t3、t3 - t4,作为金字塔的第3层.构建的时间金字塔见图7.在时空维度,原深度序列被划分为4 伊3 伊7个子序列.图6 时间维度根据能量函数分段Fig.6 Sequence
13、s segment according to the energy function图7 构建时间金字塔Fig.7 Pyramid in temporal dimension4. 2 池化处理对于每个子序列,通过前面字典学习得到了字典及其稀疏表示系数,使用了池化(pooling)技术对稀疏系数进行处理得到每个子序列的描述符.原始的池化技术主要有2种,平均值池化就是对池化数4001 第7期孙艳丰,等:基于深度视频的人体行为特征表示与识别据取平均值,最大值池化就是求池化数据的最大值.根据稀疏系数的特点,本文使用一种全新的池化方法,即空间平均池化与时间最大池化.另外,并不是直接对稀疏系数进行池化,而
14、是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据.给定一个维度为W 伊 H 伊 T的深度序列,它的组合LBP特征为x = (x1,x2, ,xP)沂 RM 伊 P(P = W 伊H 伊 T),关于字典D的稀疏表示系数为琢 = (琢1,琢2, ,琢P)沂 RK 伊 P,琢i的第k个元素记为琢ki . x中在该序列第t帧的子集计为Nt.对字典的每个视觉词,首先应用空间平均池化计算组合LBP特征与视觉词之间的差异uk(t) = 1|Nt |移i沂 Nt琢ki (xi -dk) (5)式中:uk(t)沂 RM,表示第t帧内第k个视觉词的池化差异向量;|Nt |表示集合Nt中元素个数;
15、琢ki为组合LBP特征xi对应字典D的稀疏系数琢i的第k个元素.然后,使用时间最大池化得到差异向量uk沂RM,uk的第m个元素umk (t)的计算方法为umk = maxt =1, ,Tumk (t), m =1, ,M (6)时间最大池化后得到的特征向量uk在保留序列重要的类别信息的同时又去除了大量冗余的信息.最后,将所有视觉词的差异向量连结起来得到该子序列的M 伊 K维的描述符,得到子序列的规格化的表示U = (uT1, ,uTK)沂 RM* K (7)最终的将4. 1节中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符,将这个描述符输入到文献12中相同的线性SVM分类器进行
16、分类识别.5 实验结果与分析为了验证本文定义的行为特征的表示能力和识别效果,在2个公开的人体行为数据库上进行了实验.所有实验代码使用Matlab语言编写,实验的软件环境为Windows 7 64位,Matlab 2014;硬件环境为Intel(R) Xeon(R) CPU E5-2687W 伊2,128 GB.5. 1 基于MSR Action3D数据库的人体行为识别MSR Action3D数据库3是使用微软Kinect深度传感器采集的公共数据库,该数据库由10个表演者完成20种动作的深度序列构成,每个表演者的每个动作采集2 3次. 20种动作分别为:高挥臂(high arm wave)、低挥
17、臂(horizontal arm wave)、敲打(hammer )、手抓( hand catch )、冲拳( forwardpunch)、高抛(high throw)、画叉(draw 伊 )、画勾(draw tick)、画圆(draw circle)、拍手(hand clap)、双手挥(two hand wave)、侧拳( side boxing)、弯腰(bend)、向前踢( forward kick)、向侧方踢( sidekick)、慢跑(jogging)、网球挥拍(tennis swing)、网球发球(tennis serve)、高尔夫挥杆(golf swing)、拾起并抛出(pick
18、up and throw).虽然这个数据库的背景经过处理,但是由于20种动作中许多动作非常相似,对这个数据集进行识别仍然具有很大的挑战性.为了便于性能比较,遵循文献4,5,12中的实验设置:在10个表演者中,选择第1、3、5、7、9个的数据作为训练集,第2、4、6、8、10个的数据作为测试集.首先通过实验考察LBP算子的邻域半径对识别性能的影响,这次实验使用了2. 2中的空间金字塔LBP算子的组合方式,实验结果见表1.表1 在MSR Action3D数据库上,不同LBP算子邻域的识别结果Table 1 Results of LBP operator with different radius
19、onMSR Action3D datasetLBP算子邻域半径正确率/ %1 93. 822 94. 913 94. 554 93. 81可以发现,当LBP算子邻域半径r =2时得到了识别率为94. 91%的最好识别结果,这个结果比原始的r =1时的结果提升了1%,这表示改进后LBP对识别起了积极的作用.选取r = 2在该数据库上进行下面的实验.其次,考察深度序列中LBP算子的2种组合方式对识别性能的影响,实验结果见表2,表中“不组合冶表示使用中心的LBP算子作为LBP特征进行后续编码工作,这种特征中心点使用一维数字表示,没有考虑到深度序列的时序性,也几乎没有考虑中心点邻域信息,所以识别结果不
20、理想;使用组合的LBP算子方式后,弥补了这种缺憾,实验结果明显改善.本文提出的方法与一些现有算法的实验结果比较见表3.实验中,LBP邻域半径设置为2,采用空间金字塔的LBP算子组合方式.本文选择了近几年比较杰出的识别方法作为比较对象,实验中都使用5001北 京 工 业 大 学 学 报2016年表2 在MSR Action3D数据库上,不同LBP算子组合方式的识别结果Table 2 Results of LBP operator with differentcombinations on MSR Action3D datasetLBP算子组合方式正确率/ %不组合91. 64立方体方式组合93.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 视频 人体 行为 特征 表示 识别 孙艳丰
限制150内