基于kinect的人体动作识别方法-辛义忠.pdf
《基于kinect的人体动作识别方法-辛义忠.pdf》由会员分享,可在线阅读,更多相关《基于kinect的人体动作识别方法-辛义忠.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2016年4月第37卷第4期计算机工程与设计COMPUTER ENGlNEERING AND DESIGNApr2016V0137 No4基于Kinect的人体动作识别方法辛义忠,邢志飞十(沈阳工业大学信息科学与工程学院,辽宁沈阳110870)摘要:为解决在Kinect平台下人体动作识别中时空复杂性的问题,提出一种基于特征选择的模板识别方法。根据人体不同位置关节点对动作表达的贡献度的不同,将骨骼模型60维的关节点数据转化成24维的距离特征向量,该特征模型能够在空间上对动作进行表示,具有一定不变性,计算复杂度低;结合动态时间规整的思想,解决动作识别在时间轴上不统一的问题;基于所提出的方法实现动作
2、识别系统,定义6种基于交互的上肢动作,在此动作库中进行两个实验共1320次测试,两个实验的平均识别率为936和898,实验结果验证了该方法的鲁棒性和有效性,可以满足交互任务的需求。关键词:人机交互;骨骼跟踪;动作识别;动态时间规整;Kinect中图法分类号:TP3914 文献标识号:A 文章编号:10007024(2016)04105606doi:1016208jissnl0007024201604040Human action recognition method based on KinectXIN Yizhong,XING Zhi-fei+(School of Information S
3、cience and Engineering,Shenyang University of Technology,Shenyang 110870,China)Abstract:To solve the variety and spatic-temporal complexity of human action recognition based on Kinect,a template recognition method based on selecting suitably features was proposedThe full skeleton formulated in a 60D
4、 feature vector was tuned tOan 24D joint-distance feature vector according to the contribution of defferent joints tO action presentationThe feature model wasan action discriptor with scaling invariance and easy-computing characteristicsA dynamic time wraping algorithm was proposedtO solve the speed
5、 problem of action recognitionAn action recognition system was developed based on the proposed method6kinds of upper limb actions were defined for interactive requirementsTwo experiments were conducted to evaluate the methodon a dataset with 1320 action instancesThe results show that the proposed me
6、thod can achieve average precisions of 936and898through two experiments respectively,which demonstrates that the method is effective,robust and entirely meets interactive requirementsKey words:human-computer interaction;skeletal tracking;action recognition;dynamic time warping;Kinect0引言人动作的多变性和时空复杂性
7、使动作识别面临着主要问题,随着动作数量的增加,误识别问题也会凸显12。目前,可通过穿戴式传感器(陀螺仪、加速度传感器等)采集人体运动参数对人体动作进行识别3“,这种方法准确性、实时性高,但附着传感器使穿戴者舒适感降低。在基于视觉的方法中,当前的研究主要是基于2D视觉,而识别效果往往受环境(背景、光照、遮挡等)因素影响严重5。微软Kinect体感摄像头的出现为动作识别研究者提供了新的契机,结合骨骼跟踪技术能够实时(约30帧Is)产生骨骼数据。可无接触式的获得人体3D信息,并且几乎不受背景、光照的影响。基于Kinect的动作识别方法有直接利用关节点数据,设定规则集的方法,利用关节点之间位置(角度、
8、高度等)、移动速度、加速度等定义一些阈值来识别动作。谢亮等6通过确定关节点之间的欧氏距离与角度来判别特定姿势,得到了较好的识别效果。这种方法由于实现简单被广泛使用,但是每插入一个新动作就需要对该收稿日期:20150418;修订日期:2015-0620基金项目:国家自然科学基金项目(61100091);教育部留学回国人员科研启动基金项目(2013693);辽宁省高等学校杰出青年学者成长计划基金项目(LJQ2012007);沈阳工业大学青年学术骨干教师培养基金项目(201141);沈阳工业大学博士科研启动基金项目(20113 30)作者简介:辛义忠(1976一),男,辽宁沈阳人,博士,副教授,CC
9、F高级会员,研究方向为人机交互、生物特征识别;+通讯作者:邢志飞(1989一),男,辽宁大连人,硕士,研究方向为人机交互、模式识别。E-mail:hizhifeisinacowl万方数据第37卷第4期 辛义忠,邢志飞:基于Kinect的人体动作识别方法动作进行定义,可扩展性低,识别能力有限。另一种思路是先进行特征提取,然后选择适当的分类器进行识别。Raptis等71使用Kinect获取骨骼信息,从人体结构的角度将骨骼信息转化为人体角度特征,实现了舞蹈姿态分类识别,线下分类识别的精确度达到919;Lai等8将关节点数据转化为二维距离特征,选择最近邻分类器进行手势识别,在限制动作速度情况下达到了9
10、225识别率。本文通过适当的特征选择,以基于动态时间规整的模板匹配方法解决动作识别的时空问题,实现灵活性、鲁棒性、实时性较强的识别方法。1 Kineet平台简介微软推出了Kinect for Windows版本以及Kinect SDK,使Kinect能够在Windows平台下进行使用,迅速引起了一波自然用户界面应用开发的热潮,应用领域涉及科学、教育、广告等。11深度图像获取原理Kinect通过一种属于结构光技术的深度计算方法获得深度数据,此技术利用红外发射器投射结构光到空间物体表面形成不同形状的“激光散斑”,通过深度摄像头采集散斑图进行光源标定,最后经过插值运算得到整个场景的三维形状1 0|。
11、深度图像是Kinect深度数据的图像化表示,是伪灰度图像,是将深度数据转换为32位256色阶的灰色图像,纯黑(纯白)表示大于(或小于)Kinect可视范围,像素灰度值表示物体距离摄像机的距离,灰度值越大(越小)表示距离越远(越近),反之则越近(越远)。12骨骼跟踪技术骨骼跟踪(skeleton tracking)是微软将Kinect获取的深度图像实现人体主要关节点定位及跟踪的技术,根据文献E113描述骨骼跟踪可分为3个步骤:步骤1前景分割,利用图像处理技术实现人体前景分割,根据远近关系分析每个像素点是否属于人体部位,然后通过边缘检测将人体从整幅深度图像中提取出来。步骤2部位识别,该阶段是从人体
12、轮廓区域图像中识别出人体各个部位,使用数以TB计的数据进行训练得到用于分类人体部位的随机森林模型,此模型能够给每个像素标注一个类别标签及概率(In头部、肩部等),可将人体划分为32个不同部位。步骤3关节点识别,将属于同一部位的像素点合并成一个关节点,结合基于高斯核函数的Mean Shift局部模型识别方法对关节位置进行判定,从正面、侧面多个角度去准确定位人体骨骼关节点。通过上述3个步骤从一帧深度图像得到一帧骨骼数据,目前Kinect可以识别定位20个关节点,每个关节点具有三维信息。2骨骼数据特征提取与动作表示在Kinect平台下获得了20个骨骼关节点数据,如何将骨骼数据进行特征提取是识别任务的
13、关键步骤,本文提出一种关节点相对距离的特征并以此特征序列对动作进行表示,方便之后的识别工作。21骨骼数据特征提取原则Kinect提供的骨骼数据是在骨骼坐标系下的三维点,能够描述当前人体处于骨骼坐标系下的位置,但是如果人或者Kinect的位置发生变化时,会导致坐标系及关节点数据发生变化。因此直接利用关节点数据无法建立一个能够描述一个动作的模型,必须从将关节点数据转化成能够描述人体动作的特征。提取的特征需要满足以下4点要求:提取的特征数据能够表示人体的动作,且具有唯一表示性;选取的特征数据应该保持连续、稳定,并且达到降维,减少计算量目的;人和Kinect之间的位置和角度变化时,提取的特征要能满足一
14、定的不变性;在进行特征提取时应考虑不同人身高、尺寸的差异。22特征提取与归一化通过观察Kinect人体关节点数据及骨架模型,如图1所示,这20个关节点对动作表达贡献度不同,在人体躯干部分的7个关节点数据是一个比较稳定的部分,且定位较准确,这7个点可以看成一个位移、角度变化不大的部分,视为标杆,人体的不同动作的表达是由四肢关节点相对躯干部分的不同位置所表示的。四肢关节点中肘关节、腕关节、膝关节、踝关节,是能够在动作表达中贡献较大的关节点。H图1 Kinect人体骨架模型人体的动作的表达是由四肢关节点相对躯干部分的不同位置进行描述的,四肢关节点中肘关节(elbow)、腕关节(wrist)、膝关节(
15、knee)、踝关节(ankle),是动作表达中贡献较大的关节点,舍弃头部关节点是认为其在动作表达中没有贡献。舍弃手部和脚部点,是因为手部和腕部,脚部和踝部点几乎很接近,同时选择对动作识别意义不大,而且增加了计算量。取躯干部位的中心点脊椎点(spine)作为的参万方数据1058 计算机工程与设计 2016焦考点,计算四肢关节点到脊椎点立体空间中3个维度上的距离,本文称作距离特征。以左腕到脊椎点的距离特征为例,蕊一S表示左腕点与脊椎点X方向的距离,即两点X值做差。岛一s表示左腕点与脊椎点Y方向的距离,豳。表示左腕点与脊椎点Z方向的距离。本文中共提取24个距离特征,定义F表示一帧骨骼数据中提取的距离
16、特征向量集合,则F一dxw s,粕s,豳s,冼s,媪s”) (1)骨骼模型随着人体尺寸差异以及人相对摄像头的距离变化而变化,为降低这种差异的影响,取能够表示人体身高的肩部中央点(shoulder center)到脊椎点(spine)的欧式距离d对特征进行归一化处理,将特征除以d得到归一化特征。通过分析骨骼数据的特点将原始关节点数据转化成距离特征并进行归一化处理,在分析人体不同部位的动作时,可进行组合性的选择,例如分析手部动作时,可选择与上肢关节点相关的特征。23基于特征序列的动作表示Kinect能够以每秒约30帧速率产生骨骼数据,一个动作可以看成连续多帧骨骼数据的组合,将连续骨骼帧数据进行特征
17、提取形成动作特征序列表示动作,这样对动作描述更加贴切。那么,对于一个动作A有A一(F1,Fa,只,R) (2)式中:E第i帧骨骼数据对应的特征向量集合,行帧表示一个动作,那么一个动作的特征向量是24*行维的。3动作识别方法本节中首先分析了动作特征序列识别是时间序列识别问题,然后重点讲解如何利用DTW解决动作特征序列在时间轴上不一致的问题。31时间序列的识别问题动作具有时空属性,在空间上将动作转化为特征序列进行表示,建立了动作在空间上的模型,但是还需要考虑时间问题,也就是解决动作快慢的问题。如图2所示,是两次在Kinect前做左手体侧向上举的动作时左手关节点的dxs特征随时间的变化曲线,由于篇幅
18、关系,不列出所有特征的变化曲线,图2(a)是动作稍慢完成的变化曲线,图2(b)是动作稍快完成的变化曲线。从图中可以看出同一个人做一个动作时,曲线的波形相似,但是两次以不同的速度完成一个动作的特征曲线之间存在偏移。客观来看,人在做动作时都会存在有快有慢的情况,这都是动作自然的表达,必然具有一定的随意性,这是不可避免的。不能保证一个人在做动作时,都保持恒定速度,更无法保证不同的人做相同动作时保持相同的速度。在模板识别中,是以两个动作的波形相似度判断是否趔目婆镀掣趔耳磐褪型帧数,帧(a)稍慢速完成动作帧数帧(b)稍快速完成动作图2左手关节点dxW s特征的变化曲线属于同一个动作,这种相似度计算最常用
19、的方法就是求向量之间的欧式距离,计算同一个时间点上两个动作的特征之间的欧式距离,但是计算欧式距离的两个序列长度应相同。假设将表示同一个动作的不同长短的序列在时间轴上进行缩放,使两个序列长度相同,这样就使这两个长短不一的波形更加相似,这种思想就是动态时间规整。32动态时间规整原理Sakoe提出了动态时间规整(dynamic time wrapping,DTW)来解决两个时问序列在时间轴上不规整的优化算法,最初用于解决语音识别时间序列问题。DTW算法的原理是重新规整两序列找到距离最小的匹配路径,求解两序列的累积最小的距离,即两序列真实相似度,这个匹配路径就是两序列上点与点的映射关系,消除了序列在时
20、间轴上的差别,使两序列之间的失真度变小,重叠度最大。目前,DTW主要应用在语音处理、笔迹识别12和视觉模式识别1胡等方面。33基于I)TW的相似度计算下面将重点讲解如何利用DTW算法计算两动作序列的相似度。假设有两个动作序列:T=(兀,T2,L),S一(S。,S2,&)长度分别是理和m,T是测试序列,S是模板序列。如果n=m,那么就直接计算两个序列对应点的特征向量累加距离即可。如果nm,这时就需要调整两个序列的长度,以达到匹配的目的,通常的做法是将短序列拉伸至长序列长度,或是将长序列缩短至短序长度再进行比较。但是这种做法并没有考虑到动作序列中各时间阶段中持续长短不一,并不能准确找到两序列对应关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 kinect 人体 动作 识别 方法 辛义忠
限制150内