基于局部信息融合的行为识别研究.docx
《基于局部信息融合的行为识别研究.docx》由会员分享,可在线阅读,更多相关《基于局部信息融合的行为识别研究.docx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于局部信息融合的行为识别研究Research on Behavior Recognition Based on Local Information FusionI摘 要人体视觉和行为识别技术目前是计算机科学和视觉技术领域以及人工智能视频技术领域中的一个重要的学术研究课题。在信息时代,人们的日常生活和工作中,具有较强的人体视觉和行为识别能力的人体智能识别设备在高级人机交互、无人驾驶、智能视频与监控、移动机器人定位与卫星导航、虚拟与现实等人工智能领域中都具有重要的应用,同时人们对于此类人工智能产品的需求也与日俱增。因此,对于人工智能视频技术中人体行为识别技术的研究和发展具有重要的学术研究价值和意
2、义。目前的人体行为识别方法对短视频的人体行为识别处理效果较好,例如双流神经网络、3d卷积神经网络、时空卷积神经网络等识别方法。这些行为识别网络的视频输入或是随机选择的一个原始的RGB图像,或是选择堆叠一组密集的RGB图像,或是一组光流图。但是对于长视频而言,密集的选择一组图像帧无法比较客观的表示全局信息。因此本文从短视频的理论与技术实际的角度出发,针对长视频的人体行为识别提出了一种基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN),该方法将长视频分为等长的多段视频分别进行人体行为的识别,再把分段的短视频的识别结果进行融合。这种网络是基于长
3、时间建模的思想,它很好的结合了稀疏时间视频采样的策略,使整个动作视频能高效学习。本文提出的识别方法在公开的数据集UCF101和 HMDB51上分别进行了实验,对比实验结果表明本文提出的KFSN网络能够取得较好的行为识别效果,在UCF101上达到了95.0%的识别率,在HMDB51上达到了70.1%的识别率,优于一些现有的行为识别网络性能。关键词:行为识别;关键帧提取;局部信息;信息融合 AbstractHuman vision and behavior recognition technology is currently an important academic research topi
4、c in the field of computer science and visual technology and artificial intelligence video technology. In the information age, people s daily life and work, human body intelligent recognition devices with strong human vision and behavior recognition capabilities include advanced human-computer inter
5、action, unmanned driving, intelligent video and monitoring, mobile robot positioning and satellite navigation, virtual It has important applications in the field of artificial intelligence, such as reality, and the demand for such artificial intelligence products is also increasing. Therefore, it ha
6、s important academic research value and significance for the research and development of human behavior recognition technology in artificial intelligence video technology. Current human behavior recognition methods have a better effect on human behavior recognition of short videos, such as dual-flow
7、 neural networks, 3d convolutional neural networks, spatiotemporal convolutional neural networks and other recognition methods. These behavior recognition network video inputs are either a randomly selected raw RGB image, or a stacked set of dense RGB images, or a set of optical flow maps. However,
8、for long videos, intensive selection of a group of image frames cannot objectively represent global information. Therefore, from the perspective of short video theory and technical reality, this paper proposes a key frame segment network (KFSN) based on the fusion of local information of key frames
9、for human behavior recognition of long video. This method will The long video is divided into multiple lengths of video of equal length to separately recognize human behavior, and then the recognition results of the segmented short video are fused. This kind of network is based on the idea of long-t
10、erm modeling. It combines the strategy of sparse time video sampling well, so that the whole action video can be efficiently learned. The identification method proposed in this paper was tested on the public data sets UCF101 and HMDB51 respectively. The comparison experiment results show that the KF
11、SN network proposed in this paper can achieve better behavior recognition results, and achieve a recognition rate of 95.0% on UCF101. It has achieved a recognition rate of 70.1%, which is better than some existing behavior recognition network performance.Key words: Behavior recognition; Key Frame Ex
12、traction; Local Information; Information FusionII目 录摘要I AbstractII第1章 绪论11.1 研究目的及意义11.2 国内外研究现状31.2.1 基于传统的手工提取特征方法31.2.2基于深度学习的方法41.3 研究难点61.4 研究内容71.5 本文的结构安排8第2章 人体行为识别技术92.1 行为识别流程92.2 基于手工特征的人体行为识别方法102.2.1 基于轨迹跟踪的特征提取方法102.2.2 基于时空兴趣点的采样方法112.3 基于深度学习的人体行为识别方法112.3.1 双流网络122.3.2 3D卷积网络132.3.3
13、 受限波尔兹曼机132.3.4 循环神经网络142.4 本章小结15第3章 基于关键帧的局部信息融合的分段视频识别网络163.1 时序分段网络163.2 关键帧提取网络173.3 KFSN网络结构183.3 KFSN网络训练193.3 KFSN网络测试203.3 本章小结20第4章 实验结果与分析214.1 数据集简介214.1.1 UCF101数据集214.1.2 HMDB51数据集224.2实验结果与分析224.2.1 实验内容224.2.2 实验结果234.2本章小结25第5章 总结与展望265.1 总结265.2 未来展望26参考文献28致谢3236第1章 绪 论1.1 研究目的及意义
14、近年来,随着我国经济社会的进步和国民经济的进一步发展,各种公共安全问题和突发事件也越来越多,世界各国也都更加的注重国内公共场所的安全保护和防范,视频图像监控系统越来越多的广泛应用于各种公共场合,如在国际机场、车站、办公场所、住宅小区等各处大量的安装了视频监控摄像头。由于近年来我国平安智慧城市建设等各项政策的实施和进一步开展和深化,以及随着金融、交通、教育等各行业的用户公共安防意识的不断提高和增强,视频图像监控的市场保持了强劲增长的良好势头。从2008年开始,中国每年的新增摄像头的使用数量都已经超过百万个,并且每年仍均20%以上的增长速度保持着增长。视频监控的数字化给视频监控数字化系统的使用者带
15、来了大量的视频监控资源,也带来了一些问题。比如,这些视频摄像头并没有充分发挥主动的录像监督的作用,仍然以人工监控视频摄像为主,而且只是简单的把视频摄像内容和视频进行了记录。这样的视频监控系统有两个主要的缺陷:一是当异常情况发生时,安保工作人员可能需要事后通过监控视频录像才能准确观察到异常事件发生或者因为工作疏忽而造成的遗漏、误报或者漏报的情况发生;二是视频监控需要大量的时间和人力、物力以及大量财力的长期投入,因此妥善管理和维护监控视频摄像系统所需要花费的时间和代价也是惊人的,而且由于海量的视频摄像头24小时不停歇工作,带来的是海量录像数据,使得录像数据检索困难,产生大量的错误或者垃圾录像数据,
16、效率也是非常低的。所以这样的视频监控系统往往被认为是“事后诸葛”,没有了提前预警的视频监控功能。为了更好的解决上述众多的问题,将计算机视觉图像处理技术直接融入到视频监控图像处理系统,对于视频数据中的信息流进行图像处理、目标信息分析等图像处理工作,自动检测、判断特定目标的动作,跟踪目标、分析特定目标的行为并对目标行为进行相关的记录,同时系统可以通过先进的智能算法,完成全天候的实时自动监控并能够准确识别外部事件。比如在海关、银行、停车场等各种公共场合有危险可疑违法行为发生时,系统能够迅速地向安保工作人员和公安人员发出警报,提示参与监控的人员关注目前所监控的画面,以便监控人员能及时有效地制止危险的发
17、生;同时能有效地帮助系统降低误报率和漏报率,提高系统对于视频内容的检索处理速度,减少垃圾视频数据的产生,使系统对于视频的信息图像处理变得更加的容易。计算机视觉技术主要釆用了生物的视觉原理,依靠先进的图像传感器设备来釆集待处理的图像,这些传感器设备可以直接替代了人类的眼睛,而分析和处理采集的图像需要直接或间接的依靠先进的计算机来完成。利用计算机视觉技术可以采集和分析处理周围环境的三维世界图像,作为一门交叉性的学科,它不仅广泛地涉及到现代计算机基础科学、数学、光学、控制学、神经心理学、神经生理学和神经临床病理学等自然学科,还广泛地涉及哲学、认知心理学以及视觉美学等社会科学。目前对于计算机视觉技术的
18、应用己经广泛深入到各行各业,特别是在工业生产中,如对工业机械零部件的检测和测量,目前一些人工视觉技术达不到的检测和测量水平,计算机视觉技术几乎可以轻易地做到。目标的检测、跟踪和对人体行为的识别与理解是目前计算机视觉领域中一个非常重要的研究内容,目标的检测、目标的分类与跟踪是视频监控中研究比较多的三个待处理问题,属于计算机视觉监控任务处理中的低级和中级的任务处理部分。更为高级的视觉任务处理部分应该是对行为的识别与理解,它是对监控目标的具体运动模式进行分析和识别,并用自然语言等手段加以解释和描述,是视频监控系统中的最终目标任务之一。目前行为的识别通常是以人体的行为活动作为主要观察和研究的对象。人体
19、的行为是人体行动的一种方式,是表达人对于环境或者其他物体的一种反应。多数的情况下,人体是通过肢体的各种运动来描述或表达复杂的人体行为,即人体的运动由肢体的各种运动组合组成。因此,通过人体的运动来分析人体的行为就成为理解人体行为的一种有效途径。研究运动目标,特别是对人体运动目标的不同行为和动作的识别具有重要的理论意义,它涉及的范围包括计算机人体视觉、模式识别、机器视觉学习、数据挖掘、认知心理学等多个学科和领域。人体的行为识别的研究仍然还处于一个初级的理论和研究阶段,尽管已经出现了各种各样的行为识别算法,但绝大多数的算法都局限于严格标准化的实验研究环境,不适用于在各种复杂多变的实际环境中进行。从模
20、式识别和机器视觉学习的角度看,目标的行为识别都需要通过选择合适的行为识别模型和优化分类器,通过对最小化训练样本的估计误差或者模型的分类算法误差去评估和学习行为识别模型的未知参数。如何根据理论和先验知识对运动目标的结构进行合理的建模,提取有效的特征,设计合适的分类器,以及如何选择可行的模型和优化分类算法都是这个领域需要研究和解决的主要问题。因此,目标的行为识别对于学习和研究现代计算机统计学具有十分重要的意义和重要研究价值。从认知心理学的角度来看,认知心理学主要是研究人对所输入的各种信息如何进行表征、存储、加工并将其转化为知识,运用这些知识来控制和指导自己的行为和解决各种问题。而图像序列中关于人的
21、行为识别的研究正是要计算机利用类似计算机对人类的视觉感知的行为方式,对计算机所输入的图像序列进行分析和底层处理,然后通过运用计算机训练得到的估计模型和分类器,把底层图像的特征转化为高层语义。这包括了人在哪里、在干什么,与现代认知心理学的机理相似,因而,人的行为识别的研究和发展为进一步研究探索人类的视觉感知和各种心理活动方式提供了新的思路和研究方法。同时,在人体的行为识别的研究中,还涉及到计算机视觉中从底层图像特征到高层图像语义之间的许多关系和问题。因此,该研究方向的理论和研究成果对于计算机视觉及其他相关的研究领域发展有着重要的借鉴意义。总之,视频流中包含大量的有用的信息,如何让现有的大量的传感
22、器和数字视频监控管理系统进行智能化的工作,已开始逐步得到广大科研工作者、政府和商家的高度重视,视频人体行为识别具有重要的研究价值与意义。1.2 国内外研究现状基于视频流的行为分析与理解逐渐已经成为了计算机视觉领域一个重要且备受关注的研究方向,其核心研究内容是如何利用计算机视觉、模式识别、图像信号处理等技术对视频流的目标序列进行目标检测、目标分类、目标跟踪以及对处于场景中的监视区域中的运动行人的行为进行理解分析与描述。目标检测是视频监控图像处理系统的基础,属于低层次的计算机视觉问题,目前已经有了很多较为成熟的检测算法。为了能够进一步对场景中的运动目标进行跟踪和轨迹分析,需要对场景中的运动目标进行
23、精确的分类。而作为视频监控图像处理系统中最基本的功能之一的目标跟踪,是当前制约视频监控图像处理系统发展的一个主要瓶颈。而如何对人的行为进行分析和识别是近几年被广泛关注的一个研究热点,它研究的主要是如何对人的行为运动模式进行分析和识别,也可以简单的把它看成一个对时变行为数据的分类和匹配问题,即将测试的序列与预先标定的典型行为的参考数据序列进行匹配。1.2.1 基于传统的手工提取特征方法在人工智能和深度学习出现之前,通过人工设计图像特征来进行人体的行为识别是主流的研究方向,其具有固定的处理过程:特征的提取、特征的表示和对动作的分类。基于人工设计图像特征的行为识别方法大致来说可以将其区分为两类,即基
24、于全局特征的人体行为识别和基于局部特征的人体行为识别。全局特征提取的基本实现方法是首先从一个视频中通过图像检测出一个人体位置区域,并将该位置区域的为中心的作为兴趣区域,在兴趣区域中提取大小、颜色、轮廓和形状等特征作为视频中的人体行为特征表示,利用视频动作中人体位置信息的变化来训练构造整体模型。基于全局特征的代表性方法有运动能量图( Motion Energy Image,MEI )和运动历史图( Motion History Image,MHI ),它们是由Bobick等人共同提出,这种方法主要是在相邻两个视频帧之间进行差分运算来对获取人体行为的特征表示。这种方法的优点是能够清晰地保持视频中人
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 局部 信息 融合 行为 识别 研究
限制150内