基于rgb-d图像信息的物体识别研究-骆健.pdf
《基于rgb-d图像信息的物体识别研究-骆健.pdf》由会员分享,可在线阅读,更多相关《基于rgb-d图像信息的物体识别研究-骆健.pdf(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、IYll LI113III LIl2LHllIIIIl9Ill LIl3IIItl5IIII L1II L0分类号 学号_兰虹盟卫旦塑9密级蔫彳砖号羔走多硕士学位论文基予R6BD图像信息的物体识另|j研究学位申请人:学科专业:指导教师:骆健软件工程蒋曼答辩日期: 兰旦堡年幽旦万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringThe Research of Obj ect Recognition Basedon RGBD lnf
2、ormationMaster Candidate-Major:一 Supervisor:LU0 JlanT TSoftware E ngineeringProfJiang MinWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay,2017万方数据武汉科技大学研究生学位论文创新性声明lUllIIlUllllllllllIlllIllUIlllllllIllllUIY321 9351本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的工
3、作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名: 丛墨也日期:丝!Z:匕研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:
4、指导教师签名:日万方数据摘要物体识别一直是计算机视觉及模式识别领域的核心课题之一。随着深度传感技术的迅猛发展,利用RGBD图像信息来解决物体识别问题已成为计算机视觉领域的研究热点。本文以提取鲁棒性的特征为目的,从特征提取及表达、特征学习两个方面着手,展开了基于RGBD图像信息的物体识别的研究工作,主要的内容如下:(1)提出了一种基于核描述子的RGBD图像物体识别方法。首先,在对原有深度核描述子中的采样点选取和紧凑基向量的计算进行改进的基础上,提取RGBD图像的形状、尺寸、边缘、颜色等多个互补性核描述子特征以及SIFT描述子特征;然后依次进行局部约束线性编码、空间池化和特征融合等处理得到物体图像
5、最终的特征向量;最后,采用线性SVM进行物体分类。在RGBD数据集上的实验表明,与其它传统方法相比,该方法在一定程度上能有效地提升了物体的识别精度。(2)提出了一种基于多模态卷积递归网络的RGBD图像物体识别方法。鉴于从深度图中提取的三维曲面法线特征可以较好地反映物体3D表面特性。在该网络模型中,卷积网络层提取RGB图、灰度图、深度图和3D曲面法线的低层特征,作为多个固定树结构的递归神经网络层的输入,经过多层抽象提取后,得到更加抽象的高层特征。在RGBD数据集上的实验表明,该算法可在一定程度上避免人工设计(handcrafted)特征的复杂性,而多模态特征的融合,能进一步提升卷积递归网络的物体
6、识别性能。关键词:RGBD图像;物体识别;核描述子:多模态;卷积递归神经网络万方数据AbstractObject recognition has been a key problem in computer vision and patternrecognitionWith the rapid development of deep sensing technology,using RGBDimage information to solve the issues of object recognition has become a hotspotresearch in the domain
7、of computer visionIn this paper,to get robustness features,wecarried out a research of object recognition based on RGB-D image information,whichfrom the following two aspects:feature extraction and expression,feature learningThemain works are illustrated as follows:(1)An object recognition method of
8、 RGBD image is proposed which based onKemel DescriptorFirstly,improving the sampling points selection and basis vectorscalculation schema for the previous depth kernel descriptor,and extracting severalcomplementary kernel descriptors from RGBD images,such as 3D shape,size,edgesand color,additionally
9、,SIFT descriptorsThen,to form the final feature representation,the extracted features,which from different cues,are processed sequentially byLocality-constrained Linear Coding,Spatial Pyramid Pooling and feature fusionFinally,using linear SVM classifier to realize RGB-D object recognitionExperimenta
10、l results onRGB-D dataset show that,compared with other traditional methods,the proposedmethod improves the object recognition accuracy(2)An object recognition algorithm based on Multi-modal Convolutional-RecursiveNeural Networks is proposedAs the 3D surface normal,which extracted from depthmap,can
11、reflect the surface features of an objectWe adopt CNN layer to learn low-levelfeatures from RGB images,gray images,depth images and 3D surface normal maps,andthen take the learned features as inputs to a Recursive Neural Networks with multiplefixed-treeTo compose higher order features by multilayer
12、networks extraction andcalculationExperimental results on RGBD dataset demonstrate that this algorithm Canovercome the drawbacks of traditional handcrafted features,moreover,the schema offusing of Multimodal features improves the performance of the object recognition ofconvolution recursive ne鲥orkKe
13、ywords:RGB-D Image;Obj ect Recognition;Kernel Descriptor;Multi-modal;ConvolutionalRecursive Neural NetworksII万方数据目 录摘要IAbstractII第1章绪论 l11研究背景及意义l12国内外研究现状213本文的研究内容414本文的结构安排5第2章RGBD图像物体识别相关技术介绍621基于Kinect设备的深度信息获取622 RGBD图像的特点723 RGBD图像特征提取824支持向量机1l25 RGBD物体识别数据集1226本章小结一13第3章基于核描述子的RGBD图像物体识别。14
14、31核描述子特征提取14311尺寸核描述子16312梯度核描述子17313局部二值模式核描述子18314颜色核描述子18315 Spin核描述子l 832局部约束线性编码1933基于RGBD图像的核描述子编码算法一2l34实验结果及分析22341实验过程22342实验结果比较23343结果分析2535本章小结27第4章基于卷积递归网络的RGBD图像物体识别。2841深度学习概述28I万方数据411深度学习的理论及思想28412深度学习的常用模型一2942基于多模态卷积递归网络的特征学习相关介绍31421图像分块及预处理一32422卷积及池化处理34423递归神经网络3543基于多模态卷积递归网
15、络的RGBD物体识别算法一3644实验结果与分析37441 RGBD数据库3744-2实验结果及分析3745本章小结41第5章结论与展望4251本文的总结一4252未来的展望42ilI:谢。d14参考文献45附录1攻读硕士学位期间发表的论文50附录2攻读硕士学位期间参加的科研项目51IV万方数据武汉科技大学硕士学位论文11研究背景及意义第1章绪论视觉是人类观察、感知外部世界的主要方式。计算机视觉是让计算机及相关设备获取并理解图像、视频信息,使之具备与人类视觉相当的信息处理能力的一门综合性学科。作为计算机科学与人工智能的一个极其重要分支,计算机视觉已在工业检测、安全监控、视觉导航、医学诊断等众多
16、领域得到广泛的应用,展现了巨大的经济和社会价值。基于视觉信息的物体识别(本文简称为物体识别)涉及到图像处理、机器学习、神经网络等多门学科知识,历来都是计算机视觉与模式识别领域的研究热点。自二十世纪六十年代以来,物体识别方法大多基于普通RGB相机获取的图像或视频进行研究。图像的实质是物体从现实世界中的三维空间到二维空间的光学投影。这种投影虽能反映物体的光强与颜色信息,但丢失了一些重要的空间信息。因此,基于图像信息的物体识别算法在光照变化、阴影、视角变化等外界因素干扰下,存在物体识别鲁棒性低的问题。近些年来,随着计算机软硬件及深度传感技术的快速发展,大批新型三维视觉传感器的出现,如激光雷达【1l和
17、Kinect相机【2】等,为快捷地获取带有深度信息的RGBD图像(RGB图像+深度图像)提供了可能。深度图像记录了场景目标中各点到相机间的距离属性,使之在光照变化大、阴影、背景复杂等条件下,也能稳定地反映物体表面的三维特征,是对RGB图像信息的有效补充。特别地,以微软公司2010年推出的Kinect为代表的质优价廉的RGBD图像采集设备及其开发环境套件的陆续面世,推动了一大批RGBD数据集的建立【3。7】,为研究者们利用RGBD图像进行物体识别【8。11、3D场景识别【12,13、手势识别【14,15】、室内场景重建与SLAM161等方面的研究提供了很大的便利。近年,计算机领域重要会议和期刊,
18、如:Conference on Computer Vision and Paaem Recognition(CVPR),NeuralInformation Processing Systems(NIPS),Intelligent Robots and Systems(IROS),International Conference on Robotics and Automation(tCRA)等,发表了大量基于RGBD图像的研究文章3-8,17-20】。而且,在当前炙手可热的机器人行业中,为机器人视觉系统中配置功能强大的视觉传感设备(如RGBD摄像机),其提供的三维环境视觉信息,能提升机器人在复
19、杂场景中目标物体的识别精度,进而高效地完成相应的高级任务。如何利用RGBD图像信息来解决基于视觉信息的物体识别1万方数据武汉科技大学硕士学位论文问题己然成为当今国内外最热门的研究课题之一。12国内外研究现状当前,对于基于视觉信息的物体识别的研究成果,根据数据源的不同,可以粗略地划分为基于图像信息的物体识别和基于RGBD信息的物体识别两大类。而近年来,随着深度传感技术的发展,基于RGBD信息的物体识别受到国内外学者的广泛关注。其中,原有基于图像信息的识别算法也为RGBD信息上的物体识别研究提供了重要的参考价值。11基于图像信息的物体识别总体而言,基于图像信息的物体识别方法主要包括以下几个步骤:图
20、像预处理、特征提取、分类训练、结果预测。为了获取较好的物体识别效果,国内外研究者们分别从图像的特征提取、分类器的设计两大方面展开了深入的研究。在图像的特征提取方面,图像特征大体可以分为颜色特征、纹理特征、形状特征等几大类。比较常用的图像特征有颜色直方图211、局部二进制模式(LocalBinary Pattern,LBP)22】特征、梯度方向直方图(Histogram of Oriented Gradient,HOG)123等,而由David Lowe24】提出的SIFT(ScaleInvariant Feature TransfoITll)特征因对平移、旋转等仿射变换具有很强鲁棒性,应用最为
21、广泛。但以上直接从原始图像中提取或经简单变换后获取到的特征(一般被称作低层特征)用于物体识别,效果并不理想。为了获取更为有效的特征表示,通常还需要对以上低层特征进行特征表达,即在提取的基本特征(SIFT、HOG等)基础上,采用视觉词袋模型(Bag of Words,BoW)25】、空间金字塔匹配模型(Spatial Pyramid Matching,SPM)【26】对其进行统计、编码,以形成更为有效的特征表示。在基于SPM方法中,特征编码对识别结果也起着至关重要的作用,常见的编码方式有:硬编码(Vector Quantization,VQ)25,261、改进的稀疏编码(Sparse Codin
22、g,SC)27】、局部约束线性编码(Localityconstrained linear coding,LLC)28】以及Fisher向量(Fisher VectorFV)编码【29】等。以上传统的特征提取及表达的方法,虽简单、应用广泛,在特定的识别任务中效果明显,但往往需要有相应领域的先验知识辅助确定参数或者需要复杂的学习过程才能取得较好的识别效果,普适性相对较差。近年来,特征学习作为一种通用性强的特征提取方法引起了研究者的极大兴趣。特征学习能在少量人工干预且不需先验知识的情况下,对原始的输入图像,采用一定的网络结构及训练方法自动地提取图像的有效特征,在视觉特征领域得到广泛的应用。当前,常用
此文档不允许下载,在线阅读到最后一页了。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 rgb 图像 信息 物体 识别 研究 骆健
限制150内