基于深度卷积神经网络的图像检索算法研究-刘兵.pdf
《基于深度卷积神经网络的图像检索算法研究-刘兵.pdf》由会员分享,可在线阅读,更多相关《基于深度卷积神经网络的图像检索算法研究-刘兵.pdf(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类号!P塑14学校代码l 0 4 8 8学号2Q!12Z箜Q!密级烈蔫弄净拨走哮硕士!学位论文基于深度卷积神经网络的图像检索算法研究学位申请人:学科专业: 型墨一一计算机科学与技术指导教师: 张鸿答辩日期:型l三笪月14日万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringResearch on Image Retrieval Based on DeepC onvolutional Neural NetworkMaster C
2、andidate:Major:一 -3UDervlsor:Bing LiuComputer Science and TechnologyProfZhangWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay,2017万方数据武汉科技大学研究生学位论文创新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标
3、明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:二攀虹日期:堕趔研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:指导教师签名:日万方数据摘要近年来,随着手机等智能终端的普及,以及社交网络和购物网站的兴起,图像、视频等多媒体数据在互联网上呈现爆炸
4、式的增长。如何从纷繁复杂的图像数据中快速准确检索到用户所需的相关信息,一直是计算机视觉和图像检索领域的研究热点和难点。基于内容的图像检索方法通常包含特征提取和相似性度量两方面的关键技术。传统的图像检索方法大多采用的人工提取的特征,由于低层图像内容特征与高层语义之间存在的“语义鸿沟”问题,使得目前的图像检索效率仍有待进一步提高。本文将深度学习的方法应用到图像检索中,提出了一种基于深度卷积神经网络的图像检索算法。首先对图像数据进行预处理;然后用卷积神经网络对图像数据集进行训练,当网络趋于收敛时保存训练的网络模型,利用训练模型来提取深度图像特征并可视化图像特征;最后结合距离度量算法得到图像检索结果。
5、在实验结果分析中,详细对比了卷积神经网络训练过程中迭代次数与损失及准确率之间的关系。同时利用平均准确率等评价指标来分析图像检索的结果,通过实验验证了基于卷积神经网络的图像检索方法的有效性和优越性。从多个方面与传统方法进行对比,实验结果表明本文算法有较好的检索性能,对于不同的图像数据有着较强的普适性。关键词:图像检索;深度学习;卷积神经网络;特征提取;特征可视化万方数据AbstractIn recent years,with the popularity of smart phones and other mobile terminals,aswell as the rise of social
6、 networking and shopping sites,images,video and othermultimedia data on the Internet showing explosive growthHow to retrieve the relevantinformation from the complex image data quickly and accurately has been a hotspot anddifficulty in the field of computer vision and image retrievalThe content base
7、d image retrieval mainly includes two key technologies:featureextraction and similarity measurementThe traditional image retrieval methods alemostly based on the features of artificial extraction,due to the”semantic gap”betweenthe low1evel image content and the highlevel semantics,the current image
8、retrievalefficiency still needs to be further improvedThis paper applies the method of deeplearning to image retrieval,a depth image retrieval algorithm based on convolutionalneural network Was proposedFirstly,the image data is preprocessedThen,the imagedata set is trained by convolution neural netw
9、orkWhen the network tends to converge,the training network model is saved,and the training model is used to extract the depthimage feature and visualize the image featureFinally,the method of measuring distanceby image retrieval resultsIn the analysis of the experimental results,the relationship bet
10、ween the number ofiterations,the loss and the accuracy was compared in detailThe results of imageretrieval were analyzed by using the mean average precisionThe validity andsuperiority of the image retrieval method based on convolution neural network wereverified by experimentsCompared with the tradi
11、tional methods,the experimentalresults show that the algorithm has better retrieval performance,and it has stronguniversality for different image dataKeywords:image retrieval;deep learning;convolutional neural network;featureextraction;feature visualizationII万方数据目 录摘 要IAbstract11:第1章绪论l11研究背景112国内外研
12、究现状213本文的主要工作314本文的章节安排4第2章基于深度学习的图像检索方法综述521基于内容的图像检索流程522经典的图像视觉特征623相似性度量方法概述624神经网络与深度学习7241神经网络简介8242经典算法9243深度学习简介l l25本章小结14第3章卷积神经网络模型分析与优化1631卷积神经网络模型16311 AlexNet网络模型16312改进的卷积神经网络模型1832权重初始化算法2133模型训练优化策略2l34训练流程2335经典深度学习工具2436本章小结24第4章基于CNN特征的可视化分析及选取2641特征图及卷积核可视化2642基于t-SNE的图像特征可视化284
13、3 CNN特征的选取3 l44本章小结3 l第5章实验结果和性能分析3251系统框架和流程32III万方数据52图像数据集3353卷积神经网络参数设置3354实验结果与分析34541性能评价标准34542训练结果分析34543图像检索结果分析3755本章小结40第6章总结与展望4261总结4262展望42致谢44参考文献45附录1攻读硕士学位期间发表的论文49附录2攻读硕士学位期间参加的科研项目50IV万方数据武汉科技大学硕士学位论文第1章绪论11研究背景随着互联网的极速发展,尤其是移动互联网更是显现出空前的发展,人们能够更方便地通过智能设备访问互联网。近些年,伴随微博、facebook等社交
14、网站的盛行,互联网上的图像数据每天都在快速的增长。截止2016年底,微博上的月活跃用户接近313亿,日活跃用户峰值达154亿,每天都会有大量的图像上传到服务器上;电商网站淘宝的服务器上保存着两百多亿张商品图像,并且每天都会有大量的商品图像上传。面对如此巨大的图像数量,如何快速准确的从庞大的图像数据库中找到用户感兴趣或想要的图像信息,成为图像检索研究领域的重点及难点。依据图像内容的不同描述方式,图像检索大致分成两种类别:基于文本的图像检索(Text Based Image Retrieval,TBIR)t1】和基于内容的图像检索(Content BasedImage Retrieval,CBIR
15、)E21。TBIR的研究源于上世纪七十年代,它的基本思想是利用人工的方式对数据库中图像的内容进行文字标注。这些标记的内容被称为关键词,它是与图像相对应的。用户在检索的时候,在系统中输入关键词,系统根据输入的关键词来匹配图像数据库已有的关键词,然后根据关键词的匹配结果返回相应的图像给用户。这种检索方式实现起来较为简单,由于图像标注大部分由手工完成,检索的准确度也相对较高,在现实生活中有着较为广泛的应用。如百度、Google等公司的图像搜索功能。虽然TBIR应用广泛,但是它也有着非常明显的缺陷。首先对于图像的标注工作是一个非常艰巨的任务。对于较小的图像数据集,人工标注的方式尚可满足,在大规模的图像
16、检索任务中,对图像的标注要花费大量的财力及人力。伴随图像数据的不断扩充,还需要对新增的数据手动标注;其次人工标注往往会受到标注者的主观意识、思维方式等多方面的影响,导致对相同图像的标注内容出现一定的偏差。同时,由于图像所表达的信息较为丰富,一些简短的文字信息无法准确的描述图像的内容,对于这类图像,检索的结果很难达到用户的所需。为了解决TBIR中存在的这些不足,20世纪九十年代,CBlR技术应运而生【31。CBIR的基本思想是先对抽取特征,构建一个图像特征库。当用户输入查询图片后,先抽取查询图像的特征,然后使用相似性算法对该特征和特征库进行相似度计算,最后依据相似性的大小来排序并将结果返回。CB
17、IR极大减少了人工对图像的干预,图像内容的表达和相似度的计算全都交给计算机处理,从一定程度上克服了TBIR中所存在的问题,提高了图像检索性能。这种方式也存在一定的缺陷,由于1万方数据武汉科技大学硕士学位论文CBIR中普通存在“语义鸿沟”的难题,即低层图像特征和高层语义的不一致导致的检索需求间的差距【41。语义鸿沟的问题不可避免,只能从一定程度上来减小影响。CBIR技术在电子商务、医疗和知识产权等诸多领域都有着重要应用【51。电子商务方面,淘宝的“拍立淘功能,用户拍摄一张照片上传,服务器就会返回与拍摄照片相似的商品;医疗方面,利用检索医学数据库找到和病人类似的地方,从而帮助医生对病情做出诊断;知
18、识产权方面,通过图像检索来查找某个商标是否已经注册,是否存在侵权行为等。综上所述,图像检索是多媒体检索的一个较为重要研究方向,这项工作具有一定的研究意义及应用价值。在互联网技术日新月异的今天,图像检索技术显得愈发的重要。12国内外研究现状CBIR技术经过几十年的快速发展,已经形成了包括图像特征提取和相似性度量等一系列相关技术在内的完整的技术体系。国外出现了一系列商业化的检索系统。例如IBM于二十世纪九十年代研发的首个商业化的图像检索系统:QBIC系统61。它的成功应用对未来的检索系统有着极其重大的启示作用:后来也出现一系列较为成功的系统:Virage系统【71、PhotoBooK系统81、We
19、bSEEK系统【9】等等。在国内也有一些成功的运用,如浙大自主研发的WebScoreCBR系统等。特征提取及相似性大小计算是图像检索中两个方向的关键技术【10】10。为了进一步的提高图像检索准确率,国内外众多研究者在这两个方面做了大量的研究工作。CBIR致力于研究图像本身的视觉信息。过去几十年里,大量描述图像内容的底层特征被提出【11】。由于CBIR中“语义鸿沟”的影响,检索的准确率总是不尽人意。在图像检索算法中通常选用欧式距离、余弦距离等一些简单的距离度量方法对特征进行相似性计算。然而面对越来越复杂的图像检索系统,这些相似性度量算法对于图像间的相似程度匹配的并不太准确。近年来国内外出现了大量
20、针对相似性算法的研究,其中效果较好的是距离度量学-(Distance Metric LearningDML)12。DML是机器学习中的一个方向,它的主要思想是用有标记的数据或者结合部分没有标记的数据,寻找能在指定标准下最为恰当的刻画数据相似程度的距离函数。国内外众多研究者在DML方面有许多研究成果。Weinberger等人提出了大间隔最近邻(La唱e Margin Nearest Neighbor,LMNN)算法【13】,该算法运用K近邻分类算法来学习新的距离度量函数。Chechik等人提出了在线可扩展图像相似(onlinealgorithm for scalable image simila
21、rity,OASIS)算法14】,该算法通过在线学习双线性模型来实现一种可扩展的相似度量函数,成功的应用在了海量的图像检索任务中。近年来,随着机器学习的快速发展,特别是深度学习在文本、语音、图像等2万方数据武汉科技大学硕士学位论文方面取得了巨大的成功【15】【16】【17】。国内外研究者们看到了深度学习在特征学习方面的巨大潜力,深度学习很有可能成为跨越语义鸿沟的桥梁。1985年,Hinton等人提出了受限制的玻尔兹曼机(Restricted Boltzmann Machine,RBM)t18】,之后在RMB的基础上,又提出了深度置信网络(Deep BeliefNetwork,DBN)19】。D
22、BN是由多层的RBM组成,运用贪婪算法来按层训练,解决了在网络训练过程中权值可能出现局部最小的难题。1998年,LeCun等人使用七层的深度卷积网络LeNet-5来训练手写体数字并成功的识别201。2012年,在ImageNet图像识别大赛中,Alex等人提出的卷积神经网络模型AlexNet获得冠军【211。在一百多万的图像数据,1000个类别的图像分类任务中取得了巨大的成功,将图像分类top5的错误率由原来的26降低至153。微软亚洲研究院(MSRA)的视觉计算组于2015年提出了152层的深度残差网络(ResNet),该网络模型以绝对优势获得了图像分类、图像定位和图像检测全部三个主要项目的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 卷积 神经网络 图像 检索 算法 研究 刘兵
限制150内