毕业设计(论文)-基于云计算模式下图像检索算法的研究.docx
青 岛 科 技 大 学本 科 毕 业 设 计 (论 文) 基于云计算模式下图像检索算法的研究题 目 _指导教师_辅导教师_学生姓名_51学生学号_计算机信息管理 信息科学技术学院20170131_院(部)_专业_班201653_年 _月 _日基于云计算模式下图像检索算法的研究摘要:以web2.0技术为代表的现代技术快速发展及应用,加速了网络信息容量的膨胀,如何从庞大的信息容量中迅速找到需要的信息,尤其是图像信息。同时随着图像检索技术的迅速发展,图像检索传统算法,难以解决海量数据存储问题,而云计算作为一种新兴的计算模式,对解决图像检索发展遇到的瓶颈有着较为重要的作用。关键字:云计算 图像检索 海亮数据 算法研究目 录第1章 绪论21.1研究背景21.2研究意义2第2章 图像检索技术系统32.1基于文本的图像检索技术32.2基于内容的图像检索技术42.3目前图像检索系统5第3章 基于云计算模式下的图像检索技术63.1云计算63.2 云计算模式下图像信息的系统结构73.3 云计算模式下图像信息的存储73.4 云计算模式下图像信息的计算方式8第4章基于云计算模式下图像检索系统与传统方法性能对比104.1基于云计算模式下检索效率与结果对比104.2云计算模式下图像检索系统的特点11第5章 总 结13参考文献131 绪论1.1研究背景以web2.0技术为代表的现代技术快速发展及应用,加速了网络信息容量的膨胀,如何从庞大的信息容量中迅速找到需要的信息,尤其是图像信息.如何高效的从这些信息中的检索出需要的信息,成为了数据存储、计算及传递一系列问题中的当务之急。尤其是医学图像数据,随着CT(X射线)、MR(核磁共振)等医学影像设备的迅速发展,拍摄出来的医学影像清晰度显著提高,但所占空间也明显增大1。与此同时,重大疾病发生率的增高等因素导致医学图像数据量增加迅速。因此,一个性能良好的图像存储系统及检索系统显得格外重要2。近年来云计算技术正逐步从理论研究走向实际应用,作为一种新型的体系架构,云计算是一个充分利用信息资源的平台,云计算有望为其提供一个新的解决方案。1.2研究意义随着医疗仪器等的迅速发展,图像数据急剧增多,传统的检索技术已经不能满足各方面发展的背景出发,结合近年来云计算技术正逐步从理论研究走向实际应用,作为一种新型的体系架构,云计算是一个充分利用信息资源的平台。对于图像大数据的检索方法来说,云计算有望为其提供一个新的解决方案。因此提出一种基于云计算的图像检索技术。为了提高海量图像检索效率,摒弃传统图像检索算法,采用新的算法提取图像数据的频域和空域特征,采用具有分布式、并行处理能力云计算将任务分配到各个工作节点共同完成图像检索。 如果云计算的图像检索系统提高了图像检索速度和效率,则解决了大量的图像数据检索问题。使云计算应用到更广泛的领域,将大数据下图像检索问题的得到快速的解决。2 图像检索技术系统 2.1基于文本的图像检索技术 图像检索就是根据对图像内容的描述,在目标图像集合中找到具有符合特征或者包含指定内容的图像3.从1970年开始,关于图像检索算法的研究就已经开始,并持续至今。最开始主要的算法还是基于文本的图像检索方法,主要方式是利用图像的存储位置及其他来检索图像,但是当数据增多就会出现效率较低。后来慢慢出现了对图像内容的检索方法,主要是对图像基本特征的描述。例如对图像的颜色、特征及图像的纹理和布局等分析,检索出需要的图像,但是当随着数据库中图像数据的急剧增多,就出现了检索出的图像信息准确率下降。基于文本的图像检索运用的前提是:在关系数据库中加入对图像数据的描述的字段,并且对描述字段和存储数据加入对应联系。然后利用关系数据库本身具有的查询功能,进行相应的查询,实现图像检索的方法。但是不同检索系统中对不同的数据的描述和关键字段不能有统一的的关联,所以缺少统一的描述系统,资源共享率比较低。针对图像信息的利用率也随之下降。为了在互联网方式下解决图像检索问题,1995年3月在都柏林召开第一届数据研讨会,在会上产生了一个简单的元数据集合-都柏林核心元数据集4。2.2基于内容的图像检索技术基于内容的图像检索,主要是检索视觉中图像的主要特征。例如图像的颜色、纹理及特征和布局等。同时基于内容的图像检索系统也必须具有视觉的自动识别技术,才可以在完成此项检索。而针对基于内容的图像检索技术国外也有不少的研究。首先是针对图像的直方型特征,章毓晋5和刘忠伟6提出了累加直方图和局部累加直方图的方法用于图像检索技术。Zachary7在Lab颜色空间上建立了直方图特征方法用于图像检索技术。而针对空间特征上,张磊8提出了对量化后的色彩计算质心的方法来描述颜色特征,从而用于图像检索技术。也有不少人提出了运用纹理特征的计算方法,用于图像检索技术。 2.3目前图像检索系统 在信息时代的今天,互联网的上图像检索技术基本是采用基于文本的图像检索,利于谷歌、百度等搜索引擎。基于文本的检索与人对图像的认知是基本一致的,查询的准确率较高,但是需要手工的添加文本检索的内容,随着数据的急剧增多,耗费的精力较大,并且由于人工的填写,容易对图像产歧义,从而造成错误。基于内容的图像检索系统主要有Photobook等,系统会自动建立图像的特征数据库,并且根据图像的颜色、纹理等特征进行检索,通用性较好,并且效率相当于基于文本的图像检索而言较高。但是图像的资源信息会受到数据库等方面的影响,不能随时更新,使得用户查询不到较为满意的结果。综上,结合两种检索方法的有点就可以满足图像检索技术的要求。但是,仅限于在传统方法上综合两种检索方法,又会出现图像数据的存储、图像数据的计算以及图像数据的传输等问题。云计算理念的出现,极大的解决了这一难题,在数据共享以及应用平台上都得到了极大的突破。3 基于云计算模式下的图像检索技术3.1云计算云计算是基于互联网的相关服务的增加、使用和交付模式,通常车技通过互联网来提供动态易扩展且经常虚拟化的资源。云计算拥有强大的计算能力,用户通过电脑、笔记本、手机等方式接入数据中心,按照自己的需求进行运算。云计算(Cloud computing)融合了分布式并行计算、网络存储、负载均衡等多种传统计算机和网络技术,以其独特的扩展性、廉价性及容错力受到广泛关注。Hadoop是Apache开发的一个云计算的开源平台,主要包括分布式文件系统和并行计算框架。Hadoop集群的规模少则几台,多则可上千台,其存储与计算能力也随着规模的扩大而稳步提高。 分布式文件系统是Hadoop的文件存储系统,适合于大规模数据集上的应用。分布式文件系统将一个大文件分成若干个数据块,并创建多份复制保存在多个数据节点集合中,避免发生单点故障。因此利用分布式文件系统能使系统实现:大规模数据存储、高冗余、轻松扩容、负载均衡9等功能。并行计算框架是Hadoop在分布式文件系统基础上的并行计算框架,为用户提供方便实用的并行编程模式,实现大规模数据并行计算。3.2 云计算模式下图像信息的系统结构云计算模式下众多的图像信息在互联网上形成了一个云资源库,组成了一个检索速度快、利用率高的一个图像检索系统。而实现基于云计算模式下的图像检索系统,首先要建立基于云计算模式下的大数据存储模型和计算模型。其次要检索系统需要建立统一的客户端检索系统,使用户使用的检索系统为统一的前端,如此可以方便、快捷的系统中查询到所需的信息。最主要的是云计算模式下的图像检索系统必须建立统一的查询标准,可以使不同的数据库进行资源共享。根据云计算模式下的图像信息检索特点将检索系统分为二个部分:(1)云资源层:可以组建大型的服务器层,所有的图像信息的存储、检索、传递都可以建立在云资源层中,实现了高效性和一致性。(2)用户层:用户根据检索系统制定的统一检索标准,在输入端输入图像检索的请求,可以快速检索出用户需要的图像信息,可以有效的提高检索出新的准确性以及高效性。3.3 云计算模式下图像信息的存储 图像存储是图像自动检索的基础,是一个数据密集型计算过程,采用传统方法将图像放到分布式文件系统中十分耗时。因此需要采取分布式处理方式将图像上传到分布式文件系统中:Map阶段,采用Map函数每次读入一幅图像信息,并提取图像的颜色和纹理特征.educe阶段,将提取的图像信息特征数据存入分布式文件系统.可以设置存入一个面向列的分布式数据库,因此分布式文件系统的图像存储采用表形式存存储. 而云计算模式下图像检索方法与传统图像检索算法最大的不同就是存储的空间不受单一的服务器局限性,用户检索可以在整个云资源层中进行。因此云计算模式下的数据存储技术需要具备高的传输率和高的输入输出率。(1)在云计算模式下图像存储技术具有较好的数据保护性。云计算模式下的图像数据分布在整个云资源层即整个网络中的各个服务器中。当有一个或者几个出现故障后,不会影响数据的存储和检索。相对于传统的图像存储技术相比,也不会因部分服务器损坏,数据出现丢失的情况。(2)在云计算模式下的图像存储技术与传统图像存储相比,提供统一的存储标准。3.4 云计算模式下图像信息的计算方式 云计算模式下的图像检索系统与传统的图像检索系统相比,不同物理地址下的用户可能同时在使用图像检索功能,而云计算环境下的图像资源范围比较大、数据量大,所以系统海量数据的并行计算技术是一个非常重要的研究问题, 目前阶段的基于云计算模式下的并行计算技术多数是MapReduce模式。MapReduce是一种编程模型,适用于大规模数据的并行计算。方法主要是将一个任务分解成多个子任务集,这些子任务在空闲给的处理节点之间被调度和快读处理之后,通过特定的规格进行合并生成最终的结果,处理规模类型有点类似一传统编程模型中的分解和归纳方法10。 MapReduce是Hadoop在分布式文件系统基础上的并行计算框架,为用户提供方便实用的并行编程模式,实现大规模数据的并行计算。MapReduce的主节点根据输入数据的关键字(键(key)),通过映射函数(Mapper)将输入数据映射给不同的从节点进行并行运算,随后再通过规约函数(Reducer)将各个从节点的运行结果进行归约合并,形成最终的计算结果。云计算下的图像检索系统采用Mapreduce程序结构,检索大体需要以下步骤。(1)用户向客户端应用程序提交图像检索请求;(2)检索系统响应并将用户请求上传至云计算网络进行任务分解,如不同用户使用不同节点,或者对同一用户的检索请求进行分解;(3)系统将分解后的任务发送至各个节点同时进行工作;(4)系统将各个节点完成的任务进行归纳并产生检索到的图像信息反馈给检索用户。同时Mapreduce 模型具有很强的容错性11,当节点出现错误时,系统会自动将该节点屏蔽并将任务转移到其他节点完成,不会影响到检索任务的进行,因此Mapreduce模型具备在云计算模式下完成图像检索系统中海量数据的并行计算功能。4 基于云计算模式下图像检索系统与传统方法性能对比4.1基于云计算模式下检索效率与结果对比当有图像检索请求时,在不同节点情况下,由图像存储时间可知,当图像数量较小时,两种系统的存储性能差别不大;但随着图像数量请求增大时,单节点系统的存储时间急剧增加,而Hadoop分布式系统存储时间增长缓慢;同时云计算下的图像检索系统的存储性能要优于传统的图像处理系统,这是因为传统图像处理系统仍然采用传统上传方式,而基于云计算模式下的图像检索系统通过MapReduce方式将图像上传到分布式文件系统中,因此,本文系统减少了图像存储时间,能使图像检索系统的整体性能得以提高.基于云计算模式下的图像检索系统的查准率和查全率略高于传统图像检索系统以及B/S单节点图像检索系统,优势不十分明显.然而对于大规模的图像检索系统,系统性能优劣主要通过图像检索效率来衡量,而基于云计算模式下的图像检索的Hadoop分布式系统有效降低了图像检索时间,提高了图像检索效率,较好地解决了海量图像检索效率低的难题,得到了比较令人满意的检索结果.传统的图像检索是一个数据密集型计算过程,传统B/S单节点检索系统存在效率低、可靠性差等缺陷,为此,提出一种基于云计算模式下的图像检索系统,结果表明,云计算模式下的的图像检索系统提高了图像存储和检索效率,获得较优的检索结果,可以满足图像检索的实时性要求,尤其当处理大规模的图像数据时,具有传统B/S单节点不可比拟的优势.但是相对于当前图像检索系统,优势不太明显。因此,未来的工作重点是提高Map任务与Reduce任务之间数据传输速度,减少更多由于传输信息所产生的时间消耗,进一步提高现有图像检索系统的执行效率.4.2云计算模式下图像检索系统的特点4.2.1云计算模式下图像检索系统的优点(1)无限制的数据存储。云计算是基于互联网的超级计算模式,由于数据是存储在云里,不再受到单一数据库存储容量的限制。(2)计算性能的提高。图像检索相对于文本检索其计算量显著增大,在云计算环境中,各个分布式的网络计算中心可以同时进行数据计算处理,可以显著提高计算速度和准确性。(3)经济性的提高。传统图像检索系统数据库对数据存储容量和计算性能要求很高,需要花费很多的金钱去购买硬件设备。在云计算环境中,各个计算中心分别承担了计算和储存任务,降低了成本。(4)数据可靠性的提高。个人电脑的意外损坏或者数据的丢失不会影响检索功能的实现,因为所有图像数据和软件服务全部储存在云中,用户只需连上互联网即可获得所需的服务。(5)信息的及时更新。传统图像检索数据库,图像存储发生变化时难以做到自动更新或者获取最新的位置信息。而在云计算环境中,图像数据发生改变或存储位置发生变化时,系统可以及时跟踪到最新的信息并反馈给用户,避免数据的丢失。4.2.2 云计算模式下图像检索系统存在的部分问题虽然云计算技术对解决传统图像检索系统存在的问题有着显著的作用,但仍存在一些问题急需我们去解决。(1) 图像检索请求问题的统一性。图像检索请求是用户个人对腿昂信息需求的一种方式。不同的人对同一图像的理解各异,带来的问题是:图像检索者可能关注图像不同层次的信息,即便对同一层次也可能关注不同的信息类别12。因此,各个图像检索系统之间的检索标准如何制定,不同的标准该如何协调都需要进行进一步的研究。(2)系统与系统的交叉操作。不同图像检索系统之间的交叉操作是首先要考虑的一个问题。云计算模式下图像检索系统最大的优点在于信息资源的丰富,当一个系统需要使用另一个系统的资源时,要能够提供跨云的操作方法,使得检索系统之间能够交互。系统安全问题。包括用户数据安全性和保密性、数据存储安全、用户权限安全、访问控制管理等。5 总 结 本文借助云计算理念和模型,就解决当今网络环境下图像检索系统的海量数据信息存储、计算及管理等问题作了详细阐述,通过分析证明云计算模式下的图像检索系统能够比较好的解决图像检索发展中所遇到的问题。随着图像检索领域对云计算技术的关注,图像检索的发展将进入一个崭新的阶段参考文献 1 樊一鸣.云计算技术与区域医学影像系统结合的探讨J. 中国卫生信息管理, 2011,8(1):21-22.2宋真,颜永丰.基于兴趣点综合特征的图像检索J.计算机应用,2012,32(10):2840-2842.3高文,刘峰,黄铁军,等,数字图书馆-原理与技术实现M。北京:清华大学出版社,2000:86-86.4Rui Y,Huang J S.Image Retrieval:Current Techinques,Promising Directions,And Open IsuseJ.Visual Communication and Image Representation,1999,19(1):39-62.5章毓晋.基于内容的视觉信息检索M.北京:科学出版社,2003:234-236.6刘忠伟,章毓晋.利于局部累加直方形进行色彩图像检索J.中国图像图形学报,1998,3(7):532-537.7Zachary J M.An Information Theoretic Approach to Content Based Image RetrievalD.USA:Lonisiana State University,2000.8张磊.基于内容的图像检索中人机协同问题的研究D.北京大学:清华大学,2001.9 高林,宋相倩,王洁萍.云计算及其关键技术研究J.微型机与应用, 2011,30(10):5-7.10Zaharia M,Konwinski A,Joseph A D.Improving Map-Reduce performance in heterogeneous enviromentsC.Proceedings of the 8th USENIX Symposium on Operating System Design and Implementation.New York:ACM Press,2008.11Buyya R,Yeo C S,Venugopal S,et al.Cloud computing and emerging IT platforms:Vision,hype,and reality for delivering computing as the 5th utilityJ.Future Generation Computer Systems,2008,25(6):599-616.12吴吉义,傅建庆,张明西,等.云数据管理研究综述J.电信科学,2010(, 5):34-41.致谢 终于将这篇论文写完,在论文的写作过程中遇到了无数的困难和障碍,都在同学和老师的帮助下度过了。尤其要强烈感谢我的论文指导老师,他对我进行了无私的指导和帮助,不厌其烦的帮助进行论文的修改和改进。在此向帮助和指导过我的各位老师表示最衷心的感谢!