基于分级树形索引的关联数据压缩研究-王凯东.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于分级树形索引的关联数据压缩研究-王凯东.pdf》由会员分享,可在线阅读,更多相关《基于分级树形索引的关联数据压缩研究-王凯东.pdf(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、rllllll Jlllllll Jlf rl rlll Jlllfllll Jl JI Jlll rflY321 9650分类号!13Q!:学校代码1 0 4i 8学号羔盟垒鳢王f10蛐鬻级武易薹舞净锉夫晕硕士学位论文燕子分级树形索引的关联数据压缩研究学位审请人:学年4专业:指导教师:答辩日期:王凯东计算机科学与技术顾进广万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringResearch on Hierarchical Tr
2、eeIndex basedLinked Data CompressionMaster Candidate:Major:一 Supervisor:Kaidong WangComputer Science and TechnologyProfJinguang GuWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay,2017万方数据武汉科技大学研究生学位论文创新性声明IIII I II l U II I II I I II IIIY321 9650本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究
3、所取得的成果。除了文中己经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名: z钡b寿、 日期:研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编
4、入学校认可的国家相关数据库进行检索和对外服务。论文作者签名: 衫饥糸万方数据摘要随着语义网技术的不断发展和应用,大规模RDF数据集的使用也越来越频繁,在管理这些大规模数据集时,由于RDF数据集的体积问题,查询和管理的性能会受到很大影响。因此,对于大规模RDF数据而言,高效率的存储方法显然是很重要的。对于数据的压缩存储而言,本质上是去除数据里包含的冗余信息内容。目前,对于大规模RDF数据的压缩存储,其处理思路可以分为以下两种:基于数据模型层次的压缩处理和基于序列化层次的压缩处理,其中,基于序列化层次的压缩处理思路又可以细分为语法结构压缩和字符压缩。本文从RDF数据的序列化层次出发,通过对当前RD
5、F压缩存储技术进行分析总结,提出了一种基于关系三维矩阵的分级树形索引压缩模型。该模型利用分析和提取RDF标识间的关系来构建字典,将三元组映射为ID三元组。通过分析关联数据集自身的关系三维矩阵分布结构,结合分级树形索引的存储思路,解决矩阵存储的结构冗余问题,实现对数据集的序列化压缩。此外,本文还分析总结了该压缩模型查询对关联数据基本查询模式的匹配。通过实验验证与结果分析表明,本文提出的压缩存储模型能够有效提高RDF数据的压缩效率,同时也实现了很好的查询效率。关键词:资源描述框架;冗余;三维矩阵;分级树形索引;压缩万方数据AbstractWith the development and appli
6、cation of semantic web,RDF dataset with largescale was using more and more frequentlyWhile manage these large scale datasets,dueto the size problem of these files,the performance of the query operation will be greatlyaffectedTherefore,for large scale RDF data,efficient storage method is clearly very
7、importantFor data compression storage,it is essentially the removal of redundant informationcontained in the datasetAt present,the compression methods of large scale RDF dataCan be divided into the following two types:compression processing based on datamodel level and compression processing based o
8、n serialization level,and compressionprocessing based on serialization level carl be subdivided into syntactic compression andsymbolic compressionIn this thesis,we based on the serialization level of RDF data,by analyzing thecurrent technology of RDF data compression,a compression model based on hie
9、rarchicaltree-index idea and the threedimensional matrice structure has been proposedByanalyzing and extracting the relationship between the URI of RDF to build the dictionaryto map triples into ID triplesBy analyzing the three-dimensional matrice structure oflinked data,combine the idea也at makes hi
10、erarchical treeindex to solve the redundantproblem of matrice structureIn addition,this thesis also analyzes and summarizes therules and performance of query on this modelWith the experimental confmnation andresult analysis,the compression model proposed Can effectively improve thecompression ratio
11、of RDF data,and it also improves the speed of node searchingKeywords:RDF;Redundant;Compression;Threedimensional Matrice;HierarchicalTreeIndexII万方数据目 录摘要。IABSTRACT第1章绪论111研究的背景意义112研究现状213本文的主要工作414本文的结构安排4第2章基本理论与相关知识621 RDF数据模型622关联数据压缩6221数据模型层次压缩7222序列化层次压缩723图模型表示方法824关系三维矩阵表示方法1025本章小结。11第3章 基于
12、分级树形索引的数据压缩1231问题的提出与分析1232模型总体架构1333关联数据字典构建。1434分块数据索引构建。1635分块数据压缩一19351分块数据冗余分析19332分块数据压缩2136压缩数据结构及算法24361基于树形索引的分层结构24362子结点匹配检索25IlI万方数据363关联数据查询模式分析2737本章小结28第4章实验设计与结果分析2941实验数据集。2942理论压缩结果分析。2943实验结果与分析。3 1431压缩率31432查询效率3444本章小结36第5章结论与展望一3751结论3752展望。38致射。39参考文献40附录1攻读硕士学位期间发表的论文44附录2攻读
13、硕士学位期间参加的科研项目45IV万方数据武汉科技大学硕士学位论文11研究的背景意义第1章绪论从互联网诞生到今天,资讯在社会上的构建、组织以及传播的方式相较于以前发生了巨大的变化,而计算机的普及和网络传输速度的大幅度提升也使得当今时代信息的分享和利用获得了巨大的便利。在Webl0时代,信息构建分享的思路是以内容为核心,由网站提供各种内容,而用户根据自己的兴趣对内容检索浏览。而Web20则是在Webl0的基础上改进,以用户为核心,提供各种服务来承载用户创造的内容,并组织用户之间的各种交互,让用户自己共享内容,这也使网络上信息的创造者获得了数量上的飞跃,使网络上数据和信息的规模以极快的速度持续增长
14、。在目前这些传统的信息构建思路里,网络是以文档为中心组织以及分享数据,Web内容的组织方式是将数据渲染为便于人类阅读的信息,而这些信息绝大多数都是半结构化的HTML内容,因为数据量的规模十分巨大,因此如果要对这些信息进行整合利用必须要用到自动化的手段,但是受限于这些内容本身的编码结构,机器很难准确地识别原本实际提供给人类阅读的内容,无法很好地还原和利用数据之间的关系,因此并不能对传统互联网上的信息进行很好的理解处理。而随着Web3Oil】时代的到来,作为其核心内容的语义网【2】对当前的Web内容组织方式提出了颠覆式的革新,也为海量的数据处理提供了新的思路方向。语义网的核心思路是以数据为中心构建
15、网络【3】,即在最初构建数据内容的时候,就使用规范化、语义化且机器可以理解处理的结构来对所需要提供的资源进行语义化描述,通过这些有标准可依的描述,可以建立推理的机制,从而使机器可以对网络上的数据理解并自动化处理,通过对数据间的逻辑关系进行分析和推理,将整个互联网的资源进行整合利用,为知识的管理以及自动化处理提供了巨大的便利。目前,语义网推行资源描述框架(ResourceDescriptionFramework,RDF)【4】作为数据发布和使用的推荐技术标准,它在语义网的语义化查询,信息自动化处理以及关联数据中都有十分重要的作用。RDF是由W3C技术联盟制定的用于描述网络上的资源的技术标准,其目
16、的在于构建一个通用的框架,用于整合不同领域的元数据,从而保证其描述的统一性,这种结构使来自不同领域的资源在互联网上实现链接和处理,因此,近些年来,在很多不同的领域RDF都被广泛应用,网络上发布的RDF数据的数量也越来越多,这些数据模型被用于对资源进行描述处理,同时提供给用户进行下载使用【5】,利用RDF本身的语义结构,资源与资源之间也建立了逻辑联系,万方数据武汉科技大学硕士学位论文在上述基础上形成了基于语义的关联数据,通过对近年来发布的关联数据云图的分析【6】可以发现,在不同领域中的数据集中,现在RDF三元组的数目已经达到了百亿数量级。而其中有些内容比较庞大的数据集,如DBpedia7】,自身
17、就已经包含了超过10亿个RDF三元组。与其他数据类型一样,关联数据也有冗余存在,文献【89】指出这是导致关联数据集体积臃肿的重要因素。关联数据集越来越大的体积意味着需要占用更多的存储空间,数据集的传输和共享也会耗费大量的时间。RDF三元组原本冗长的文本格式对存储空间和传输带宽造成很多浪费,因此,为了减小数据集的体积,提升传输效率,对关联数据进行压缩是很有必要的。12研究现状数据压缩的目的是降低数据文件里的冗余信息,从而缩减数据文件的体积。根据对关联数据集表达的层次划分,RDF数据模型可以分为数据模型层次和序列化层次模型,而对RDF数据集的压缩也是在这两个层次上进行的,由于两个层次上的表示结构不
18、同,因此在这两个层次上对于冗余信息的处理思路也各不相同。而基于对不同层次上的冗余进行分类,文献101将现有的冗余类型分为语法冗余、语义冗余以及字符冗余,而基于不同层次上的冗余信息的处理,又可以将压缩分为数据模型层次压缩以及序列化层次压缩。数据模型层次是数据描述在现实世界的抽象表示。对于RDF数据集而言,数据模型层次上的数据表示本质上是由三元组组成的RDF图的集合。在这个层次上,数据的大小可以通过三元组的数目来计算,因此减少三元组的数目可以达到在这个层次上对数据集进行压缩的目的。而这种可以通过规则推理减少的三元组内容即是前面分类中的语义冗余。对于语义冗余的处理,文献【1l一12根据W3C所提出的
19、关联数据简图【13】的概念,提出了通过推理对关联数据集中的空白结点三元组进行检测,并且去除其中的冗余三元组的算法。MichaelMeier提出了一种基于规则的压缩方法141,通过用户为数据集定义的特定规则进行处理,从而去除与用户需求无关的三元组内容。同样,Pichler也针对该问题提出了压缩方法【15】,通过结合规则、限制条件以及用户查询需求这三个方面的条件对关联数据集中的冗余三元组进行处理。但是,这两种压缩方法是依赖于具体的应用,而且在使用时必须由用户定制规则内容,这使这两种方法局限于特定的适用范围,而不能对其他的大规模数据集进行压缩处理。文献16】同样使用了基于规则的方法来处理关联数据集中
20、的语义冗余内容,但是与前面两种方法的不同在于,这种压缩方案支持普遍的关联数据集,该方法通过对关联数据进行分析并提取规则,利用规则推理方法去除数据集中的冗余三元组,同时原本的语义信息也没有损失。另外,由于关联数据集中大部分的内容都与本体17】中2万方数据武汉科技大学硕士学位论文定义的属性相关,本体压缩【18】也属于对语义冗余信息的处理。在序列化层次上,RDF数据以一系列的比特值内容的形式表达,通常以预先定义的语法处理成文本格式或者二进制文件进行存储,例如RDFXML19】,NTriples20或者一些复杂的压缩格式。在这个层次上的冗余内容主要有字符长度冗余和语法冗余。对于字符长度冗余内容的处理,
21、主要是通过对关联数据集中表示一个资源所需要的平均字符长度进行处理,在整体上减少关联数据集的文件体积。一般是通过构建字典为RDF三元组的URI标识分配更简短的标识,从而达到压缩的目的。而对于语法冗余内容的处理,主要的思路是通过以不同的方式对关联数据的存储结构进行表达,对关联数据采用更简洁的数据结构【2l】来表示,从而完成压缩的需求。最初文献【22】提出了对关联数据进行压缩的一些基础方案,例如可以利用一般的文件压缩技术如LZMA23】和bizp224】对关联数据进行压缩,这些压缩技术修改了关联数据的文件结构,能够明显的缩小文件体积,其次他们还提出字典压缩技术与图压缩技术相结合的压缩方案,但并没有给
22、出一个具体的实验。同年,Atre等人【25提出了BitMat方案,BitMat用一种紧凑的比特矩阵结构来存储关联数据集,并且支持在压缩数据集上直接进行查询操作,但是这种方案的扩展性不高,且采用的压缩技术比较简单。文献2627】还介绍了一种新的关联数据压缩方案HDT,HDT将关联数据中的信息分解成为三个部分:第一部分称为头部(Header),头部保存了描述整个数据集的逻辑和物理元数据,例如数据集的来源、编辑信息以及数据集的一些统计信息等;第二部分称为字典(Dictionary),字典部分主要是将数据集中的资源映射成一个唯一的ID;第三部分称为三元组(Triples),这一部分先将数据集中的三元组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分级 树形 索引 关联 数据压缩 研究 王凯东
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内