一种基于海量信息处理的云存储模型研究_张桂刚.pdf
-
资源ID:69626171
资源大小:216.73KB
全文页数:5页
- 资源格式: PDF
下载积分:15金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
一种基于海量信息处理的云存储模型研究_张桂刚.pdf
计 算 机 研 究 与 发 展?():,收稿日期:基金项目:国家“九七三”重点基础研究计划基金项目();国家自然科学基金项目();湖北省教育厅 年度人文社会科学研究项目();湖北经济学院青年科研基金项目()一种基于海量信息处理的云存储模型研究张桂刚李超张勇邢春晓(清华大学信息技术研究院北京 )(清华大学信息科学国家实验室北京 )(),(,)(,):),;)()();)();)(),;)(),“”;摘要提出了一种云环境下海量数据组织与资源共享的存储总模型,该模型包括:结构化、半结构化及其非结构化数据与资源的对应存储方法;能兼顾海量大小数据文件处理的分布式文件系统 ;云数据库系统设计模型 ;云环境下强于 弱于 ,以 为基础的一种针对互联网海量数据文件处理且具有语义计算效能的计算模型 ;针对 及其 的具有语义效能的智能挖掘分析工具 ;最后以“清华通”为案例分析了该模型平台的具体应用关键词云存储;海量信息处理;分布式文件系统;云数据库系统中图法分类号 随着云计算技术的飞速发展,越来越多的数据密集型企业相继出现 面临着这些海量的数据信息,包括结构化信息、半结构化信息及其非结构化信息,如何存储并对这些信息进行处理将是这些企业面临的巨大挑战 本文针对这些海量信息提出了一种云环境下得海量信息存储模型相关工作 常用云环境下分布式文件系统研究现状云环境下分布式文件系统很多,包括 、淘宝开源的 、腾讯公司 用 于 相 册 存 储 的 以 及 的 其中,以及 为了解决海量小图像存储的一种专门针对小图片文件的 系统其中 以及在它的基础上衍生出的两个开源分布式文件系统 与 它们有一个共同的特点:主要就是针对 最初的应用需求,文件搜索,故在处理大文件上面有较大优势,另外它们采用 模型,在处理搜索上有较好的效率而随着应用的不断变迁,光处理大文件已经越来越不适应互联网技术的发展需要,后来产生的 ,以及 的 需要解决的问题及模型都很类似,它们主要用于处理云环境下的海量的小图片的存储和处理问题下面对常用分布式文件系统作一简要分析)现有常用分布式文件系统缺点非标准 接口问题:对应用层提供自己定义的一套 ,不符合 接口语义,兼容性受限、现有的应用程序移植不便通用文件系统 对小文件的支持受限:数据块的大小为 的整数倍,模型中只有单一的元数据服务器,使得对小文件的支持受限 一方面是存储碎片的问题;另一方面是小文件数量受到单一元数据服务器的处理能力限制不便扩展)元数据节点单一:目前典型的分布式文件系统 ,及其 等等,它们都有一个共同的缺点就是都只支持单一元数据节点,这样对元数据节点提出了一个非常严峻的挑战 一旦元数据服务器崩溃,将带来灾难性的后果 另外,由于只有一个元数据节点,当元数据不断增加时,对元数据服务其的吞吐量、并发处理能力及其工作负载均提出了严峻的挑战 常用云数据库系统研究现状)是 在 ()的基础之上研发出来的一种云环境下的数据库系统,现在已经在 ,等得到了较好应用)是一个开源的、非关系型的分布式数据库 运行 的分布式文件系统之上,为 提供类似与于 的功能)是一个开源的分布式数据库管理系统 最初由 开发并用于增强他们的收件箱搜索功能 由于它在处理数据同步上效能交叉,被 所抛弃 互联网海量数据处理技术研究现状针对数据的处理技术主要有针对传统关系数据库的处理语言 ,针对海量云环境下的弱语义处理、在互联网搜索中用的最多的 处理算法 的主要特点是处理(?)对数据具有巨大的优势,能够很快地对数据进行归类,并将结果反馈给互联网用户,故它在搜索这种语义要求不是特别高的应用中具有非常好的应用随着应用的需求不断发展,互联网应用对数据处理的要求也越来越高,传统的 技术已经很难完全满足需求 的出现主要就是为了让互联网数据的处理能力要比 的语义性更强后来出现的 是一种比 处理能力更好的一种专门针对互联网云环境下数据处理的方法针对数据的智能分析和挖掘技术,传统的很多智能挖掘工具 主要针对传统关系数据库进行 分析,后来出现的一些基于列存储的关系数据库如华鼎数据库,但是它的计算模型任然基于 本文将基于 技术、技术及其语义 计算 技 术提 出一种新的 互 联 网 计 算 模 式 互联网计算模型 一种针对海量信息处理的云存储模型模型随着对于海量数据处理的要求越来越多,另外针对结构化数据与非结构化数据的处理也提出了更高的要求,本文提出了一种针对海量信息处理的云存储模型模型,该模型总包含如下几个部分:)操作系统层 操作系统主要采用 操作系统,所有的文件最终的物理存储都以 文件系统来进行组织)分布式文件系统 ()是以现有开源分布式文件系统 为基础,研制出的一种运行在 操作系统之上,具有元数据服务器集群与客户端自动定位、解析机制的分布式文件系统 云数据库系统及张桂刚等:一种基于海量信息处理的云存储模型研究其以 为基石的互联网处理机制)数据库系统层 它包含用于存储结构化数据或者对事务处理要求极高的以行方式存储的传统关系数据库系统,如 数据库、数据库,或者以列方式存储的关系数据库,如清华大学自主研发的华鼎数据库 另外,针对互联网的海量文件,对于这些海量文件的元数据信息(如文件的索引信息)需要存储在一个云数据库中 现有的互联网海量数据文件的索引 等 元数据信 息 一 般 存 储 在 以 为 基 础 的 ,以 为 基 础 的 等等云数据库系统中,本文的基于 分布式文件系统之上的海量数据文件的元数据信息主要存储在清华大学准备研制的以现有清华的华鼎数据库为基础的新的云数据库系统 ()上)数据操作层数据操作层主要包含对传统关系数据库的各种语义精度比较高的 操作和针对互联网海量数据文件,以 计算为基础的 新 型 计 算 方 法 ()计算模型)知识挖掘层数据挖掘层主要包含以 为基础的语义性能严格的传统的商业智能()挖掘工具以及针对互联网海量文件处理,对并发及其吞吐要求高而语义性能要求相对较低的以 为基础的一种新的专门针对 分布式文件系统的()分析工具)应用层该层主要是基于云环境下互联网海量数据处理的一些应用系统的研发,如数字城市系统与“清华通”应用项目云存储模型关键技术研究 文件系统关键技术分布式文件系统 主要指用于存储各种海量数据文件,其核心特点就是采用了元数据服务器集群技术及其客户端核态定位解析技术 以 分布式文件系统为基础进行了改造,其主要实现机制如下:)采用了元数据服务器集群机制 通过元数据服务器,将分布式文件系统的海量数据文件的元数据分配到不同的服务器中 元数据服务器负载均衡每台元数据服务器的工作负载要大致相等,避免出现有些元数据服务器非常繁忙,而有些元数据服务器则非常清闲的状况出现 保持负载均衡,我们主要采用基本 算法的方法来实现初步的负载均衡,当局部元数据服务器的访问过于热时,启动修正后的 算法,加大对冷门元数据服务器的元数据分配权重,分流那些负载过重的元数据服务器的访问压力)采用客户端的核态元数据服务器定位解析机制 由于 分布式文件系统的元数据服务器采用了集群的工作机制,客户端要访问数据而向元数据服务器集群发出请求时,其基本机制已经发生了根本性的改变 客户端微模块具有如下个功能:自动定位元数据服务器由于现在元数据服务器是以集群形式呈现,所有的元数据不再存储在单一的元数据服务器中,为了能够实现客户端与元数据之间建立通信,客户端的微模块需要能够解析到在哪里(一般是两个元数据服务器)可以访问到元数据选择合适的元数据服务器由于元数据服务器也采用了副本机制(一般是两个副本),所以在具体和元数据之间建立联系时候需要分析采用哪个元数据服务器具体的判断算法可以采用两个元数据服务器的响应时间比较的方法来实现选择响应时间短的作为第一选择当然,如果其中一台元数据服务器出现崩溃,则直接访问仅存的那一台元数据服务器与数据节点进行数据读写一旦客户端与元数据服务器建立好联系后,元数据服务器会通知客户端与具体的数据节点进行建立连接,实现客户端和数据节点之间的读写操作)数据混合存储机制 元数据服务器的吞吐量牵涉到整个分布式文件系统的效率 通过采用元数据服务器集群的机制可以一定程度上缓解元数据访问请求的压力,提高并发吞吐访问量和访问效率除了这种机制外,本文中的元数据服务器集群对元数据集群采用了一种混合存储机制来提高对元数据访问的并发吞吐和效率)数据节点块内索引机制 对数据节点的海量小文件进行组合()成大文件块,然后在大文件块内建立一个块内索引 本文的索引建立步骤可以简单描述如下:步骤根据语义算法,将有关联的小文件尽量集中在一起(如有关联关系的人和物的小文件)步骤在步骤的基础上,以时间为维度,将各种时间靠近的海量文件集中在一起计算机研究与发展 ,(增刊)步骤在前两个步骤的基础上,使用树算法,对索引的均衡进行比较均衡的分配 云数据库系统关键技术 ()是一种既可以直接运行在 ,这种本地文件系统之上,又可以运行在 分布式文件系统之上的一种云数据库系统,它类似于 的 及其第代的 ,的 等等这种针对互联网海量数据文件应用的云数据库系统 其特点主要有:)的数据结构是一种既可以按行存储也可以按列存储的数据结构模式)既可以较好支持事务性较强的 处 理,又 可 以 支 持 分 析 性 较 强 的 处理)存 储 的 主 要 是 这 些 部 署 在 上的海量的半结构化、非结构化数据,如:文件、文本、视频、音频、图片、动画及其他半结构化或者非结构化的信息的元数据,主要是索引信息及其属性信息等等)的索引机制引入了语义计算技术由于 存储的主要是海量文件的各种索引信息,为了提高 的存取效率,引进了以标记和本体技术为代表的语义技术,将它们引入后,将极大提高其信息查找的精度和效率 计算模型关键技术 ()是一种建立在 ,及其 这种常用的互联网数据计算模型基础上的一种专门针对 与 的新的互联网计算模型 计算模型特点主要体现如下:)支 持 对 海 量 文 件 系 统 的 处 理 支持针对文件系统的传统的(?)处理,它将具有较好的处理效率和并发吞吐处理能力)支持对 云数据库系统的处理 具有较强的 操作能力,可以直接对 进行较好的计算处理)支持 与 两种计算模型 由于 具有同时按照行列存储的数据结构,它既支持 能力较强的 处理模式又支持 能力较强的 处理模式)具 有 较 强 的 语 义 性由 于 与 均采用了标记技术与本体技术,增强了它们各自的语义信息,在对它们处理时,可以利用这些语义信息进行分析计算,大大增强了计算模型的语义处理能力 关键技术与传统的基于 为基础的商业智能()挖掘工具不一样,()建立在 这种新型的互联网计算模型模型之上 它以基于 为基础的 比较类似,可以实现对海量数据文件的智能挖掘分析 它与 最大的区别主要体现在:)更具语义性由于基于 的计算模型充分考虑到了语义计算功能,在处理数据时,可以充分利用这些语义信息,更好地进行智能挖掘)效率更高由于 与 具有更好的语义处理能力,相应的处理效率会得到较好提高 另外,由于 是一种按照行列混合存储的云数据库系统,在作智能分析时,很大部分是对列数据进行分析,这样也可以大大提高其效率 基于该模型平台的“清华通”简介在“清华通”项目中,应用主要集中在:移动设备、客户端、校园 的开发个大的方面,在每个方面有一些子系统的构想,并进行了可行性分析、调研,并对有些系统进行了简单的实现目前基于移动设备定位的功能已经相当的成熟,可以在类似人人 的系统上加上地理信息这个维度 基于 智能手机平台,利用 的编程技术,结合移动手机定位功能 不仅简单的加上地理信息,而且同学可以更新:在 地,参加 活动把实时的活动更新出来不仅方便同学学习和联络,同时这些宝贵的实时信息是一种宝贵的资源在校园中,除了道路错综复杂,而且有较多的路障,这对进校的车辆造成了极大的不便,一个加入路障信息的具有校内导航功能的“清华通”系统已经变得非常重要,它可以为进校的游客提供方便“清华通”系统由部分构成:校内平面地图的生成(参考校内已有地图,人工加上路障标志)、移动设备定位(已讲)、路径查找与展示(拟准备基于手机自带的浏览器,访问固定网址,根据客户端输入加载地图)另外,可以采用短信提醒的方式,让进入服务区域的用户了解此项服务,选择使用张桂刚等:一种基于海量信息处理的云存储模型研究“清华通”系统的很重要的一个方面是地理信息系统的实现,一个三维的数字校园预览图能为校园的信息起到至关重要的作用,基于地理信息的校园信息的展现符合人们的认识规律,可以为用户提供快速、逼真的校园漫游服务“清华通”对经过逻辑处理层处理并加工的数据进行持久化的一个存储进程,其中 是用来存放文件的逻辑数据,同时记录物理文件在 上的物理地址 而 能够对数据进行有效的实际的存储,并对其进行副本管理和安全保护结束语本文提出了一种云环境下海量数据组织与资源共享的存储总模型,该模型能较好地解决结构化、半结构化及其非结构化数据与资源的对应存储方法;它在海量大小数据文件处理上具有较大的优势;本文紧接着分析了该模型的每个部分的一些关键技术;最后以“清华通”为案例分析了该模型平台的具体应用云存储在具体研究中依然存在很大的挑战,未来的研究主要集中在如下几个方面:)研究基于角色的存储优化方法,对用户的要求、习惯等信息进行分析、处理)研究基于 的云环境下具有语义路由功能的副本管理策略参考文献 ,?:,:,:,:?,:,():淘宝核心团队 :?,?:,:,:?:,:,:?:,:,?,:,:,?():,:,():,:()?():张桂刚男,年生,博士后,副教授,主要研究方向为云存储、海量信息处理李超女,年生,副教授,主要研究方向为云存储、海量信息处理张勇男,年生,副教授,主要研究方向为云存储、海量信息处理、规则处理邢春晓男,年生,教授,主要研究方向为云存储、海量信息处理、数字图书馆计算机研究与发展 ,(增刊)