一种基于海量信息处理的云存储模型研究_张桂刚.pdf
《一种基于海量信息处理的云存储模型研究_张桂刚.pdf》由会员分享,可在线阅读,更多相关《一种基于海量信息处理的云存储模型研究_张桂刚.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计 算 机 研 究 与 发 展?():,收稿日期:基金项目:国家“九七三”重点基础研究计划基金项目();国家自然科学基金项目();湖北省教育厅 年度人文社会科学研究项目();湖北经济学院青年科研基金项目()一种基于海量信息处理的云存储模型研究张桂刚李超张勇邢春晓(清华大学信息技术研究院北京 )(清华大学信息科学国家实验室北京 )(),(,)(,):),;)()();)();)(),;)(),“”;摘要提出了一种云环境下海量数据组织与资源共享的存储总模型,该模型包括:结构化、半结构化及其非结构化数据与资源的对应存储方法;能兼顾海量大小数据文件处理的分布式文件系统 ;云数据库系统设计模型 ;云环境
2、下强于 弱于 ,以 为基础的一种针对互联网海量数据文件处理且具有语义计算效能的计算模型 ;针对 及其 的具有语义效能的智能挖掘分析工具 ;最后以“清华通”为案例分析了该模型平台的具体应用关键词云存储;海量信息处理;分布式文件系统;云数据库系统中图法分类号 随着云计算技术的飞速发展,越来越多的数据密集型企业相继出现 面临着这些海量的数据信息,包括结构化信息、半结构化信息及其非结构化信息,如何存储并对这些信息进行处理将是这些企业面临的巨大挑战 本文针对这些海量信息提出了一种云环境下得海量信息存储模型相关工作 常用云环境下分布式文件系统研究现状云环境下分布式文件系统很多,包括 、淘宝开源的 、腾讯公
3、司 用 于 相 册 存 储 的 以 及 的 其中,以及 为了解决海量小图像存储的一种专门针对小图片文件的 系统其中 以及在它的基础上衍生出的两个开源分布式文件系统 与 它们有一个共同的特点:主要就是针对 最初的应用需求,文件搜索,故在处理大文件上面有较大优势,另外它们采用 模型,在处理搜索上有较好的效率而随着应用的不断变迁,光处理大文件已经越来越不适应互联网技术的发展需要,后来产生的 ,以及 的 需要解决的问题及模型都很类似,它们主要用于处理云环境下的海量的小图片的存储和处理问题下面对常用分布式文件系统作一简要分析)现有常用分布式文件系统缺点非标准 接口问题:对应用层提供自己定义的一套 ,不符
4、合 接口语义,兼容性受限、现有的应用程序移植不便通用文件系统 对小文件的支持受限:数据块的大小为 的整数倍,模型中只有单一的元数据服务器,使得对小文件的支持受限 一方面是存储碎片的问题;另一方面是小文件数量受到单一元数据服务器的处理能力限制不便扩展)元数据节点单一:目前典型的分布式文件系统 ,及其 等等,它们都有一个共同的缺点就是都只支持单一元数据节点,这样对元数据节点提出了一个非常严峻的挑战 一旦元数据服务器崩溃,将带来灾难性的后果 另外,由于只有一个元数据节点,当元数据不断增加时,对元数据服务其的吞吐量、并发处理能力及其工作负载均提出了严峻的挑战 常用云数据库系统研究现状)是 在 ()的基
5、础之上研发出来的一种云环境下的数据库系统,现在已经在 ,等得到了较好应用)是一个开源的、非关系型的分布式数据库 运行 的分布式文件系统之上,为 提供类似与于 的功能)是一个开源的分布式数据库管理系统 最初由 开发并用于增强他们的收件箱搜索功能 由于它在处理数据同步上效能交叉,被 所抛弃 互联网海量数据处理技术研究现状针对数据的处理技术主要有针对传统关系数据库的处理语言 ,针对海量云环境下的弱语义处理、在互联网搜索中用的最多的 处理算法 的主要特点是处理(?)对数据具有巨大的优势,能够很快地对数据进行归类,并将结果反馈给互联网用户,故它在搜索这种语义要求不是特别高的应用中具有非常好的应用随着应用
6、的需求不断发展,互联网应用对数据处理的要求也越来越高,传统的 技术已经很难完全满足需求 的出现主要就是为了让互联网数据的处理能力要比 的语义性更强后来出现的 是一种比 处理能力更好的一种专门针对互联网云环境下数据处理的方法针对数据的智能分析和挖掘技术,传统的很多智能挖掘工具 主要针对传统关系数据库进行 分析,后来出现的一些基于列存储的关系数据库如华鼎数据库,但是它的计算模型任然基于 本文将基于 技术、技术及其语义 计算 技 术提 出一种新的 互 联 网 计 算 模 式 互联网计算模型 一种针对海量信息处理的云存储模型模型随着对于海量数据处理的要求越来越多,另外针对结构化数据与非结构化数据的处理
7、也提出了更高的要求,本文提出了一种针对海量信息处理的云存储模型模型,该模型总包含如下几个部分:)操作系统层 操作系统主要采用 操作系统,所有的文件最终的物理存储都以 文件系统来进行组织)分布式文件系统 ()是以现有开源分布式文件系统 为基础,研制出的一种运行在 操作系统之上,具有元数据服务器集群与客户端自动定位、解析机制的分布式文件系统 云数据库系统及张桂刚等:一种基于海量信息处理的云存储模型研究其以 为基石的互联网处理机制)数据库系统层 它包含用于存储结构化数据或者对事务处理要求极高的以行方式存储的传统关系数据库系统,如 数据库、数据库,或者以列方式存储的关系数据库,如清华大学自主研发的华鼎
8、数据库 另外,针对互联网的海量文件,对于这些海量文件的元数据信息(如文件的索引信息)需要存储在一个云数据库中 现有的互联网海量数据文件的索引 等 元数据信 息 一 般 存 储 在 以 为 基 础 的 ,以 为 基 础 的 等等云数据库系统中,本文的基于 分布式文件系统之上的海量数据文件的元数据信息主要存储在清华大学准备研制的以现有清华的华鼎数据库为基础的新的云数据库系统 ()上)数据操作层数据操作层主要包含对传统关系数据库的各种语义精度比较高的 操作和针对互联网海量数据文件,以 计算为基础的 新 型 计 算 方 法 ()计算模型)知识挖掘层数据挖掘层主要包含以 为基础的语义性能严格的传统的商业
9、智能()挖掘工具以及针对互联网海量文件处理,对并发及其吞吐要求高而语义性能要求相对较低的以 为基础的一种新的专门针对 分布式文件系统的()分析工具)应用层该层主要是基于云环境下互联网海量数据处理的一些应用系统的研发,如数字城市系统与“清华通”应用项目云存储模型关键技术研究 文件系统关键技术分布式文件系统 主要指用于存储各种海量数据文件,其核心特点就是采用了元数据服务器集群技术及其客户端核态定位解析技术 以 分布式文件系统为基础进行了改造,其主要实现机制如下:)采用了元数据服务器集群机制 通过元数据服务器,将分布式文件系统的海量数据文件的元数据分配到不同的服务器中 元数据服务器负载均衡每台元数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 海量 信息处理 存储 模型 研究 张桂刚
限制150内