欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年分布式存储.docx

    • 资源ID:10120871       资源大小:20.06KB        全文页数:7页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年分布式存储.docx

    2022年分布式存储 张恒均 摘要:分布式存储与传统集中式存储截然相反,集中式存储采纳的存储服务器存放数据,更多地依靠于硬件设备,面对大规模存储需求,很简单成为制约系统性能发挥的因素。分布式存储所谓一种概念,最早由美国的谷歌公司提出,它包含的种类有许多,比如分布式文件系统、分布式对象存储、分布式数据存储等,但无论是哪种存储,核心内容和思想都是一样的。与传统集中式存储相比,分布式存储所用到的物理设备较少,主要是靠整合、划分和安排存储资源来建立一个虚拟的存储空间,再由详细某些虚拟存储空间动身,扩展出更多系统结构,在提高牢靠性和有效性的同时,也解决了冗余等诸多问题。下面本文将对分布式存储数据中心建设解决策略进行探讨。 关键词:分布式数据;HDFS;Cepf;问题解决策略 一、透析分布式存储 (一)HDFS分布式存储体系结构 HDFS是一种实现分布式文件存储的体系结构,它类似于一个文件传输系统,当客户端须要读取某个文件数据时,首先会从元数据,也就是namenode服务器获得文件信息,然后在元数据服务器和实际存储数据服务器(datanode)的交互作用下,获得详细有效数据。通过分析整个交互过程我们发觉,作为整个HDFS文件系统中的管理者,namenode主要负责文件系统的命名空间、集群配置信息和存储块的复制;datanode则是文件存储的基本单元,当客户端向namenode发送文件写入和读取恳求后,namenode会根据事先制定好的规则反馈给客户端自己所管理的datanode信息。一般来说,一个集中中只有一个namenode的设计大大简化了系统结构。 (二)Ceph分布式存储系统结构 Ceph分布式存储系统的设计初衷是为了供应更好的牢靠性、可扩展性和性能。它所采纳的是 CRUSH 算法和数据分布均衡,这与传统集中式存储的元数据寻址有着特别大的不同,可实现各种类型的负载副本放置规则,存储节点规模非常浩大。Ceph的核心组件有Monitor服务、OSD服务和MDS服务,其中OSD是负责响应客户恳求返回详细数据的进程操作,它的元数据被保存在Monitor里。一般来说,Ceph分布式存储系统中的块存储须要Monitor服务、OSD服务和客户端软件,Monitor负责维护存储系统的硬件逻辑关系,OSD负责磁盘管理,以实现真正的数据读写。 块存储是Ceph分布式存储系统三种存储类型中的一种,另外两种是文件存储和对象存储,每种类型的存储都有各自的优点和缺点,如块存储的优点是利用Raid和LVM来爱护数据的完成性,通过组合廉价硬盘来提高存储容量,由多磁盘合成的逻辑盘能够提升读写效率,缺点在于,数据共享无法在主机之间实现,且由光纤交换机等构建的硬件网络平台成本较高;文件存储类型的优点是,造价低廉,文件共享是可行的,但读写和数据传输速度慢也是不容忽视的问题,并且在运用场景和日志存储方面也有比较特别的要求;而对象存储类型既具备了块存储读写速度高的优点,也具备了文件存储共享的特性,但更适合去更新变动较少的数据。 二、不同分布式存储系统存在的问题 (一)HDFS的缺点 1.短时间、低延迟恳求的响应实力不足 受自身性质和结构的限制,HDFS在处理用户要求时间比较短的低延迟恳求时会显得力不从心。HDFS最初是为了处理和解决大型数据集问题而设计的,实现高吞吐量的代价就是出现高延迟。 2.小文件存储量的有效性低 由于元数据会被存放在内存中,因此文件系统所能容纳的文件数量必定是有限的,假如以每个文件160字节去计算,200万份文件就须要占用至少600MB的内存空间,虽然以目前的状况来看是可行的,但当发展到10亿以上时,对硬件的要求就会变得很高。 3.文件写入及修改的限制 从目前来看,HDFS还不支持多用户对同一个文件写入的操作,也就是说,HDFS规定,一个文件只配有一个写入者,且只能在文件末尾完成,对文件修改也是如此。 (二)Ceph分布式存储系统的问题 1.可扩展性 由于CRUSH 算法的存在,使Ceph对系统扩容方面充溢了自信,甚至声称能够实现无限扩展,事实上也的确如此。但这种无限扩展更多是站在宏观立场去做推断,其扩展过程并不是很顺畅。由于Ceph没有中心化的数据节点,使扩简单受“容错域”制约,导致数据放置策略受到影响,所以扩容力度没方法得到提升。 2.存储成本问题 众所周知,Ceph是去中心化的分布式存储,元数据被分布在各个物理设备上,事实上,对象的被随机安排是无法保证匀称地存储在每一块磁盘上,所以某些磁盘的运用率会明显高于全部磁盘的平均运用率,那么这跟存储成本又有什么关系呢?在集群整体运用率不高的状况下,即便出现上述所讲的问题也没什么,但在整体运用率达到肯定程度时(一般会以65%作为标准去衡量),就须要管理员对高运用率的磁盘进行reweight,假如在调整过程中另外一块磁盘也被写满了,那管理员就必需被迫在Ceph没有达到稳定状态前,又一次进行reweight操作,从而使Ceph变得越来越不稳定,加之扩展性方面的问题,这个Ceph系统运行就会很惊慌。所以,许多公司为了避开出现这些问题,会选择增加成本,购买更多的物理设备,打算更多的磁盘,其实这并不是一个很省钱的方法,许多业界人士认为,一般Ceph集群在达到50%运用率时,就要起先打算扩容了,越大规模的集群,越多空置的存储资源,就会奢侈越多的钱。 三、问题改进策略 (一)HDFS问题改进策略 1.HBase开源数据库 建立 HBase数据库是解决低延时问题比较有效的一个方法,在很大程度上提升了存储系统的性能,运用缓存或多master设计可以降低client的数据恳求压力,以削减延时。另一方面,着手于HDFS系统内部进行修改也是一个不错的方法,但须要权衡吞吐量的问题。 2.提高小文件存储量的有效性 关于这方面问题的解决方法还是不少的,比如用SequenceFile、MapFile、Har等方式对小文件进行归档操作,其中比较重要的点在于,要知道与归档文件的映射关系;再有就是横向扩展,即把几个Hadoop集群拖在一个虚拟服务器后面,形成一个大的Hadoop集群,google曾经就是这样操作的;还有就是正在研发中的GFS II,它也将被改为分布式多Master设计,而且还支持Master的Failover。 (二)Ceph问题改进策略 1.扩充“容错域” 在起先规划Ceph集群时,设定好更大层次的“容错域”,比如Rack。 可以是真实的Rack,即使没有也可以是逻辑的Rack。这样扩容时,可以扩一个逻辑“容错域”,就可以打破扩一台机器的限制,扩一整个Rack,至少有好几台机器。 2.Ceph存储成本 到目前为止,还没有太好的方法去解决Ceph储存成本的问题,有人建议过Ceph集群按整个pool去扩容,即当一個pool满了,就不扩容了,开新的pool,新的对象只准写新的pool,老的pool的对象只可以进行删除和读取操作,但这样做也就谈不上“无限扩容”了。 四、结束语 分布式存储较集中式存储相比,的确为运用者供应了诸多便利,具有很明显的优势,且每一种分布式存储都有自己独特的亮点,给运用者供应了多样化的选择。但在详细应用时,还须要结合实际状况,HDFS也好,Ceph也罢,它们也都有自己的不足,没有哪种产品是十全十美的,数据中心建设的标准应遵循分布式存储的特点进行实施,这样才能最大限度提高数据运用率和保证数据平安。 参考文献 1宁睿,张琳.基于分布式深度网络的网络舆情分析方法探讨与实现J.电子设计工程,2022,28(14):85-89. 2高红岩.基于分布式存储的应用场景探讨J.网络平安和信息化,2022(07):87-90. 第7页 共7页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页

    注意事项

    本文(2022年分布式存储.docx)为本站会员(l***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开