45 个分布式存储典型问题解读(附物联网分布式存储技术的应用与分析).docx
《45 个分布式存储典型问题解读(附物联网分布式存储技术的应用与分析).docx》由会员分享,可在线阅读,更多相关《45 个分布式存储典型问题解读(附物联网分布式存储技术的应用与分析).docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、涉及分布式存储选型、架构、运维等。1、分布式存储当前主要的应用场景有哪些?简单来说,就是存储设备分布在不同的地理位置,数据就近存储,将数据分 散在多个存储节点上,各个节点通过网络相连,对这些节点的资源进行统一的管 理,从而大大缓解带宽压力,同时也解决了传统的本地文件系统在文件大小、文 件数量等方面的限制。对于分布式存储,应用场景就很多了,如果你有以下需求: 数据量大、高吞吐量、高性能、高扩展,那就推荐分布式存储。主要的应用场景:1)块存储类似传统存储IPSan形式提供iSCSI接口,作为虚拟化后端存储2)对象存储视频,音频,图片类的存储,归档存储等,例如保险行业的“双录”系统, 电子保单系统3
2、)文件存储作为NFS, GPFS之类集群文件系统的替代品1、分布式块存储:(1)云平台,私有云建设,分布式存储非常适合云平台的场景,传统集中 式存储,一般都是标准iscsi协议挂载卷到openstack端,每个lun都需要单独挂 载。配置MPIO等。而分布式存储是通过rbd协议挂载存储池给OpenStack, OpenStack端直接在存储里划分和创建卷,调用快照等高级功能,分布式存储和 OpenStack是天生适配,更加合适OpenStack的私有云的发展。(2)容器场景:2018年12月发布Kubernetesl.13版本,用于容器编排引擎 的标准存储接口 containerstorage
3、interface (CSI)已普遍可用。在这些产品中,容 器本地数据服务的需求对于支持微服务结构变得非常重要,这些需求包括硬件不 可知性、API驱动、基于分布式架构,能够支持边缘、核心或公共云部署等。超 过70%的容器应用需要有状态数据持久化保存,SDS可以解决:需要敏捷的数 据迁移、从多个应用容器同时访问数据的需求。所以容器场景的弹性灵活的需求 也是非常适合分布式存储。2、分布式文件存储:分布式文件适合大容量文件存储场景,横向扩展灵活, 性能优于双控存储,例如非线编,共享NAS,高性能计算等等都非常适合,文 件存储也是现阶段三种存储中市场使用最高的,但有些也在慢慢转对象存储,对 象存储接口
4、协议在逐步开发中,会有一个过渡阶段。3、分布式对象存储:海量小文件需求,检索需求,大数据方向,金融的影 像平台,有互联网传输需求,和公有云整合,企业高校的网盘,监控等等非结构 化场景都适合,包括一些医疗的PACS也在逐步过渡到对象存储,未来最有爆发 潜力的存储。文件和对象都针对的非结构化场景,文件往对象转是大势所趋,在于对象 S3接口的逐步推广,对象存储支持文件和对象互操作(文件协议写入,对象方 式读出,反之亦然)也是顺应市场需求的产物。金融行业:影像系统、档案系统、容器、私有云、备份医疗行业:超融合、PACS影像存储安防行业:监控集中存储、智能安防教育行业:私有云、校园网盘除了 OLTP单一
5、业务极限IOPS需求,和极低时延(微秒),大部分业务场景 都可以通过SDS满足,金融领域的开发测试,容器云,电子影像,双录,广电方备份软件o是否需要备份建议针对业务系统保存的数据重要性级别而定,如业务系统数 据需进行本地、同城或异地备份,那么建议在应用端对需要备份的数据进行统一 备份,存储端不进行备份,这样可保持整体备份架构统一性,避免备份大量无用 数据造成备份设备容量浪费。应用端备份时可使用统一备份软件,如NBU、TSM 等。依然需要备份,分布式存储的副本或纠删码是防止存储部件损坏造成数据丢 失或业务暂停,哪怕分布式存储启用快照功能,也是无法防止物理故障。备份的 意义在于使用与存储完全隔离的
6、故障域来保护数据,分离的存储操作系统,不同 的物理设备,不同的物理区域,以防止物理故障,逻辑故障。方式的话有:1 .备份软件+硬盘设备或磁带设备;2 .存储之间的复制;3 .以及现在新的存储至对象存储方式,其本质是存储自带备份小软件将属于 备份到硬盘设备的方式。22、分布式存储节点超过内部通信交换机端口上限后,如何扩展内部通信交 换机?业务量大时交换机节点间通信是否会受阻?需要扩容内部交换机,分布式存储的交换机扩展方式与业务交换机的扩展方 式都是一致的,最好在网络架构规划时预留交换机在线扩展条件(包括交换机端 口等),以避免停机扩容带来的存储不可用。23、如何做包括元数据在内的数据迁移?打个比
7、方,大数据的cloudera集群,由于是商业化产品,通常有高可用, namenode都是高可用的,所以,你如果要搬机房迁移的话,我们做过(这是一 个悲剧,机房租用期到了),可以先迁移一个namenode,保证网络畅通(幸好是 迁移到隔壁机房),再迁移另外一个,然后再迁移各个datanode,基本用户无感 知。还是需要结合当前元数据的存储方式和数据迁移的目的综合考虑。24、AI训练或大数据分析是直接使用对象存储好,还是先把数据抽取到本 地文件系统好?抽取到本地存储,这绝对不是一个好的主意,大数据平台的数据量十分庞大, 所进行的操作涉及的数据,少则几个G,多达几十个T,如此多的数据,就算你 本地存
8、储够大,请问抽取传输要多少时间。所以,必定是在计算节点进行分析,可以的话,可以调用有GPU的计算节 点进行AI训练。至于对象存储,是可以的,现在aws上大数据分析,有的就是 基于对象存储。这个需要结合数据量的大小和本地文件系统和对象存储的访问性能来共同 决定。如果数据量过大已经超出了本地文件系统的支持容量,那么就要使用对象 存储。本地文件系统如果性能好很多,而数据又需要频繁读写,可以将数据预加 载到本地以提升性能。25、分布式存储场景中是否也可基于AIops进行一些智能运维?有什么建 议?在金融行业目前也有蛮多分布式存储集群案例,那基于存储所关心的集群存 储服务故障自愈、磁盘故障的SMART预
9、测是否也可以借鉴这套算法模型去设 计?算法本身与数据是如何存储的并无直接关系,基于分布式存储的大数据平台正是 机器学习、智能运维分析的奠基石,大量、丰富、有效的数据为算法分析提供了 分析的可能。磁盘故障的分析需要首先观察磁盘历史数据的趋势及分布,选择相 应算法可以实现有效的预测。故障自愈部分的建设需要结合专家建议,给出特定 场景下故障自愈方案才可以落地实现。26、从运维的角度看,分布式存储设计时要考虑哪些方面?运维管理中的监 控告警、备份恢复与异地容灾等应该如何规划?结合流行的ceph分布式做解释:(1)分布式存储监控:搭建分布式存储的开源软件通常都是服务器,是以服 务器自有磁盘来做存储的,所
10、以监控可以在服务器的磁盘上设置,同时,我们同 样可以用prometheus+grafana的方式进行监控,部署开源的ceph_exporter服务。(2)备份和恢复:分布式存储是不需要备份的,因为故障本身就在其软件 设计的计划中,比如ceph,设置2到| 3个mds+monitor, 45个osd,坏了几个 节点,可以从其他节点恢复。(3)异地灾备:比如ceph的RBD快照技术,通过差量文件的方式定期将 数据备份到灾备中心,当主数据中心发生故障时,从灾备中心恢复最近的备份数 据并重启相应的虚拟机,最大程度降低灾难时的数据恢复时间。在设计时应考虑到网络架构对性能的影响、监控内容的合理性、运维的便
11、捷 性等方面,监控告警主要为硬件类告警、操作系统告警、应用告警、性能容量告 警几大类,针对备份恢复及异地容灾建议在应用客户端进行按需备份容灾。27、如果选择基于开源软件的分布式存储技术路线,如何做好运维人才队伍 建设?如何做好软件产品平滑迭代?如何构建企业基于开源分布式存储系统的 业务生态?对于人才建设:1、找一两名在其他公司有实际落地经验的带头人,最好在社区比较活跃, 负责项目规划2、招聘几名应届实习生负责项目实施,这个过程一般会有新人脱颖而出对于产品迭代:只进行非常有必要的升级迭代,避免陷入无限升级的困境,同时在项目规划 之初考虑升级迭代的方式,对于分布式系统,逐台升级一般不影响业务使用对
12、于构建业务生态:由技术部架构选定场景,制定进相应技术规范中,并由开发、运维进行落实。28、Ceph在海量小文件的环境下,稳定性和扩展性如何?海量小文件存储(简称LOSF, lotsofsmallfiles)出现后,就一直是业界的难 题,许多互联网公司也针对自己的具体场景研发了自己的存储方案,还有一些公 司在现有开源项目基础上做针对性改造优化以满足业务存储需求;一、通过对若干分布式存储系统的调研、测试与使用,与其它分布式系统相 比,海量小文件存储更侧重于解决两个问题:1、海量小文件的元数据信息组织与管理:对于百亿量级的数据,每个文件 元信息按100B计算,元信息总数据量为1TB,远超过目前单机服
13、务器内存大小; 若使用本地持久化设备存储,须高效满足每次文件存取请求的元数据查询寻址 (对于上层有cdn的业务场景,可能不存在明显的数据热点),为了避免单点,还 要有备用元数据节点;同时z单组元数据服务器也成为整个集群规模扩展的瓶颈; 或者使用独立的存储集群存储管理元数据信息、,当数据存储节点的状态发生变更 时,应该及时通知相应元数据信息进行变更。对此问题,各分布式存储系统主要采用以下对策:1)设计时就在文件名中 包含了部分元数据信息,减小了元数据规模,元数据节点只负责管理粒度更大的 分片结构信息;2)通过升级优化硬件,使用分布式元数据架构一一多组(每组2 台)10性能更好的ssd服务器一一存
14、储集群的元数据信息、,满足单次10元数据查 询的同时,也实现了元数据存储的扩展性;3)系统模块提供了图片逻辑卷到物 理卷轴的映射存储与查询功能,通过cache集群来降低延时提高并发。2、本地磁盘文件的存储与管理(本地存储引擎):对于常见的Linux文件系统, 读取一个文件通常需要三次磁盘10(读取目录元数据到内存,把文件的inode节 点装载到内存,最后读取实际的文件内容);按目前主流2TB4TB的sata盘,可 存储2kw4kw个100KB大小的文件,由于文件数太多,无法将所有目录及文件 的inode信息缓存到内存,很难实现每个图片读取只需要一次磁盘IO的理想状 态,而长尾现象使得热点缓存无
15、明显效果;当请求寻址到具体的一块磁盘,如何 减少文件存取的io次数,高效地响应请求(尤其是读)已成为必须解决的另一问 题。对此问题,有些系统采用了小文件合并存储+索引文件的优化方案,此方案 有许多益处:a.合并后的合并大文件通常在64MB,甚至更大,单盘所存储的合 并大文件数量远小于原小文件的数量,其inode等信息可以全部被cache到内存, 减少了一次不必要的磁盘10; b.索引文件通常数据量(通常只存储小文件所在的 合并文件,及。ffset和size等关键信息)很小,可以全部加载到内存中,读取时 先访问内存索引数据,再根据合并文件、offset和size访问实际文件数据,实现 了一次磁盘
16、10的目的;c.单个小文件独立存储时,文件系统存储了其guid、属 主、大小、创建日期、访问日期、访问权限及其它结构信息,有些信息可能不是 业务所必需的,在合并存储时,可根据实际需要对文件元数据信息裁剪后在做合 并,减少空间占用。除了合并方法外,还可以使用IO性能更好的SSD等设备, 来实现高效响应本地io请求的目标。当然,在合并存储优化方案中,删除或修改文件操作可能无法立即回收存储 空间,对于存在大量删除修改的业务场景,需要再做相应的考量。29、Ceph可以配置单副本吗?【问题描述】采用Ceph搭建对象存储,用于小文件保存,几百TB的级别。 但是大部分文件几乎不会被访问,有点儿像一个归档存储
17、。如果使用两副本、三 副本,硬盘数量太多了。如果在底层配置RAID组,把VD给Ceph,只做单副 本,是否可行?不建议,建议硬盘直通进操作系统。做2-3副本保障数据安全。1、如果在底层配置RAID组,把VD给Ceph,只做单副本相当于每个VD 一个OSD。在VD出现问题后,由于数据是1副本,会数据丢失风险。2、底层RAID在做数据恢复时,也会影响ceph集群异常3、增加了集群运维难度,增大了集群风险点建议采用纠删码(EC)来解决,可以得到70.85%的磁盘空间使用效率,不 过性能比副本差一些。不建议配置单副本,为了保证系统的可用性和可靠性,必须采用两副本或者 三副本或者在原场地养老的模式30、
18、Ceph一个OSD应该分配多少内存?【问题描述】一个OSD应该分配多少内存?最近在测试Ceph集群,发现OSD占用的内存随着写入的数据越来越多,占用的内存也越来越多,最终都把 系统内存完了。root3138328.28,32593676920976?SslMar01332:07/usr/local/hstor/ceph_dir/bin/ ceph-osd-i42pid-file/var/run/ceph/osd.42.pid-c/usr/local/hstor/ceph_dir/etc/ceph/cep h.confclusterceph现在分配了多少内存出现问题了呢? Ceph集群出现异常比
19、如数据重平衡会 大量使用内存,OSD内存消耗通常与系统中每个守护进程的PG数有关。内存问 题需要多注意,内存不够会导致。sd重启,集群异常。也给出了推荐的 OSD内存配置,可以参考一下,建议3-5GB吧。OSDs(ceph-osd)Bydefault,OSDsthatusetheBlueStorebackendrequire3-5GBofRAM.Youcanadjustt heamountofmemorytheOSDconsumeswiththeosd_memory_targetconfigurationoption whenBlueStoreisinuse.Whenusingthelegac
20、yFileStorebackend,theoperatingsystempage cacheisusedforcachingdata,sonotuningisnormallyneeded,andtheOSDmemoryconsump tionisgenerallyrelatedtothenumberofPGsperdaemoninthesystem.按照官网给的建议,每TB数据分配1GB内存较为适中,当然如果内存越 大越好,这样对于集群的数据均衡和高并发10处理上,不会产生性能瓶颈。 元数据服务器和监视器必须可以尽快地提供它们的数据,所以他们应该有足够的 内存,至少每进程IGBo OSD的日常
21、运行不需要那么多内存(如每进程500MB) 差不多了;然而在恢复期间它们占用内存比较大(如每进程每TB数据需要约1GB 内存)。通常内存越多越好。31、Ceph在激活OSD的时候提示没有权限?【问题描述】KVN虚拟机,按照手册进行部署的,前面没有提示错误,最 后激活OSD的时候提示没有权限。到OSDO, 0SD1两台机器的/var/local/osdO 和/var/local/osdl目录下看了一下,已经有文件存在了。不知道是哪的权限出了 问题!还是说python2.7的问题?查看下ceph用户对于/var/local/osdO/osdl有没有用户权限,可chown下权限 在尝试可以把具体的命
22、令行贴出来看下,一般这种问题肯定是权限设置没有设置好 导致的。32、如何对Ceph集群进行配置,同时运行多个mds服务?cephfs多mds默认是动态负载均衡的,为了负载文件系统请求到多个mdso cephfs会根据每个mds计算一个热点值,热点高的mds缓存中的目录会往热点 低的mds迁移,缓存中的目录在迁移的过程中是被锁定的,应用层的10不能访 问正在迁移的目录或文件,会导致部分10访问中断几秒。于是用户就感觉卡了。 有2种方案,两种方案是独立使用的。一,使用静态负载均衡,我们把业务绑定到mds,每次来业务我们根据mds 性能监控报表,把业务绑定到负载低的mds上去,也叫手动负载均衡。操作
23、过 程如下:1,把业务的根目录pin到mds上。假设给用户a分配了目录/A,用户b分配了目录/B,用户c分配了目录/C。那么我们把a用户分配到mdsO,把b用户分配到mds 1,把c用户分配到mds2osetfattr-nceph.dir.pin-v 1 /B2,设置cephfs的mds不迁移只需要设置cephfs的mds不迁移,就能让子目录不迁移。打 FF/etc/ceph/ceph.conf 文件配置mds_bal_min_rebalance= 1000每个mds者整产生一个热点值,这个热点值除以集群的总热点,然后和 mds_bal_min_rebalance 比较,超过 mds_bal_
24、min_rebalance 就会迁移,但 mds 的 热点面经过计算后怎么都不会超过1000的,所以只要配置 mds_bal_min_rebalance= 1000,多MDS之间就不会相互迁移缓存目录(不会产生 负莪均而),既然不迁移,子目录就会跟着父母走,/A/AA会跟着父目录/A绑定 到mdsO上,而/A/AA/AAA会跟着父目录/A/AA绑定到mdsO上。所以只要绑定 了业务的根目录,并且设置了 mds_bal_min_rebalance= 1000,用户目录就被固定 到了 mds上。多个用户可以绑定到同一个mds上。注意:只要使用这种模式,一定要绑定所有业务到mds上,否则业务会被 默
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 45 个分布式存储典型问题解读附物联网分布式存储技术的应用与分析 分布式 存储 典型 问题 解读 联网 技术 应用 分析
限制150内