非结构化数据存储需求及CAS存储架构简介.doc
《非结构化数据存储需求及CAS存储架构简介.doc》由会员分享,可在线阅读,更多相关《非结构化数据存储需求及CAS存储架构简介.doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、非结构化数据存储需求及CAS存储架构简介1 非结构化数据存储需求1.1 非结构化数据我们通常把那些不方便用数据库二维逻辑表来表现的数据,称为非结构化数据,也习惯称其为内容信息.随着企业业务的飞速发展和企业信息化建设的步伐,特别是随着网络应用的丰富和发展,各行各业都积累了大量的信息资源,其中大部分都是内容信息.研究部门调查发现,在当前企业存储的大量数据中,传统关系数据库管理系统(RDBMS)处理的结构化数据仅占数据信息总量的20%,而全球80的信息是非结构化的,包括:纸质文件和报告、电子影像、视频和音频文件、传真件、信件、电子邮件等。1.2 内容管理系统内容管理系统就是针对企业非结构化数据的管理
2、而设计的,帮助企业解决在内容信息的管理和使用过程中的一系列问题。1.2.1 数据存储要求内容管理系统对数据存储特别是影像数据的存储有如下要求: 海量可扩充的存储设备由于系统影像数据会随着业务量的增长而迅速增长,所以需要一个具有在线扩容能力,并在扩容时不会影响整个存储系统性能的高效存储。 高读写性能由于影像文件的存储容量都很大,所以数据存储需要有良好的读写性能。 备份和恢复能力存储设备要支持在海量情况下高速的在线备份和恢复解决方案。 满足法规遵从要求采一次写多次读技术(不能修改、删除,只能查看),保证数据的真实性、完整性,满足内部审计要求。 数据完整性与自动修复希望存储内部提供对于数据进行检测完
3、整性并自动修复的功能,避免出现影像打开后出现色差,黑线,黑块等影响影像质量的问题. 消除重复存储对于相同的图片如果有多次存储的话只希望在后台保留一份,对于前端应用完全透明,节省了存储空间。 存储的高可用性和性价比需要存储支持高可用性方案,比如双机热备,在线容灾等,在确保安全性的情况下希望有一个比较好的价格. 方便的部署部署的设备需要充分利用现有网络和服务器资源,对于业务不中断的部署与升级. 设备管理随着数据量的增长,设备的不断扩容,设备节点会越来越多,所以希望所购买的存储是一个智能的可自动报警的设备.2 CAS存储架构内容寻址存储(Content Addressed Storage,CAS)是
4、由美国EMC公司2002年4月率先提出的针对固定内容存储需求,专为非结构化数据存储而设计的先进网络存储技术(固定内容是指一旦生成就不再发生改变的信息,比如:视频、扫描影像、电子邮件、银行票据等,企业内容管理系统所要管理的资料影像,就属于是固定内容数据)。CAS具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性.2.1 CAS的特点2.1.1 不需要记住文件路径CAS和SAN、NAS在技术层面有一个最大的区别。SAN、NAS在存储文件的时候是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。
5、而CAS没有分区、没有目录,用户不需要记住文件路径,只需要把数据交给CAS,CAS给用户一个数字指纹,相当于公民身份证,靠一串数字和字母组合的数字指纹来识别用户存储的数据。当用户需要找这个数据的时候,要提交数字指纹来获取数据,所以它的技术和传统的SAN、NAS是完全不同的。 2.1.2 免维护由于CAS存储数据方式的不同,导致与NAS、SAN最大的不同点就是CAS的免维护性。这种免维护性,一方面减少了维护系统的人工成本开销,在NAS和SAN的情况下,一个管理员最多只能管理十几个TB的数据,而在CAS的情况下,一个管理员则能够轻松管理500TB的数据。另一方面,免维护性也增加了数据的安全性和可靠
6、性,例如,在NAS和SAN中,管理员可能在维护过程中意外甚至有意地删除、修改数据,在CAS中,数据的修改是无法实现的,系统会根据最初数据存储的情况自动修复. 2.1.3 助SAN瘦身此外,当用户的数据量越来越大的时候,其数据就一定要放在CAS,因为当用户的数据从1TB扩展到50TB的时候,SAN的性能会急剧下降,所以必须把固定内容数据、长期的具有历史保存价值的数据剥离出来,使SAN瘦身,让SAN的性能重新回到高效,使现有的存储达到更好的优化,NAS也是一样。2.2 CAS的优势2.2.1 合理的存储架构提高整体系统性能。由于大部分数据归档到CAS上,因此核心系统保存的数据就少了,系统资源的占用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结构 数据 存储 需求 CAS 架构 简介
限制150内