基于NOSQL的云环境下数据分析和存储.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于NOSQL的云环境下数据分析和存储.pdf》由会员分享,可在线阅读,更多相关《基于NOSQL的云环境下数据分析和存储.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于云环境下的 NOSQL 应用研究之综述胡善杰201021060327一、选题依据和意义一、选题依据和意义随着互联网的普及和发展,人们对于互联网的需求越来越高,各种互联网技术应用而生。其中在 web2.0 的环境下人们对于互联网的需求已经从传统的门户网站向高业务量的互联网服务转换。这以变换对互联网企业提出了挑战,计算机硬件、电力和维护成本都在不断的正佳。为了解决这些问题,分布式技术在一些的互联网企业和一些设备和软件厂商的实际应用中得到了应用。到了 2006 年,google 公司 CEO 埃里克施密特(Eric Schmidt)在搜索引擎大会(SESSan Jose 2006)首次提出“云计
2、算”(Cloud Computing)的概念1。从这个时候开始,云计算成为继网格计算后和分布式相关的又以新兴的概念,云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务,从而将用户从复杂的底层硬件逻辑,软件栈与网络协议解放出来。云计算是并行计 算(Parallel Computing)、分布式 计算(Distributed Computing)和网格计 算(GridComputing)的发展,或者说是 这些计算机 科学概念的 商业实现。云计算是虚 拟化(Virtualization)、公用计算(Utility Compu
3、ting)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。云计算将是未来 5-10 改造 IT 信息市场和技术的重要力量。用户在云计算环境下,用户可以选择不同终端,如笔记本、PC、PAD、智能手机等,然后通过互联网来享受云服务商提供的各种服务,比如使用应用程序,存储个人信息和文档,软件开发等2,3。电子商务、SNS 等 web2.0 网站的兴起,各种类型的应用层出不穷,所以导致了这个云时代,不仅改变了网站的表现形式,也对网站的整体性能提出了更高的要求:1)数据库高并发 I/O 读写的要求:web2.0 网站要根据用户个性化信息来实时生成动
4、态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次 SQL 查询还勉强顶得住,但是应付上万次 SQL 写数据请求,硬盘 IO 就已经无法承受了。其实对于普通的 BBS 网站,往往也存在对高并发写请求的需求,例如像天涯论坛实时统计在线用户状态,记录热门帖子的点击次数,投票计数等,因此这是一个相当普遍的需求。2)对海量数据的高校存储和访问的需求:在类似人人网和 sina 微博这样的 SNS 网站每天用户产生海量的用户动态,像 sina 微博这种网站,一个月的的胡勇动态都是上亿。对于传统的关系数据库来说在一个上亿跳
5、数据的数据表里面进行SQL 查询,效率是十分地下的,再如果国内的一些大的 IM 软件的 WEB 登录系统,动辄上亿的帐号,关系数据库也难以应付。从用户体验的角度来说,传统的关系数据库也难实现在本地存储和处理复杂数据类型、提供各种完整数据服务以及敏捷的开发、部署和维护。3)对在基于 web 的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像 web server 和 appserver 那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供 24 小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,
6、往往需要停机维护和数据迁移。4,7在数据量和访问量逐渐增大的情况下下,人为地去添加机器或者切分数据到不同的机器,变得越来越困难,人力成本越来越高,于是便开始有了 NOSQL 的概念,它们的本意是提高数据存储的自动化程度,减少人为干预的时间,让负载更加均匀等为了解决传统数据库面临的问题。NOSQL 非关系数据库是随这云计算而发展起来的,也可以算是云计算中的一个部分,他舍去了关系数据库中的许多限制性能提升但这些功能对于处理网页的存储上可有可无的东西,总的而言 NOSQL 就是为了解决关系数据库中瓶颈而提出来的。5从 09 年开始,NoSQL 运动在各大社交网络和新兴公司间展开。如何将 NoSQL
7、和电子商务平台融合在一起,从而取得经济价值,成为 IT 界目前最关注的议题。本文探究如何使用现有的技术和资源进行伸缩性和可维护性的管理和开发,为电子商务平台在 NoSQL 运动中获益提供新的思路,使网站在充分利用现有资源和技术的情况下充分发挥数据存储和检索的极限。现在基于开源的 NoSQL产品很多,例如:在国际上真正的代表之作有来自 Google的 BigTable 和 Amazon 的 Dynamo6,Yahoo 的 hbase,Facebook 的 Cassandra还有 10gen 的Mongdb,以及一些基于传统关系数据库而开发的 NoSQL 插件如:HandlerSocke。和性能高
8、的内存数据库 voltdb。NOSQL 非关系数据库和以类似 hadoop 云计算平台的联合应用让NOSQL 非关系数据库在大数据运算环境下更应用自如。5,8二、国内外二、国内外 NoSQLNoSQLNoSQLNoSQL 发展现状发展现状由于 NoSQL 产生的环境是互联网的海量用户和数据,NoSQL 数据库在研究和设计中非常关注数据的高并发读写和海量数据的存储,和关系数据库比在架构和数据模型方面做了“减法”,如去掉数据库事务的一致性需求、读写时实需求和复杂的 SQL查询需求,而在扩展和并发方面做了“加法”,如易扩展、大数据高性性能,灵活的数据模型、低价成本的9。下面将分析下国内外的一些开源的
9、 NoSQL 数据库和相关的应用。由于互联网来源于美国,美国的互联网行业比较发达,相应的应用于互联网行业的NoSQL 数据库最开始也来源于美国,最著名的是 Google 公司的 BigTable,BigTable 从 2004年初就开始研发了,到 2005 年 2 月已经用了将近 8 个月。大概有 100 个左右的服务使用BigTable,比如:Print,Search History,Maps 和 Orkut。根据 Google 的一贯做法,内部开发的BigTable 是为跑在廉价的 PC机上设计的。BigTable 让 Google 在提供新服务时的运行成本降低,最大限度地利用了计算能力。
10、BigTable 是建立在 GFS,Scheduler,Lock Service 和MapReduce 之上的。BigTable 是一个稀疏的、分布式的、持久化存储的多维度排序 Map。Bigtable 的设计目的是可靠的处理 PB级别的数据,并且能够部署到上千台机器上。Bigtable现在已经实现一下几个目标:适用性广泛、可扩展、高性能和高可用性。Bigtable 已经在超过 60 个 Google 的产品和项目上得到了应用,包括 GoogleAnalytics、GoogleFinance、Orkut、Personalized Search、Writely 和 GoogleEarth。这些产
11、品对 Bigtable 提出了迥异的需求,有的需要高吞吐量的批处理,有的则需要及时响应,快速返回数据给最终用户。它们使用 的Bigtable 集群的配置也有很大的差异,有的集群只有几台服务器,而有的则需要上千台服务器、存储几百 TB 的数据15。BigTable 是 NoSQL 数据库的王者,其论文更是 NoSQL 理论的基石14,但遗憾的是BigTable 不开源,于是有了开源的 BigTable 版本这一说法。其中的佼佼者包括今天提到的两位:Cassandra和 HBase。HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Changet al 所撰写的 Google 论文“B
12、igtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。而 Hadoop 和 Hbase 被国内外互联网公司广泛应用。或者基于该开源项目开发出自己的 NoSql的数据库 Hbase和 BigTable 都是列式 NoSQL非关系数据库。Cassandra 是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发,用于储存特别大的数据。Cassandra 不是一个数据库,它是一个混合型的非关系的数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 NOSQL 环境 数据 分析 存储
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内