云计算关键技术及基于Hadoop的云计算模型研究.pdf
《云计算关键技术及基于Hadoop的云计算模型研究.pdf》由会员分享,可在线阅读,更多相关《云计算关键技术及基于Hadoop的云计算模型研究.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、云计算关键技术及基于Hadoop的云计算模型研究洪沙,杨深远(重庆大学软件学院,重庆400030)摘要:云计算是在网格计算基础上新兴的计算模型,是互联网公司争相追逐的新技术。云计算作为一种商业计算模型,可以把任务分布在大量的计算机构成的资源池上。介绍了云计算的关键技术,这些技术包含虚拟机和计算模型等,还基于Hadoop对云计算模型进行了研究。关键词:云计算;云计算关键技术;云计算计算模型;Hadoop中图分类号:TP393.02文献标识码:A文章编号:1672-7800(2010)090009030引言云计算是由企业界开始发展,然后才进入学术界引起重视的,这与网格计算相反。经过对迄今为止的云计
2、算相关学术论文进行统计分析后,显示学术界对于云计算的研究主要集中在云技术关键技术方面。云计算研究的关键技术包括虚拟机、安全管理、数据管理、云监测、能耗管理和计算模型等。云计算的计算模型是研究如何针对某类应用特点提出效率更高的编程方式,目前云计算模型众多,而Hadoop是一个开源的分布式系统基本架构,正日益成为具有较强实用性的开发平台,淘宝就是国内率先使用Hadoop的公司之一。1云计算关键技术1.1虚拟机虚拟机是云计算的关键技术之一。目前在云计算中使用的主要虚拟机之一就是VMware Infrastructure。它是一个虚拟数据中心操作系统,可以将离散的硬件资源统一起来以创建共享平台。其优点
3、有:整合服务器以降低IT成本;暗哨计划内和计划外停机以改进业务连续性;运行较少的服务器并且动态关闭不使用的服务器。1.2安全管理云计算是计算机资源的整合,通过云计算设施中的任何一台计算机,任何隐私信息都能够被找到。云计算安全问题已经成为急需解决的重要问题。其中,Siani Persion等提出了在云计算服务设计过程中保护用户隐私的一些设计原则:发送尽量少的个人信息到云中,或者对系统进行分析后只对一小部分个人信息进行必要的收集和采集;采用安全措施防止未授权的访问、复制、使用或者修改个人信息来保护云中的个人信息;最大限度地实现用户控制。在云计算环境中,让用户完全控制个人信息是比较困难的。要加强对个
4、人信息的控制:一可以允许用户控制最重要的个人信息;二可以委托信任的第三方来管理;允许用户对个人信息的使用进行选择,即加 入、退 出机制;明确以及限制数据使用的目的。个人信息必须被身份明确的人使用和处理;有反馈机制。即设计人及界面清楚地表明云服务中采取的安全措施,用其向用户提供安全提示。1.3数据管理云计算具有计算能力可变、数据储存在不信任的主机上、数据是远程复制等3个特点。从这3个特点分析而出,只有两种数据管理应用程序可能适合部署到云计算中:一是和事务处理相关的数据管理系统;另一种是和分析相关的数据管理系统。前者未采用共享的体系结构,在进行远程数据复制时很难满足ACID的需求,同时在不信任的主
5、机上存储数据也有比较大的风险。ACID要求对于基于分析的数据管理系统来说不是必须的,同时可以保证敏感数据在分析之外,从而保证其安全。因此,基于分析的数据管理系统应该很合适部署到云计算环境中去。1.4云监测和能耗管理云监测是随着云计算的推广、云设施不断增加、为了更好地体现云计算的强大计算处理能力而设置的对虚拟机监控的能力;能耗管理是如何节省云设施中计算设施所需要的能源、有效整合资源、降低成本。1.5云计算的计算模型现行的分布式计算系统可以提供强大的计算能力,但非专业用户并不能有效地利用,一个庞大的任务很可能由于初学者的偶然操作导致性能的大幅下降。为了解决这些问题,应该提软 件 导 刊Softwa
6、re Guide第9卷%第9期2010年9月Vol.9 No.9Sep.2010作者简介:洪沙(1962),男,重庆人,博士后,重庆大学软件学院副教授,研究方向为企业信息化、数字图像处理、电子政务;杨深远(1987),男,河南洛阳人,重庆大学在读硕士,研究方向为企业信息化。2010年软 件 导 刊供给用户一个高度抽象的产品系统,这些就是云计算的计算模型。提 到 云 计 算 模 型,就 不 得 不 说 一 个 开 源 框 架,那 就 是Hadoop。Hadoop是一个分布式系统基本架构,由Apache开发,使用户在不了解分布式底层细节的情况下,开发分布式程序。简单点说,Hadoop是一个可以更容
7、易开发和运行处理大规模数据的软件平台。Hadoop实现了一个 分布式文件系统(HadoopDistributedFile System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX标准的要求,这样可以流的形式访问文件系统中的数据。Hadoop采 用Master Slave结 构(如 图1),会 有一 台Mas-ter,主要负责NameNode的工作以及JobTracker的 工 作,Job-Tracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有
8、多台Slave,每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。图 1Hadoop 结构2Windows下使用Hadoop实例的研究2.1Windows下使用Hadoop的环境配置:(1)安装Hadoop前,首先需要安装CygwinCygwin是一个在Windows平台上运行的Unix模拟环境,提供了shell支持。安装中需要选中Net category中的openssh,如图2所示。图 2下载 Cygwin安装包(2)配置Windows系统变量新建系统变量CYGWIN,变量值
9、为ntsectty编辑系统变量里的Path变量,加入C:cygwin bin(3)安装Java,即安装jdk,配置JAVA环境变量。2.2单机模式(1)启动Cygwin,解压缩Hadoop安装包,例如Hapoop安装包 位 于e:下,则 解 压 命 令 为tar-zxvf cygdrive e hadoop 0192tar gz。解压默认目录在C:cygwin home user文件夹下。(2)编辑C:cygwin home Administratorhadoop0192conf里的hadoop env sh,将JAVA HOME变量设置成JDK安装目录,如果路径中有空格,需要把Program
10、Files改成Progra 1。如图3。图 3编辑 hadoop env sh文件(3)配置完后即可运行WordCount实例。在C:cygwin home Administrator hadoop 0 192下 创 建 一个输入目录input,新建2个本文文件:txt1 txt:yangshenyuan hello world hello hadoooptxt2 txt:yangshenyuan bye hadoop然后运行实例,并将结果输出到output目录下:bin hadoopjar hadoop0192examples jarwordcountin-put output执行结果如图4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 关键技术 基于 Hadoop 模型 研究
限制150内