大数据云计算文献综述.docx
《大数据云计算文献综述.docx》由会员分享,可在线阅读,更多相关《大数据云计算文献综述.docx(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据云计算文献综述大数据云计算文献综述一个大数据的调查摘要:在这篇论文中,我们将回顾大数据的背景以及当前开展状况。我们首先介绍 大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心, 以及Hadoopo接下来我们着重大数据价值链的四个阶段,也就是:数据生成, 数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术 难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管 理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨 在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放 问题和未来方向的讨论。关键字
2、大数据 云计算 物联网数据中心Hadoop智能电网大数据分析1、背景1.1 大数据时代的曙光在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际 数据公司(IDC)的报告,世界上总共的创立及复制的数据量到达l.8zb,在五年内 增长了大约九倍1。在未来这个数字至少每两年增加一倍。在全球数据的爆炸 增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据 通常包括非结构化数据,这需要更实时的分析。另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐 藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。大数据云计算文献综述INT
3、ERNHWindow blindsIntelligent clothWindow sensorsUghtlng .HeatingRefrigeratorMicrowaveIntelligent carWashingmachineSmart cjrMobile computingMobilephone图4物联网数据采集设备的说明23数据中心在大数据模式,数据中心不仅是一个数据集中存储平台,同时也承当更多的责任, 如获取数据、管理数据、组织数据,一利用数据值和函数。数据中心主要关注“数据” 而非“中心”。它有大量数据、组织和人的年龄数据根据其核心目的和开展新台币的 路径,这比拥有一个好的网站和资源
4、更有价值。大数据的出现带来了良好的开展机遇 和巨大挑战的数据中心。大数据是一个新兴数据中心的爆炸式增长,促进了基础设 施和相关软件的爆炸性增长。物理数据中心网络是支持大数据的核心,但目前,是 最迫切需要的关键基础设施29 。大数据需要数据中心提供强大的后台支持。大数据技术具有非绅士的要求对存储 容量和处理能力,以及网络传输容量。企业必须把数据中心的开展纳入考虑,以提 高在有限的价格/性能比下快速、有效地处理大数据的能力。这个数据中心应为 基础设施提供大量的节点,建立一个高速的内部网络,有效的散热,有效的备份 数据。只有当一个高能源效率耳鼻喉、稳定、平安、可扩展,和冗余的数据中心 建设,大数据应
5、用的正常运行,可以保证。大数据应用的增长加速了数据中心的革命和创新。许多大数据应用具有独特的体 系结构和直接促进开展数据中心的存储、网络和计算技术的应用。随着结构化和 非结构化数据量的持续增长,以及各种来源的分析数据,数据处理和计算能力的数 据中心,将大大提高。此外,随着数据中心规模的不断扩大,如何对数据中心进行 研究也成为一个重要的课题降低数据中心开展的运营本钱。-大数据赋予更多的功能到数据中心。在大数据模式,数据中心不仅要关注硬件 设施也加强软能力,即能力大数据的获取、处理、组织、分析和应用。数据中心大数据云计算文献综述可以帮助业务人员分析现有的数据,发现企业经营的问题,和开展从大数据的运
6、 算解决方案。2.4 Hadoop和大数据之间的关系目前,Hadoop是广泛应用于大数据应用的行业,例如,垃圾邮件过滤、网络搜 索、点击流分析、社会推荐。此外,相当学术研究了基于Hadoop的。一些代表 性的病例是在下面。在2012六月宣布,雅虎运行Hadoop 42000服务器在四个数 据中心,以支持其产品和服务,如例如,搜索和垃圾邮件过滤,等。目前,最大 的Hadoop集群有4000个节点,而节点的数量将增加至10000与Hadoop 2版本。 在同一个月,英足总cebook宣布他们的Hadoop集群可以处理100 PB的数据, 增长了 0.5,铅每天2012十一月。一些知名的机构使用Ha
7、doop进行分布式计算 的李以30。此外,许多公司提供的Hadoop商业执行和/或支持,包括以oudera, IBM, MAPR, EMC, Oracle。现代工业机械系统中,传感器被广泛应用于环境监测、故障预测等收集信息, bahga和别人在31 提出了一个框架网络的数据组织和云计算基础设施,称为云 景。云观采用混合结构,局部节点,基于Hadoop的远程集群分析机器生成的数 据。本地节点用于实时失败的预测;基于Hadoop集群用于复杂的离线分析,例 如,案例驱动的数据分析。基因组数据的指数增长和测序本钱的急剧下降,将生物科学和生物医药的数据转 换为数据驱动的科学。gunarathne等人。在
8、32 利用云计算基础设施三、亚马逊 AWS、微软azune,和数据处理框架基于MapReduce, Hadoop和微软的DryadLINQ 跑两平行生物医药应用:(我)基因组片段组装;(ii)在化学结构分析的降维。 在随后的应用中,使用166-d数据包括26000000个数据点。作者比拟了所有的 性能效率,本钱和可用性方面的框架。根据这项研究,作者得出结论,松散耦合 将越来越多地应用于电子云的研究,和磷并行编程技术(MapReduce)的框架, 可以为用户提供更方便的服务界面和减少不必要的本钱。3大数据的生成与获取我们已经介绍了几种关键技术与大数据、云计算、物联网,即数据中心,和 Hadoop
9、o下一步,我们将重点放在价值链的大数据,这一般可以分为四个阶段: 数据生成、数据采集、数据存储和数据分析。如果我们把数据作为原材料,数据 生成和数据采集是一个开发在处理过程中,数据存储是一个存储过程,数据分析 是利用原材料来创造新的价值的生产过程。3.1 数据生成数据生成是大数据的第一步。以互联网数据为例,在搜索条目、互联网论坛帖子、 聊天记录、微博留言等方面的数据量巨大产生。这些数据与人们的日常生活密切相 关,具有高价值、低密度的特征。这样的数据可能是毫无价值的个人,但通过开发 并积累了大量数据,有用的信息,如习惯和爱好的用户可以被识别,它甚至大数据云计算文献综述可以预测用户的行为和情绪。此
10、外,通过纵向和/或分布式数据源产生的数据集更大规模、高度多样化的,复 杂的。这些数据源包括传感器、视频、点击流,和/或将其他可用的数据源。目 前,大数据的主要来源是经营和交易信息在企业、物流和传感器在物联网信息, 人机交互信息在互联网世界中离子和位置信息,并在科学研究中产生的数据,远 超等通过它的架构和基础设施现有EN容量信息企业,而实时的要求也大大强调 了现有的计算能力。3.1.1 企业数据2013, IBM发布分析:大数据在现实世界的应用程序,这说明企业内部数据是大 数据的主要来源。企业内部数据主要包括网上交易数据和在线数据分析,其中大 局部是历史上的静态数据,通过结构化的方式关系型数据库
11、管理。止匕外,生产数据, 库存达Ta、销售数据、财务数据,等等,也构成了企业内部的数据,其目的是 获取企业信息化和数据驱动的活动,以记录所有活动在企业内部数据的形式。 在过去的几十年里,它和数字数据做出贡献的很多改善的盈利业务部门。据估计, 世界上所有公司的业务数据量Y每L2年翻一番10,其中,营业额通过互联网, 企业对企业,企业对消费者每天将到达450美元亿33。连续提高业务数据量要 求更有效的实时分析,以便充分收获它的潜力。例如,亚马逊处理数以百万计的终 端操作和超过500000查询从第三方卖家每天12。沃尔玛过程之一万客户交易 每小时交易数据导入到一个容量超过2.5PB数据库3 o Ak
12、amai分析75元每天 的事件,其目标广告13。3.1.2 物联网数据作为讨论,物联网是大数据的重要来源。在智能城市构建了基于物联网、大数据可 能来自工业、农业、交通、运输、医疗、公共部门和家庭等根据物联网的数据采集 和传输过程,将其网络结构分为传感层、网络层和应用层三层。这个传感层负责数 据采集,主要由传感器网络。网络层负责信息的传输和处理,在近距离传输可能R 伊利在传感器网络和远程传输必须依赖网络。最后,应用层支持物联网的具体应 用。根据物联网的特点,物联网产生的数据有以下几个特点:-大规模数据:在物联网、数据采集设备的群众是分布式部署的,可获得简单的数 值数据,如位置;或复杂的多媒体数据
13、,如监控视频EOo为了满足分析和处理的 需求,不仅是目前所获得的数据,而且在一定时间内的历史数据存储。因此,产生 的数据通过物联网的特点是大尺度。-异质性:由于各种数据采集装置,所获得的数据也不同,这样的数据特征的异 质性。在物联网中,每一个数据采集设备都放置在一个特定的地理位置,每一块 数据都有时间戳。时间和空间相关性是一个即时通讯数据来自物联网的重要性 质。在数据分析和处理过程中,时间和空间也是统计分析的重要维度。-有效数据只占一小局部的大数据:发生在数据的采集和物联网传输大量的噪 音。通过收购获得的数据集设备,只有少量的异常数据是有价值的。例如,交通 视频的采集过程中,一些视频帧捕获违反
14、交通运输管理法规和交通事故的价值比那 些只捕捉到正常的流量。3.1.3 生物医疗数据作为一系列高通量生物测量技术在开始的第二十一个世纪的创新开展,在生物医 药领域的前沿研究也进入大时代数据。通过构建智能、高效、和生物医药应用准大数据云计算文献综述确的分析模型和理论体系,基本治理机制复杂的生物学现象背后的马被揭露。不 仅生物医药未来的开展是可以确定的,也是主要的角色可以在一系列重要的战略产 业开展方面相关的假设国民经济,人民生活,国家平安,具有重要的应用,如医疗 保健,新药研发,粮食生产(例如,转基因作物)。人类基因组计划的完成(人类基因组计划)和测序技术的不断开展也导致在大数 据领域的广泛应用
15、。由基因产生的数据的质量测序经过专门分析根据不同的应用 需求,结合临床基因诊断和早期诊断提供有价值的信息和形象化治疗疾病。一个 测序人类基因可能产生100个600GB数据。在深圳的中国国家种质库,有1.3百 万人样本样本包括115万狮子150000种动物,植物和微生物样本。到2013年底, 1000万个可追溯的生物样品将被存储,并由2015年底,这一数字将到达3000 万。它是预先确定性,随着生物医药技术的开展,基因测序将变得更加快捷和方 便,从而使生物医药大数据不断增长毫无疑问。此外,临床医疗保健和医疗研发所产生的数据也迅速上升。例如,匹兹堡医学中 心大学(UPMC)存储2TB的数据。Exp
16、lorys,美国人我公司提供的平台配置的临 床数据,操作和维护数据和财务数据。目前,大约有13百万人的信息已经被配 置,44 arti-cLES数据在约60TB规模,这将在2013到达70TB。实践融合,另一 个美国的公司,管理约200000名患者的电子病历。除了这些中小企业,其他知名IT公司,如谷歌,微软,IBM已经投入广泛的方 法和计算分析研究兴高采烈的高通量生物大数据,对股票市场的巨大而大数据云计算文献综述作为“新一代互联网。” IBM预测,在2013战略发布会上,以医学影像和电子 病历的急剧增加,医疗专业人员可以利用大数据提取合同有用的临床信息从大量的 数据中获取病史和预测治疗效果,从
17、而改善病人护理,降低本钱。预计,2015,平 均每一个医院的年龄数据量将增加到665tb 167tbo数据生成其他领域随着科学应用的不断增加,数据集的规模也逐渐扩大,一些学科的开展,很大程 度上依赖于对数据的分析。在这里,我们研究分析在这样的应用。虽然在不同的 科学领域,应用程序有类似的和不断增加的数据分析的需求。第一个例子涉及到 计算生物学。玄叶NK细胞是一种核甘酸序列数据库由美国国家生物技术创新中 心保持。数据库中的数据可能每10个月翻一番。2009八月,GenBank已超过250 千兆从150000个不同的生物34 的基础上。二个例子与天文学有关。Sloan数字 巡天(SDSS),最大的
18、天文巡天工程,已经从1 25tb数据记录998至2008。作 为望远镜的分辨率大大提高,2004,数据批量生成每晚将超过19。最后一个应 用程序涉及到高能量物理。在开始2008、大型强子对撞机(LHC)的ATLAS实验 的欧洲核子研究组织产生的原始数据在2 / s和10TB数据处理每年商店。此外,无处不在的传感和计算之间的自然、商业、互联网、政府、社会环境都产 生了前所未有的异构数据的复杂性。这些数据集有自己独特的数据特点,在规模、 时间维度和数据类。例如,移动数据的位置,记录运动,近似度,通信、M多媒 体、应用程序的使用,和音频环境108。根据应用环境和要求,这样的数据集 分成不同的类别,从
19、而选择合适的和可行的大数据的电子解决方案。3.2 大数据采集作为大数据系统的第二阶段,大数据采集包括数据采集、数据传输和数据预处理。大 数据的采集过程中,一旦我们提供的原始数据,我们的厅利用一种高效的传输机制, 将其发送到一个适当的存储管理系统,以支持不同的分析应用程序。将收集到的数 据可能包含很多冗余剂或无用的数据,不必要地增加存储空间,并影响后续的数据 分析。例如,高度冗余的环境监测传感器提供的数据集是很常见的监测。数据压缩技 术可以应用于减少冗余度。因此,数据预处理操作是必不可少的,以确保有效的数 据存储和开发。3.2.1 数据采集数据采集是利用特殊的数据采集技术来从一个特定的数据生成的
20、环境中获取原 始数据。四种常用的数据采集方法如下。-日志文件:作为一种广泛使用的数据收集方法,日志文件是由数据源系统自动生 成记录文件,以便记录活动,随后交付文件格式耳鼻喉分析。日志文件通常用于几 乎所有的数字设备。例如,Web服务器的日志文件记录的点击数、点击率,网站 用户的访问,和其它财产记录35O在网站采集活动的用户,Web服务器主要 包括以下三个日志文件格式:公用日志文件格式(NCSA),扩展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三种类型的日 志文件。除了文本文件以外,其他的数据库有时也可用于存储日志信息以提高大大数据云计算文献综述规模的查询效率
21、商店36, 37o也有基于数据提供的一些其他日志文件,包括在 网络监控和交通运行状态的金融应用和测定指标股Ffic管理。感测:传感器在日常生活中是很常见的,用于测量物理量,将物理量转换为可读的 数字信号,以供后续处理(和存储)。感觉数据可能被分类为声波,声音,振动, 汽车,化学,电流,天气,压力,温度等信息被传送到一个数据采集点通过有线 或无线网络。对于应用程序,可以很容易地部署和管理,例如,视频监控系统 38,有线传感器网络是一个方便的解决方案,以获取相关信息。有时一个特定的 现象的精确位置是未知的,有时监测环境没有精力或通信基础设施。然后无线通信 必须使用在有限的能量和通信能力的情况下,使
22、传感器节点之间的数据传输。近年来, 无线传感器网络已收到相当大的国际间,并已应用于许多应用,这样的;如此的; 这么大的;非常的;这样的事物人;作为环境研究39, 40,水质监测41, 土木工程42,作,44习惯和野生 动物监测。无线传感器网络通常由大量的地理分布分布式传感器节点,每一个都 是一个由电池供电的微型装置。这种传感器被部署在指定的位置所需的应用程序收 集遥感数据。一旦传感器被eployed,基站会对网络配置/管理或数据采集传感器 节点发送控制信息。基于这样的控制信息,感官数据被组装在地不同的传感器节 点和送回基站进行进一步的处理。有兴趣的读者参考45 更详细的讨论。获取网络数据-方法
23、:目前,网络数据采集是使用web爬虫组合完成,分词系 统,任务系统,和指标体系等Web爬行是一个用于搜索引擎下载和存储网页的 程序46。一般而言,网络爬虫从初始网页的统一资源定位器(网址)开始访问 其他链接的网页,在它的存储和序列的所有检索的网址。网络爬虫通过一个网址队 列获取一个网址,然后通过一个网址下载网页,并确定一个网址我将在已下载的网 页上的网址,并提取新的网址被放在队列中。这个过程是重复的,直到网络爬虫被 停止。通过网络爬虫获取数据的广泛应用基于网页的应用,如搜索引擎或网页缓存。 传统的网页提取技术具有多个有效的解决方案,并已完成了大量的研究,在他的田 地。随着越来越多的先进的网页应
24、用程序正在出现,一些提取策略,提出了在47, 以应付丰富的互联网应用。当前的网络数据采集技术主要包括传统的基于Libpcap捕包技术,零拷贝数据包 捕获技术,以及一些专门的网络监控G软件如wireshark SmartSniff,和winnetcap。 -Libpcap捕包技术:基于Libpcap (数据包捕获库)是一种广泛使用的网络数据 包捕获函数库。这是一个一般的工具,不依赖于任何特定的系统透射电子显微镜主 要用于数据链路层中的数据捕获。它具有简单、易用、携带方便,但有一个相对低 效率。因此,高速网络环境下彪,大量丢包时可能出现的libpcap的使用。-零拷贝数据包捕获技术:所谓的零拷贝(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 计算 文献 综述
限制150内