大数据处理技术简介3713599.pptx
《大数据处理技术简介3713599.pptx》由会员分享,可在线阅读,更多相关《大数据处理技术简介3713599.pptx(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习 学习 创造 创造 超越 超越 共享 共享大数据处理技术简介学习 学习 创造 创造 超越 超越 共享 共享21234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍学习 学习 创造 创造 超越 超越 共享 共享3大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。2、维克托迈尔-舍恩伯格以及肯尼斯库克耶编写的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。3、海量异构的数据(包括文本、图像、声音等)。大数据的4V特点:V
2、olume(大量)、Velocity(高速)、Variety(多样)、Value(价值)学习 学习 创造 创造 超越 超越 共享 共享4 近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用的实例包括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中,数据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海量瞬时流动数据建模并处理,产生了一些新的基础性研究问题。大数据处理技术的应用学习 学习 创造 创造 超越 超越 共享 共享5大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据截至2011年11月,淘宝Beltles平台单日最大服务调用量1
3、9亿。今年淘宝双11 QPS:32万/分钟2012-01-14报道,铁道部12306网站连续5天日均点击数超过10亿次,高峰时超过14.09亿次,导致系统近乎崩溃或瘫痪。2009年四月统计:上证交易所新一代交易系统峰值订单处理能力约80000笔/秒,平均订单时延比现用交易系统缩短30%以上,系统日双边成交容量不低于1.2亿笔/日,相当于单市场1.2万亿的日成交规模。学习 学习 创造 创造 超越 超越 共享 共享6大数据应用情景三(社交网络):社交网络即时消息处理每秒钟,人们发送290万封电子邮件。每分钟,人们向Youtube上传60个小时的视频。每一天,人们在Twitter上发消息1.9亿条微
4、博。每一天,人们在Twitter上发出3.44亿条消息。每一天,人们在Facebook发出40亿条信息。学习 学习 创造 创造 超越 超越 共享 共享7大数据应用情景三(物联网数据流):传感网、物联网、智慧城市数据库 传感设备 服务器 用户端程序 实时数据流 处理平台 Internet设备网PDA决策支持PC机传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如位置、生活信息等数据,对在线即时处理提出了更高的要求和挑战。学习 学习 创造 创造 超越 超越 共享 共享8大数据应用情景四(数据流过滤):互联网带宽增长 根据中国互联网络信息中心(CNNIC)的“中国互联网络
5、发展状况统计报告”调查显示,2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页等增速基本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mbps,半年增长了7.6%。学习 学习 创造 创造 超越 超越 共享 共享9国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理能力必须与数据流量大小相匹配。Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算(数据驱动)VS.批处理计算(任务驱动)学习 学习 创造 创造 超越 超
6、越 共享 共享10国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理能力必须与数据流量大小相匹配。Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算(数据驱动)VS.批处理计算(任务驱动)学习 学习 创造 创造 超越 超越 共享 共享11应用 计算模型与通信机制 数据规模 计算模型普通集群 基于消息传递的分布式模型 TB级/百台 MPI云计算 基于文件传输的并行计算模型 PB级/千台 MapReduce数据流实时云计算基于消息(封装文件)传输的并行计算PB级/千台
7、 Online MapReducep 分布式并行计算系统 流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处理。学习 学习 创造 创造 超越 超越 共享 共享12 第一类方法,Hadoop改造:1YingyiBu等在HadoopMapReduce工作的基础上设计了HaLoop,主要克服了Hadoop进行迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点;2伯克利大学的TysonCondie等对Hadoop进行改进,设计了HadoopOnlinePrototype(HOP)系统,支持连续查询、事件监测以及流处理等功能;3Facebook在SIGMOD2011上发表了利用Hb
8、ase/Hadoop进行实时处理数据的论文,通过一些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。4Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据处理系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处理一遍整个系统。5WangLam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet;第二类方法,实时云计算系统:6MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis;7SheheryarMalik设计了具有良好错误容忍机制的实时云计算系统
9、;HarmeekSinghBedi申请了实时云计算系统的专利;8BaiduDstream,淘宝Beales,FacebookPuma,TwitterStorm,Yahoo!S4 92011年组织了以实时云计算和虚拟化为主题的国际讨论组会RTSOAA(Real-TimeCloudComputingandVirtualization)。102011年度的HadoopChina大会一个热点议题就是数据流计算,在MapReduce计算模型风靡全球之后,StreamProcessing将会是下一个研究热点,无论是在工业界还是学术界。实时计算系统的改造学习 学习 创造 创造 超越 超越 共享 共享1312
10、34大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍学习 学习 创造 创造 超越 超越 共享 共享14Hadoop家族14学习 学习 创造 创造 超越 超越 共享 共享15开源工具简介-批处理HadoopCommon:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。MapReduce:是一种编程模型,用于大规模数据集的并行运算。Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapRed
11、uce任务进行运行,十分适合数据仓库的统计分析。Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本,类似我们通常熟悉的SQL语句,在Pig中称之为PigLatin。Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化上百亿行,上千万列。它是Googlebigtable的一个开源的实现。Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 技术 简介 3713599
限制150内