大数据分析平台建设与应用综述王强.pdf
《大数据分析平台建设与应用综述王强.pdf》由会员分享,可在线阅读,更多相关《大数据分析平台建设与应用综述王强.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 5 卷 第 2 期 2016 年 3 月 集 成 技 术 JOURNAL OF INTEGRATION TECHNOLOGY Vol. 5 No. 2 Mar. 2016 收稿日期:2015-12-23 修回日期:2015-12-27 作者简介:王强,博士后,研究方向为聚类算法和生物信息学;李俊杰,副教授,研究方向为数据挖掘与机器学习;陈小军,博士,研究方向 为数据挖掘与机器学习;黄哲学(通讯作者),特聘教授,研究方向为数据挖掘与机器学习,E-mail:;陈国良,教授,院 士,研究方向为高性能计算。 大数据分析平台建设与应用综述 王 强1 李俊杰1 陈小军1 黄哲学1 陈国良2 1(深圳大
2、学大数据技术与应用研究所 深圳 518060) 2(深圳大学高性能计算研究所 深圳 518060) 摘 要 大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数 据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析 平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要 功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了 Spark 技术的体系架构及核心 组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。 关键词 大数据平台;大数据分析;大数据应用;内存计算
3、 中图分类号 TP 391.4 文献标志码 A Review on Construction and Application of Big Data Analytical Platform WANG Qiang1 LI Junjie1 CHEN Xiaojun1 HUANG Zhexue1 CHEN Guoliang2 1( Big Data Institute, Shenzhen University, Shenzhen 518060, China ) 2( High Performance Computing Institute, Shenzhen University, Shenzhen
4、 518060, China ) Abstract The big data analytics platform is an indispensable infrastructure for big data processing and applications. Based on our research activities, practical experiences with big data analytics, and lessons learnt from industrial projects, this paper addressed the platform desig
5、n, mainstream technologies, and industrial cases of big data analytics platforms. Firstly, the main functions and architecture of such platforms were analyzed. Then the key enabling technologies were introduced with a focus on the architecture of Spark and its core components. Finally three applicat
6、ion case studies were presented in the areas of massive manufacture, retail, and smart grids. Keywords big data platform; big data analytics; big data application; Spark 王 强,等:大数据分析平台建设与应用综述2 期3 1 引 言 当前,人类社会信息化进程正在迈向网络化 信息技术普及阶段。整个社会的信息采集渠道日 益丰富,信息应用广度不断拓展,信息总量呈指 数级增长,以信息为核心的创新驱动力持续增 强,从而带来全社会信息在类型
7、多样性、关系复 杂性、应用时效性等方面呈现出崭新的趋势和特 征。这种由社会信息环境的变革而引发的社会数 据环境的变革,给信息科学及相关产业发展带来 了巨大的挑战和机遇。 大数据就是为有效应对“网络时代海量复杂 数据带来的管理与应用难题”而产生的一种新的 思维方式、技术体系和创新能力,其特有的战略 意义和核心价值主要表现在以下三个方面: 第一,在战略思维层面,数据已经成为全球 社会公认的创新发展要素,大数据已经从商业领 域上升到国家战略层面。 自 2011 年 6 月麦肯锡公司发布了大数据: 下一个竞争、创新和生产力的前沿领域1的研 究报告,拉开了全球竞相发展大数据的序幕。随 后,美、英、法、澳
8、、日、韩等发达国家,以及 联合国、欧盟、八国集团等国际组织,纷纷提出 国家级或区域性大数据发展战略,旨在提升从大 量复杂数据中获取知识和洞见的能力,进而促进 政府治理效能和经济发展活力的显著提升。我国 自 2012 年起,从中央部委到地方省市,连续密 集地出台了十余个与大数据相关的发展规划和 行动计划,特别是国务院于 2015 年 8 月出台了 促进大数据发展行动纲要2,明确提出了政 府率先开放政务大数据并强化与社会各方形成合 力的相关任务和计划时间表,更加突显我国发展 大数据的意志与决心。 第二,在信息科学与技术创新发展层面,大 数据给传统的信息科学与技术体系带来了全方位 的挑战,大数据科学
9、正在加速形成以数据为核心 的新的理论与技术体系。 大数据所特有的类型多样、混合异构、快速 增长、体量巨大、关系复杂、高维稀疏等特性, 导致传统的来源于多元统计、人工智能、机器学 习、模式识别等领域的数据分析理论,以及以数 据为核心的存储、索引、融合、处理、分析、应 用、安全等全过程技术,亟待实现全面系统的创 新与发展,不断形成和完善大数据科学与技术体 系。同时,从大数据工程技术创新发展的角度, 亟待将大数据相关的理论、技术成果与国际主流 的大数据工程技术框架相结合,针对互联网应用 的智能化和服务化的发展趋势,以及离线分析与 在线分析的应用特点,围绕 Hadoop、Spark(内存 计算)等当前
10、热门主流的大数据工程技术体系, 开展大数据平台开发与产业化应用,是促进大数 据科技发展的另一项必要和紧迫的工作。 第三,在经济社会创新发展层面,大数据是 保障我国“互联网+”和“智慧城市”战略实现 的核心能力,并为推进“双创”战略提供了广阔 的发展空间。 以应用为导向、以应用为引领,是大数据技 术创新与发展的主要特征。当前,我国正在全力 推进“互联网+”和“智慧城市”发展战略,大 数据作为其中必不可少的使能性技术,将在城市 虚拟空间的各种应用场景中发挥着信息整合、知 识挖掘、业务协同、服务创新的作用。其中,大 数据分析与应用平台更是作为大数据时代必备的 基础设施:通过不断汇聚技术创新成果,为应
11、用 创新提供一站式共性基础服务,有效降低应用 技术门槛,支持创业公司和创客群体在平台上开 展不同领域、不同层次、不同环节的应用服务创 新,加速形成以平台为核心的产业创新生态圈和产 品化应用解决方案,促进大数据产业加快形成。 大数据时代,我国拥有得天独厚的发展优 势。一方面,在政府大力倡导和全社会积极努力 下,大数据已经成为全社会的共识,大数据所 集 成 技 术 2016 年 4 蕴含的经济价值和创新价值已经引起社会各界的 高度关注。另一方面,我国拥有海量丰富的数据 资源,广阔多样的应用场景,潜力巨大的消费市 场,为大数据创新与发展提供了必要条件。当务 之急是如何快速有效突破数据价值挖掘的瓶颈。
12、 大数据分析与应用平台,是大数据时代必备的基 础设施,也是突破当前技术瓶颈的有效突破口。 开发和建设大数据分析与应用平台将带来三个方 面的价值:(1)有助于不断汇集大数据技术创新 成果,并用最先进的技术为用户提供一站式的应 用服务;(2)有助于降低用户技术门槛,为应用 开发提供共性基础设施与服务,从而加快应用创 新;(3)有助于形成大数据技术产品和行业解决 方案,促进我国大数据产业加快形成。 本文基于深圳大学大数据技术与应用研究所 大数据分析平台课题组(以下简称“课题组”)近 年来开发和建设大数据分析与应用平台的科研 成果和实践经验3,4,同时结合课题组在人才培 养、科学研究、社会服务等方面的
13、实际感受,首 先介绍了大数据平台的总体功能、体系架构及其 关键技术;其次,针对当前大数据领域的前沿热 点技术,重点介绍了 Spark 技术架构及其核心模 块;最后,介绍了课题组已经完成的在大规模制 造业、零售业和智能电网三个领域的大数据应用 案例,以期为学术界和产业界提供具有一定参考 借鉴价值。 2 大数据分析平台 2.1 大数据分析平台发展现状 大数据分析平台是建设和实施大数据应用所 必需的基础设施,也是目前国际产业界竞相发展 的前沿和热点领域。从目前全球发展现状来看, 大数据分析平台建设与应用的主要力量来自于传 统信息技术(Information Technology,IT)企业、 新兴互
14、联网企业、高校科研院所三大阵营,以下 对其发展情况和代表成果进行概括总结。 2.1.1 传统信息技术巨头的大数据平台战略 该阵营以 IBM、ORACLE、SAP、EMC、 Teradata 等传统 IT 巨头为代表,凭借长期积累的 技术、产品、品牌、服务等全球领先的综合实力 为基础,通过“硬件+软件+数据”整体解决方案 向用户提供以平台为核心的完备的大数据基础架 构与服务,同时通过密集地并购大数据分析创新 型企业,以迅速增强和扩展在大数据分析领域的 实力和市场份额。 国际 IT 巨头的大数据平台战略实施案例 包括: (1)IBM 企业并购:收购了商务智能软件供应商 Congnos5、统计分析软
15、件 SPSS6、数据库分析 供应商 Netezza7; 大数据管理:结合 IBM DB2 数据库,推出 了支持 Apache Hadoop 的 InfoSphereBigInsights8 软件,支持大数据应用开发与实施; 大数据一体机:发布了大数据一体机 Pure Data9,作为大数据领域的软硬件一体化解决 方案。 (2)ORACLE 大数据一体机:该一体机集成了 Oracle Exalogic10中间件云服务器、Oracle Exadata11数 据库云服务器和 Oracle Exalytics12商务智能云服 务器,成为 ORACLE 企业级大数据解决方案。 (3)HP 企业并购:通过
16、收购 Vertica 公司,推出针对 大数据的 Vertica 6.113数据分析平台,平台覆盖 了非结构化大数据存储管理、处理分析、服务交 付等全过程,成为企业级大数据应用的完整解决 方案。 (4)EMC 大数据一体机:对原有的 EMC 硬件和 Greenplum 软件进行整合,推出了 Greenplum 一 王 强,等:大数据分析平台建设与应用综述2 期5 体机产品14,平台适用于大数据分析场景,可以 通过增加节点方式进行横向扩展,从而有效控制 成本和性能。 整体平台解决方案厂商依靠自身原有的软 件、硬件或技术优势,通过收购及整合不同公司 的产品线,实现对大数据各个领域的覆盖。但是 这种增
17、量式的系统整合,只是使系统功能的体量 增加。只有通过对自身产品和技术的原始创新, 才能实现对大数据处理问题的彻底解决。 2.1.2 新兴互联网巨头的大数据平台战略 该阵营以 Google、Amazon、Facebook、阿 里巴巴、百度、腾讯等互联网公司为代表,基于 自身的应用平台、庞大用户群和海量用户信息, 形成独有的互联网大数据应用生态圈,不断创新 应用和商业模式,不断创造新价值。 (1)Google Google 提出的 GFS、MapReduce 和 BigTable 等大数据核心技术,催生了大数据处 理的事实标准 Hadoop。目前,Google 通过自身 开发的 Caffeine1
18、5平台,直接将索引放置在由 Google 开发的分布式数据库 BigTable 上; Google 还提供大数据虚拟服务器业务,用 户可以把数据上传到 Google,Google 提供了包 括 BigQuery16和 Google Compute Engine17等服 务和基础设施运行用户的查询服务。 (2)Amazon Amazon 弹性 MapReduce (Amazon Elastic MapReduce)18,是一项能够迅速扩展的 Web 服 务,运行在亚马逊弹性计算云(Amazon EC2)和 亚马逊简单存储服务(Amazon S3)上,用于满足 数据密集型任务(如互联网索引、数据挖
19、掘、日 志文件分析、机器学习、金融分析、科学模拟和 生物信息学研究),平台将根据用户需要立即配 置和满足资源需求。 (3)Facebook Corona(日冕)平台19,可以让你在数目庞 大的 Hadoop 服务器之间运行大量的任务,并且 不用担心软件错误会导致整个服务器集群崩溃; Prism(三棱镜)20平台,可以自动复制数 据,并在不同地点的服务器之间传输数据。这可 以让 Hadoop 服务器集群运行在全球范围内的多 个数据中心上,实现集群规模的灵活扩展。 (4)阿里巴巴、百度、腾讯 早在 2011 年,阿里巴巴就已经推出了 “淘宝指数”21,商家可以根据以往的销售信息 和“淘宝指数”进行
20、生产、库存决策,同时,消 费者也能以更优惠的价格购买商品; 百度正开展大数据革命以应对企业时代需 求,其已从数据、工具及应用三个层面布局大数 据时代企业战略规划,为用户更深入地挖掘数据 价值,优化营销决策; 腾讯主要通过深入挖掘用户属性,培育社 会化营销平台,利用大数据和关系链,为用户筛 选、推荐最适合他的内容。 互联网公司在大数据领域的创新主要是基于 自身的数据和业务需求,主要集中在搜索、个 性化推荐和存储、计算等方面。但是对于“人、 机、物”三元融合技术产生的多样化海量复杂数 据,仍然需要新的分析平台及处理技术。 2.1.3 科研领域的大数据平台发展状况 国际顶级期刊Nature和Scie
21、nces近 期针对大数据分别出版了专刊Big Data22和 Dealing with Data23,从互联网技术、互联 网经济学、超级计算、环境科学、生物医药等多 个方面讨论了大数据处理面临的各种问题。 在国内,中国计算机学会(China Computer Federation,CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称 CCF TFBD)。2012 年 10 月 19 日,中国计算机学会大数据专家委员会 成立,通过竞选产生了以李国杰院士为主任的 专家委员会的第一任领导班子。2012 年 11 月 30 日12 月 1 日,中国 Hadoop 与大数
22、据技术大会 集 成 技 术 2016 年 6 (HBTC 2012)在北京成功举办。大会以“大数据 共享与开放技术”为主题,讨论了大数据共享平 台与应用、大数据的技术挑战与发展趋势。 目前,国际学术界研发的大数据平台的代表 成果包括: (1)Petuum 大数据分布式机器学习平台24: 平台由美国卡耐基梅隆大学(CMU)邢波教授课 题组针对大数据机器学习特点研发,是一个分布 式机器学习框架,提供了面向超大型机器学习的 通用算法和系统接口。包含数据和模型并行两套 功能,平台的参数服务器为开发者提供良好的编 程环境,通过共享虚拟分布内存,在编程的时候 不用对每个机器进行单独通讯;平台的调度器能 够
23、对模型进行有效的分割,甚至是动态分割,然 后进行任务的分布化和载量平衡。 (2)PDMiner 基于云计算的数据挖掘软件平 台25:平台由中国科学院计算技术研究所与中国 移动合作开发,集成了 ETL 组件、数据挖掘组件 以及多种算法,可有效解决多种云计算数据挖掘 问题。平台的挖掘效率随节点增加而增加,多个 任务工作流之间互不干扰,不同节点间可同时启 动,具有容错能力,架构具有开放性,算法可方 便地配置加载到平台上,达到了商用软件精度, 成为中国移动 数据挖掘分析支撑工具。 (3)CLAIMS 并行数据分析系统26:系统由 华中师范大学数据科学与工程研究院研发,提供 了一个基于内存(in-mem
24、ory)的并行数据库系统 框架,可运行在服务器集群中,提供面向关系型 数据的实时数据分析。 (4)深圳大学大数据分析平台:平台由深圳 大学大数据技术与应用研究所研发,也是本文主 要介绍内容,详见后文。 2.2 大数据分析平台的总体功能 课题组构建的大数据分析平台的主要目标是 为大数据技术研发和应用项目实施提供高效完备 的开发与运行环境。为此,大数据分析平台的总 体功能包括以下主要方面: (1)云计算环境:整个平台基于云计算环 境,主要包括:云存储、云资源调度与管理、云 计算编程模型、云计算执行引擎等核心功能,支 持对海量数据的存储、处理、建模、分析、展现 等全过程的分布式并行化开发与运行; (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 平台 建设 应用 利用 运用 综述 王强
限制150内