Chapter1-Spark编程基础-第1章-大数据技术概述(2018年2月).ppt
《Chapter1-Spark编程基础-第1章-大数据技术概述(2018年2月).ppt》由会员分享,可在线阅读,更多相关《Chapter1-Spark编程基础-第1章-大数据技术概述(2018年2月).ppt(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Spark编程基础厦门大学计算机科学系林子雨厦门大学计算机科学系 2018版林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail:主页:主页:http:/ 大数据大数据技术技术概述概述(PPT版本号:版本号:2018年年2月)月)温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字Spark编程基础编程基础教材官网:http:/ 大数据时代大数据时代1.2 大数据概念大数据概念1.3 大数据的影响大数据的影响1.4 大数据关键技术大数据关键技术1.5 大数据计算模式大数据计算模式1.6 代表性大数据技术代表性大数据技术百度搜索厦门大学数据库实验室网站访问平台Spark编
2、程基础厦门大学计算机科学系林子雨1.1大数据时代Spark编程基础厦门大学计算机科学系林子雨1.1.1第三次信息化浪潮根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革信息化浪潮信息化浪潮发生时间发生时间标志标志解决问题解决问题代表企业代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业表表1 三次信息化浪潮三次信息化浪潮Spark编程基础厦门大学计算机科学系林子
3、雨1.1.2信息科技为大数据时代提供技术支撑图1-1存储价格随时间变化情况1.存储设备容量不断增加存储设备容量不断增加Spark编程基础厦门大学计算机科学系林子雨1.1.2信息科技为大数据时代提供技术支撑来自斯威本科技大学(SwinburneUniversityofTechnology)的研究团队,在2013年6月29日刊出的自然通讯(NatureCommunications)杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。Spark编程基础厦门大学计算机科学系林子雨1.1.2信息科技为大数据时代提供技术支撑图CPU晶体管数目随
4、时间变化情况2.CPU处理能力大幅提升处理能力大幅提升Spark编程基础厦门大学计算机科学系林子雨1.1.2信息科技为大数据时代提供技术支撑图网络带宽随时间变化情况3.网络带宽不断增加网络带宽不断增加Spark编程基础厦门大学计算机科学系林子雨1.1.3数据产生方式的变革促成大数据时代的来临图数据产生方式的变革Spark编程基础厦门大学计算机科学系林子雨1.2大数据概念Spark编程基础厦门大学计算机科学系林子雨1.2.1数据量大n根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)n人类在最近两年产生的数据量相当于之前产生的全部数据量n预计到2
5、020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍Spark编程基础厦门大学计算机科学系林子雨1.2.2数据类型繁多n大数据是由结构化和非结构化数据组成的10%的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相关p科学研究基因组LHC加速器地球与空间探测p企业应用Email、文档、文件应用日志交易记录pWeb1.0数据文本图像视频pWeb 2.0数据查询日志/点击流Twitter/Blog/SNSWikiSpark编程基础厦门大学计算机科学系林子雨1.2.3处理速度快p从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少p1秒定律:这
6、一点也是和传统的数据挖掘技术有着本质的不同Spark编程基础厦门大学计算机科学系林子雨1.2.4价值密度低价值密度低,商业价值高价值密度低,商业价值高以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值继续装ingSpark编程基础厦门大学计算机科学系林子雨1.3大数据的影响图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式实验理论计算数据Spark编程基础厦门大学计算机科学系林子雨1.3大数据的影响在思维方式方面,大数据完全颠覆了传统的思维方式:全样而非抽样效率而非精确相关而非因果Spa
7、rk编程基础厦门大学计算机科学系林子雨1.4大数据关键技术表1-5 大数据技术的不同层面及其功能技技术层术层面面功能功能数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处
8、理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全Spark编程基础厦门大学计算机科学系林子雨1.4大数据关键技术分布式存储分布式处理GFSHDFSBigTableHBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQLAzure)MapReduce大数据两大核心技术Spark编程基础厦门大学计算机科学系林子雨1.5大数据计算模式大数据计算模式大数据计算模式解决问题解决问题代表产品代表产品批处理计算针对大规模数据的批量处理MapR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Chapter1 Spark 编程 基础 数据 技术 概述 2018
限制150内