大数据与应用.ppt
《大数据与应用.ppt》由会员分享,可在线阅读,更多相关《大数据与应用.ppt(530页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第1章章大数据技术概述大数据技术概述本章主要内容本章主要内容随着互联网技术的蓬勃发展,大数据(随着互联网技术的蓬勃发展,大数据(big data)已经渗透到每个人的日常生活之中。)已经渗透到每个人的日常生活之中。传统的数据挖掘和处理技术已经无法满足传统的数据挖掘和处理技术已经无法满足大数据的处理要求。大数据技术的核心在大数据的处理要求。大数据技术的核心在于挖掘出数据中蕴藏的价值。于挖掘出数据中蕴藏的价值。本章主要介绍大数据的发展历史、基本特本章主要介绍大数据的发展历史、基本特征,大数据处理框架,以及大数据技术的征,大数据处理框架,以及大数据技术的主要应用领域主要应用领域2第第1章章 大数据技
2、术概述大数据技术概述1.1 大数据的发展历史大数据的发展历史1.2 大数据的基本特征大数据的基本特征1.3 大数据处理框架大数据处理框架1.4 大数据技术的主要应用领域大数据技术的主要应用领域31.1 大数据的发展历史大数据的发展历史4信息化浪潮信息化浪潮发生时间发生时间标志标志解决问题解决问题代表企业代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业第四次?1.1 大数据的发展历史大
3、数据的发展历史数据产生方式的变革数据产生方式的变革51.1 大数据的发展历史大数据的发展历史Hadoop项目诞生于项目诞生于2005年,其最初只是年,其最初只是Yahoo公司用来解决网页搜索问题的一个项目,后来因公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被阿帕奇软件基金会其技术的高效性,被阿帕奇软件基金会(Apache Software Foundation)引入并成为)引入并成为开源应用。开源应用。Hadoop本身不是一个产品,而是由本身不是一个产品,而是由多个软件产品组成的一个生态系统。多个软件产品组成的一个生态系统。从技术上看,从技术上看,Hadoop关键服务主要包括:采
4、用关键服务主要包括:采用Hadoop分布式文件系统(分布式文件系统(HDFS)的可靠数据存)的可靠数据存储服务;储服务;MapReduce技术的高性能并行数据处技术的高性能并行数据处理服务。这两项服务为实现结构化和复杂数据的理服务。这两项服务为实现结构化和复杂数据的快速、可靠分析奠定了基础。快速、可靠分析奠定了基础。61.1 大数据的发展历史大数据的发展历史2008 年,美国年,美国“计算社区联盟计算社区联盟”(Computing Community Consortium)发表了一份具有影响力的白皮书发表了一份具有影响力的白皮书大大数据计算:在商务、科学和社会领域创造数据计算:在商务、科学和社
5、会领域创造革命性突破革命性突破2009年,美国政府通过启动年,美国政府通过启动Data.gov网站网站的方式进一步开放数据大门,并向公众提的方式进一步开放数据大门,并向公众提供各种各样的政府数据供各种各样的政府数据71.1 大数据的发展历史大数据的发展历史2010年年2月,肯尼斯月,肯尼斯库克尔在库克尔在经济学人经济学人上发表长达上发表长达14页的大数据专题报告页的大数据专题报告数据,无所不在的数据数据,无所不在的数据2011年年2月,月,IBM的沃森超级计算机每秒扫的沃森超级计算机每秒扫描并分析描并分析4TB(约(约2亿页的文字量)的数据,亿页的文字量)的数据,并在美国著名智力竞赛电视节目并
6、在美国著名智力竞赛电视节目危险边危险边缘缘(Jeopardy)上击败两名人类选手而)上击败两名人类选手而夺冠夺冠81.1 大数据的发展历史大数据的发展历史2011年年5月,全球知名咨询公司麦肯锡全球月,全球知名咨询公司麦肯锡全球研究院(研究院(McKinsey Global Institute,MGI)发布一份报告)发布一份报告大数据:创新、大数据:创新、竞争和生产力的下一个新领域竞争和生产力的下一个新领域2011年年12月,工业和信息化部发布的月,工业和信息化部发布的物物联网联网“十二五十二五”发展规划发展规划中,信息处理中,信息处理技术作为四项关键技术的创新工程之一被技术作为四项关键技术的
7、创新工程之一被提出来,其中包括海量数据存储、数据挖提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这些都是大数据掘、图像视频智能分析,这些都是大数据的重要组成部分的重要组成部分91.1 大数据的发展历史大数据的发展历史2012年年3月,美国政府在白宫网站发布月,美国政府在白宫网站发布大大数据研究和发展倡议数据研究和发展倡议,这一倡议标志着,这一倡议标志着大数据已经成为重要的时代特征;美国政大数据已经成为重要的时代特征;美国政府宣布投资府宣布投资2亿美元以推动大数据技术发展,亿美元以推动大数据技术发展,是大数据技术从商业行为上升到国家科技是大数据技术从商业行为上升到国家科技战略的分水岭
8、战略的分水岭2012年年7月,联合国在纽约发布一份关于大月,联合国在纽约发布一份关于大数据政务的白皮书,总结各国政府如何利数据政务的白皮书,总结各国政府如何利用大数据更好地服务和保护人民用大数据更好地服务和保护人民101.1 大数据的发展历史大数据的发展历史2012年年7月,为挖掘大数据的价值,阿里巴月,为挖掘大数据的价值,阿里巴巴集团全面推进巴集团全面推进“数据分享平台数据分享平台”战略,战略,并推出大型的数据分享平台并推出大型的数据分享平台“聚石塔聚石塔”,为天猫、淘宝平台上的电商及电商服务商为天猫、淘宝平台上的电商及电商服务商等提供数据云服务等提供数据云服务2014年年4月,世界经济论坛
9、以月,世界经济论坛以“大数据的回大数据的回报与风险报与风险”为主题发布了为主题发布了全球信息技术全球信息技术报告(第报告(第13版)版)111.1 大数据的发展历史大数据的发展历史2014年年5月,美国发布月,美国发布大数据:把握机遇,大数据:把握机遇,守护价值守护价值白皮书,再次重申要把握大数白皮书,再次重申要把握大数据可为经济社会发展带来创新动力的重大据可为经济社会发展带来创新动力的重大机遇机遇2018年年10月,中国国际大数据大会聚焦大月,中国国际大数据大会聚焦大数据产业高质量发展,围绕数据产业高质量发展,围绕“大数据与实大数据与实体经济深度融合体经济深度融合”,从生态完善、技术突,从生
10、态完善、技术突破、融合应用、环境优化等维度进行了讨破、融合应用、环境优化等维度进行了讨论,并且把大数据安全作为一个重要的研论,并且把大数据安全作为一个重要的研究领域究领域121.2大数据的基本特征大数据的基本特征海量的数据规模(海量的数据规模(volume)快速的数据流转和动态的数据体系快速的数据流转和动态的数据体系(velocity)多样的数据类型(多样的数据类型(variety)低价值密度(低价值密度(value)真实性(真实性(veracity)131.2大数据的基本特征大数据的基本特征海量的数据规模(海量的数据规模(volume)l根据IDC作出的估测,数据一直都在以每年50%的速度增
11、长,也就是说每两年就增长一倍(大数据摩尔定律):即人类在最近两年产生的数据量相当于之前产生的全部数据量141Byte = 23 Bit1KB = 210 Bytes1MB = 220 Bytes1GB = 230 Bytes1TB = 240 Bytes1PB = 250 Bytes1EB = 260 Bytes1ZB = 270 Bytes (2020年)1YB = 280 Bytes = 1.2x10241.2大数据的基本特征大数据的基本特征快速的数据流转快速的数据流转151.2大数据的基本特征大数据的基本特征多样的数据类型(多样的数据类型(variety)10%的结构化数据,存储在数据库
12、中的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相的非结构化数据,它们与人类信息密切相关关161.2大数据的基本特征大数据的基本特征低价值密度(低价值密度(value)171.2大数据的基本特征大数据的基本特征真实性(真实性(veracity)l微博、微信、支付宝、淘宝微博、微信、支付宝、淘宝l企业物联网企业物联网181.2大数据的基本特征大数据的基本特征讨论讨论 大数据大数据 = 海量数据?海量数据?191.3 大数据处理框架大数据处理框架按照计算的类型,大数据处理框架可以划按照计算的类型,大数据处理框架可以划分为:分为:l离线计算:数据相对固定,量大离线计算:数据相对
13、固定,量大l批量计算:数据间断更新,中大规模批量计算:数据间断更新,中大规模l实时计算:强调响应时间,量小实时计算:强调响应时间,量小l流式计算:流式计算: 数据连续动态更新或增加,量小数据连续动态更新或增加,量小批处理框架(如批处理框架(如Hadoop)、流处理框架)、流处理框架 (如(如Storm)和混合框架(如)和混合框架(如Spark, Flink)201.3 大数据处理框架大数据处理框架Hadoop HDFS和和MapReducel主要支持离线和批量计算主要支持离线和批量计算l数据存储在分布式集群文件系统数据存储在分布式集群文件系统HDFSl计算使用计算使用MapReduce组件组件
14、优点:优点:l易于编程、扩展性强、高容错性、易于编程、扩展性强、高容错性、PB级级缺点缺点l不支持实时(毫秒响应)不支持实时(毫秒响应)l不擅长流式不擅长流式l不擅长不擅长DAG计算(多次读写)计算(多次读写)211.3 大数据处理框架大数据处理框架流处理框架流处理框架 (如(如Storm)l低延迟(毫秒)、分布式、高性能、可扩展、低延迟(毫秒)、分布式、高性能、可扩展、无数据丢失、高容错无数据丢失、高容错l无状态:任务和心跳保存在无状态:任务和心跳保存在Zookeeper应用应用l实时分析、在线机器学习、分布式远程调用实时分析、在线机器学习、分布式远程调用l网站(服务器)性能监控网站(服务器
15、)性能监控221.3 大数据处理框架大数据处理框架大数据编程语言大数据编程语言lPythonlJava231.4 大数据技术的主要应用领域大数据技术的主要应用领域大数据技术目前已广泛应用于公共事业、大数据技术目前已广泛应用于公共事业、消费、金融、工业、医疗、农业等领域,消费、金融、工业、医疗、农业等领域,成为促进国民经济快速发展的重要科技力成为促进国民经济快速发展的重要科技力量量241.4 大数据技术的主要应用领域大数据技术的主要应用领域在社会发展方面,数据挖掘,大数据决策在社会发展方面,数据挖掘,大数据决策逐渐成为一种新的决策方式,大数据应用逐渐成为一种新的决策方式,大数据应用有力促进了信息
16、技术与各行业的深度融合,有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的大数据开发大大推动了新技术和新应用的不断涌现不断涌现在就业市场方面,大数据的兴起使得数据在就业市场方面,大数据的兴起使得数据科学家成为热门职业科学家成为热门职业在人才培养方面,大数据的兴起,将在很在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业大程度上改变中国高校信息技术相关专业的现有教学和科研体制的现有教学和科研体制251.4 大数据技术的主要应用领域大数据技术的主要应用领域大数据技术在消费领域的应用大数据技术在消费领域的应用l例例1:通过对顾客消费数据的建模分析,顾客:
17、通过对顾客消费数据的建模分析,顾客数据分析部选出数据分析部选出25种典型商品的消费数据构建种典型商品的消费数据构建“怀孕预测指数怀孕预测指数”,可以在很小的误差范围内,可以在很小的误差范围内预测顾客的怀孕情况,以便能早早把孕妇优惠预测顾客的怀孕情况,以便能早早把孕妇优惠广告寄给顾客广告寄给顾客l例例2:沃尔玛在对消费者购物行为进行分析时:沃尔玛在对消费者购物行为进行分析时发现,男性顾客在购买婴儿尿布时,常常会顺发现,男性顾客在购买婴儿尿布时,常常会顺便搭配几瓶啤酒来犒劳自己,于是推出将啤酒便搭配几瓶啤酒来犒劳自己,于是推出将啤酒和尿布捆绑销售的促销手段和尿布捆绑销售的促销手段261.4 大数据
18、技术的主要应用领域大数据技术的主要应用领域大数据技术在金融领域的应用大数据技术在金融领域的应用l例例1:精准营销是基于行为数据预测用户的偏:精准营销是基于行为数据预测用户的偏好和兴趣,继而推荐合适的金融产品好和兴趣,继而推荐合适的金融产品l例例2:大数据风控的两个应用分别为信用风险:大数据风控的两个应用分别为信用风险和欺诈风险,均是通过分析历史事件,找到其和欺诈风险,均是通过分析历史事件,找到其内在规律构建模型,然后用新的数据去验证和内在规律构建模型,然后用新的数据去验证和优化该模型优化该模型271.4 大数据技术的主要应用领域大数据技术的主要应用领域大数据技术在工业领域的应用大数据技术在工业
19、领域的应用l产品创新挖掘和分析产品创新挖掘和分析l产品销售预测与需求管理产品销售预测与需求管理l产品质量管理与分析产品质量管理与分析l产品故障诊断与预测产品故障诊断与预测l生产计划与排程生产计划与排程l工业供应链的分析和优化工业供应链的分析和优化l工业物联网生产线建设工业物联网生产线建设l工业污染与环境监测工业污染与环境监测281.4 大数据技术的主要应用领域大数据技术的主要应用领域大数据技术在医疗领域的应用大数据技术在医疗领域的应用291.4 大数据技术的主要应用领域大数据技术的主要应用领域大数据技术在农业领域的应用大数据技术在农业领域的应用l农业自然资源与环境数据农业自然资源与环境数据l农
20、业生产数据,主要是指种植业生产数据和养农业生产数据,主要是指种植业生产数据和养殖业生产数据殖业生产数据l农业市场数据,主要是指市场供求信息、价格农业市场数据,主要是指市场供求信息、价格行情、生产资料市场信息、价格及利润、流通行情、生产资料市场信息、价格及利润、流通市场和国际市场信息等市场和国际市场信息等l农业管理数据,主要是指国民经济基本信息、农业管理数据,主要是指国民经济基本信息、国内生产信息、贸易信息、国际农产品动态信国内生产信息、贸易信息、国际农产品动态信息和突发事件信息等息和突发事件信息等301.4 大数据技术的主要应用领域大数据技术的主要应用领域 大数据大数据 + 人工智能人工智能
21、= 机器人?机器人?31总结总结本章先后介绍了大数据的发展历史,大数本章先后介绍了大数据的发展历史,大数据的基本特征,大数据处理框架,以及大据的基本特征,大数据处理框架,以及大数据技术的主要应用领域。需要重点掌握数据技术的主要应用领域。需要重点掌握大数据的基本概念和特征,并了解相关技大数据的基本概念和特征,并了解相关技术框架和工具及其应用。术框架和工具及其应用。大数据技术已经初步成熟,并产生了一系大数据技术已经初步成熟,并产生了一系列相关产业和经济效益,掌握好这些技术列相关产业和经济效益,掌握好这些技术对大家今后在专业领域深入发展和工作都对大家今后在专业领域深入发展和工作都有重要帮助。有重要帮
22、助。32谢谢 谢!谢!33第第2章章大数据处理平台大数据处理平台Hadoop本章主要内容本章主要内容Hadoop是一种分布式系统基础架构,以分是一种分布式系统基础架构,以分布式文件系统布式文件系统HDFS和和MapReduce等模块等模块为核心,为用户提供细节透明的系统底层为核心,为用户提供细节透明的系统底层分布式基础架构。用户能够通过分布式基础架构。用户能够通过Hadoop轻轻松地组织计算机资源,搭建分布式计算平松地组织计算机资源,搭建分布式计算平台,并充分应用台,并充分应用Hadoop集群的计算和存储集群的计算和存储能力完成海量数据的处理。能力完成海量数据的处理。本章内容包括本章内容包括H
23、adoop简介、简介、Hadoop的架的架构与组成构与组成第第2章章 大数据技术概述大数据技术概述2.1 Hadoop简介简介2.2 Hadoop架构与组成架构与组成2.1 Hadoop简介简介HHadoop是基于是基于Java语言开发的,具有很好的语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群跨平台特性,并且可以部署在廉价的计算机集群中。中。Hadoop框架中最核心的是框架中最核心的是HDFS和和MapReduce。HDFS(Hadoop distributed file system)是一)是一种种Hadoop分布式文件系统,它为分布式计算存分布式文件系统,它为分布式计算
24、存储提供了底层支持储提供了底层支持Hadoop MapReduce提供对数据的计算,简单提供对数据的计算,简单地讲,就是地讲,就是“对任务的分解与结果的汇总对任务的分解与结果的汇总”。2.1 Hadoop简介简介Hadoop特性特性高效性高可靠性高扩展性支持多种语言高容错性运行在Linux上低成本2.1 Hadoop简介简介Hadoop从从2007推出后,被多个公司支持推出后,被多个公司支持和使用,例如和使用,例如Yahoo,Facebook,Cloudera,Mcrosoft,Amazon,IBM,Google,Oracle等,国内阿里、百度、腾等,国内阿里、百度、腾讯等公司也支持。讯等公司
25、也支持。2.2 Hadoop架构与组成架构与组成Hadoop分布式系统基础框架具有极大的可分布式系统基础框架具有极大的可扩展性,用户可以在不了解分布式底层细扩展性,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储群的威力进行高速运算和存储2.2 Hadoop架构与组成架构与组成2.2 Hadoop架构与组成架构与组成Hadoop 1.x和和2.x版本的差别版本的差别2.2 Hadoop架构与组成架构与组成MapReduce是一个用于编写并行处理大数是一个用于编写并行处理大数据集的应用程序软件框架。据集的应用程序软件框
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用
限制150内