大数据分析概述ppt课件.ppt
《大数据分析概述ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据分析概述ppt课件.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据引领我们走向数据智能化时代大数据引领我们走向数据智能化时代大数据分析大数据分析烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据的定义理解烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3烧伤病人的治疗通常是取烧伤病人的健康皮肤
2、进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人全球每秒钟发送 2.9 百万封电子邮件,一分
3、钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人数据量增加TBTBPBPBZBZBEBEB根据IDC 监
4、测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临大数据时代的背景烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的E
5、MC World 2011 会议中,EMC 抛出了Big Data概念。大数据时代的背景烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人体量Volume多样性Variety价值密度Value速度Velocity非结构化数据非结构化数据的超大规模和增长的超大规模和增长占总数据量的占总数据量的8090%8090%比结构化数据增长快比结构化数据增长快1010倍到倍到5050倍倍是传统数据仓库的是传统数据仓库的1010倍到倍到5050倍倍大数据的大数据的异构和多样性异构和多样性很多不同形式(文本、图像、视频、机器数据)很多不
6、同形式(文本、图像、视频、机器数据)无模式或者模式不明显无模式或者模式不明显不连贯的语法或句义不连贯的语法或句义大量的不相关信息大量的不相关信息对未来趋势与模式的可预测分析对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能深度复杂分析(机器学习、人工智能VsVs传统商务传统商务智能智能(咨询、报告等)咨询、报告等)实时分析实时分析而非批量式分析而非批量式分析数据输入、处理与丢弃数据输入、处理与丢弃立竿见影而非事后见效立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或
7、者说,只有具备这些特点的数据,才是大数据。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人Value 价值价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低价值密度低,是大数据的一个典型特征是大数据的一个典型特征.烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种
8、不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人Variety 多样性多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.文本/图片/视频 等非非结构构化化
9、/半半结构构化化数数据据能够在不同的数据类型中能够在不同的数据类型中,进行交叉分析的技术进行交叉分析的技术,是大数据的是大数据的核心技术之一核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人非非结构构化化数数据据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行
10、自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人Velocity 速度速度1s 是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求实时处理的要求,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术,BI,BI技术的关键差别之一技术的关键差别之一.烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人Volume 数据量数据量PBPB是大数据層次的是大数据層次的临界点界点.KBKB-MBMB-GBGB-TBTB-PBPB-E
11、BEB-ZBZB-YBYB-NBNB-DBDB烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据不仅仅是大数据不仅仅是“大大”多大?PB 级比大大更重要的是数据的复杂性数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人指指数数型增型增长的海量的海量数数据据所有研究都表明,未来数年数据量会呈所有研究都表明,未来数年数据量会呈现现指数增指数增长长。根据麦肯。根据麦肯锡锡全球研究
12、院(全球研究院(MGI)估)估计计,全球企,全球企业业2010年在硬年在硬盘盘上存上存储储了了超超过过7EB(1EB等于等于10亿亿GB)的新数据,而消)的新数据,而消费费者在者在PC和笔和笔记记本等本等设备设备上存上存储储了超了超过过6EB新数据。新数据。1EB数据相当于美国国数据相当于美国国会会图书馆图书馆中存中存储储的数据的的数据的4000多倍。事多倍。事实实上,我上,我们们如今如今产产生如生如此多的数据,以至于根本不可能全部存此多的数据,以至于根本不可能全部存储储下来。例如,医下来。例如,医疗卫疗卫生提供商会生提供商会处处理掉他理掉他们们所所产产生的生的90%的数据(比如手的数据(比如
13、手术过术过程中程中产产生的几乎所有生的几乎所有实时视频图实时视频图像)。像)。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、W
14、eb文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据的技术与应用烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人Volume海量的
15、数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人软件是大数据的引擎软件是大数据的引擎和数据中心(Data Center)一样,软件是大数据的驱动力.软件改变世界软件改变世界!烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据生态大数据生态:软件是引擎软件是引擎烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤
16、病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人技术领域的挑战1、对现有数据库管理技术的挑战
17、传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Database),可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的
18、关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人分析技术:数据处理:自然语言处理技术统计和分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取
19、:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据的相关技术ETL数据众包(CrowdSouring)烧
20、伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮
21、肤很有限,请同学们想一想如何来治疗该病人分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人分布式文件系统Google文件系统(Google File System,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,
22、大大减少了系统的成本。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人分布式文件系统GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个
23、分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人非关系型数据库NoSQL关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的
24、需求难以满足对数据库高可扩展性和高可用性的需求NoSQLNoSQL=烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人非关系型数据库NoSQLNoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会
25、局限于固定的结构,可以减少一些时间和空间的开销。烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人非关系型数据库NoSQL烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植,但对于大面积烧伤病人来讲,健康皮肤很有限,请同学们想一想如何来治疗该病人非关系型数据库NoSQLBigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、GoogleEarth等。烧伤病人的治疗通常是取烧伤病人的健
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 概述 ppt 课件
限制150内