第1章 大数据可视化概述.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第1章 大数据可视化概述.pptx》由会员分享,可在线阅读,更多相关《第1章 大数据可视化概述.pptx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:第1章 大数据可视化概述2大数据可视化目录CONTENTS大数据可视化的概念大数据可视化的作用与意义123大数据可视化的发展史大数据可视化的应用领域4大数据可视化面临的挑战5大数据可视化技术的发展方向61. 大数据可视化的概念数据大数据大数据可视化1. 大数据可视化的概念1.1 数据 数据数据 数据是一种未经加工的原始资料,是客观对象的表示。 借助数据来表示一定的含义,传递一定的信息。因此,信息则是数据内涵的意义,是数据的内容和解释。 信息与数据是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身并没有意义,数据只有对实体行为产生影响时才成为信息。 90就是一个数据,可以表示
2、小明这次语文考试得了90分,也可表示今天小王充了90元话费。1. 大数据可视化的概念1.1 数据 数据的分类数据的分类 (1 1)结构化数据)结构化数据 (2 2)非结构化数据)非结构化数据 (3 3)半结构化数据)半结构化数据 结构化数据:结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。半结构化数据:是介于完全结构化数据和完全无结构的数据之间的数据,它一般是自描述的,数据的结构和内容混在一起。1. 大数据可视化的概念1.1 数据 表示数据的存储单位表示数据的存储单
3、位 计算机中的数据存储在存储器中,存储器存储数据的最小基本计算机中的数据存储在存储器中,存储器存储数据的最小基本单位是单位是bitbit,按照从小到的顺序表示数据的大小单位有,按照从小到的顺序表示数据的大小单位有bitbit、ByteByte、KBKB、MBMB、GBGB、TBTB、PBPB、EBEB、ZBZB、YBYB、BBBB、NBNB、DBDB。 红楼梦是中国古典四大名著之一,该书含标点共有87万字(不含标点约85万字),计算机存储每个汉字需要占两个字节,则有1汉字=2byte等式成立。根据以上单位之间的换算关系得到1GB 约等于671部红楼梦,1TB 约等于631,903 部,以此类推
4、,1PB 约等于647,068,911部。从这个描述过程中,可以感受到这些单位的大小程度。1. 大数据可视化的概念1.2 大数据 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、(传感器,智慧地球)、车联网、G
5、PSGPS、医学影像、安全监控、金融(银行、股、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。市、保险)、电信(通话、短信)都在疯狂产生着数据。 大数据的起源全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据
6、高达1.3EBGoogle 上每天需要处理24PB 的数据1. 大数据可视化的概念1.2 大数据 大数据的起源 以下十个事实会让你相信,每个人都必须注意大数据:1. 全球数据的90%产生于过去2年内。2. 以今天的数据生产速度,我们可以在2天内生产出2003年以前的所有数据。3. 行业内获取并且存储的数据量每1.2年就会翻一番。4. 到2020年,全球数据量将由现在的3.2 ZBytes变为40 ZBytes 5. 仅Google一家搜索引擎,每秒就处理4万次搜索查询,一天之内更是超过35亿次。1.1. 大数据可视化的概念大数据可视化的概念1.2 大数据 大数据的起源6. 我们每分钟在Face
7、book上贡献180万次赞,上传20万张照片,我们每分钟还发送2.04亿封邮件。7. 每分钟大约有100小时的视频被传上视频网站。要花费15年才能看完一天之内被传到YouTube上的全部视频。8. AT&T被认为是能够用单一数据库存储最多数据量的数据中心。9. 在美国,这将会带来总计600万个新增工作岗位。10. 全球每分钟会新增570个网站。 1.1. 大数据可视化的概念大数据可视化的概念1.2 大数据 大数据的起源1. 大数据可视化的概念1.2 大数据数据量增加TBPBZBEB根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这
8、意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临 大数据的起源1. 大数据可视化的概念1.2 大数据20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。 大数据的起源1. 大数据可视化的概念1.2 大数据定义一:大数据指的是那些大小超过标准数据库工具软件能够收集、存储、
9、管理和分析的数据集。 摘自麦肯锡 定义二:在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。 摘自WIKI定义三: 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 摘自Gartner定义四:大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,从而产生新的科学研究方法、新的管理决
10、策方法、新的经济增长方式、新的社会发展方式等等。 摘自复旦大学朱扬勇教授 大数据的定义1. 大数据可视化的概念1.2 大数据(1)按照数据分析的实时性,分为实时数据分析和离线数据按照数据分析的实时性,分为实时数据分析和离线数据分析两种。分析两种。 实时数据分析实时数据分析 离线数据分析离线数据分析 大数据的分类1. 大数据可视化的概念1.2 大数据 大数据的分类(2)按照大数据的数据量,分为内存级别、海量级别三种、商业智能(BI)级别。 内存级别 内存级别指的是数据量不超过集群的内存最大值。Facebook缓存在内存的中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。 海量级别
11、 海量级别指的是对于数据库和商业智能产品已经完全失效或者成本过高的数据量。 商业智能(BI)级别 BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。1. 大数据可视化的概念1.2 大数据 大数据的特征最初的4V特征,到5V,直到现在的6V特征。4V特征是指大体量(Volume)、多样性(Variety)、快速化(Velocity)、价值密度低(Value)。5V特征在4V特征基础上增加了真实性(Veracity),5V特征是IBM提出来的。6V特征在5V特征基础上增加了连接性(Va
12、lence)。大体量(大体量(Volume)Volume) 在2006 年,个人用户才刚刚迈进TB 时代,全球一共新产生了约180EB 的数据;在2011 年,这个数字达到了1.8ZB 。而根据知名市场研究机构IDC 的预测,到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)。 一般情况下,大数据是以P8 EB ZB为单位进行计量的 1PB相当于50%的全美学术研究图书馆藏书的信息内容 5EB相当于至今全世界人类所讲过的话语 1ZB如同全世界海滩沙子数量总和 1YB相当于7000位人类体内的微细胞总和多样性(Variety) 互联网、移动互联网、物联网
13、、车联网等等各种数据来源大数据的数据结构更加多样化: 图像、视频、微博 评价、邮件 PDF、office文档(word, excel, ppt) 手机呼叫、短信 网页点击 搜索(html,搜索行为) 地图gps非结构化数据增长率就达80%,而传统的数据样式:多半是数据库表和xml。快速化(Velocity) 每秒钟,人们发送290封电子邮件; 每分钟人们在youtube上传20小时的视频; 人们每月在总共在facebook上浏览7000亿分钟; 移动互联网网用户发送和上传的数据量达到1.3exabytes,相当于10的18次方; 每秒淘宝商城成交178笔订单 实时股票分析(过期无用) 实时路况
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第1章 大数据可视化概述 数据 可视化 概述
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内