第1章大数据与大数据时代.pptx
《第1章大数据与大数据时代.pptx》由会员分享,可在线阅读,更多相关《第1章大数据与大数据时代.pptx(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 1 章 大数据与大数据时代周周 苏苏浙江大学城市学院浙江大学城市学院QQQQ:8150505081505050 2大数据及其可视化 中国铁道出版社 目目目目 录录1 1 1 1大数据概述大数据概述2 2 2 2思维变革之一:样本思维变革之一:样本=总体总体3 3 3 3思维变革之二:接受数据的混杂性思维变革之二:接受数据的混杂性4 4 4 4思维变革之三:数据的相关关系思维变革之三:数据的相关关系5 5 5 5【实验与思考实验与思考】深入理解大数据时代深入理解大数据时代大数据概述大数据概述大数据概述大数据概述1.11.1 4大数据及其可视化 中国铁道出版社1.1 1.1 大数据概述大数据概
2、述n n信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放着一台电脑,每间办公室内都连接到局域网甚至互联网。半个世纪以来,桌上都放着一台电脑,每间办公室内都连接到局域网甚至互联网。半个世纪以来,随着计算机技术全面和深度地融入社会生活,信息爆炸已经积累到了一个开始引随着计算机技术全面和深度地融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。信息总量的变化导致了信息形态的变化发变革的程度。信息总量的变化导致了信息形态的变化量变引起了质变。最量变引起了质变。最先经历信息爆炸的学科,如天文学和基因
3、学,创造出了先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据大数据”(Big DataBig Data)这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。5大数据及其可视化 中国铁道出版社1.1.1 1.1.1 数据与信息数据与信息n n数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。所以,数后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。所以
4、,数据和信息之间是相互联系的。据和信息之间是相互联系的。n n数据和信息也是有区别的。从信息论的观点来看,描述信源的数据是信息和数据数据和信息也是有区别的。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据冗余之和,即:数据 =信息信息 +数据冗余。数据是数据采集时提供的,信息是从采数据冗余。数据是数据采集时提供的,信息是从采集的数据中获取的有用信息,即信息可以简单地理解为数据中包含的有用的内容。集的数据中获取的有用信息,即信息可以简单地理解为数据中包含的有用的内容。n n一个消息越不可预测,它所含的信息量就越大。事实上,信息的基本作用就是消一个消息越不可预测,它所含的信息量就越
5、大。事实上,信息的基本作用就是消除人们对事物了解的不确定性。信息量是指从除人们对事物了解的不确定性。信息量是指从N N个相等的可能事件中选出一个事个相等的可能事件中选出一个事件所需要的信息度量和含量。从这个定义看,信息量跟概率是密切相关的。件所需要的信息度量和含量。从这个定义看,信息量跟概率是密切相关的。6大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源n n综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据的综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据的时代已经到来。以天文学为例,时代已经到来。以天文学
6、为例,20002000年斯隆数字巡天年斯隆数字巡天 项目(见图项目(见图1-21-2)启动的时)启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,就比世界天文学历史候,位于新墨西哥州的望远镜在短短几周内收集到的数据,就比世界天文学历史上总共收集的数据还要多。到了上总共收集的数据还要多。到了20102010年,信息档案已经高达年,信息档案已经高达1.42421.4242字节。不过,字节。不过,预计预计20162016年在智利投入使用的大型视场全景巡天望远镜能在五天之内就获得同样年在智利投入使用的大型视场全景巡天望远镜能在五天之内就获得同样多的信息。多的信息。7大数据及其可视化 中国铁道
7、出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源图图1-2 1-2 美国斯隆数字巡天望远镜美国斯隆数字巡天望远镜 8大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源n n天文学领域发生的变化在社会各个领域都在发生。天文学领域发生的变化在社会各个领域都在发生。20032003年,人类第一次破译人体年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每后,世界范围内的基因仪每1515分钟就可以完成同
8、样的工作。在金融领域,美国股分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达市每天的成交量高达7070亿股,而其中三分之二的交易都是由建立在数学模型和算亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据来预测利益和降低风险。法之上的计算机程序自动完成的,这些程序运用海量数据来预测利益和降低风险。9大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源n n互联网公司更是要被数据淹没了。谷歌公司每天要处理超过互联网公司更是要被数据淹没了。谷歌公司每天要处理超过2424拍字节(拍字节(PBPB
9、,250250字节)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物字节)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。所含数据量的上千倍。FacebookFacebook(脸书)这个创立不过十来年的公司,每天更新(脸书)这个创立不过十来年的公司,每天更新的照片量超过的照片量超过1 0001 000万张,每天人们在网站上点万张,每天人们在网站上点“赞赞”(LikeLike)按钮或者写评论大)按钮或者写评论大约有三十亿次,这就为约有三十亿次,这就为FacebookFacebook公司挖掘用户喜好提供了大量的数据线索。与此公司挖掘用户喜好提供了
10、大量的数据线索。与此同时,谷歌子公司同时,谷歌子公司YouTube YouTube 每月接待多达每月接待多达8 8亿的访客,平均每一秒钟就会有一段亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传。推特(长度在一小时以上的视频上传。推特(TwitterTwitter)上的信息量几乎每年翻一番,上的信息量几乎每年翻一番,每天都会发布超过每天都会发布超过4 4亿条微博。亿条微博。10大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源n n从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类从科学研究到医疗保险,从银行业到互联网
11、,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。人类存储信息量的增长速度比世界经济的增长速度快甚至超过了我们的想象。人类存储信息量的增长速度比世界经济的增长速度快4 4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9 9倍,每个人倍,每个人都受到了这种极速发展的冲击。都受到了这种极速发展的冲击。11大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信
12、息爆炸的起源n n以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,就可以达分子级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的时候,这种性质会消失。
13、一旦到达纳米级别,金属可以变得柔软,陶土可以具有时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,也就可以做很多在小数据量的基础弹性。同样,当我们增加所利用的数据量时,也就可以做很多在小数据量的基础上无法完成的事情。上无法完成的事情。12大数据及其可视化 中国铁道出版社1.1.2 1.1.2 天文学天文学信息爆炸的起源信息爆炸的起源n n大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方
14、面面,从商以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。尽管我们还业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。尽管我们还处在大数据时代的初期,但我们的日常生活已经离不开它了。处在大数据时代的初期,但我们的日常生活已经离不开它了。13大数据及其可视化 中国铁道出版社1.1.3 1.1.3 大数据的定义大数据的定义n n所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。对大量数据进行分析,并从中获得有用观点
15、,这种做法在一部分研究机构和大企对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别:第一,业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别:第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据;随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据;第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降;第三,随第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降;第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行搭建。着云计算的兴起,大
16、数据的存储、处理环境已经没有必要自行搭建。n n所谓所谓“用现有的一般技术难以管理用现有的一般技术难以管理”,例如是指用目前在企业数据库占据主流地,例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说,是指位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说,是指由于数据量的增大,导致对数据的查询(由于数据量的增大,导致对数据的查询(QueryQuery)响应时间超出允许范围的庞大)响应时间超出允许范围的庞大数据。数据。14大数据及其可视化 中国铁道出版社1.1.3 1.1.3 大数据的定义大数据的定义n n研究机构研究机构Gartn
17、erGartner给出了这样的定义:给出了这样的定义:“大数据大数据”是需要新处理模式才能具有更是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。n n麦肯锡麦肯锡 说:说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,
18、即并不定义大于一个特定数字于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的的TBTB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TBTB到几到几PBPB。”15大数据及其可视化 中国铁道出版社1.1.3 1.1.3 大数
19、据的定义大数据的定义n n随着随着“大数据大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。轮数据技术革新的浪潮。16大数据及其可视化 中国铁道出版社1.1.4 1.1.4 用用3V3V描述大数据特征描述大数据特征n n从字面来看,从字面来看,“大数据大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只
20、不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理用现有的一般技术难以管理”这样的状况,这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。并不仅仅是由于数据量增大这一个因素所造成的。n nIBMIBM说:说:“可以用可以用3 3个特征相结合来定义大数据:数量(个特征相结合来定义大数据:数量(VolumeVolume,或称容量)、,或称容量)、种类(种类(VarietyVariety,或称多样性)和速度(,或称多样性)和
21、速度(VelocityVelocity),或者就是简单的),或者就是简单的3V3V,即庞大,即庞大容量、极快速度和种类丰富的数据容量、极快速度和种类丰富的数据”(见图(见图1-31-3)。)。17大数据及其可视化 中国铁道出版社1.1.4 1.1.4 用用3V3V描述大数据特征描述大数据特征图图1-3 1-3 按数量、种类和速度来定义大数据按数量、种类和速度来定义大数据 18大数据及其可视化 中国铁道出版社1.1.4 1.1.4 用用3V3V描述大数据特征描述大数据特征n n1.Volume1.Volume(数量)(数量)n n用现有技术无法管理的数据量,从现状来看,基本上是指从几十用现有技术
22、无法管理的数据量,从现状来看,基本上是指从几十TBTB到几到几PBPB这样这样的数量级。当然,随着技术的进步,这个数值也会不断变化。的数量级。当然,随着技术的进步,这个数值也会不断变化。n n如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从财务数据、医疗数据、监控数据等。有关数据量的对话已从TBTB级别转向级别转向PBPB级别,级别,并且不可避免地会转向并且不可避免地会转向ZBZB级别。可是,随着可供企业使用的数据量不断增长,级别。可是,随着可供企业使
23、用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。可处理、理解和分析的数据的比例却不断下降。19大数据及其可视化 中国铁道出版社1.1.4 1.1.4 用用3V3V描述大数据特征描述大数据特征n n2.Variety2.Variety(种类、多样性)(种类、多样性)n n随着传感器、智能设备以及社交协作技术的激增,企业的数据也变得更加复杂,随着传感器、智能设备以及社交协作技术的激增,企业的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、
24、电子邮件、文档、主动和被动系统的传击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。感器数据等原始、半结构化和非结构化数据。n n种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。的,它们都属于非结构化数据。20大数据及其可视化 中国铁道出版社1.1.4 1.1.4 用用3V3V描
25、述大数据特征描述大数据特征n n当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代
限制150内