大数据的产业价值上.pdf
《大数据的产业价值上.pdf》由会员分享,可在线阅读,更多相关《大数据的产业价值上.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、谢谢观赏 谢谢观赏 谢谢观赏 谢谢观赏 大数据的产业价值(上)清华大学教授 大家好,我是来自清华大学的汪东升,今天我们讨论的题目是“大数据的产业价值”。目前,“云计算”、“物联网”、“智慧城市”、“互联网+”、“工业 2.0”以及“大数据”这些 热词,我们几乎每天都能听到。很多政府报告,包括各种媒体,都把这些热词称为第三次浪 潮,也是第三次的革命,也有些报告指出这是弯道超车的一个机会。为此,我结合这些热词,以大数据为重点探讨一下大数据的产业价值以及与其他热门名词的相互关系,以便于我们在 弯道的时候做到真正超车。我主要介绍以下三个方面:第一,大数据及其相关概念的理解;第二,大数据的产业价值;第三
2、,问题与建议。一、大数据及其相关概念的理解(一)大数据概念及其特点 这是我们从阿里 PPT 上摘录的一页。这是目前互联网上每 60 秒发生的事情,大家都能 体验到。比如全球 IP 网一分钟可以传送 639TB 以上的数据,我们用 Facebook、微信、Twitter 等社交媒体、社交网络发生若干次的访问,增量也是非常巨大的。比如苹果的应用下载 4.7 万亿次,以及其他方面的应用都是海量的数据。可以这样讲,在 2015 年要用五年时间才能看 完互联网上一秒内所存的视频,可见信息量之大,以及增长速度之快。由于数据量不断增加,会出现数据爆炸,知识反而是贫乏的,同时难以决策,对我们的 决策带来更大的
3、困难。从数据角度来说,可以有利于行业细分、数字化、多媒体、多维度、大规模和细粒度。从数字中,我们得到一些关联、模式、趋势、相关性关系以及分类,继而 为决策提供支持,包括市场定位、资金分配、产品选择、广告营销、时机选择以及位置选择。因此我们说,大数据时代到来了。1、大数据概念的发展脉络 大数据概念的发展脉络,我们简单地归结为以下这几个流程:2008 年,最初是在Nature 自然杂志上推出了一些大数据的装刊,对大数据的基本概念作了一些阐述;2010 年 4 月 21 日,这个概念首次列入维基百科的条目,并指出“大数据是指无法在一定时间内用常规软件 工具对其内容进行抓取、管理和处理的数据结合”;2
4、011 年 2 月,Scienee 推出专刊,说明大 数据对于科学研究的重要性;在2011 年 5 月,麦肯锡全球研究院发布了一份报告一一 大数 据:创新、竞争和生产力的下一个新领域,推动了工业性和学术界对大数据的关注,报告提 出,大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源和类型;2011 年 11 月,IBM 在产品发布会上主推大数据的概念,并概括为 4 个 v 的特性,也就是大规模、多样化、快速增长以及潜藏价值;2012 年,美国国家科学基金发布大数据指南,指出大数据 是海量、多样、分布、异构的数据。2、大数据的构成 所谓大数据是指大交易数据、大交互数据和大数据处理的
5、统称。大交易数据包括在线的 交易处理、在线的分析处理以及数据仓库等。大交互数据就是我们经常用的 Twitter 等等这些社交媒体数据。这些数据集成在一起对于大数据的集成、分析以及决策提 Facebook、谢谢观赏 谢谢观赏 供了方便。从这张图上可以看出大数据的构成,大数据包括交易数据和交互数据在内的所有 数据集,因此大数据等于海量数据加上复杂类型的数据。所谓海量交易数据,就是我们经常 用的数据库数据,企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结 构化的、通过关系数据库进行管理和访问的静态历史数据,我们进行查询统计能了解过去发 生的事情。另外一种是海量交互数据,比如 Face
6、book、Twitter、LinkedIn 以及微信等等,以及其他来源的社交媒体或社交构成,它包括呼叫详细记录 CDR 设备和存储传感信息、GPS 和地理定位映射信息、通过管理文件传输管理文件协议的海量图片文件,还有点击数字量、科学信息、电子邮件等等,可以预测未来,这些数据大多数是非结构化的数据。对于这样的 结构化数据和非结构化数据需要进行海量数据的处理,大数据的涌现已经催生出了设计用于 数据密集型处理的架构,比如一些科研架构,我们经常说的就是 Hadoop 等。3、大数据的基本概念 关于大数据没有标准的定义,这是一个英文的定义:大数据是一种数据,它具有可扩展 性、多样性、复杂性的特点,它需要
7、一种新的架构、新的技术、新的算法以及新的分析工具 去管理这些数据,同时从中抽取隐含在内的重要信息,这就是大数据的概念,它谈不上是一 个定义。关于大数据的概念,我们的理解是:大数据是指数据海量、计算复杂的数据集合,在一 定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析,通常可以用 4v 特点来 表示。这也不是一个标准的定义,只是一个概念,目前数据量不断地增大,类型不断地增多,我们现在的技术、结构和算法还无法支撑它、分析它,这是一个难题。4、大数据的特点 4v 特性主要是规模巨大、产生高速、形式多样、信息价值这 4 个 v 特性。规模巨大是指,非结构化数据的超大规模比结构化数据增长 1
8、0 倍到 50 倍;产生高速是指速度产生是非常巨 大的,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,要求它 的实时性;形式多样也就是我们所说的异构性,数据包括文本、图象、视频、机器数据,模 式不明显,语法语义也不连贯;信息价值就是大量不相关的信息,对未来趋势与模式的深度 复杂分析,通过这些分析能得到我们所用的信息。因此,大数据就像“航母”,利用起来威力 巨大,放着不动也消耗巨大。(1)规模巨大 首先,规模是巨大的,从 TB 级别到 PB 一直到 ZB 的级别。关于数据的度量尺度,我们可 以看一下,TB是 10 的 12 次方,PB 是 10 的 15 次方,ZB 达到
9、10 的 21 次方。大数据包括 互联网的数据,2011 年产生量是1.8ZB,以每本书 10 兆字节来计算,这个数据相当于 700 万个中国国家图书馆的容量,可见它的数据是非常大的。同时还有医疗保健数据、海洋气象 数据以及基因工程等方面的数据。美国国立基金研究所宣布,“千人基金计划”所产生的数据 总量已达到 200TB,成为世界上最大的人类基因变异数据集。(2)产生高速 数据持续产生高速,并要求实时处理。我们看一下电信运营数据,联通上网记录每秒 83 万条,每月 1 万亿条,大概 300TB 的容量;天文数据五年的总数据量可以达到 15PB;还有企 业运行数据,到 2000 年时,全球新产生
10、的数据量为 1000PB 到 2000PB,到 2010 年全球企业 一年存储的数据量超过 7000PB,这是产生谢谢观赏 谢谢观赏 高速的一个特点。(3)形式多样 数据来源和数据通道也是多方面的,比如多样化的数据来源,从 Twitter、谷歌、Facebook、手机等等各种终端来的数据也是非常丰富多彩的。因此下一个特点是形式多样,各种类型的数据,包括语音、图片、音频、视频、地理位置信息等非结构化数据,个性化数 据占绝大多数。大数据时代,数据呈爆炸的趋势,in ternet 一分钟发生了 639TB 的网络流量,同时有两亿封邮件、70 万份的 Facebook 更新、30小时的 YouTube
11、 新增视频、70 万个谷歌搜 索,可见数据是爆炸性的增长,不断产生的。(4)信息价值 从信息的价值角度来说,可用信息在数据总量中的比例低,其潜在价值是巨大的。每一 个信息给我们的信息量是非常小的,但是把它们归结在一起,通过有效的手段进行提取分析 会得到非常有用的高效信息。以视频为例,7X24 小时的全程视频监控中,可能有用的数据仅 仅只有一两秒,有用信息在数据总量中的比例低,但是潜在的价值是非常大的,比如大量的 视频中我们可以找到犯罪嫌疑人,杀人恶魔周克华就是从这种视频监控的海量信息中查找出 来的。大数据时代的市场空间非常巨大,数据已经成为一种资产,像货币和黄金一样,“21 世 纪的原油”这种
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 产业 价值
限制150内