《大数据的产业价值.pptx》由会员分享,可在线阅读,更多相关《大数据的产业价值.pptx(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据的产业价值(上)大数据的产业价值(上)汪东升汪东升 清华大学教授清华大学教授目目 录录123大数据及其相关概念理解大数据及其相关概念理解大数据的产业价值大数据的产业价值技术发展趋势、问题与建议技术发展趋势、问题与建议大数据概念及其特点大数据概念及其特点相关概念与关系分析相关概念与关系分析一、大数据及其相关概念理解一、大数据及其相关概念理解(一)大数据概念及其特点(一)大数据概念及其特点数据数据n关联关联n模式模式n趋势趋势n相关相关n分类分类n市场定位市场定位n资金分配资金分配n产品选择产品选择n广告营销广告营销n时机选择时机选择n位置选择位置选择n行业细化行业细化n数字化数字化n多媒体
2、多媒体n多维度多维度n大规模大规模n细粒度细粒度1 1、大数据概念的发展脉络、大数据概念的发展脉络200820082010201020112011NatureNature推出了推出了 Big Data Big Data 专刊;专刊;20082008首次列入首次列入“维基百科维基百科”条目;条目;2010.42010.4Science Science 推推出专刊,说出专刊,说明大数据对明大数据对于科学研究于科学研究的重要性;的重要性;2011.22011.2“大数据是指无法在一定时间内大数据是指无法在一定时间内用常规软件工具对其内容进行抓用常规软件工具对其内容进行抓取、管理和处理的数据集合。取、
3、管理和处理的数据集合。”2011201120122012麦肯锡全球研麦肯锡全球研究院发布一份究院发布一份报告报告大大数据:创新、数据:创新、竞争和生产力竞争和生产力的下一个新领的下一个新领域域;2011.52011.5IBMIBM在产品发在产品发布会上主推布会上主推大数据概念;大数据概念;2011.112011.11美国国家科学基美国国家科学基金发布大数据指金发布大数据指南,指出大数据南,指出大数据是海量、多样、是海量、多样、分布的、异构的分布的、异构的数据。数据。20122012“大数据是指具有以下三个特征大数据是指具有以下三个特征的数据:大数据量、快速增长及的数据:大数据量、快速增长及多数
4、据来源及类型的数据。多数据来源及类型的数据。4V4V特性:特性:大规模、多样化、快大规模、多样化、快速增长、速增长、 潜藏价值。潜藏价值。2 2、大数据的构成、大数据的构成大数据包括交易数据和交互大数据包括交易数据和交互数据集在内的所有数据集。数据集在内的所有数据集。大数据大数据 = = 海量数据海量数据 + + 复杂类型的数据复杂类型的数据海量交易海量交易数据数据海量交互海量交互数据数据海量数据海量数据处理处理企业内部的经营交易信息,主企业内部的经营交易信息,主要包括联机交易数据和联机分要包括联机交易数据和联机分析数据,是结构化的、通过关析数据,是结构化的、通过关系数据库进行管理和访问的静系
5、数据库进行管理和访问的静态、历史数据。通过这些数据,态、历史数据。通过这些数据,我们能了解过去发生了什么。我们能了解过去发生了什么。源于源于FacebookFacebook、TwitterTwitter及其他来及其他来源的社交媒体数据构成。包括呼叫源的社交媒体数据构成。包括呼叫详细记录详细记录CDRCDR、设备和传感器信息、设备和传感器信息、GPSGPS和地理定位映射数据、通过管和地理定位映射数据、通过管理文件传输理文件传输Manage File TransferManage File Transfer协议传送的海量图像文件、协议传送的海量图像文件、WebWeb文文本和点击流数据、科学信息、电
6、子本和点击流数据、科学信息、电子邮件等等,可以预测未来。邮件等等,可以预测未来。大数据的涌现已经催生出大数据的涌现已经催生出了设计用于数据密集型处了设计用于数据密集型处理的架构,例如具有开放理的架构,例如具有开放源码、在商品硬件群中运源码、在商品硬件群中运行的行的Apache HadoopApache Hadoop。3 3、大数据的基本概念、大数据的基本概念大数据是一种数据,具有可扩展性、多样性、复大数据是一种数据,具有可扩展性、多样性、复杂性的特点,需要一种新的架构、新的技术、新杂性的特点,需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时的算法以及新的分析工具去管理这
7、些数据,同时从中抽取隐含在内的重要信息。(从中抽取隐含在内的重要信息。(“Big Data” “Big Data” is data whose scale, diversity, and is data whose scale, diversity, and complexity require new architecture, complexity require new architecture, techniques, algorithms, and analytics to techniques, algorithms, and analytics to manage it and
8、extract value and hidden manage it and extract value and hidden knowledge from it.knowledge from it.)“大数据大数据”是指数据海量、计算复杂是指数据海量、计算复杂的数据集合,其在一定时间内难以依的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足以集、管理和分析。大数据通常满足以下下“4V”4V”特点:特点:规模规模巨大巨大产生产生高速高速形式形式多样多样信息信息价值价值4 4、大数据的特点、大数据的特点非结构化数据的超非
9、结构化数据的超大规模,比大规模,比结构化结构化数据增长快数据增长快1010倍到倍到5050倍。倍。实时分析而非批量式实时分析而非批量式分析,数据输入分析,数据输入、处理与处理与丢弃,立竿见影丢弃,立竿见影而非事后而非事后见效。见效。异构性(异构性(文本、图像、视频、机器数文本、图像、视频、机器数据据),模式不明显,语法语义不连贯。),模式不明显,语法语义不连贯。大量的不相关大量的不相关信息,对未来趋势与模信息,对未来趋势与模式的深度复杂分析。式的深度复杂分析。互联网数据互联网数据20112011年全球数据产生量达到年全球数据产生量达到1.8ZB1.8ZB,以每本书,以每本书10MB10MB计算
10、,相当于七百万个中国国家图书馆计算,相当于七百万个中国国家图书馆的容量。的容量。医疗保健数据医疗保健数据海洋气象数据海洋气象数据基因工程基因工程美国国立基因组研究所宣布,美国国立基因组研究所宣布,“千人基因计千人基因计划划”所产生的数据总量已达到所产生的数据总量已达到200TB200TB,成为世,成为世界上最大的人类基因变异数据集。界上最大的人类基因变异数据集。数据的度量数据的度量尺度尺度: :1KB1KB= =10103 3B B1MB=1MB=10106 6B B1GB=101GB=109 9B B1TB=101TB=101212B B1PB=101PB=101515B B1EB=101E
11、B=101818B B1ZB=101ZB=102121B B1YB=101YB=102424B B电信运营数据电信运营数据中国联通上网记录每秒中国联通上网记录每秒8383万条,每月万条,每月1 1万亿条(万亿条(300TB300TB)。)。天文数据天文数据美国大口径望远镜每两周对太空观测一遍,每天产生美国大口径望远镜每两周对太空观测一遍,每天产生16TB16TB数据,数据,5 5年总数据量将达到年总数据量将达到15PB15PB。企业运行数据企业运行数据20002000年全球新产生的数据量为年全球新产生的数据量为1000PB1000PB到到2000PB2000PB,到,到20102010年仅仅全
12、球企业一年新存储的数据量就超过了年仅仅全球企业一年新存储的数据量就超过了7000PB7000PB。各种数据类型各种数据类型现在的数据类型不仅是文本形式,现在的数据类型不仅是文本形式,90%90%是文字、图片、音是文字、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝频、视频、地理位置信息等非结构化数据,个性化数据占绝对多数。对多数。文字文字音频音频视频视频地理信息地理信息图片图片InternetInternet上上1 1分钟内分钟内发生了:发生了: 639TB IP639TB IP流量;流量; 2 2亿亿 封邮件;封邮件; 7070万万 FacebookFacebook更更新;新;
13、 3030小时小时 YouTubeYouTube新增视频;新增视频; 7070万万 GoogleGoogle搜索。搜索。信息价值信息价值以视频为例,以视频为例,7X247X24小时的全城监控视频中,可能有用的数小时的全城监控视频中,可能有用的数据仅仅只有一两秒。可用信息在数据总量中的比例低,但其据仅仅只有一两秒。可用信息在数据总量中的比例低,但其潜在价值巨大。潜在价值巨大。从视频中发现犯罪嫌疑人周克华从视频中发现犯罪嫌疑人周克华2011年-2016年中国大数据市场规模全球未来全球未来5 5年年58%58%的增的增速,速,20172017年达到年达到500500亿美元。亿美元。中国中国20132
14、013年增速为年增速为138%138%,20162016年市场将年市场将达到达到100100亿亿 。(二)相关概念与关系分析(二)相关概念与关系分析维基百科定义:云计算是一维基百科定义:云计算是一种基于互联网的计算方式,种基于互联网的计算方式,通过这种方式,共享的软硬通过这种方式,共享的软硬件资源和信息可以按需提供件资源和信息可以按需提供给计算机和其他设备。给计算机和其他设备。我们认为:云计算是指服务我们认为:云计算是指服务的交付和使用模式,用户通的交付和使用模式,用户通过网络以按需、易扩展的方过网络以按需、易扩展的方式获得所需的服务。式获得所需的服务。云计算云计算海计算海计算框计算框计算风计
15、算风计算。神计算?神计算?不是不是 概念概念不是不是 操作操作不是不是 口号口号不是不是 超级计算超级计算不是不是 网格计算网格计算是是 新的创新模式新的创新模式是是 新的商业模式新的商业模式是是 新的运营模式新的运营模式是是 成本、效用、应用至上成本、效用、应用至上是是 大众参与的舞台大众参与的舞台是是不是不是网络虚拟化网络虚拟化数据中心虚拟化(数据中心虚拟化(vDC)vDC)云云计计算算虚虚拟拟化化资资源源数数据据中中心心物物理理资资源源存储虚拟化存储虚拟化计算虚拟化计算虚拟化中国家庭金融调查报告中国家庭金融调查报告中国的住房自有率是中国的住房自有率是89.68%89.68%;世界平均住房
16、自有率是世界平均住房自有率是60%60%;瑞士是瑞士是31%,31%,紧随其后的是瑞典和德国;紧随其后的是瑞典和德国;住房自有率最高是亚美尼亚住房自有率最高是亚美尼亚, ,在在19981998年年时高达时高达96.3%96.3%。住房自有率水平高的国家住房自有率水平高的国家, ,几乎都是经几乎都是经济水平发展比较低的转轨国家济水平发展比较低的转轨国家, ,而住房而住房自有率低的国家则大多为经济发达的自有率低的国家则大多为经济发达的国家。国家。发达国家人口流动性强发达国家人口流动性强, ,为了减少住房为了减少住房买卖的麻烦买卖的麻烦, ,很多人宁愿租房住而不是很多人宁愿租房住而不是买房。相反买房
17、。相反, ,落后国家人口流动性较差落后国家人口流动性较差, ,拥有自有住房的家庭拥有自有住房的家庭, ,反而更可能居住反而更可能居住在自己拥有的住房中。在自己拥有的住房中。北京北五环买房:北京北五环买房:120120平方米平方米600600万万投资理财:投资理财:5%-10%5%-10%利率(利率(30-6030-60万)万)租房:租房:租金租金1 1万万/ /月月房子质量好房子质量好无须物业费、维修维护、折旧、无须物业费、维修维护、折旧、可能的房产税可能的房产税住宾馆(住宾馆(30-6030-60万):万): 未必每天都住;未必每天都住;弹性,按需弹性,按需 ;客房服务、卫生、餐饮;客房服务
18、、卫生、餐饮;拎包入住。拎包入住。云计算之云计算之PaaSPaaS、SaaSSaaS。 云计算的基础设施、云计算的基础设施、安全设施非常完备安全设施非常完备。安全是把安全是把双刃剑双刃剑放在云里面的数据,放在云里面的数据,对云的管理对云的管理而言又而言又是不安全的。是不安全的。虚拟化虚拟化安全安全去重去重- -压缩压缩可靠可靠保密保密绿色绿色节能节能数据数据保护保护云计算面云计算面临的安全临的安全问题问题关键技术视角关键技术视角使用者视角使用者视角虚拟化技术带来虚拟化技术带来全新安全威胁全新安全威胁数据集中存储引数据集中存储引发的安全问题发的安全问题云服务的管理和云服务的管理和调度产生的安全调
19、度产生的安全问题问题传统安全威胁的传统安全威胁的新特点新特点隐私保护和隐私保护和数据安全数据安全 运行环境的运行环境的安全安全内容安全内容安全重设施,轻应用;重设施,轻应用;行业、地域特色要求云计算发展模式行业、地域特色要求云计算发展模式的差异化;的差异化;花钱买服务和服务意识有待加强;花钱买服务和服务意识有待加强;安全隐私是大问题,安全意识、技术安全隐私是大问题,安全意识、技术和立法方面有所欠缺;和立法方面有所欠缺;云计算个性化和标准化矛盾。云计算个性化和标准化矛盾。智慧城市带动智慧城市带动行业云发展行业云发展智慧城市需要智慧城市需要数据融合数据融合 智慧城市要求物联网和云计算的结合:智慧城市要求物联网和云计算的结合:云计算是物联网的基础,物联网是一种应用;云计算是物联网的基础,物联网是一种应用; 云手机、云电视是终端多样化的体现;云手机、云电视是终端多样化的体现;云服务器、虚拟化是一种成本结构;云服务器、虚拟化是一种成本结构;大数据的收集、存储、管理、分析离不开云大数据的收集、存储、管理、分析离不开云计算。计算。商业模式驱动商业模式驱动应用需求驱动应用需求驱动“云云”、“物物”的核心是的核心是“数据数据”: 云计算云计算计算计算/ /业务模式业务模式 物联网物联网应用模式应用模式 大数据大数据财富、资产和隐性货币财富、资产和隐性货币
限制150内