构建大数据产业环境.pdf
《构建大数据产业环境.pdf》由会员分享,可在线阅读,更多相关《构建大数据产业环境.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 构建大数据产业环境专访中国工程院院士李国杰文/本刊记者牛禄青日前,中国工程院院士、中科院计算所首席科学家李国杰就大数据的发展背景、重大意义、最新动向、未来趋势,以及中国的机遇与挑战等相关问题接受了新经济导刊记者的专访。李国杰表示,大数据对经济社会发展和科学研究具有革命性的意义,其兴起有着内在的需求和利益驱动,因为数据里蕴藏着巨大的价值。未来将形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性新兴产业。李国杰认为,数据安全主要不是技术问题,因为数据放在哪里都有泄露的风险,它与商业模式有很大关系。中国当务之急是建立上下游相互协作、相互支撑的大数据产业环境,特别是构建有技术自主权
2、的大数据产业链。商业价值驱动新经济导刊:继物联网、云计算、3D 打印等新技术之后,大数据已成为投资者、IT 人士以及政府部门、科研人员关注的热点,请问大数据是在什么背景下发展起来的?李国杰:今年三月份,奥巴马宣布美国政府投资2 亿美元启动“大数据研究和发展计划”,这个计划可以同美国上世纪90 年代初的“信息高速公路”相比拟。美国政府认为,大数据是“未来的新石油”,并对将 大数据的研究上升为国家意志。表面上看“大数据热”受到美国计划的影响,但不完全是这样。过去美国副总统戈尔呼吁的数字地球,中国也在跟进,但经济上并未成气候;有些是美国不太热,中国反而进行得有声有色,比如物联网,这可能与中国政府对物
3、联网的大力扶持有关。所以层出不穷的新技术,有时候是真热,有时候是虚热。我认为,大数据不是因为奥巴马的宣布而热起来的,它的兴起有着内在的原因。过去的科学实践大数据不可能引起广泛关注,现在的大数据与互联网、物联网的蓬勃发展有很大关系,特别是美国几家大型企业的大力推动,像IBM、亚马逊、Google、2 Facebook等。科研人员研究大数据,习惯于从数据到信息到知识再到智慧,若按照这个链条,时间太漫长,产生的经济效益也有限,大数据不会形成这么大势头。现在企业走了一条捷径,直接从数据里开发出商业价值,而不管数据中的科学规律和知识,这可以大大激发企业的兴趣。比如电子商务eBay,它用大数据分析网络广告
4、,发现广告里的每一个单词都与经济效益有关联,通过优化,使广告收益提高80%以上。所以,大数据兴起的根本原因是里面蕴藏着巨大的价值,有实实在在的经济利益驱动。新经济导刊:人们对大数据的理解,见仁见智,如何界定大数据?大数据有哪些基本特征?李国杰:一般意义上,大数据是指无法在可容忍的时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理和服务的数据集合。大数据的特点主要表现为四个“V”:一是体量浩大(Volume),数据集合的规模已从GB到 TB再到 PB级,甚至已经开始以EB和 ZB来计算。著名咨询公司IDC 的研究报告称,未来10 年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加
5、10 倍。二是类型复杂(Variety),大数据类型包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,到2012 年末非结构化数据将达到整个数据量的75%以上。三是生成迅速(Velocity),大数据通常以数据流的形式动态、快速地产生,具有很强的时效性。数据自身的状态与价值也随时空变化而发生演变,数据的涌现特征明显。四是价值巨大但利用密度低(Value),基于传统思维与技术让人们在实际环境中面临信息泛滥而知识匮乏的窘态。开启数据革命新经济导刊:大数据对经济社会发展和科学研究有哪些重要作用?李国杰:根据数据的来源,大数据可以分为两类:一类来自与人类社会有
6、关的数据,特别是互联网和经济活动产生的数据,企业最感兴趣,这一块增长也最快,互联网实际上反映的是人的活动;另一类来自物理世界,通过传感器、科学观测获取,比如生物数据、脑科学数据、气象数据、野外环境保护数据、卫星遥感数据等。这类数据首先推动科学的进步,继而推动经济的发展。大数据具有革命性的意义,作为一种重要的战略资源,不仅事关国家的数字主权和战略安全,而且可以促进我国的经济结构调整和产业升级。大数据时代,企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为大3 数据处理能力,软件也将从编程为主转变为以数据为中心。大数据处理的兴起也改变了云计算的发展方向,使其进入以分析
7、即服务(AaaS)为主要标志的 Cloud2.0 时代。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,大大提高科研和生产效率,使整个行业迈入数字化与信息化的新阶段。未来将形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性新兴产业。数据服务是许多企业瞄准的重要领域,华为本来是一家通信企业,现在也开拓数字医药医疗 市场,打通社区医院和三甲医院,这是一个潜在的巨大市场。此外,大数据正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上太过复杂,难以解决实际问题,人们开始寻求
8、模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触所研究的对象。2007 年,已故图灵奖得主吉姆 格雷在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”,把数据密集型科学从计算科学中单独区分开来。第四范式不仅是科研方式的转变,也是人们思维方式的大变化。现实中,许多复杂的经济社会问题无法用传统的方法可以进行研究,比如股市,没有大量的数据无法找到其中的规律,仅靠模型是不行的。新经济导刊:大数据对地理信息和位置服务有何影响?李国杰:地理信息和位置信息是人在物理世界的活动,是社会活动和物理世界两类数据
9、的融合。这种数据的规模是相当大的,是未来一个新的经济增长点,而且能带动单独在 物理空间和 单独在 社会网络领域的数据产业的飞速发展。地理信息是国家信息基础设施的一部分,电子政务、电子商务、智能交通、智能物流等行业应用,都离不开地理信息。政府对地理信息这种公共资源应该分层管理,除了涉及国防和国家安全的信息需要保密外,其他基础信息都要免费或以较低成本提供给企业和民众,防止信息采集单位据为己有。基于基础信息上的各种应用服务,应该大量放开,让企业去做。我国的地理信息产业之所以发展不快,就是没有解决好信息的分层管理,收集地理信息的单位,理所当然地认为这些信息就是本部门的,而且互相之间也不交流和共享,导致
10、重复建设和资源浪费。颠覆 IOE 模式新经济导刊:大数据时代,传统的数据库软件将难以满足处理海量数据的需要。您认为大数据对信息技术提出哪些新的要求?4 李国杰:过去,中国对信息系统有所谓“金三角”的说法,即“IOE”,I 指 IBM的服务器,O指 Oracle 的数据库,E指 EMC 的存储。这三家公司基本垄断了国内银行、证券等对计算机处理数据要求很高的行业。现在业内认为,如果某家技术公司还沿用“IOE”,那这家公司就不是大数据公司。因为你的技术建立在Oracle 的 IOE基础上,决定了你无法处理大量数据,仅这一条,因为 你的基础设施就不适合做大数据处理。数据在基础设施层面有三类技术:存储、
11、管理和计算。IOE模式从上世纪 70 年代就逐步成型了,即关系数据,当时对数据的认识是线性维度。到了大数据时代,数据的巨大规模和快速变化超过了硬件能力的增长,而且数据之间的复杂关联和再生使得非线性思维 所能及无能为力。另外还有社会因素,数据与人在不断地互动,甚至人就是动态的数据集。在这种情况下,采用原有的IOE 模式来处理大数据就难以应对了,数据中的价值也无法有效挖掘出来。现在大数据有许多应用,例如通过查询Google,可以知道流行病在某区域的分布;通过舆情的分析,可以预测选举的结果。大数据存储不同于传统的EMC,它是一种高效率、低成本、多层次柔性的存储架构,不是集中到一起存储,而是把数据放在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 构建 数据 产业 环境
限制150内