中国大数据技术与产业发展白皮书.doc
《中国大数据技术与产业发展白皮书.doc》由会员分享,可在线阅读,更多相关《中国大数据技术与产业发展白皮书.doc(302页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国计算机学会文集 中国大数据技术与产业发展白皮书(2014)CCF大数据专家委员会主编中关村大数据产业联盟目录前言I致谢III第一章 大数据背景与动态11.1 大数据的宏观价值与背景11.1.1 国家保障数据安全,促进数据开放11.1.2 政府转变理念,集成信息,抓住机遇31.1.3 学术科学的研究数据,用数据来研究科学41.1.4 产业产业需要变革,行业需要互融互通51.1.5 公司平台化竞争,特色应用化生存61.1.6 投资大数据将提供价值分析新视角71.2 国内外大数据发展动态81.2.1 国外大数据发展动态81.2.2 我国大数据发展动态131.2.3 大数据相关社区171.2.4
2、我国大数据行业协会20第二章 大数据典型应用222.1 互联网大数据222.1.1 互联网大数据应用现状222.1.2 大数据应用于互联网商务交易232.1.3 大数据应用于互联网信息获取252.1.4 大数据应用于互联网交流沟通262.1.5 大数据应用于移动互联网282.1.6 互联网大数据发展趋势302.2 金融大数据312.2.1 金融大数据应用现状312.2.2 大数据信贷332.2.3 大数据征信342.2.4 大数据投资362.2.5 金融大数据发展趋势372.3 电信大数据392.3.1 电信大数据应用现状392.3.2 电信运营商的网络管理和优化412.3.3 电信运营商的精
3、准营销432.3.4 电信运营商的数据变现442.3.5 电信大数据发展趋势522.4 电网大数据542.4.1 智能电网大数据应用现状542.4.2 利用电力负荷值实现智能电力现代化管理562.4.3 利用用电信息数据指导用户合理优化用电602.4.4 利用消费能耗数据进行节能减排642.4.5 智能电网大数据发展趋势652.5 交通大数据662.5.1 交通大数据应用现状662.5.2 轨道交通大数据技术创新682.5.3 轨道交通大数据应用722.5.4 交通运输大数据应用742.5.5 交通大数据发展趋势762.6 健康医疗大数据772.6.1 健康医疗大数据应用现状772.6.2 国
4、外健康医疗大数据分析的应用782.6.3 大数据技术提升传统医疗信息系统效率792.6.4 大数据在区域化医疗卫生管理分析应用812.6.5 基于互联网大数据的疾病指数预测应用842.6.6 健康医疗大数据发展趋势872.7 政府大数据882.7.1 政府大数据应用现状882.7.2 政府大数据入口整合902.7.3 政府大数据惠民服务932.7.4 政府大数据社会治理952.7.5 政府大数据宏观经济管理972.7.6 政府大数据发展趋势1002.8 农业大数据1012.8.1 农业大数据应用现状1012.8.2 农业监控预警1032.8.3 农业精准种植1072.8.4 农业大数据发展趋势
5、1112.9 地理信息大数据1122.9.1 地理信息产业大数据应用现状1122.9.2 大数据在智慧环保中的应用1152.9.3 大数据在互联网地图中的应用1222.9.4 地理信息产业大数据应用的发展趋势1242.10 新媒体大数据1262.10.1 新媒体大数据应用现状1262.10.2 基于大数据的收视率测量1292.10.3 新媒体视频内容监管1322.10.4 大数据指导节目内容生产1342.10.5 新媒体大数据发展趋势136第三章 大数据技术进展1373.1 大数据技术图谱1383.1.1 数据的生命周期1383.1.2 技术栈1393.1.3 通用范例1413.2 大数据基础
6、设施1453.2.1 计算资源和计算能力1463.2.2 内存与存储1483.2.3 通信与互联1503.2.4 发展趋势1513.3 大数据存储与资源管理1533.3.1 分布式文件系统1533.3.2 分布式数据库1553.3.3 资源管理1593.4 大数据计算框架与范式1633.4.1 计算范式1633.4.2 流处理1643.4.3 图计算1703.4.4 Spark新动向1733.4.5 范式的融合1763.4.6 编程模型1783.5 大数据分析1823.5.1 大数据的统计查询1833.5.2 大数据的机器学习1873.5.3 大数据的降维压缩1903.5.4 算法的分布式并行
7、1923.5.5 实用性问题1993.5.6 机器学习的趋势2033.6 大数据可视化2063.6.1 实时可视化2073.6.2 不同数据类型的可视化2093.6.3 交互可视化2123.6.4 可视化的可用性2143.7 大数据安全2153.7.1 大数据系统的安全2153.7.2 数据自身安全2163.7.3 数据使用安全2183.7.4 审计和问责2193.7.5 数据定价220第四章 大数据IT产业链和生态环境2214.1 国内外大数据产业链现状2224.1.1 大数据产业链全景图2224.1.2 产业链上中下游2244.1.3 大数据产业链发展趋势2254.2 产业链和生态环境的瓶
8、颈和建议2314.2.1 大数据发展产业链和生态环境的瓶颈2314.2.2 大数据产业链和生态环境发展建议2344.3 大数据人才与教育2364.3.1 教育与科研机构2364.3.2 课程体系2424.4 国内外大数据政策与法规2434.4.1 国内外数据共享的政策与法规2434.4.2 国内外数据跨境的政策与法规2484.4.3 国内外隐私保护的政策与法规251第五章 大数据发展趋势与建议2585.1 大数据学科发展现状与趋势2585.1.1 大数据学科发展现状2585.1.2 大数据学科发展趋势2605.2 大数据热点问题与技术发展趋势2615.2.1 大数据热点问题2615.2.2 大
9、数据技术发展趋势2625.3 中国大数据发展战略与建议2655.3.1 大数据基础研究的发展战略与建议2655.3.2 大数据产业的发展战略与建议270附录274一、开源组织2741.1 Apache ASF(Apache软件基金会)2741.2 Linux Foundation(Linux基金会)2791.3 Free Software Foundation(开源软件基金会)2801.4 开源软件中心(中国开源软件推进联盟)281二、产业园与政策措施2822.1 我国各地大数据产业园区介绍与相关政策282三、参考文献286293前言近两年来,大数据浪潮以排山倒海之势席卷全球,既提供巨大的机遇
10、,也带来一系列的挑战。为了推动大数据科学技术和产业的良性发展,中国计算机学会于2012年6月成立了“大数据专家委员会”,其宗旨是探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。在中国计算机学会大数据专家委员会和中关村大数据产业联盟得精心组织下,花了大半年时间撰写这本书。中国计算机学会大数据专家委员会的110位专家来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域,本书的编写集中了来自20多家单位的各领域专家的知识和智慧,
11、在一定程度上反映了我国大数据学术界和产业界的共识。组织撰写中国大数据技术与产业发展报告的目的在于,为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。本书包括5章内容:第1章介绍大数据背景与动态,第2章阐述大数据典型应用领域的行业现状和发展趋势,第3章阐述大数据技术体系的发展现状,第4章讨论大数据IT产业链与生态环境,第5章分析了大数据发展趋势并提出相关建议。大数据成为热点以后,众说纷纭。推动者认为是“上帝给中国崛起准备的礼物”;泼冷水者认为是又一场“泡沫”。实际上所谓推动大数据主要是干
12、三件事:一件是提高“数据意识”,用已经掌握的技术大力推动数据产业,这方面主要是企业界要做的事。在企业看来,不管是大数据还是小数据,只要能给企业带来价值,就是好数据。对于数据意识薄弱的发展中国家,经过大数据浪潮的洗礼,提高对数据资源的掌控能力,无疑是一件好事。第二件事是解决现有计算机系统和软件不能对付急剧增长、种类繁多的数据(尤其是网络数据)这一挑战问题,研究各种采集、整理、存储、处理和呈现大数据的变革性技术。各国专家对大数据的定义大都是着眼于这一挑战,这主要是科技界(包括大企业的研发机构)要做的事。介于这两者之间的第三件事是,推广近几年开始应用的不同于传统事务处理、传统数据库和小样本建模分析技
13、术的大数据处理新方法,如深度学习、MapReduce、Hadoop软件和数据中心的分布式服务器集群等技术。这是从传统的数据处理转向大数据处理的过渡阶段。本书洋洋洒洒二十万字,其中份量最重的部分是第2章和第3章。第2章介绍大数据的典型应用,对应上述第一件事和第三件事。我国的大数据应用刚刚开始,有些应用的数据规模可能还不够大,采用的方法也许不够新,但新兴产业是“用”出来的,只有广泛应用才能发现技术差距和需要突破的技术壁垒。发现典型的大数据应用案例,宣传推广应用大数据技术的经验是本书的主要动机,今后我们会更加关注应用案例的分析介绍。第3章分析大数据技术体系的现状,对应于上述第二件事。专家委员中多数是
14、科研工作者,最熟悉的是本领域科学技术研究的进展,最擅长的是探讨技术发展趋势,分析科学研究和技术开发中面临的问题与挑战。本书的主要价值可能体现在对大数据技术的分析方面。为了反映专家们的群体倾向,专家委每年做一次大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势挑选出来。这部分内容反映在第5章5.2节“大数据热点问题与技术发展趋势”中,希望能对读者有所启迪。在其他几章,企业界和政府部门的专家也表达了一些真知灼见,如第4章提出的大数据产业链全景图、国内外大数据产业发展呈现的四个趋势、大数据产业发展的主要瓶颈等都有独到的观点。第4章也把大数据人才资源问题独
15、立出来专门分析,是因为这是一个十分重要而紧迫的大问题,需要各方面高度重视。由于时间和篇幅有限,本书只选择了部分发展较好的典型应用领域进行介绍,还有很多领域的大数据应用情况没有纳入本书。在后续工作中,大数据专家委会将继续不断完善和丰富本书的内容,对于特色行业或应用领域,会进行更为详细地调研,出版有针对性的面向行业应用单行本。本书是专家委第二次组织撰写,虽反复修改了十余次,但书中肯定还存在一些内容和文字的错误,撰写组织工作也有很多不当之处,希望产业界和学术界的专家学者与广大读者提出批评和建议,共同推动中国大数据技术与产业的发展。李国杰2014年12月1日致谢众多大数据专家委委员和中关村大数据产业联
16、盟单位参与了本书的撰写工作,其中,第1章大数据背景与动态主要由赵国栋、程学旗、杨东日等撰写,第2章大数据典型应用由陈新河、施水才、王维负责整理,其中互联网大数据由沈烁、田野、袁博等撰写;金融大数据由闻学臣、陈继东、林述民等撰写,电信大数据由何鸿凌、孙少陵、徐萌等撰写;电网大数据由邓春宇、张宇航等撰写;交通大数据由杨东日、刘姝祎、刘超等撰写;健康大数据由张彦春、徐红燕、熊锦华、马建刚等撰写;政府大数据由施水才、贺兆辉、晋家骧等撰写;农业大数据由姜春铃、谢润梅等撰写;地理信息大数据由张林、张平、李先怡、陈艳武等撰写;新媒体大数据由王永滨、赵子忠、冯爽等撰写。第3章大数据技术体系现状由吴甘沙,何利文
17、,杜小勇、袁晓如,尹绪森,钟翔,连城,周虎成,石勇,陈继东,王健宗,陆嘉恒,董兆安、张丹,徐红波,沈烁,田野,李航,白小勇,刘睿民等撰写,第4章大数据IT产业链与生态环境由杨东日、潘柱廷、金波、刘姝祎、胡然、周涛、黄道丽、何治乐等撰写;第5章大数据发展趋势与建议由李建中、靳小龙、石勇、潘柱廷、周涛、陈懿冰等撰写;附录由王维、查礼、刘伟等撰写。程学旗、靳小龙、王元卓、杨婧负责材料组织和统稿等工作。等大数据专家委委员积极参与了本书的撰写,不仅提供了素材,还参与了本书的修改工作。由于本书经过了多次修改,对参与专家的统计可能还有遗漏,在此表示歉意。对所有参与本书编写的专家表示感谢。致谢中的各章节负责人
18、和撰稿人员名单还在统计和梳理当中,请各章节负责人发给我明确对本书有贡献的撰稿人名单,以供参考和修改!谢谢!第一章 大数据背景与动态1.1 大数据的宏观价值与背景从大历史观来看,“大数据”的内涵远远超越物联网、云计算等信息技术的概念,它的意义可以比肩“活字印刷术”的发明,大范围的消除信息不对称的现象,释放巨大的生产力,深刻改变社会的面貌,提升国家治理,革新科学研究的思想,促进产业间的跨界、融合和颠覆,并将极大的促进文明的传播、凝聚、和升华。数据自古存在。乌龟壳、树皮、绸缎都曾经是记录数据的媒介,现在都已经退出了舞台;留声机、磁带机也曾经风靡一时,也已难觅踪影;现在当红的信息技术,像个人电脑、智能
19、手机、IPad在不远的将来也将被陈列在博物馆。唯有数据,虽然不断的变换表现形态,将一直伴随人类走向未来。物联网本质上是器物层面的技术,从大数据的视角而言,是采集数据的终端。云计算本质上是IT服务交付手段的变革,并由此引发一系列技术基础架构的更新。物联网和云计算都是信息技术发展的一定阶段的自然延伸,依然属于信息技术范畴。而大数据可以看成是数据积累到一定规模后,引发的质变。大数据超越信息技术,使人们重新界定国家竞争的主战场,重新审视政府治理水平,重新认识科学研究的新范式,重新审视产业变迁的驱动因素,重新理解投资的决策依据,重新思考公司的战略和组织。综上所述,大数据将是保障国家安全、社会治理和推动经
20、济发展的恒久主题!1.1.1 国家保障数据安全,促进数据开放2012年3月份,奥巴马发布了美国版的大数据发展计划,通过这个计划,可以看出:国家层面大数据技术领域的竞争事关一国的安全和未来。国家数字主权体现为对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。大数据必须上升为国家意志,落实为国家战略。欧盟、日本、新加坡等国家已经开始纷纷行动。2013年,美国人斯诺登给世人揭开了“数据战争”的冰山一角,美国的“棱镜计划”事实上把所有国家、个人都可以玩弄于股掌之上。连其多年的盟友,德国总理默克尔的手机,都在NSA(美国国家安全局)的监控之下。面对默克尔的愤怒的质问,奥巴马只
21、能言辞闪烁的声称“现在没有监控,未来也保证不会监控您的手机!”人们把战略核潜艇称为“国之重器”,的确,神出鬼没的毁灭力量令人望之生畏。但是,如果导弹赖以导航的坐标数据被人为修改或者提前探知了呢?如果不具备保护这些核心数据的能力,恐怕就会应了那句老话,搬起石头砸自己的脚。参与棱镜计划的公司包括谷歌、雅虎、Facebook、微软、苹果、思科、Oracle、IBM等科技巨头。可以看到,大数据时代,IT产业强大与否已经直接决定一个大国是否成为强国的最为关键的因素。没有数据安全,就不会有国家安全,没有强大的IT产业,就不会成为一流国家,也就谈不上中国梦!保护国家层面的数据安全,恰恰是以数据开放为基础的。
22、开放是一种态度,更是一项能力。一些重大基础数据开放,可以构成社会的数据基础,按照大数据定律之一“数据之和的价值远远大于数据价值的和”来推断,来自不同领域的数据聚合在一起,开放给社会,将会产生类似核聚变一样的价值发现效应。现在,电子商务、社交网络、基础通信、国家各部委的数据,具备聚合的效应和产生核聚变价值的基础。国家统计局联合百度、阿里巴巴,已经做了一些探索性的尝试,这是非常好的开端。与此同时,“数据割据、拥数自重”的现象也是普遍存在的。譬如气象观测数据,这类数据对于研究大气变化、气候演变、农业指导等具备非常重要的科学意义。但目前来看,类似此类的数据应用范围还有很大提升空间。再如住建部的购房数据
23、,这类数据对于防止腐败、研究经济走势、人口迁移,甚至制定国家决策都具有至关重要的数据。这类数据如果开放给社会各界,一定程度上会繁荣多学科、跨领域交叉研究,就此有可能会推动中国在各个方面的进步。开放的数据是基础,促使信息产业繁荣,才能诞生真正的数据驱动的企业,企业反过来在数据领域的技术进步,才是确保国家数据安全的长治久安之策。很难想象,如果没有谷歌、微软、Facebook这样的公司,单凭美国政府一己之力,难以实施如此庞大的“棱镜”计划。所以制定国家大数据战略,需要重新思考传统的所谓的“国家机密”和国家安全的关系。应当把消除部门数据割据,建立公开、透明、共享的数据公共平台作为长期的战略目标。多年以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 数据 技术 产业 发展 白皮书
限制150内