地球大数据白皮书(2023年)-2023.9-72页 2023-10-12 9915 72.pdf
-
资源ID:96293326
资源大小:2.18MB
全文页数:73页
- 资源格式: PDF
下载积分:9.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
地球大数据白皮书(2023年)-2023.9-72页 2023-10-12 9915 72.pdf
地球大数据地球大数据白皮书白皮书(20232023 年)年)CCSACCSA T TC601C601 大数据大数据技术技术标准推进标准推进委员会委员会 地球大数据工作组地球大数据工作组北京英视睿达科技股份有限公司北京英视睿达科技股份有限公司2022023 3年年9 9月月免费获取报告扫一扫二维码 关注公号 回复:“研究报告”加入“起点财经”微信群每日微信群内分享7+最新重磅报告;每日分享当日华尔街日报、金融时报;行研报告均为公开版,权利归原作者所有,起点财经仅分发做内部学习。前前言言2022 年 12 月,中共中央、国务院印发了关于构建数据基础制度 更好发挥数据要素作用的意见,其中明确了数据作为新时代生产要素的重要价值。地球大数据包括来自地球大气圈、水圈、土壤圈、生物圈以及人类活动的多源时空数据,是数据要素产业的重要组成部分。对地球大数据的开发利用将为人类同自然环境的交互过程提供决策支持,促进可持续发展,最终实现人与自然和谐共生的现代化。地球大数据的应用领域范围广阔,包括生态保护、自然资源管理、气象服务、城市规划、应急容灾等方面,但目前仍处于发展初期,面临着数据来源、结构多样,数据管理门槛高,数据应用场景复杂、落地方法论较少等痛点。如何充分发挥地球大数据的优势和特点,促进其社会价值、经济价值的高效释放成为产业界亟需解决的问题。本白皮书将梳理地球大数据的内容范畴、数据资源、关键技术、行业生态、应用场景以及实践案例等,并初步提出地球大数据实践方法,旨在厘清地球大数据的行业发展现状,并为产业各方开展地球大数据开发利用的相关实践提供参考。编制说明编制说明指导单位:指导单位:生态环境部卫星环境应用中心、生态环境部环境规划院、中国信息通信研究院编委会名单:编委会名单:水利部水土保持监测中心:赵永军、罗志东、张红丽、时宇大数据技术标准推进委员会:王超伦、马健瑞、韩晓璐、魏凯、姜春宇、马鹏玮北京英视睿达科技股份有限公司:田启明、沈诗润、廖炳瑜、王伟、邹克旭、徐炜达、王鼎元、徐彬仁、李怀瑞、杨昱锟、常鹏慧、亓俊涛、朱珊娴、王雪瑞、郭东宸易智瑞信息技术有限公司:刘洋、他浩飞、陈斌、马静丽、康来成、高淑鸿、曾智阿里云计算有限公司:张辉、曾志明、陈呈举、陈辉、胡伯涛、贾雨宾、李坤、佟天泽、郭伟、郭伟杭州数梦工场科技有限公司:念灿华、高智世、苑涵征、孔令君、魏淼中数(深圳)时代科技有限公司:吴英东、王海涛、马超、沈思泽、韩光广东元能星泰孪生科技创新有限公司:凌晖、伍亮、岑权军、王晓枫、林子扬特力惠信息科技股份有限公司:周红霞北京捷泰天域信息技术有限公司:汪维莉支持单位:支持单位:中关村睿宸卫星创新应用研究院、北京航空航天大学、北京邮电大学、北京交通大学、北京工商大学目目录录一、地球大数据总述.1(一)地球大数据的定义.1(二)地球大数据的价值.2(三)地球大数据价值释放的要点.4二、地球大数据的数据资源.6(一)地球大数据的数据来源.7(二)地球大数据的几何与时空属性.11三、地球大数据的关键技术.13(一)数据采集.13(二)数据管理.16(三)数据分析.20(四)人工智能.21(五)数据安全.23四、地球大数据的行业生态与行业应用.26(一)地球大数据产业图谱.26(二)地球大数据行业应用.27五、总结与未来展望.38(一)总结.38(二)地球大数据的发展趋势展望.38图图 目目 录录图 1地球大数据实践体系视图.5图 2 地球大数据描述的五大圈层.7图 3AIoT 技术助力空气质量监测案例.15图 4多源数据融合示意图.17图 5网格层次索引结构示意图.19图 6EFDC 水动力模拟仿真示意图.23图 7地球大数据产业图谱 1.0.27图 8AIoT 技术助力水环境监测案例.28图 9某地基于卫星遥感的甲烷监测结果.30图 10移动源远程在线监测.33图 11农作物长势监测.35图 12土壤墒情监测.35表表 目目 录录表 1 常用的公开数据的遥感卫星清单.8表 2 常用的气象数据及其相关链接.9地球大数据白皮书(2023 年)1一、一、地球大数据总述地球大数据总述(一一)地球大数据的定义地球大数据的定义地球大数据主要指来自地球大气圈、水圈、土壤圈、生物圈以及人类活动的数据。这些数据通常具备不同的来源,但都具备时空属性,包括卫星遥感数据、气象数据、人类活动统计数据、地理信息数据数据等。地球大数据是数据要素产业的重要组成部分,对地球大数据进行收集、整合和分析能帮助人们对生态环境系统、人类社会和自然资源进行更深入的洞察和理解,为人类活动的开展提供决策支持,从而最终实现人与自然和谐共生的现代化。地球大数据具备传统“大数据”的 4V 特征,即:数量(Volume)大:地球大数据具有海量数据的特征,其来源于卫星影像、地理信息、物联网等渠道的数据在空间和时间维度上都具有较大的跨度,量级可达 PB 级。种类(Variety)多:地球大数据的数据类型可以是包括文本、图像、音视频、地理位置信息等多种形式,具有种类繁多、结构复杂的特征。速度(Velocity)快:地球大数据每天可产生大量的新数据,在生产生活中,为了实时应用新数据辅助决策,其传输、存取、分析对实时性具备较高的要求。价值(Value)高:对地球大数据的开发利用可以获取具有高价值的环境信息,为人与环境的交互提供决策支持。除此以外,相较于其它类别的“大数据”,地球大数据还具备地球大数据白皮书(2023 年)2如下特征:时空性:地球大数据与时间和空间密切相关,具有很强的时空关联性和物理关联性。多源性:地球大数据的来源多样,涉及遥感影像数据、地面监测站点数据、气象数据据、社会统计数据等,通常来源于不同的机构。普惠性:相较于其它类型的数据要素,地球大数据的应用领域更加具备普惠性,如助力研究地球的演化过程,分析气候的变化趋势,预测潜在的气象灾害,合理地管理自然资源,从而支撑人与自然关系的可持续发展。(二二)地球大数据的价值地球大数据的价值地球大数据是大数据产业的重要组成部分。地球大数据以对地观测和地理空间数据为主体,是地球环境相关现象的记录。对地球大数据的分析和应用有助于揭示地球的自然环境、资源分布、气候变化、人类活动等方面的规律,并为生态环保、自然资源、应急管理、城市治理等领域提供决策支持。我国在政策层面对地球大数据的应用实践高度关注。早在 2016年 3 月,我国环保部即发布了生态环境大数据建设总体方案,为生态环境大数据建设提供了强有力的政策支持,这也意味着地球大数据在我国的正式起步。自党的十八大以来,习近平总书记非常重视生态文明建设,明确提出“绿水青山就是金山银山”的重要论地球大数据白皮书(2023 年)3断,并强调共谋大数据支撑可持续发展之计,加强国际合作,体现了大数据在支撑可持续发展中所扮演的重要作用。在中共中央、国务院发布的 关于构建数据基础制度 更好发挥数据要素作用的意见中,也将节能降碳、绿色建造、新能源等可持续发展相关场景列入数据要素赋能的重点领域。2023 年,中共中央、国务院印发 数字中国建设整体布局规划,其中明确将“建设绿色智慧的数字生态文明”作为数字技术全面赋能经济社会发展的重点,并强调了“推动生态环境智慧治理,加快构建智慧高效的生态环境信息化体系,运用数字技术推动山水林田湖草沙一体化保护和系统治理,完善自然资源三维立体“一张图”和国土空间基础信息平台,构建以数字孪生流域为核心的智慧水利体系”等具体工作方向。地球大数据的价值主要体现在社会和经济两个方面:社会价值方面:一是地球大数据提供全球范围内的环境监测和资源管理信息,帮助监测和评估环境变化,预测和应对环境问题,支撑环境保护和可持续发展;二是通过地球大数据的分析和预测,可以提前预警自然灾害,支持应急响应和减灾;三是地球大数据可以揭示气候模式、趋势和影响因素,帮助制定应对气候变化的政策和行动;四是地球大数据可以提供城市发展和规划所需的大量地理空间信息,支持城市基础设施建设、交通规划、土地利用规划等方面的决策,促进城市规划和智慧城市建设;五是地球大数据可以提供关于土地利用、森林覆盖、水资源、能源等自然资源的信息,支持资源的科学管理和可持续利用,促进资源的合理分配和保护;六地球大数据白皮书(2023 年)4是对地球大数据的研究应用,能帮助科学家进一步理解地球的结构和运行机制,鼓励公众参与到对地球的环保工作中,有助于科学研究和教育宣传工作的开展。经济价值方面:一是地球大数据可以为农业生产提供土壤水分监测、作物生长预测、病虫害预警等方面的决策支持,提高农作物产量和质量,降低生产成本,促进农业生产和精准农业;二是地球大数据可以提供交通流量监测、交通拥堵预测、优化交通路线等,可以提高城市交通效率,降低能源消耗和交通成本,促进城市交通管理和经济发展;三是地球大数据可以为能源资源勘探开发和管理提供支持,提高能源产量和效率,减少能源浪费和环境影响,推动清洁能源的发展和可持续能源的利用,促进能源开发和管理;四是地球大数据可以为旅游业和文化产业提供包括景点选择、游客行为、文化活动等方面的数据支持,帮助制定旅游线路和推广策略,提升旅游体验和文化产业的发展。(三三)地球大数据价值释放的要点地球大数据价值释放的要点地球大数据的价值释放包括数据资源、关键技术、行业应用这三个要点。其中,数据资源是指通过卫星遥感、地理信息、物联网等系统获取的数据本身及其加工品。关键技术是指在数据获取、数据管理、数据分析、数据安全等方面相关技术。行业应用是指地球大数据在多个不同领域多种应用场景下的落地方式。下面本节将简要概括这几个要点的内容,具体的内容则会在后续的章节进行详细阐述。地球大数据白皮书(2023 年)5图 1 地球大数据实践体系视图数据资源:地球大数据的数据资源包含了地球大气圈、水圈、土壤圈、生物圈、人类圈等多个圈层的基本信息,以及人类活动与之相关的相互影响关系,可用“天、空、人、地”四个方向概括:“天”是指来自于航天设施的观测数据,比如卫星遥感影像;“空”是指地球近地面的数据,比如气象数据、空气质量数据等;“人”是指人与自然相互作用产生的数据,包括如农活动相关数据、工业活动相关数据等;“地”是指通过物联网采集的地面数据或来自于地理信息系统的数据。对地球大数据的数据资源的分类,也可以按照其几何特征(即点、线、面、体等)和时空属性(时空静态、空间静止时间动态、时空动态等)进一步总结。在白皮书第二章,我们将进一步介绍地球大数据的数据资源情况。地球大数据白皮书(2023 年)6关键技术:地球大数据的应用流程包括了数据采集、数据管理、数据分析、人工智能、数据安全等方面,每一个部分都在传统大数据领域的关键技术体系基础上,纳入了地球大数据领域独特的数据处理技术。在数据采集方面,主要涉及卫星遥感、AIoT 等方面的技术;在数据管理方面,主要包括多源数据融合、地理信息管理、时空数据库等技术;在数据分析和人工智能方面,主要包括基于时空数据的统计分析、可视化、模拟仿真、逻辑推理、机器学习等技术;此外在数据安全方面,还需涉及可信计算技术以及区块链技术等。在白皮书的第三章,我们将具体介绍地球大数据应用流程中的关键技术。行业应用:地球大数据可用于多个对一定区域范围内的自然环境进行分析的行业领域,如生态环保、双碳战略、自然资源、智慧应急、城市更新、农林牧渔、气象服务、孪生流域等。在白皮书的第四章,我们将介绍地球大数据的相关行业及其应用。二、二、地球大数据的数据资源地球大数据的数据资源地球大数据主要描述了地球大气圈、水圈、生物圈、土壤圈、人类圈这五个圈层,以及各圈层的相互作用,在数据类型和属性方面有着一定的特殊性,开展地球大数据分析应用实践之前需充分了解。地球大数据按照其数据来源,可以分成“天、空、人、地”四个部分。地球大数据可以根据自身的时空特征包括其几何属性和时空属性进一步抽象化概括。几何属性中,地球大数据可以分成“点、线、面、体”等多种几何形态。在时空属性中,地球大数据可以分地球大数据白皮书(2023 年)7成“时空静态,空间静止时间动态,时空动态”三种形式。图 2 地球大数据描述的五大圈层(一一)地球大数据的数据来源地球大数据的数据来源1.天来自于“天”的数据指的是从太空中观测地球产生的数据,主要来源于卫星遥感。卫星遥感是指基于人造卫星的一种非接触性、大范围探测电磁波特性,并通过记录分析、揭示出探测物体的特征及其变化的空间探测技术。自 1957 年前苏联发射第一颗人造地球卫星以来,卫星事业进入了繁荣发展的阶段。利用人造地球卫星搭载的对地观测仪器,人们可以获取与地球系统息息相关的各方面的数据。按照观测对象的不同,卫星还可以分为陆地观测卫星、海洋观测卫星、大气观测卫星等。卫星遥感可以收集到光谱数据,空间数据以及随着时间变化的地球表面观测数据。在表 1 中,我们列举了当前在轨的典型卫星。这些卫星可以获取地球表面的图像、数据和其他信息,用于环地球大数据白皮书(2023 年)8境监测、资源管理、灾害响应、城市规划、农林业、气象等领域。表 1 常用的公开数据的遥感卫星清单分类卫星国家/地区分类卫星国家/地区陆地观测Worldview2美国海洋监测Sentinel-3A欧洲Worldview3美国Sentinel-3B欧洲Quickbird美国GOCI韩国Landsat-5美国大气观测Aura美国Landsat-7美国Sentinel-5P欧洲Landsat-8美国GOME欧洲Landsat-9美国OCO-2美国NPP/SUOMI美国OCO-3美国Terra美国GOSAT日本Aqua美国风云三号 D中国SPOT法国高分五号中国Sentinel-2A欧洲Cloudsat美国Sentinel-2B欧洲Calipso美国/法国高分一号中国Polder法国高分二号中国Parasol法国高分三号中国Himawari-8日本高分六号中国风云三号 B中国资源一号 A中国风云三号 C中国环境一号中国风云四号 A中国吉林一号中国风云四号 B中国来源:整理自网络2.空来自于“空”的数据主要是指和大气圈相关的数据,包括气象数据和空气质量数据。气象数据是描述和记录天气和大气状态的数据,包括温度、湿地球大数据白皮书(2023 年)9度、气压、降水量、风速、风向、云量、可见光等变量。这些气象数据通过气象观测系统、气象卫星、雷达等各种气象设备进行收集和处理,它们对于气象学的研究、天气预报、气候变化分析、农业、航空等领域具有重要的应用价值。常用的气象数据可从多个渠道进行获取,包括中国气象局公开发布的基本气象数据,美国国家环境预报中心的全球数据同化系统 GDAS 数据和全球预测系统 GFS 数据,以及欧洲中期天气预报中心的 ERA5 再分析数据。表 2 常用的气象数据及其相关链接数据来源相关链接气象数据中国气象局https:/ PM2.5 和 PM10、臭氧、二氧化氮、二氧化硫、一氧化碳、挥发性有机物 VOCs 等。这些空气污染物数据通常通过空气质量监测站点、移动监测设备和卫星等途径进行收集和记录。3.人来自于“人”的数据主要反映了人类与自然环境之间的相互作用情况,它们为了解人与自然之间的相互作用、可持续发展的实现以及环境保护与资源管理提供了重要的基础。主要包括几个方面的数据:地球大数据白皮书(2023 年)10工业活动数据:如化工污染物排放数据、工业废水排放数据、工业能源消耗数据等。农业活动数据:如农作物种植面积、化肥和农药的使用数据、灌溉用水数据、畜牧业排放数据、由于农业活动导致的土地退化和侵蚀程度等。城市化建设活动数据:如城市扩张、人口迁移、城市人口规模和人口密度、土地利用变化、交通流量、建筑能源消耗等数据。能源消费和管理数据:如能源类型及其消费量数据、可再生能源数据、电力需求和供应数据等。消费行为和生活方式数据:如废弃物生成和处理、个人出行方式、食品消费等。4.地来自于“地”的数据主要包括地面的物联网设备采集的数据和地理信息数据。地面物联网设备(IoT)通过传感器采集各种类型的地表环境数据,包括:环境监测数据:如空气质量、水质、土壤质量、噪声水平、辐射水平等。气候气象数据:气象站点配备了各种物联网传感器,可收集温度、湿度、风速、风向、气压、降雨量、海洋温度、海洋盐度等。农业和林业数据:物联网可以通过土壤湿度传感器、植被生长传感器、病虫害监测设备等收集农作物的生长情况、土壤状况、病地球大数据白皮书(2023 年)11虫害情况等数据;可以监测森林火情、病虫害等情况。能源数据:通过智能电网、智能家居等方式,利用电表、水表、燃气表等设备收集能源使用量的数据,通过太阳能板、风力发电机等设备收集可再生能源的产量数据。交通和物流数据:通过定位系统设备、道路监控设备、交通信号灯等收集车辆位置、交通流量等数据;通过物流追踪设备收集货物位置、状态、温度、湿度等数据。城市管理数据:物联网技术可以用于城市管理,如公共空间中的安全摄像头可以监测公共安全,停车场的传感器可以监测停车状况等。地理信息数据是描述地球表面和其特征的数据,包括:地图数据:包括地形图、街道地图、航海图等数据。地理坐标数据:包括经度和纬度坐标、高程数据等。地貌地形数据:包括山脉、河流、湖泊、沙漠、森林等自然地理特征的位置和特性。土地利用和土地覆盖数据:包括农田、城市、工业区、公园、湿地等土地使用情况。建筑和基础设施数据:包括建筑物的位置、高度、用途等;道路、铁路、桥梁、管道、电力线路等基础设施的位置和状况。(二二)地球大数据的几何与时空属性地球大数据的几何与时空属性为对地球大数据进一步分类以简化其建模程序和资源消耗,地球大数据的分类可以按照其空间和时间属性进一步抽象为几个不同地球大数据白皮书(2023 年)12类别。在空间属性上,按照数据要素的几何维度,我们可以将其考虑为 0-3 维的数学抽象,即点(0 维)、线(1 维)、面(2 维)、体(3 维)。在时间属性上,我们可以综合其时空属性进行划分,分为时空静止、空间静止时间动态、时空动态这三种类别。1.几何类型地球大数据的种类繁多,对地球大数据的分类可以根据其几何属性进行。下面列举地球大数据的几何类型及其相应的数据示例:点数据:即地球表面的离散的点位置数据,可以通过经纬度或其他坐标系统表示。这类数据有城市地标数据,监测站点数据等。线数据:即地球表面上的一条连接两个点或多个点的路径。这类数据可以是道路数据、管道数据、轨迹数据等。面数据:地球表面上的封闭区域。面数据用于表示陆地边界、行政区划、湖泊、建筑物轮廓等地理要素的形状和边界。在面数据中,一类特殊的类型为栅格数据,其由一系列像素组成的网格数据,每个像素代表地球表面的一个小区域。常见的栅格数据由遥感影像、地形模型数据等。体数据:是地球表面上方的具有三维实际意义的数据,包括气象场数据、建筑物数据等。2.时空类型对于地球大数据的时空属性,下面列举三种类型及其相应的数据示例:时空静止数据:指在时间和空间上保持静止或不变的数据,通地球大数据白皮书(2023 年)13常用于描述地理实体、属性和现象在特定时间点的状态,如地理位置数据、地形数据、地物分类数据等。空间静止时间动态数据:指在空间上保持静止,但随着时间变化而变化的数据。它可以用来描述地理实体在不同时间点或时间段内的状态变化。这个类型的数据包括:时序地理位置数据、环境监测站点的时序数据、时序遥感影像数据等。时空动态数据:指地理要素在时间和空间上都发生变化的数据。它用来描述地理实体随着时间推移在不同空间位置上的演变和变化。这类数据包括:移动设备轨迹数据、交通流数据、人口迁移数据等。对于不同的几何属性和时空属性的数据,可以结合起来进一步归结为 12 种具有不同几何时空属性的数据。这些抽象的数据类型,为地球大数据的数据建模提供了范式。三、三、地球大数据的关键技术地球大数据的关键技术地球大数据的应用流程包括:数据采集、数据管理、数据分析(人工智能与数据挖掘)、数据安全等步骤。各步骤在通用大数据处理技术基础上,纳入了本领域独特的数据处理技术。在本章节,我们将对重要技术进行梳理。(一一)数据采集数据采集数据采集是指通过各种方法和技术收集、记录和获取数据的过程。其涉及到从不同来源和渠道收集数据,为建立数据集、数据库或信息库,以及后续的数据处理、分析和应用奠定基础。在地球大数据的采集过程中,卫星遥感数据采集和 AIoT 数据采集是主要的两地球大数据白皮书(2023 年)14个关键技术。1.遥感数据采集卫星遥感是一种利用卫星或者其他航天器搭载的遥感器获取地球表面信息的技术。它通过远距离感知和获取电磁波辐射,从而获取地球表面的图像和信息,以非接触式的方式提供对地表特征、环境、资源和人类活动的观测。遥感器是远距离感知地物环境肤色或反射电磁波的仪器,常见的遥感器有可见光摄像机、红外摄像机、紫外摄像机、红外扫描仪、多光谱扫描仪,微波辐射和散射计、成像光谱仪等。卫星遥感获取的信息进一步通过校正、变换、分解、组合等光学处理或图像数字处理过程,提供给用户分析、判读,或制成专题地图或统计图表,为资源勘察、环境监测、国土测绘等提供信息服务。2.AIoT 数据采集物联网(IoT)是通过互联网连接和交互的各种物理设备、传感器、对象和系统的网络。物联网技术使得不仅仅是计算机和人类可以通过互联网进行通信和交互,而且物体之间也可以相互连接和通信。在物联网中,物理设备和对象通过嵌入式传感器、标识符和网络连接等技术,能够实时收集和交换数据,通过云计算和网络基础设施进行存储、处理和分析。这样的互联互通使得物联网系统具备感知环境、获取信息、自动控制和实现远程监测的能力。物联网相关的信息传输技术包括 Wi-Fi、蓝牙、Zigbee、LoRaWan 等无线通信技术和协议。地球大数据白皮书(2023 年)15在物联网基础上,人工智能物联网(AIoT)将物联网设备与人工智能技术相结合,实现智能感知、智能决策和智能交互、以更智能化、自动化的方式处理和应用物联网数据。AIoT 的核心思想是利用人工智能技术对物联网设备收集的大量数据进行处理和分析,以提取有价值的信息和洞察,并通过智能决策和控制使物联网系统更加智能和高效。在 AIoT 中,物联网设备通过传感器、节点和连接设备等采集各种类型的数据。这些数据被传输到云平台或边缘计算设备,通过人工智能技术进行分析、学习和推理。AIoT 在多个领域有广泛的应用,如智慧城市、工业自动化、智能交通、智慧农业、健康医疗等。它能够提升物联网系统的智能化水平,改善生活和工作效率,并带来更多的商业机会和创新。图 3 AIoT 技术助力空气质量监测案例地球大数据白皮书(2023 年)16(二二)数据管理数据管理1.多源数据融合多源数据融合是指将来自不同数据源和多个数据类型的地球观测数据进行整合和融合,以生成更全面、准确和有价值的信息和知识。这种融合可以在空间、时间和属性维度上进行。在地球大数据中,不同的传感器、设备和技术收集到的数据具有多样性,包括遥感影像、气象观测数据、传感器网络数据、社交媒体数据等。这些数据可能具有不同的空间分辨率、时间分辨率、观测范围和属性特征。多源数据融合的目的是通过将这些数据整合起来,消除数据间的差异性和不一致性,增加数据的覆盖范围和精度,提高数据的可信度和可用性。多源数据融合主要可以实现以下目标:数据补充和增强:通过融合多源数据,可以填补数据的空缺、提高数据的空间分辨率和时间分辨率,增强数据的信息内容和质量。信息提取和知识发现:多源数据融合可以融合不同数据源中的信息,从中提取有用的特征、模式和关联。通过数据融合,可以发现隐藏在数据中的关联和趋势,提供更全面的地球观测信息和洞察。数据一致性和准确性:不同数据源可能存在数据间的不一致性,如不同的坐标系统、观测误差等。多源数据融合通过校正、配准和一致化处理,可以提高数据的准确性和一致性。业务应用和决策支持:多源数据融合可以为不同领域的业务应用提供更全面和综合的数据支持,如环境监测、资源管理、灾害响应、城市规划等。融合后的数据可以为决策制定者提供更准确和全地球大数据白皮书(2023 年)17面的信息,支持决策的制定和优化。在实际应用中,多源数据融合技术是地球大数据在各个应用场景中的关键一环。这体现在多个方面:其一,多源数据融合技术(如变分同化、卡尔曼滤波等方法)提升了获取数据的准确性,为后续利用数据进行分析以及人工智能应用提供了更有价值的信息;其二,多源数据融合技术可以全局展示全方位的信息,为实际应用中更科学合理的决策提供必要的保障。下图展示的是一个多源数据融合的例子。图 4 多源数据融合示意图2.地理信息管理地理信息系统(GIS)是一种用于收集、存储、管理、分析和展示地理空间数据和与之相关的属性数据的技术系统。它包含了地理学、地图学、数据库技术和计算机科学等技术,用于处理和分析与地理位置有关的信息。地理信息系统广泛应用于地球大数据的多个领域,如城市规划、环境管理、农业、林业、水土保持、地质勘探、地球大数据白皮书(2023 年)18交通规划、电力网络管理、地理教育等。它提供了对地理空间数据进行存储、分析和可视化的能力,为理解和解决与地理位置相关的问题和挑战提供了重要的工具和方法。在地球大数据的实际应用中,人们广泛地使用 GIS 作为数据可视化的基座,为生态环境一张图,智能决策驾驶舱等相关场景应用提供了技术支持。3.数据存储:时空数据库时空数据库是一种用来有效存储和处理与时间和空间位置相关数据的数据库。时空数据库与传统数据库的本质区别在于其采用特殊的索引和查询技术来管理大规模的时空数据。时空数据库关键要点是建立数据的快速索引引擎,这可以利用层次存储结构结合时空索引来实现。层次存储结构是指将空间划分为多个网格,每个网格可以再进一步细分成多个子网格,以此类推将研究区域用多层级网格形式表示。常用的网格有正四边形网格、六边形网格、三角形网格等。正四边形网格是将地球的墨卡托投影平面划分成多个正四边形,每个四边形里再进一步划分成四个正四边形,采用这样的层级划分方式得到对不同区域的空间存储方式,常用的时空数据库 GeoHash 即采用这种正四边形的层次存储方式。类似的,六边形、三角形网格也是将地球表面划分成多个层级的六边形、三角形。常用的层次存储方式有 GeoHash,Google S2,Uber H3 等。构建时空数据的快速索引引擎的另一个关键是创建时空索引。地球大数据白皮书(2023 年)19常用的时空索引方式有 R 树、四叉树、空间填充曲线(space fillingcurves)等。其中空间填充曲线是一种用来建立有效索引的重要工具,其关键在于能够建立多维空间和一维数据的映射,同时保留数据的邻近性,即,我们可以通过空间填充曲线将地理坐标(经纬度)映射到一维的索引值,并用这个一维的索引值唯一确定该地理坐标,从而将对该地理位置的经度和纬度查询转换为对该一维索引值的查询。常用的空间填充曲线有希尔伯特曲线(Hilbert curves)和Z-order 曲线。在地球大数据应用领域,时空数据库是必不可少的一个关键技术。它作为地球大数据多场景应用的基础设施,为实际应用中快速查询定位业务所需的时空数据提供了技术保障。图 5 网格层次索引结构示意图地球大数据白皮书(2023 年)20(三三)数据分析数据分析数据分析相关技术可以帮助人们理解和解释复杂的地球大数据,是地球大数据应用过程中的重要一环。围绕地球大数据的分析技术可以进一步细分为通用统计分析、地理信息分析、可视化交互、模拟仿真四个部分。1.通用统计分析统计方法是分析地球大数据的重要工具。它可以用来总结和描述地球大数据的主要特征,检验地球数据相关的假设,研究数据的时空分布等。地球大数据中常用的统计方法有:描述性统计分析、时间序列分析、空间统计模型等。描述性统计分析可以用来刻画地球大数据的统计量,便于直观了解数据本身的基础信息;时间序列分析则侧重于利用数据时间维度上的相关性来进行分析,比如自回归模型 AR(p)、移动平均模型 MA(q)等;空间统计模型则可以用来刻画空间维度上数据的相关性,常用的有克里金(Kriging)方法、空间自回归(Spatial Auto-Regressive)模型、地理权重回归(Geographical Weighted Regression)等。2.可视化交互可视化交互技术能对地球大数据和其分析结果进行值观的展示。通常涉及 3D 可视化技术,如 Google Earth Engine 的三维展示,Cesium 三维可视化开发工具等,以及虚拟现实(VR)和元宇宙(Metaverse)等技术。地球大数据白皮书(2023 年)21可视化交互是地球大数据应用场景中的一项关键技术。其可以将对地球大数据的分析结果以丰富多彩的图像/影像等方式展示,并提供数据交互渠道,使得人们可以更为直观且便捷地了解地球大数据的分析结果。(四四)人工智能人工智能人工智能(AI)在地球大数据领域扮演了重要角色。人工智能技术能够从复杂多源异构的具有时空属性的地球大数据中发现有价值的模式和信息,为各种应用和决策提供支持。传统的人工智能在地球大数据背景下,继续发展成为具有时空智能的人工智能技术。下面几个小节,我们将介绍地球大数据中的人工智能技术。1.基于知识的逻辑推理基于知识的逻辑推理(Knowledge-based Logical Reasoning)可以帮助我们处理地球大数据中的海量数据,并将其转换成知识体系。其主要有几个步骤:1)知识表示:需要把现有的知识转换成计算机可以理解的形式,可以通过逻辑公式、图形模型、语义网络等形式;2)推理算法:利用逻辑推理算法来处理这些现有的知识,并将其转换成结果;3)解释与验证:对推理的结果进行解释和验证,以确保其正确性和可靠性。通过上述三个步骤的持续迭代,从而从海量数据中推演出有价值的信息,并扩充我们的知识体系。常用的基于知识的逻辑推理方法有知识图谱、演绎推理、神经符号学习、因果推理、逻辑神经网络、知识蒸馏等。地球大数据白皮书(2023 年)222.机器学习在地球大数据领域,机器学习方法可以用来处理时空数据、并利用时空相关性进行预测或决策。具有时空智能的机器学习方法有时空点过程模型(ST-point process)、随机森林(random forest)、支持向量机(SVM)、K-means 聚类、深度学习中的卷积神经网络(CNN)、时空卷积神经网络(ST-CNN)等。机器学习(包括深度学习)等技术为人们更好地利用地球大数据提供了新的发展机会。比如,在生态环保领域,人们可以对卫星遥感数据应用机器学习算法(如随机森林、支持向量机等),以实现地物识别,准确掌握潜在污染源的地理分布。近年来,基于深度学习框架实现的基础大模型也在地球大数据领域具有广阔的应用前景,比如盘古气象大模型,为台风路径预测、海浪预测等方面提供了更准确的预测结果。3.模拟仿真对地球大数据的开发利用过程中,常用机理模型来模拟地球系统的运行机制,从而进行预测性分析。机理模型是基于科学原理和物理规律构建的数学模型,它通过建立各种物理、化学、生态等方面的方程和参数,模拟地球系统的行为,从而揭示地球系统中的关联性、动态变化和未来趋势。常用的机理模型有:1)气候模型,用于模拟气候系统,如 WRF,WRF-Chem,CMAQ,CAMx 等;2)水文模型,用于描述水在陆地表面的运动和分布的模型,包括降雨、蒸发、径流和地下水流等过程,如 MIKE 21,MIKE SHE,Delft3D 等;3)生地球大数据白皮书(2023 年)23态系统模型,用于描述生态系统的结构和功能的模型,如 Biome-BGC,BioMod2 等。这些机理模型帮助我们对地球系统有更深入的了解。模拟仿真是地球大数据应用的重要技术。对现有数据的建模分析,可以帮助人们更深刻地了解地球各个部分的演变,包括对过去历史发展规律的追溯和总结,以及对未来可能的发展趋势和结果的预测。这在各个应用场景中都是关键的一环。图 6 EFDC 水动力模拟仿真示意图(五五)数据安全数据安全数据安全是地球大数据关键技术的重要组件。在收集、存储、处理和传输地球大数据时需采取各种措施和方法,以确保数据的机密性、完整性和可用性,防止未经授权的访问、篡改、泄露和破坏。各个国家和地区对数据安全都有相应的立法,比如 2021 年 6 月 10地球大数据白皮书(2023 年)24日全国人大常委会通过了中华人民共和国数据安全法,对数据安全的重视提升到了国家战略层面;欧盟也在 2016 年发布了General Data Protection Regulation,即通用数据保护条例,对涉及到的数据隐私等相关内容做了阐述。下面我们主要介绍区块链和可信计算这两种用于保障数据安全的技术。1.可信计算可信计算(Trusted Computation)是一种为计算过程和数据提供安全保护的计算机技术,旨在确保计算过程和计算结果的可信性和安全性,其在云计算与物联网等方面具有重要应用。可信计算的一个关键技术是可信执行环境(Trusted ExecutionEnvironment,TEE)。它提供了一种安全的执行环境,保护计算机中的代码和数据免受恶意攻击和未经授权的访问。TEE 由硬件(例如Intel SGX,ARM TrustZone)和软件(例如 Intel Software GuardExtensions)组成,采用隔离和加密技术确保在环境内运行的代码和数据不受外部威胁的影响。TEE 通过硬件隔离或虚拟化技术将其自身与操作系统和其他应用程序隔离开来。这种隔离防止了来自其他软件或系统的恶意攻击和干扰,确保 TEE 中的代码和数据安全可靠。TEE 使用加密技术来保护存储在其中的敏感数据。数据在进入 TEE之前进行加密,只有在 TEE 内进行解密后才能被使用。TEE 的启动过程也是一个重要环节,确保 TEE 在正常运行之前没有被篡改或受到恶意软件的影响,这通常涉及硬件或固件级别的校验和数字签名验证,确保 TEE 的完整性和真实性。此外,TEE 在运行时会监控自身的地球大数据白皮书(2023 年)25状态,以监测是否受到任何未经授权的修改或篡改。如果发现任何可以的更改,TEE 可能会拒绝继续执行,以保护其完整性。可信计算作为物联网技术的关键部分,在地球大数据应用场景中也有重要应用。它确保了所获取的地球大数据的真实性和有效性,为地球大数据的数据安全提供了技术保障。2.区块链区块链技术是一种去中心化的分布式账本(distributed ledger)技术,通过密码学、共识算法和网络协议等技术手段,实现了多方之间的信任和数据共享。区块链是由一系列按时间顺序链接的数据块组成的链式结构,每个数据块包含了一批交易记录。每个数据块都包含一个唯一的标识符(哈希值),该标识符由数据块的内容和前一个数据块的标识符计算得出。这种链接关系使得区块链中的数据具有连续性和不可篡改性。区块链使用了多种密码学算法来确保数据的安全性和隐私性。其中,哈希函数是常用的密码学工具,用于将数据转化为固定长度的哈希值。常见的哈希函数有 SHA-256 和SHA-3 等。非对称加密算法(如 RSA 和椭圆曲线加密)用于实现身份验证、数字签名和加密通信等功能。在区块链中,共识算法用于解决分布式网络中多个节点之间的数据一致性和信任问题。常见的共识算法有 PoW(Proof of Work)和 PoS(Proof of Stake)。区块链是建立在分布式网络上的,它由许多节点组成,每个节点都维护了完整的账本副本。节点之间通过点对点的通信协议进行数据传输和共识达成。分布式网络的特点是去中心化、鲁棒性强,没有单点地球大数据白皮书(2023 年)26故障。区块链根据权限和访问控制的不同,可以分为公有链、私有链和联盟链。公有链是开放的,任何人都可以参与其中,如比特币和以太坊;私有链是限制访问的,只有特定的节点可以参与,如企业内部的区块链;联盟链是由多个组织共同管理的区块链,参与者需经过授权。区块链具备数据可追溯、多方信认等诸多特性,适用于需要各方协同的地球大数据相关项目中,如在双碳领域记录各方碳排放量、碳交易情况等,从而构建一个多方背书的信任体系。四、四、地球大数据的行业生态与行业应用地球大数据的行业生态与行业应用(一一)地球大数据产业图谱地球大数据产业图谱为促进地球大