气象数据的“大数据应用”浅析2439960.docx
《气象数据的“大数据应用”浅析2439960.docx》由会员分享,可在线阅读,更多相关《气象数据的“大数据应用”浅析2439960.docx(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、气象数据的“大数据应用”浅析2014-03-24 17:03:19作者:国家气象总局沈文海 来源:CIO时代网摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。关键词:气象数据大数据1、引引言 据统计计,20111年全球的数数据规模为11.8ZB,这些信息将将填满5755亿个32GGB的ipaad,以这些些ipad做做砖石,足可可以垒建起两两座中国的万万里长城。而而到20133 年,仅中中国当年产生生的数据总量量就已超过00.8ZB,2倍于20012年,相相当于20009年全球的的数据总量。预预计到2
2、0220年,中国国产生的数据据总量将是22013年的的10倍,超超过8.5ZZB.【1】而而届时全球的的数据总量预预计将达到440ZB,如如果将这些数数据全部刻录录成蓝光光盘盘,则这些光光盘的总重量量相当于4224艘满载荷荷的尼米兹航航空母舰。 数据量量暴增的速度度令人瞠目结结舌,我们的的确已进入“大数据时代”. 很快地地,“地理大大数据”、“水水利大数据”、“环环境大数据”、“金金融大数据”、“互互联网大数据据”乃至“气气象大数据”等名名词陆续出现现在有关媒体体上。“大数数据”逐渐成成为近来人们们谈论最多、思思考最多的技技术话题之一一。一些人憧憧憬于“大数数据”可能带带来的十分珍珍稀的高价值
3、值信息和珍贵贵商机,也有有许多人困惑惑于目前所知知“大数据”的应应用范式,以以此研判着可可能给本行业业带来的变化化和新的业务务契机-气气象部门也是是如此。 做为抛抛砖引玉,笔笔者拟就如下下问题提出自自己的看法: (1)气象数据是否具备“大数据”的核心特征? (2)业业界公认的“大数据应用”的主要形态是什么? (3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件? (4)气气象信息技术术领域当务之之急需要解决决的关键技术术问题。2、大大数据的现实实以及气象数数据的体量构构成 2.11大数据的行业业分布 就数据据量而言,中中国的大数据据近期具有如如下行业分布布特征:
4、 (1)互互联网公司 目前国国内的互联网网公司,拥有有总计约2EEB的数据,而而其中的互联联网三巨头BBAT(百度度、阿里巴巴巴、腾讯)占占有了其中的的3/4(约约1.5EBB)。 (2)电电信、金融、保保险、电力、石石化系统 这些行行业及企业数数据量分布较较为平均,就就每个企业(或或运营商、部部门)而言,大大致都拥有110PB以上上的数据,且且年增量都在在PB级以上上。总和则有有数百个EBB的存储数据据和数十EBB的年增量。 (3)公公共安全、医医疗、交通、电电子政务领域域 城市:随着平安城城市、智慧城城市等工程的的推进,监控控摄像头遍布布大街小巷。一一个中等规模模城市每年视视频监控产生生的
5、数据约3300PB.最保守估计计(含定期循循环清除),每每年能够保存存下来的数据据在数百PBB以上。 交通:飞机航班往往返一次产生生的数据达TTB级。列车车、水陆路运运输每年产生生并保存下来来的各种数据据视频、文本本类数据约达达数十PB. 卫生:整个医疗卫卫生行业,一一年保存下来来的数据可达达到数百PBB. 电子政政务:一个智智慧城市的电电子政务所产产生的数据每每季度约达2200PB.而调查显示示,未来12年中国政政府部门的数数据规模超过过100TBB的将达到553.3%,有将近三成成(33.33%)的用户户数据规模是是10500TB. (4) 其他,商业业销售、制造造业、农业、物物流和流通等
6、等领域 随着产产业互联网的的普及,(线线下)商业销销售、制造业业、农林牧渔渔业、(线下下)餐饮、食食品、科研、物物流运输等等等这些传统行行业的数据量量将呈现迅速速增长态势,但但目前这些行行业数据量尚尚处于积累期期,体量不大大,多的达到到PB级别,基基本约近百TTB甚至数十十TB级别。【22】 (5)气象数据 气象部部门需要永久久保存的数据据目前约45PB,年年增量约1PPB. 由此可可见,以数据据量而言,在在整个大数据据市场中,新新兴的互联网网行业巨头BBAT,以及及电信、金融融、保险等行行业占据比重重较大。相对对而言,气象象数据无论总总量还是增量量,较这些数数据大户至少少低3个数量量级。 2
7、.22大数据的特征征 早在22012年,业业界便已就大大数据在体积积、类型、速速度和价值这这四个方面的的特征达成了了共识,即所所谓大数据的4VV特征: Vollume(大大体积):体体积巨大是大大数据的最根根本的特征,体体积不足够大大,任何数据据都不能称之之为“大数据据”.一般而而言,大数据据的起始计量量单位至少是是PB、EBB或ZB级别别。 Varriety(多多样性):类类型和来源渠渠道繁多是大大数据的第二二个特征。大大数据非但体体积巨大,而而且内容繁杂杂,数据种类类繁多,包括括网络日志、音音频、视频、图图片、地理位位置信息等等等;这些种类类繁杂的数据据来源于多种种不同的渠道道。多类型的的
8、数据对数据据的处理能力力提出了更高高的甚至全新新的要求。 Vellocityy(高速度):生成速度快快,处理时效效要求高,这这是大数据区分于于传统数据采采集、汇聚、处处理乃至数据据挖掘等方面面最显着的特特征。 Vallue(价值值稀薄):数数据价值密度度相对较低,这这是大数据的第四四个特征。根根据业界专家家的看法,大大数据里蕴藏藏着的信息无无所不包,任任何人所需要要的任何信息息,都可以从从大数据里寻找找到。只是这这些信息隐藏藏在大数据的汪洋洋大海之中,寻寻之如同大海海捞针,人们们需要研究出出类似沙里淘淘金的办法,才才能在有效的的时间内将所所需信息寻找找到。因此如如何通过强大大的机器算法法更迅速
9、地完完成数据的价价值“提纯”,是大数据时代亟亟待解决的难难题。当然,还还有一些人将将对大数据“Vaalue”的的理解确定在在“价值丰富富”的层面上上;而最早提提出“大数据据”概念及特特征的Garrtner公公司和麦肯锡锡公司,甚至至至今仍坚持持特征“3VV”(Vollume、VVarietty、Vellocityy)论,认为为“Valuue”不能作作为大数据的特征征【3】。限限于篇幅,不不予展开讨论论。 需要注注意的是,在在此“4V”(或或“3V”)特特征中,“VVolumee”(体量巨巨大)仅仅是是成为大数据据的必要条件件,而非充分分条件,如同同 30mmm的日降水,在在我国东南沿沿海地区十
10、分分平常,但在在西北地区却却可算罕见大大雨,所以体体量大小是相相对的。事实实上,大数据据概念的提出出绝非仅因为为数据量的暴暴增,而且是是因为数据已已多得用传统统方法无法应应对或处理,导导致人们必须须采用新的方方法、新的思思路乃至新的的理念予以应应对。如果数数据量虽大,但但却能够处理理和掌控,便便不能称其为为“大数据”.因因此,“4VV”对于大数数据而言,既既是特征,也也是考量的四四个维度。 2.33气象数据的体体量种类分布布 气象资资料种类较多多,就体积而而言,其中的的地面观测、气气象卫星遥感感、天气雷达达和数值预报报产品四类资资料占据总量量的90%以以上,其中: 地面观观测资料:因因二十一世
11、纪纪以来观测方方法从人工观观测改进为自自动观测,摆摆脱了人类居居住条件限制制的制约,台台站数由本世世纪初的不到到3,0000个,迅速扩扩展到目前的的40,0000多个,观观测频度由最最初的3小时时/次调整到到目前的5分分钟/次,因因而导致资料料量呈几何倍倍数增涨,月月增量由最初初的约2400MB猛增到到现在的约22.4TB,增幅约4个个数量级。根根据防、减灾灾以及气象服服务的需要,未未来扩建计划划有可能将台台站数继续扩扩增至70,000到1100,0000个,观测测频度有可能能继续加密到到1分钟/次次;因此未来来六年内该类类资料总量有有可能在现有有基础上再行行扩增122个数量级,由由现在的每天
12、天数百万条记记录增至超过过一亿条记录录/天。 天气雷雷达资料:按按照天气雷雷达近期发展展规划(20005-20010)以以及气象发发展规划(22011-22015)中中“新一代天天气雷达建设设增补站点布布局方案”,目前在全国国已布设约2200部不同同波长的多普普勒天气雷达达,并为达到到雷达资料全全社会共享的的目的,已基基本实现724小时全全天候不间断断观测;日增增总量约3000GB. 气象卫卫星资料:根根据我国气气象卫星及其其应用发展规规划(2011120220年),至至2020年年,我国计划划发射11颗颗气象业务卫卫星,包括33颗风云二号号03批卫星星,3颗风云云三号上午星星、2颗风云云三号
13、下午星星、1颗降水水测量雷达星星以及2颗风风云四号光学学星。此外还还将在20220年前发射射2颗气象试试验卫星。【数数据量待补充充】目前的日日增总量约数数百GB,未未来有可能增增加到数TBB/日。 数值预预报产品:与与地面观测、气气象卫星和天天气雷达等气气象观探测资资料不同,气气象数值预报报模式资料属属于气象观探探测资料的加加工产品。以以GRAPSS、T6399为代表的天天气预报模式式,以及以BBCC_CSSM2、DEERF2.00为代表的气气候预测模式式,每天都在在实时运行,不不断产生着数数以万计的各各类要素场,以以供国家级、省省级乃至区域域级预报员参参考使用,日日增量接近TTB级。 在上述
14、述四类数据之之外,气象资资料尚有高空空探测、地面面农气观测、沙沙尘暴观测、闪闪电定位观测测、风廓线雷雷达探测等等等许多种,但但就体积而言言,较上述四四类资料至少少低一个数量量级,难以将将其称之为“大数据”. 因此,如如果就体积而而言,气象资资料可勉强算算得上“大数数据”,也是是因为地面观观测、气象卫卫星、天气雷雷达和数值模模式这四大金金刚将气象资资料的体积撑撑大而成的。3、“气气象大数据”的的特征分析气象数数据的体积虽虽大,却有其其独特的特征征: (1)体体积虽大但总总量可控 这里对对地面观测、气气象卫星遥感感、天气雷达达和数值预报报产品这四类类体量最大的的气象数据进行行分析: 地面观观测资料
15、数据据量剧增的原原因,是站点点数的增加和和观测频度的的大幅加密。然然而,这种台台站规模的扩扩充和观测频频次的加密是是基于预报和和服务需求,经经过严格科学学论证,有计计划有步骤逐逐步推进的;在观测台站站达到一定密密度,观测频频度足以满足足气象业务需需求后,台站站数不会无限限制持续增加加,观测频度度更不会无节节制地永远加加密下去,因因此总量既是是可预测的,更更是可控的。 对天气气雷达而言,布布网工作已基基本完成,雷雷达总量不会会有成倍数的的增加。而且且目前的天气气雷达已基本本实现7224小时全天天候不间断观观测。因此天天气雷达的资资料量(年增增量),将稳稳定相当长一一段时间,而而不会有倍数数的增量
16、变化化。 未来数数年内,我国国还将发射数数颗气象卫星星,每颗卫星星都会产生数数百TB级的的数据年增量量。为满足气气象卫星资料料的应用时效效,国家卫星星气象中心针针对每一颗气气象卫星,都都建有相应专专属的地面接接收处理系统统,已完全实实现所有气象象卫星遥测遥遥感资料的实实时接收处理理。因此气象象卫星数据目目前虽以每年年数百TB的的量级增长,而而且规模有可可能继续扩大大,但却始终终处于可控可可管和完全可可用状态。 数值预预报模式产品品资料是各级级预报员最重重要的预报参参考资料,这这些产品甫一一生成,便即即刻送达天气气预报、气候候预测专家的的桌面,供其其业务参考使使用;同时以以满足业务需需求的时效,
17、分分发至各省级级乃至地市级级气象部门,供供其本地化应应用。因此与与气象卫星资资料相类似,数数值预报产品品资料体积虽虽大,却始终终处于可控可可管和可用的的状态,未来来也将始终如如此。 因此,气气象资料体积积虽大,在量量级上算得上上“大数据”,但但却始终处于于可控可管可可用状态。 (2)种种类虽多但内内部信息单纯纯,来源单一一 按照行行业标准气气象资料分类类与编码,气气象资料分为为14大类,计计有数百种之之多【4】。该该标准基本涵涵盖了气象资资料的所有内内容。所以就就内容而言,气气象资料在目目前及可预见见的未来,超超不出该行标标所规定的范范围。数百种种的气象资料料种类虽多,但但每种资料所所含信息却
18、十十分单纯:土土壤持水量只只记载某时某某地某规定土土壤深度中水水份的持有程程度,“云能能天”只记录录某时某地的的云量云状、能能见度以及天天气现象等信信息。这与互互联网大数据据如电子邮件件、微信、微微博中所包含含的社会百态态、生老病死死、喜怒哀乐乐、柴米油盐盐酱醋茶等所所有信息有很很大差异。究究其原因,海海量气象数据是由由气象探测系系统以及数值值预报业务系系统产生的,来来源比较单一一;而互联网网大数据则由人人来提供的,它它来源于人类类社会的方方方面面和各个个角落,是人人类活动的实实况记录。 (3)价价值单一而明明确 气象观观探测业务系系统只采集那那些能够客观观反映自然界界气象状态的的要素,所以以
19、气象观探测测数据里包含含且只包含丰丰富的气象信信息,而以观观探测数据为为唯一数据和和信息来源的的气象数值模模式,其生成成的产品中所所包含的信息息也只能是局局限于未来天天气或气候状状态的预测。因因此所谓“气气象大数据”,其其自身的直接接用途只能是是气象业务,即即:天气预报报、气候预测测以及气象服服务。 麦肯锡锡公司和Gaartnerr公司始终认认为:“大数数据是用传统统的架构、传传统的技术方方法无法解决决的数据问题题”【3】;而由上分析析可知,气象象数据始终处处于可管、控控、用状态,虽虽然随着数据据体积的不断断膨胀,以及及原有管理和和处理技术架架构的陈旧,逐逐渐出现性能能下降、时效效减慢等现象象
20、,但并非没没有解决的技技术手段。因因此应当说,气象数据是“大数据”的组成部分之一,但其自身并不完全具备“大数据”的所有特征。从这个观点考察,以体积硕大为由称气象数据为“大数据”十分勉强,而且较易产生观念和认知上的混乱;因为衡量体量大小的标准是在不断变化的。信息技术的发展突飞猛进,处理及存储能力依摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。4、应应用分析展望望 4.11大数据带来大大变革 大数数据时代的的作者就大数数据带给人们们思维方面的的变革,提出出了三个观点点: (1)当当数
21、据处理技技术已发生翻翻天覆地变化化时,在大数数据时代进行行抽样分析已已经过时。人人们进行分析析的对象已不不是抽样数据据,而是所有有的数据,即即:“样本 = 总体”. (2)执执迷于精确性性是信息缺乏乏时代和模拟拟时代的产物物,只有接受受不精确性,我我们才能打开开一扇从未涉涉足的世界的的窗户。 (3)知知道“是什么么”就够了,不不必知道“为为什么”.在在大数据时代,我我们不必非得得知道现象背背后的原因,而而是要让数据据自己“发声声”.【5】 而对于于大数据的价值值,该书作者者认为,“数数据就像一个个神奇的钻石石矿,当它的的首要价值被被发掘后仍能能不断给予”,它目前展现现在人们面前前仅仅是其总总价
22、值的“冰冰山一角”.对此,胡小小明先生的理理解是:虽然然一些数据所所蕴含的其所所属领域的内内部规律(即即所谓“首要要价值”)已已被本领域专专家充分发掘掘,但如果将将这些数据与与其它领域数数据相链接,却却有可能发现现出许多意想想不到的相关关关系,即所所谓“丰富的的未知价值在在领域的外部部”.【6】 因此,数数据的价值由由“内部自身身”和“外部部关联”两部部分组成:内内部自身价值值是指该数据据自身所包含含的所有信息息对其所属企企业和部门业业务工作的支支撑、以及开开拓业务领域域的作用;而而外部关联价价值则是指该该数据与外部部企业、领域域和行业数据据进行深度结结合以及具有有创意的分析析思路和有效效的处
23、理方法法,从而发掘掘出新的、超超出所属企业业和部门原有有业务范围的的、传统思维维所意想不到到的、具有开开创意义的信信息,众多企企业和行业部部门可由此了了解并掌握用用传统思维和和方法无法获获得的事实,并并因此可创造造出新的经济济和社会价值值。无论是否否处于“大数数据时代”,数据的价值值概莫能外。而而所谓“大数数据应用”,是由于近二二十余年来,各各行业信息化化程度逐渐提提高,互联网网及其丰富的的应用逐渐渗渗透到人类社社会各个阶层层的方方面面面,在使得人人们的工作和和生活更加舒舒适、方便、快快捷和安全的的同时,也将将社会上各方方面信息通过过网络(尤其其是互联网)采采集并收集管管理起来,从从而导致社会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 气象 数据 应用 浅析 2439960
限制150内