气象大数据技术架构思路39956.docx





《气象大数据技术架构思路39956.docx》由会员分享,可在线阅读,更多相关《气象大数据技术架构思路39956.docx(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、气象大数据应用技术架构设计思路二一五年五月月文档信息客户单位:内部技术机密心心项目:文档:.docx版本:0.9(1500521)发布日期:未发布编者:姓名公司项目职称日期邱承国高级技术经理2015-055-11批准:姓名公司项目职称日期修订历史主要修订记录版本号修改人修改内容修改日期1.V0.9_1550511邱承国初稿2015-0-1-12.3.4.目录文档信息iii修订历史iii1引言12气象行业大大数据分类22.1概述22.2从分类类大数据到选选择大数据解解决方案32.3依据大大数据类型对对业务问题进进行分类42.4使用大大数据类型对对大数据特征征进行分类52.5依据大大数据类型对对气
2、象信息进进行处理73大数据平台台架构83.1大数据据解决方案的的逻辑构成83.1.1大大数据来源83.1.2数数据改动和存存储层83.1.3大大数据分析层层93.1.4大大数据应用层层93.2大数据据解决方案的的组件构成103.2.1横横向层103.2.2垂垂直层154大数据平台台组成194.1概述194.2原子模模式194.2.1数数据使用组件件204.2.2数数据处理组件件224.2.3数数据访问组件件244.2.4数数据存储组件件284.3复合模模式294.3.1存存储和探索复复合组件304.3.2专专业分析和预预测分析组件件304.3.3OOLAP在线线分析314.3.4原原子模式和符
3、符合模式的映映射324.4解决方方案模式(模模拟应用场景景)355技术架构实实现选择产品品365.1概述365.2技术架架构的关键问问题365.3分布式式存储与分布布式应用365.4服务平平台的硬件架架构与调整365.5数据库库与数据仓库库365.6NOSSQL数据库库365.7数据集集成工具365.8数据分分析软件365.9Webb应用以及Weeb开发的关关键问题366我们的研发发策略366.1效益366.2目前的的形势366.3针对目目前直接的应应用需求366.4技术储储备与项目应应用366.5如何保保证将来的扩扩展37vi1 引言在气象行业内部部,气象数据据的价值已经经和正在被深深入挖掘
4、着。但但是,不能将将气象预报产产品的社会化化推广简单地地认为就是“气象大数据据的广泛应用用”。大数据实际上是是一种混杂数数据,气象大大数据应该是是指气象行业业所拥有的以以及锁接触到到的全体数据据,包括传统统的气象数据据和对外服务务提供的影视视音频资料、网网页资料、预预报文本以及及地理位置相相关数据、社社会经济共享享数据等等。传统的”气象数数据“,地面观测测、气象卫星星遥感、天气气雷达和数值值预报产品四四类数据占数数据总量的990%以上,基基本的气象数数据直接用途途是气象业务务、天气预报报、气候预测测以及气象服服务。“大数据应用用”与目前的气气象服务有所所不同,前者者是气象数据据的“深度应用”和
5、“增值应用”,后者是既既定业务数据据加工产品的的社会推广应应用。“大数据的核心心就是预测”,这是大大数据时代的的作者舍恩伯伯格的名言。天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了也就是说,目前经典的大数据应用方法并不适用于天气预报业务。现在,气象行业业的公共服务务职能越来越越强,面向政政府提供决策策服务,面向向公众提供气气象预报预警警服务,面向向社会发展,应应对气候发展展节能减
6、排。这这些决策信息息怎么来依赖赖于我们对气气象数据的处处理。气象大数据应该该在跨行业综综合应用这一一“增值应用”价值挖掘过过程中焕发出出的新的光芒芒。2 大数据平台的基基本构成2.1 概述“大数据”是需需要新处理模模式才能具有有更强的决策策力、洞察发发现力和流程程优化能力的的海量、高增增长率和多样样化的信息资资产。大数据技术的战战略意义不在在于掌握庞大大的数据信息息,而在于对对这些含有意意义的数据进进行专业化处处理。换言之之,如果把大大数据比作一一种产业,那那么这种产业业实现盈利的的关键,在于于提高对数据据的“加工能能力”,通过过“加工”实实现数据的“增增值”。从技术上看,大大数据与云计计算的
7、关系就就像一枚硬币币的正反面一一样密不可分分。大数据必必然无法用单单台的计算机机进行处理,必必须采用分布布式架构。它它的特色在于于对海量数据据进行分布式式数据挖掘(SSaaS),但但它必须依托托云计算的分分布式处理、分分布式数据库库(PaaSS)和云存储储、虚拟化技术术(IaaSS)。大数据可通过许许多方式来存存储、获取、处处理和分析。每每个大数据来来源都有不同同的特征,包包括数据的频频率、量、速速度、类型和和真实性。处处理并存储大大数据时,会会涉及到更多多维度,比如如治理、安全全性和策略。选选择一种架构构并构建合适适的大数据解解决方案极具具挑战,因为为需要考虑非非常多的因素素。气象行业的数据
8、据情况则更为为复杂,除了了“机器生成”(可以理解解为遥测、传传感设备产生生的观测数据据,大量参与与气象服务和和共享的信息息都以文本、图图片、视频等等多种形式存存储,符合“大数据”的4V特点点:Voluume(大量量)、Vellocityy(高速)、VVarietty(多样)、veraacity(真实性)。这些信息息长期存储于于气象各部门门的平台上未未能加以合理理利用。另一一方面,这些些数据本身就就是分散存储储于多个服务务器平台上,急急需应用分布布式平台统一一管理。因此,我们亟需需一种结构化化和基于模式式的方法来简简化定义完整整的大数据架架构的任务。因因为评估一个个业务场景是是否存在大数数据问题
9、很重重要,所以我我们包含了一一些线索来帮帮助确定哪些些业务问题适适合采用大数数据解决方案案。2.2 数据基础决定平平台框架2.2.1 从分类大数据到到选择大数据据解决方案RDBMS:关关系型数据库库;ETL:数据清清晰、转换、装装载的过程;ELT:数据清清晰、装载、转转换的过程;CDC:增量数数据复制。有有同步和异步步两种模式。数据种类结构示例量安全性建模存储和检索集成使用主数据事务分析数据元数据结构化观测数据中-高数据库、应用程程序和用户访访问预定义的关系建建模或维度建建模RDBMS/SSQLETL/ELTT、CDC应用程序、BII和统计程序序参考数据结构化和半结构构化交换数据中-低平台安全
10、性灵活可扩展XML/xQuueryETL/ELTT、消息使用基于系统文档和内容非结构化预报文件高基于文件系统随意文件系统/搜索索操作系统级文件件移动内容管理大数据-网页-物联网-卫星/雷达等等传感器结构化、半结构构化、非结构构化云图视频语音网志高文件系统和数据据库灵活(键值)分布式文件系统统/noSQQLHadoop、MMapRedduce、EETL/ELLT、消息BI和统计工具具结构化数据半结构化数据“非结构化数据非结构化数据2.2.2 依据大数据类型型对业务问题题进行分类根据气象服务需需要,业务问问题可分类为为不同的大数数据问题类型型。以后,我我们将使用此此类型确定合合适的分类模模式(原子
11、或或复合)和合合适的大数据据解决方案。但但第一步是将将业务问题映映射到它的大大数据类型。下下表列出了常常见的业务问问题并为每个个问题分配了了一种大数据据类型。业务问题大数据问题描述公用事业:临近近天气预报机器生成数据依据站点观测数数据汇总和国国家局下发文文件、全球交交换数据只做做的预报信息息政府决策:区域域天气预警机器生成的数据据地理信息数据政府交换数据图片视频资料语音播报数据历史灾害汇总微博等网页数据据政府机构通过“智慧都市”等平台整合合IS关联天天气预警产品品、预警通知反反馈、城区建筑布局局与灾害易发发分析结果预预测预判辖区区内的灾情险险情,做好防防灾避险工作作保险业:气象相相关险种气象预
12、报Web与社交媒媒体数据依据气象预报信信息以及网络络媒体调查反反馈,开辟“中暑险”、“赏月险”等多个险种种医疗保健:流行行病监控气象预报生活指指数根据历史气象资资料和流行病病历史资料结结合分析,预预判流行病发发展趋势,对对流行病监控控、地区流行行病学、药物物发明、临床床试验数据分分析、病人病病情分析等起起着至关重要要的作用此类分析也可以以为医药企业业的销售行为为提供参考期货:农产品灾灾害预测气象灾害预警历史气候对农产产品影响分析析-用于气象灾害害提醒、农产产品价格变化化预测- 用于期货市市场预测分析析2.2.3 使用大数据类型型对大数据特特征进行分类类按特定方向分析析大数据的特特征会有所帮帮助
13、,例如以以下特征:数数据如何收集集、分析和处处理。对数据进行分类类后,就可以以将它与合适适的大数据模模式匹配:l 分析类型 对数据执行行实时分析还还是批量分析析。请仔细考考虑分析类型型的选择,因因为这会影响响一些有关产产品、工具、硬硬件、数据源源和预期的数数据频率的其其他决策。一一些用例可能能需要混合使使用两种类型型:n 临近分析;分析析必须实时或或近实时地完完成。n 历史分析针对战战略性业务决决策的趋势分分析;分析可可采用批量模模式。l 处理方法 要应用来处处理数据的技技术类型(比比如预测、分分析、临时查查询和报告)。业业务需求确定定了合适的处处理方法。可可结合使用各各种技术。处处理方法的选
14、选择,有助于于识别要在您您的大数据解解决方案中使使用的合适的的工具和技术术。l 数据频率和大小小 预计有多多少数据和数数据到达的频频率多高。知知道频率和大大小,有助于于确定存储机机制、存储格格式和所需的的预处理工具具。数据频率率和大小依赖赖于数据源:n 按需分析,与社社交媒体数据据一样n 实时、持续提供供(天气数据据、交易数据据)n 时序(基于时间间的数据)l 数据类型 要处理数据据类型 交易、历历史、主数据据等。知道数数据类型,有有助于将数据据隔离在存储储中。l 内容格式(传入入数据的格式式)结构化(例例如 RDMMBS)、非非结构化(例例如音频、视视频和图像)或或半结构化。格格式确定了需需
15、要如何处理理传入的数据据,这是选择择工具、技术术以及从业务务角度定义解解决方案的关关键。l 数据源 数数据的来源(生生成数据的地地方),比如如 Web 和社交媒体体、机器生成成、人类生成成等。识别所所有数据源有有助于从业务务角度识别数数据范围。该该图显示了使使用最广泛的的数据源。l 数据使用者 处理的数数据的所有可可能使用者的的列表:n 业务流程n 业务用户n 企业应用程序n 各种业务角色中中的各个人员员n 部分处理流程n 其他数据存储库库或企业应用用程序l 硬件 将在在其上实现大大数据解决方方案的硬件类类型,包括商商用硬件或最最先进的硬件件。理解硬件件的限制,有有助于指导大大数据解决方方案的
16、选择。2.3 数据分类决定应应用方案将不同的数据类类型集成后,统统一按照大数数据进行处理理,如下图:2.4 大数据平台的逻逻辑层次逻辑构成从框架架上展示了各各个组件的组组织方式。这这些层提供了了一种方法来来组织执行特特定功能的组组件。这些层层只是逻辑结结构;这并不不意味着支持持每层的功能能在独立的机机器或独立的的进程上运行行。大数据平台通常常由以下逻辑辑层组成:1. 数据集成层2. 数据存储层3. 数据分析层4. 数据使用层2.4.1 大数据集成层要全面考虑来自自所有渠道的的,所有可用用于分析的数数据。要求团团队中的数据专家家阐明执行需求求所需的数据据。这些信息息包括:l 格式 结构化化、半结
17、构化化或非结构化化。l 速度和数据量 数据到达达的速度和传传送它的速率率因数据源不不同而不同。l 收集点 收集集数据的位置置,直接或通通过数据提供供程序,实时时或以批量模模式收集数据据。数据可能能来自某个主主要来源,比比如天气条件件,也有可能能来自一个辅辅助来源,比比如媒体赞助助的天气频道道。l 数据源的位置 数据源可可能位于企业业内或外部。识识别您具有有有限访问权的的数据,因为为对数据的访访问会影响可可用于分析的的数据范围。2.4.2 大数据存储层此层负责从数据据源获取数据据,并在必要要时,将它转转换为适合符符合分析方式式的格式。例例如,可能需需要转换一幅幅图,才能将将它存储在 Hadooo
18、p Disstribuuted (HDFSS) 存储或或关系数据库库管理系统 (RDBMMS) 仓库库中,以供进进一步处理。规范1和治理策略要求为不同的数据类型提供合适的存储。2.4.3 大数据分析层分析层读取数据据改动和存储储层整理 (digesst) 的数数据。在某些些情况下,分分析层直接从从数据源访问问数据。设计计分析层需要要认真地进行行事先筹划和和规划。必须须制定如何管管理以下任务务的决策:l 生成想要的分析析l 从数据中获取洞洞察l 找到所需的实体体l 定位可提供这些些实体的数据据的数据源l 理解执行分析需需要哪些算法法和工具。2.4.4 大数据应用层此层使用了分析析层所提供的的输出
19、。使用用者可以是可可视化应用程程序、人类、业业务流程或服服务。可视化化分析层的结结果可能具有有挑战。3 大数据平台的功功能架构3.1 组件构成3.1.1 横向层3.1.1.1 大数据集成层大数据来源:l 企业遗留系统 这些系统统是企业应用用程序,执行行业务需要的的分析并获取取需要的洞察察:n 气象网络设备监监测系统n 气象信息共享系系统n MICAPSn 网络通信系统CCMA-Caastn 突发应急系统n 气象预报系统n 气象服务系统n 办公自动化n l Web 应用程程序开发-Web 应应用程序和其其他数据来源源扩充了企业业拥有的数据据。这些应用用程序可使用用自定义的协协议和机制来来公开数据
20、。l 数据管理系统 (DMS) 数据管管理系统存储储逻辑数据、流流程、策略和和各种其他类类型的文档:n Microsooft EExcel 电子表格格n Microsooft Woord 文档档n 这些文档可以转转换为可用于于分析的结构构化数据。文文档数据可公公开为领域实实体,或者数数据改动和存存储层可将它它转换为领域域实体。l 数据存储 数数据存储包含含企业数据仓仓库、操作数数据库和事务务数据库。此此数据通常是是结构化数据据,可直接使使用或轻松地地转换来满足足需求。这些些数据不一定定存储在分布布式文件系统统中,具体依依赖于所处的的上下文。l 智慧设备 智智慧设备能够够捕获、处理理和传输使用用
21、最广泛的协协议和格式的的信息。这方方面的示例包包括智能电话话、仪表和医医疗设备。这这些设备可用用于执行各种种类型的分析析。绝大多数数智慧设备都都会执行实时时分析,但从从智慧设备传传来的信息也也可批量分析析。l 聚合的数据提供供程序 这这些提供程序序拥有或获取取数据,并以以复杂的格式式和所需的频频率通过特定定的过滤器公公开它。每天天都会产生海海量的数据,它它们具有不同同的格式,以以不同的速度度生成,而且且通过各种数数据提供程序序、传感器和和现有企业提提供。l 其他数据源 有许多数据据来自自动化化的来源:n 地理信息:n 地图n 地区详细信息n 位置详细信息n 经济热点详细信信息(工农业业旅游交通
22、教教育医疗金融融等等)n 人类生成的内容容:n 社交媒体n 电子邮件n 博客n 在线信息n 传感器数据:n 环境:天气、降降雨量、湿度度、光线n 电气:电流、能能源潜力等n 导航装置n 电离辐射、亚原原子粒子等n 靠近、存在等n 位置、角度、位位移、距离、速速度、加速度度n 声音、声震动等等n 汽车、运输等n 热量、热度、温温度n 光学、光、成像像、见光度n 化学n 压力n 流动、流体、速速度n 力、密度级别等等n 来自传感器供应应商的其他数数据3.1.1.2 大数据存储层因为传入的数据据可能具有不不同的特征,所所以数据改动动和存储层中中的组件必须须能够以各种种频率、格式式、大小和在在各种通信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 气象 数据 技术 架构 思路 39956

限制150内