气象大数据技术架构思路4132386.docx





《气象大数据技术架构思路4132386.docx》由会员分享,可在线阅读,更多相关《气象大数据技术架构思路4132386.docx(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、气象大数据应用技术架构设计思路二一五年五月文档信息客户单位:内部技术机密心项目:文档:.docx版本:0.9(150521)发布日期:未发布编者:姓名公司项目职称日期邱承国高级技术经理2015-05-11批准:姓名公司项目职称日期修订历史主要修订记录版本号修改人修改内容修改日期1.V0.9_150511邱承国初稿2015-0-1-12.3.4.目录文档信息ii修订历史ii1引言12气象行业大数据分类22.1概述22.2从分类大数据到选择大数据解决方案32.3依据大数据类型对业务问题进行分类42.4使用大数据类型对大数据特征进行分类52.5依据大数据类型对气象信息进行处理73大数据平台架构83.
2、1大数据解决方案的逻辑构成83.1.1大数据来源83.1.2数据改动和存储层83.1.3大数据分析层93.1.4大数据应用层93.2大数据解决方案的组件构成103.2.1横向层103.2.2垂直层154大数据平台组成194.1概述194.2原子模式194.2.1数据使用组件204.2.2数据处理组件224.2.3数据访问组件244.2.4数据存储组件284.3复合模式294.3.1存储和探索复合组件304.3.2专业分析和预测分析组件304.3.3OLAP在线分析314.3.4原子模式和符合模式的映射324.4解决方案模式(模拟应用场景)355技术架构实现选择产品365.1概述365.2技术架
3、构的关键问题365.3分布式存储与分布式应用365.4服务平台的硬件架构与调整365.5数据库与数据仓库365.6NOSQL数据库365.7数据集成工具365.8数据分析软件365.9Web应用以及Web开发的关键问题366我们的研发策略366.1效益366.2目前的形势366.3针对目前直接的应用需求366.4技术储备与项目应用366.5如何保证将来的扩展371 引言在气象行业内部,气象数据的价值已经和正在被深入挖掘着。但是,不能将气象预报产品的社会化推广简单地认为就是“气象大数据的广泛应用”。大数据实际上是一种混杂数据,气象大数据应该是指气象行业所拥有的以及锁接触到的全体数据,包括传统的气
4、象数据和对外服务提供的影视音频资料、网页资料、预报文本以及地理位置相关数据、社会经济共享数据等等。传统的”气象数据“,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上,基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。“大数据应用”与目前的气象服务有所不同,前者是气象数据的“深度应用”和“增值应用”,后者是既定业务数据加工产品的社会推广应用。“大数据的核心就是预测”,这是大数据时代的作者舍恩伯格的名言。天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北
5、美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了也就是说,目前经典的大数据应用方法并不适用于天气预报业务。现在,气象行业的公共服务职能越来越强,面向政府提供决策服务,面向公众提供气象预报预警服务,面向社会发展,应对气候发展节能减排。这些决策信息怎么来依赖于我们对气象数据的处理。气象大数据应该在跨行业综合应用这一“增值应用”价值挖掘过程中焕发出的新的光芒。2 大数据平台的基本构成2.1 概述“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大
6、的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,
7、比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。气象行业的数据情况则更为复杂,除了“机器生成”(可以理解为遥测、传感设备产生的观测数据,大量参与气象服务和共享的信息都以文本、图片、视频等多种形式存储,符合“大数据”的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。这些信息长期存储于气象各部门的平台上未能加以合理利用。另一方面,这些数据本身就是分散存储于多个服务器平台上,急需应用分布式平台统一管理。因此,我们亟需一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业
8、务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。2.2 数据基础决定平台框架2.2.1 从分类大数据到选择大数据解决方案RDBMS:关系型数据库;ETL:数据清晰、转换、装载的过程;ELT:数据清晰、装载、转换的过程;CDC:增量数据复制。有同步和异步两种模式。数据种类结构示例量安全性建模存储和检索集成使用主数据事务分析数据元数据结构化观测数据中-高数据库、应用程序和用户访问预定义的关系建模或维度建模RDBMS/SQLETL/ELT、CDC应用程序、BI和统计程序参考数据结构化和半结构化交换数据中-低平台安全性灵活可扩展XML/xQueryE
9、TL/ELT、消息使用基于系统文档和内容非结构化预报文件高基于文件系统随意文件系统/搜索操作系统级文件移动内容管理大数据-网页-物联网-卫星/雷达等传感器结构化、半结构化、非结构化云图视频语音网志高文件系统和数据库灵活(键值)分布式文件系统/noSQLHadoop、MapReduce、ETL/ELT、消息BI和统计工具结构化数据半结构化数据“非结构化数据非结构化数据2.2.2 依据大数据类型对业务问题进行分类根据气象服务需要,业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常
10、见的业务问题并为每个问题分配了一种大数据类型。业务问题大数据问题描述公用事业:临近天气预报机器生成数据依据站点观测数据汇总和国家局下发文件、全球交换数据只做的预报信息政府决策:区域天气预警机器生成的数据地理信息数据政府交换数据图片视频资料语音播报数据历史灾害汇总微博等网页数据政府机构通过“智慧都市”等平台整合IS关联天气预警产品、预警通知反馈、城区建筑布局与灾害易发分析结果预测预判辖区内的灾情险情,做好防灾避险工作保险业:气象相关险种气象预报Web与社交媒体数据依据气象预报信息以及网络媒体调查反馈,开辟“中暑险”、“赏月险”等多个险种医疗保健:流行病监控气象预报生活指数根据历史气象资料和流行病
11、历史资料结合分析,预判流行病发展趋势,对流行病监控、地区流行病学、药物发明、临床试验数据分析、病人病情分析等起着至关重要的作用此类分析也可以为医药企业的销售行为提供参考期货:农产品灾害预测气象灾害预警历史气候对农产品影响分析-用于气象灾害提醒、农产品价格变化预测- 用于期货市场预测分析2.2.3 使用大数据类型对大数据特征进行分类按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:l 分析类型 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他
12、决策。一些用例可能需要混合使用两种类型:n 临近分析;分析必须实时或近实时地完成。n 历史分析针对战略性业务决策的趋势分析;分析可采用批量模式。l 处理方法 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。l 数据频率和大小 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:n 按需分析,与社交媒体数据一样n 实时、持续提供(天气数据、交易数据)n 时序(基于时间的数据)l 数据类
13、型 要处理数据类型 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。l 内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。l 数据源 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。l 数据使用者 处理的数据的所有可能使用者的列表:n 业务流程n 业务用户n 企业应用程序n 各种业务角色中的各个人员n 部分处理流程n 其他数据存储库或企业应用程序
14、l 硬件 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。2.3 数据分类决定应用方案将不同的数据类型集成后,统一按照大数据进行处理,如下图:2.4 大数据平台的逻辑层次逻辑构成从框架上展示了各个组件的组织方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑结构;这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据平台通常由以下逻辑层组成:1. 数据集成层2. 数据存储层3. 数据分析层4. 数据使用层2.4.1 大数据集成层要全面考虑来自所有渠道的,所有可用于分析的数据。要求团队中的数据专家阐明执行需
15、求所需的数据。这些信息包括:l 格式 结构化、半结构化或非结构化。l 速度和数据量 数据到达的速度和传送它的速率因数据源不同而不同。l 收集点 收集数据的位置,直接或通过数据提供程序,实时或以批量模式收集数据。数据可能来自某个主要来源,比如天气条件,也有可能来自一个辅助来源,比如媒体赞助的天气频道。l 数据源的位置 数据源可能位于企业内或外部。识别您具有有限访问权的数据,因为对数据的访问会影响可用于分析的数据范围。2.4.2 大数据存储层此层负责从数据源获取数据,并在必要时,将它转换为适合符合分析方式的格式。例如,可能需要转换一幅图,才能将它存储在 Hadoop Distributed Fil
16、e System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中,以供进一步处理。规范1和治理策略要求为不同的数据类型提供合适的存储。2.4.3 大数据分析层分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下,分析层直接从数据源访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策:l 生成想要的分析l 从数据中获取洞察l 找到所需的实体l 定位可提供这些实体的数据的数据源l 理解执行分析需要哪些算法和工具。2.4.4 大数据应用层此层使用了分析层所提供的输出。使用者可以是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能
17、具有挑战。3 大数据平台的功能架构3.1 组件构成3.1.1 横向层3.1.1.1 大数据集成层大数据来源:l 企业遗留系统 这些系统是企业应用程序,执行业务需要的分析并获取需要的洞察:n 气象网络设备监测系统n 气象信息共享系统n MICAPSn 网络通信系统CMA-Castn 突发应急系统n 气象预报系统n 气象服务系统n 办公自动化n l Web 应用程序开发-Web 应用程序和其他数据来源扩充了企业拥有的数据。这些应用程序可使用自定义的协议和机制来公开数据。l 数据管理系统 (DMS) 数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档:n Microsoft Excel 电子表
18、格n Microsoft Word 文档n 这些文档可以转换为可用于分析的结构化数据。文档数据可公开为领域实体,或者数据改动和存储层可将它转换为领域实体。l 数据存储 数据存储包含企业数据仓库、操作数据库和事务数据库。此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。l 智慧设备 智慧设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智慧设备传来的信息也可批量分析。l 聚合的数据提供程序 这些提供程序拥有或获
19、取数据,并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器和现有企业提供。l 其他数据源 有许多数据来自自动化的来源:n 地理信息:n 地图n 地区详细信息n 位置详细信息n 经济热点详细信息(工农业旅游交通教育医疗金融等等)n 人类生成的内容:n 社交媒体n 电子邮件n 博客n 在线信息n 传感器数据:n 环境:天气、降雨量、湿度、光线n 电气:电流、能源潜力等n 导航装置n 电离辐射、亚原子粒子等n 靠近、存在等n 位置、角度、位移、距离、速度、加速度n 声音、声震动等n 汽车、运输等n 热量、热
20、度、温度n 光学、光、成像、见光度n 化学n 压力n 流动、流体、速度n 力、密度级别等n 来自传感器供应商的其他数据3.1.1.2 大数据存储层因为传入的数据可能具有不同的特征,所以数据改动和存储层中的组件必须能够以各种频率、格式、大小和在各种通信渠道上读取数据:l 数据获取 从各种数据源获取数据,并将其发送到数据整理组件或存储在指定的位置中。此组件必须足够智能,能够选择是否和在何处存储传入的数据。它必须能够确定数据在存储前是否应改动,或者数据是否可直接发送到业务分析层。l 数据整理 负责将数据修改为需要的格式,以实现分析用途。此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。分析引擎
21、将会确定所需的特定的数据格式。主要的挑战是容纳非结构化数据格式,比如图像、音频、视频和其他二进制格式。l 分布式数据存储 负责存储来自数据源的数据。通常,这一层中提供了多个数据存储选项,比如分布式文件存储 (DFS)、云、结构化数据源、NoSQL 等。3.1.1.3 分析层这是从数据中提取业务洞察的层:l 分析层实体识别 负责识别和填充上下文实体。这是一个复杂的任务,需要高效的高性能流程。数据整理组件应为这个实体识别组件提供补充,将数据修改为需要的格式。分析引擎将需要上下文实体来执行分析。l 分析引擎 使用其他组件(具体来讲,包括实体鉴别、模型管理和分析算法)来处理和执行分析。分析引擎可具有支
22、持并行处理的各种不同的工作流、算法和工具。l 模型管理 负责维护各种统计模型,验证和检验这些模型,通过持续培训模型来提高准确性。然后,模型管理组件会推广这些模型,它们可供实体识别或分析引擎组件使用。3.1.1.4 使用层这一层使用了从分析应用程序获取的业务洞察。分析的结果由组织内的各个用户和组织外部的实体(比如客户、供应商、合作伙伴和提供商)使用。此洞察可用于针对客户提供产品营销信息。例如,借助从分析中获取的洞察,公司可以使用客户偏好数据和位置感知,在客户经过通道或店铺时向他们提供个性化的营销信息。该洞察可用于检测欺诈,实时拦截交易,并将它们与使用已存储在企业中的数据构建的视图进行关联。在欺诈
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 气象 数据 技术 架构 思路 4132386

限制150内