欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    气象大数据技术架构思路39956.docx

    • 资源ID:62816195       资源大小:1MB        全文页数:54页
    • 资源格式: DOCX        下载积分:30金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    气象大数据技术架构思路39956.docx

    气象大数据应用技术架构设计思路二一五年五月月文档信息客户单位:内部技术机密心心项目:文档:.docx版本:0.9(1500521)发布日期:未发布编者:姓名公司项目职称日期邱承国高级技术经理2015-055-11批准:姓名公司项目职称日期修订历史主要修订记录版本号修改人修改内容修改日期1.V0.9_1550511邱承国初稿2015-0-1-12.3.4.目录文档信息iii修订历史iii1引言12气象行业大大数据分类22.1概述22.2从分类类大数据到选选择大数据解解决方案32.3依据大大数据类型对对业务问题进进行分类42.4使用大大数据类型对对大数据特征征进行分类52.5依据大大数据类型对对气象信息进进行处理73大数据平台台架构83.1大数据据解决方案的的逻辑构成83.1.1大大数据来源83.1.2数数据改动和存存储层83.1.3大大数据分析层层93.1.4大大数据应用层层93.2大数据据解决方案的的组件构成103.2.1横横向层103.2.2垂垂直层154大数据平台台组成194.1概述194.2原子模模式194.2.1数数据使用组件件204.2.2数数据处理组件件224.2.3数数据访问组件件244.2.4数数据存储组件件284.3复合模模式294.3.1存存储和探索复复合组件304.3.2专专业分析和预预测分析组件件304.3.3OOLAP在线线分析314.3.4原原子模式和符符合模式的映映射324.4解决方方案模式(模模拟应用场景景)355技术架构实实现选择产品品365.1概述365.2技术架架构的关键问问题365.3分布式式存储与分布布式应用365.4服务平平台的硬件架架构与调整365.5数据库库与数据仓库库365.6NOSSQL数据库库365.7数据集集成工具365.8数据分分析软件365.9Webb应用以及Weeb开发的关关键问题366我们的研发发策略366.1效益366.2目前的的形势366.3针对目目前直接的应应用需求366.4技术储储备与项目应应用366.5如何保保证将来的扩扩展37vi1 引言在气象行业内部部,气象数据据的价值已经经和正在被深深入挖掘着。但但是,不能将将气象预报产产品的社会化化推广简单地地认为就是“气象大数据据的广泛应用用”。大数据实际上是是一种混杂数数据,气象大大数据应该是是指气象行业业所拥有的以以及锁接触到到的全体数据据,包括传统统的气象数据据和对外服务务提供的影视视音频资料、网网页资料、预预报文本以及及地理位置相相关数据、社社会经济共享享数据等等。传统的”气象数数据“,地面观测测、气象卫星星遥感、天气气雷达和数值值预报产品四四类数据占数数据总量的990%以上,基基本的气象数数据直接用途途是气象业务务、天气预报报、气候预测测以及气象服服务。“大数据应用用”与目前的气气象服务有所所不同,前者者是气象数据据的“深度应用”和“增值应用”,后者是既既定业务数据据加工产品的的社会推广应应用。“大数据的核心心就是预测”,这是大大数据时代的的作者舍恩伯伯格的名言。天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了也就是说,目前经典的大数据应用方法并不适用于天气预报业务。现在,气象行业业的公共服务务职能越来越越强,面向政政府提供决策策服务,面向向公众提供气气象预报预警警服务,面向向社会发展,应应对气候发展展节能减排。这这些决策信息息怎么来依赖赖于我们对气气象数据的处处理。气象大数据应该该在跨行业综综合应用这一一“增值应用”价值挖掘过过程中焕发出出的新的光芒芒。2 大数据平台的基基本构成2.1 概述“大数据”是需需要新处理模模式才能具有有更强的决策策力、洞察发发现力和流程程优化能力的的海量、高增增长率和多样样化的信息资资产。大数据技术的战战略意义不在在于掌握庞大大的数据信息息,而在于对对这些含有意意义的数据进进行专业化处处理。换言之之,如果把大大数据比作一一种产业,那那么这种产业业实现盈利的的关键,在于于提高对数据据的“加工能能力”,通过过“加工”实实现数据的“增增值”。从技术上看,大大数据与云计计算的关系就就像一枚硬币币的正反面一一样密不可分分。大数据必必然无法用单单台的计算机机进行处理,必必须采用分布布式架构。它它的特色在于于对海量数据据进行分布式式数据挖掘(SSaaS),但但它必须依托托云计算的分分布式处理、分分布式数据库库(PaaSS)和云存储储、虚拟化技术术(IaaSS)。大数据可通过许许多方式来存存储、获取、处处理和分析。每每个大数据来来源都有不同同的特征,包包括数据的频频率、量、速速度、类型和和真实性。处处理并存储大大数据时,会会涉及到更多多维度,比如如治理、安全全性和策略。选选择一种架构构并构建合适适的大数据解解决方案极具具挑战,因为为需要考虑非非常多的因素素。气象行业的数据据情况则更为为复杂,除了了“机器生成”(可以理解解为遥测、传传感设备产生生的观测数据据,大量参与与气象服务和和共享的信息息都以文本、图图片、视频等等多种形式存存储,符合“大数据”的4V特点点:Voluume(大量量)、Vellocityy(高速)、VVarietty(多样)、veraacity(真实性)。这些信息息长期存储于于气象各部门门的平台上未未能加以合理理利用。另一一方面,这些些数据本身就就是分散存储储于多个服务务器平台上,急急需应用分布布式平台统一一管理。因此,我们亟需需一种结构化化和基于模式式的方法来简简化定义完整整的大数据架架构的任务。因因为评估一个个业务场景是是否存在大数数据问题很重重要,所以我我们包含了一一些线索来帮帮助确定哪些些业务问题适适合采用大数数据解决方案案。2.2 数据基础决定平平台框架2.2.1 从分类大数据到到选择大数据据解决方案RDBMS:关关系型数据库库;ETL:数据清清晰、转换、装装载的过程;ELT:数据清清晰、装载、转转换的过程;CDC:增量数数据复制。有有同步和异步步两种模式。数据种类结构示例量安全性建模存储和检索集成使用主数据事务分析数据元数据结构化观测数据中-高数据库、应用程程序和用户访访问预定义的关系建建模或维度建建模RDBMS/SSQLETL/ELTT、CDC应用程序、BII和统计程序序参考数据结构化和半结构构化交换数据中-低平台安全性灵活可扩展XML/xQuueryETL/ELTT、消息使用基于系统文档和内容非结构化预报文件高基于文件系统随意文件系统/搜索索操作系统级文件件移动内容管理大数据-网页-物联网-卫星/雷达等等传感器结构化、半结构构化、非结构构化云图视频语音网志高文件系统和数据据库灵活(键值)分布式文件系统统/noSQQLHadoop、MMapRedduce、EETL/ELLT、消息BI和统计工具具结构化数据半结构化数据“非结构化数据非结构化数据2.2.2 依据大数据类型型对业务问题题进行分类根据气象服务需需要,业务问问题可分类为为不同的大数数据问题类型型。以后,我我们将使用此此类型确定合合适的分类模模式(原子或或复合)和合合适的大数据据解决方案。但但第一步是将将业务问题映映射到它的大大数据类型。下下表列出了常常见的业务问问题并为每个个问题分配了了一种大数据据类型。业务问题大数据问题描述公用事业:临近近天气预报机器生成数据依据站点观测数数据汇总和国国家局下发文文件、全球交交换数据只做做的预报信息息政府决策:区域域天气预警机器生成的数据据地理信息数据政府交换数据图片视频资料语音播报数据历史灾害汇总微博等网页数据据政府机构通过“智慧都市”等平台整合合IS关联天天气预警产品品、预警通知反反馈、城区建筑布局局与灾害易发发分析结果预预测预判辖区区内的灾情险险情,做好防防灾避险工作作保险业:气象相相关险种气象预报Web与社交媒媒体数据依据气象预报信信息以及网络络媒体调查反反馈,开辟“中暑险”、“赏月险”等多个险种种医疗保健:流行行病监控气象预报生活指指数根据历史气象资资料和流行病病历史资料结结合分析,预预判流行病发发展趋势,对对流行病监控控、地区流行行病学、药物物发明、临床床试验数据分分析、病人病病情分析等起起着至关重要要的作用此类分析也可以以为医药企业业的销售行为为提供参考期货:农产品灾灾害预测气象灾害预警历史气候对农产产品影响分析析-用于气象灾害害提醒、农产产品价格变化化预测- 用于期货市市场预测分析析2.2.3 使用大数据类型型对大数据特特征进行分类类按特定方向分析析大数据的特特征会有所帮帮助,例如以以下特征:数数据如何收集集、分析和处处理。对数据进行分类类后,就可以以将它与合适适的大数据模模式匹配:l 分析类型 对数据执行行实时分析还还是批量分析析。请仔细考考虑分析类型型的选择,因因为这会影响响一些有关产产品、工具、硬硬件、数据源源和预期的数数据频率的其其他决策。一一些用例可能能需要混合使使用两种类型型:n 临近分析;分析析必须实时或或近实时地完完成。n 历史分析针对战战略性业务决决策的趋势分分析;分析可可采用批量模模式。l 处理方法 要应用来处处理数据的技技术类型(比比如预测、分分析、临时查查询和报告)。业业务需求确定定了合适的处处理方法。可可结合使用各各种技术。处处理方法的选选择,有助于于识别要在您您的大数据解解决方案中使使用的合适的的工具和技术术。l 数据频率和大小小 预计有多多少数据和数数据到达的频频率多高。知知道频率和大大小,有助于于确定存储机机制、存储格格式和所需的的预处理工具具。数据频率率和大小依赖赖于数据源:n 按需分析,与社社交媒体数据据一样n 实时、持续提供供(天气数据据、交易数据据)n 时序(基于时间间的数据)l 数据类型 要处理数据据类型 交易、历历史、主数据据等。知道数数据类型,有有助于将数据据隔离在存储储中。l 内容格式(传入入数据的格式式)结构化(例例如 RDMMBS)、非非结构化(例例如音频、视视频和图像)或或半结构化。格格式确定了需需要如何处理理传入的数据据,这是选择择工具、技术术以及从业务务角度定义解解决方案的关关键。l 数据源 数数据的来源(生生成数据的地地方),比如如 Web 和社交媒体体、机器生成成、人类生成成等。识别所所有数据源有有助于从业务务角度识别数数据范围。该该图显示了使使用最广泛的的数据源。l 数据使用者 处理的数数据的所有可可能使用者的的列表:n 业务流程n 业务用户n 企业应用程序n 各种业务角色中中的各个人员员n 部分处理流程n 其他数据存储库库或企业应用用程序l 硬件 将在在其上实现大大数据解决方方案的硬件类类型,包括商商用硬件或最最先进的硬件件。理解硬件件的限制,有有助于指导大大数据解决方方案的选择。2.3 数据分类决定应应用方案将不同的数据类类型集成后,统统一按照大数数据进行处理理,如下图:2.4 大数据平台的逻逻辑层次逻辑构成从框架架上展示了各各个组件的组组织方式。这这些层提供了了一种方法来来组织执行特特定功能的组组件。这些层层只是逻辑结结构;这并不不意味着支持持每层的功能能在独立的机机器或独立的的进程上运行行。大数据平台通常常由以下逻辑辑层组成:1. 数据集成层2. 数据存储层3. 数据分析层4. 数据使用层2.4.1 大数据集成层要全面考虑来自自所有渠道的的,所有可用用于分析的数数据。要求团团队中的数据专家家阐明执行需求求所需的数据据。这些信息息包括:l 格式 结构化化、半结构化化或非结构化化。l 速度和数据量 数据到达达的速度和传传送它的速率率因数据源不不同而不同。l 收集点 收集集数据的位置置,直接或通通过数据提供供程序,实时时或以批量模模式收集数据据。数据可能能来自某个主主要来源,比比如天气条件件,也有可能能来自一个辅辅助来源,比比如媒体赞助助的天气频道道。l 数据源的位置 数据源可可能位于企业业内或外部。识识别您具有有有限访问权的的数据,因为为对数据的访访问会影响可可用于分析的的数据范围。2.4.2 大数据存储层此层负责从数据据源获取数据据,并在必要要时,将它转转换为适合符符合分析方式式的格式。例例如,可能需需要转换一幅幅图,才能将将它存储在 Hadooop Disstribuuted (HDFSS) 存储或或关系数据库库管理系统 (RDBMMS) 仓库库中,以供进进一步处理。规范1和治理策略要求为不同的数据类型提供合适的存储。2.4.3 大数据分析层分析层读取数据据改动和存储储层整理 (digesst) 的数数据。在某些些情况下,分分析层直接从从数据源访问问数据。设计计分析层需要要认真地进行行事先筹划和和规划。必须须制定如何管管理以下任务务的决策:l 生成想要的分析析l 从数据中获取洞洞察l 找到所需的实体体l 定位可提供这些些实体的数据据的数据源l 理解执行分析需需要哪些算法法和工具。2.4.4 大数据应用层此层使用了分析析层所提供的的输出。使用用者可以是可可视化应用程程序、人类、业业务流程或服服务。可视化化分析层的结结果可能具有有挑战。3 大数据平台的功功能架构3.1 组件构成3.1.1 横向层3.1.1.1 大数据集成层大数据来源:l 企业遗留系统 这些系统统是企业应用用程序,执行行业务需要的的分析并获取取需要的洞察察:n 气象网络设备监监测系统n 气象信息共享系系统n MICAPSn 网络通信系统CCMA-Caastn 突发应急系统n 气象预报系统n 气象服务系统n 办公自动化n l Web 应用程程序开发-Web 应应用程序和其其他数据来源源扩充了企业业拥有的数据据。这些应用用程序可使用用自定义的协协议和机制来来公开数据。l 数据管理系统 (DMS) 数据管管理系统存储储逻辑数据、流流程、策略和和各种其他类类型的文档:n Microsooft® EExcel®® 电子表格格n Microsooft Woord 文档档n 这些文档可以转转换为可用于于分析的结构构化数据。文文档数据可公公开为领域实实体,或者数数据改动和存存储层可将它它转换为领域域实体。l 数据存储 数数据存储包含含企业数据仓仓库、操作数数据库和事务务数据库。此此数据通常是是结构化数据据,可直接使使用或轻松地地转换来满足足需求。这些些数据不一定定存储在分布布式文件系统统中,具体依依赖于所处的的上下文。l 智慧设备 智智慧设备能够够捕获、处理理和传输使用用最广泛的协协议和格式的的信息。这方方面的示例包包括智能电话话、仪表和医医疗设备。这这些设备可用用于执行各种种类型的分析析。绝大多数数智慧设备都都会执行实时时分析,但从从智慧设备传传来的信息也也可批量分析析。l 聚合的数据提供供程序 这这些提供程序序拥有或获取取数据,并以以复杂的格式式和所需的频频率通过特定定的过滤器公公开它。每天天都会产生海海量的数据,它它们具有不同同的格式,以以不同的速度度生成,而且且通过各种数数据提供程序序、传感器和和现有企业提提供。l 其他数据源 有许多数据据来自自动化化的来源:n 地理信息:n 地图n 地区详细信息n 位置详细信息n 经济热点详细信信息(工农业业旅游交通教教育医疗金融融等等)n 人类生成的内容容:n 社交媒体n 电子邮件n 博客n 在线信息n 传感器数据:n 环境:天气、降降雨量、湿度度、光线n 电气:电流、能能源潜力等n 导航装置n 电离辐射、亚原原子粒子等n 靠近、存在等n 位置、角度、位位移、距离、速速度、加速度度n 声音、声震动等等n 汽车、运输等n 热量、热度、温温度n 光学、光、成像像、见光度n 化学n 压力n 流动、流体、速速度n 力、密度级别等等n 来自传感器供应应商的其他数数据3.1.1.2 大数据存储层因为传入的数据据可能具有不不同的特征,所所以数据改动动和存储层中中的组件必须须能够以各种种频率、格式式、大小和在在各种通信渠渠道上读取数数据:l 数据获取 从从各种数据源源获取数据,并并将其发送到到数据整理组组件或存储在在指定的位置置中。此组件件必须足够智智能,能够选选择是否和在在何处存储传传入的数据。它它必须能够确确定数据在存存储前是否应应改动,或者者数据是否可可直接发送到到业务分析层层。l 数据整理 负负责将数据修修改为需要的的格式,以实实现分析用途途。此组件可可拥有简单的的转换逻辑或或复杂的统计计算法来转换换源数据。分分析引擎将会会确定所需的的特定的数据据格式。主要要的挑战是容容纳非结构化化数据格式,比比如图像、音音频、视频和和其他二进制制格式。l 分布式数据存储储 负责存存储来自数据据源的数据。通通常,这一层层中提供了多多个数据存储储选项,比如如分布式文件件存储 (DDFS)、云云、结构化数数据源、NooSQL 等等。3.1.1.3 分析层这是从数据中提提取业务洞察察的层:l 分析层实体识别别 负责识识别和填充上上下文实体。这这是一个复杂杂的任务,需需要高效的高高性能流程。数数据整理组件件应为这个实实体识别组件件提供补充,将将数据修改为为需要的格式式。分析引擎擎将需要上下下文实体来执执行分析。l 分析引擎 使使用其他组件件(具体来讲讲,包括实体体鉴别、模型型管理和分析析算法)来处处理和执行分分析。分析引引擎可具有支支持并行处理理的各种不同同的工作流、算算法和工具。l 模型管理 负负责维护各种种统计模型,验验证和检验这这些模型,通通过持续培训训模型来提高高准确性。然然后,模型管管理组件会推推广这些模型型,它们可供供实体识别或或分析引擎组组件使用。3.1.1.4 使用层这一层使用了从从分析应用程程序获取的业业务洞察。分分析的结果由由组织内的各各个用户和组组织外部的实实体(比如客客户、供应商商、合作伙伴伴和提供商)使使用。此洞察察可用于针对对客户提供产产品营销信息息。例如,借借助从分析中中获取的洞察察,公司可以以使用客户偏偏好数据和位位置感知,在在客户经过通通道或店铺时时向他们提供供个性化的营营销信息。该洞察可用于检检测欺诈,实实时拦截交易易,并将它们们与使用已存存储在企业中中的数据构建建的视图进行行关联。在欺欺诈性交易发发生时,可以以告知客户可可能存在欺诈诈,以便及时时采取更正操操作。此外,可以根据据在数据改动动层完成的分分析来触发业业务流程。可可以启动自动动化的步骤 例如,如如果客户接受受了一条可自自动触发的营营销信息,则则需要创建一一个新订单,如如果客户报告告了欺诈,那那么可以触发发对信用卡使使用的阻止。分析的输出也可可由推荐引擎擎使用,该引引擎可将客户户与他们喜欢欢的产品相匹匹配。推荐引引擎分析可用用的信息,并并提供个性化化且实时的推推荐。使用层还为内部部用户提供了了理解、找到到和导航企业业内外的链锁锁信息的能力力。对于内部部使用者,为为业务用户构构建报告和仪仪表板的能力力使得利益相相关者能够制制定精明的决决策并设计恰恰当的战略。为为了提高操作作有效性,可可以从数据中中生成实时业业务警告,而而且可以监视视操作性的关关键绩效指标标:l 交易拦截器 此组件可实实时拦截高容容量交易,将将它们转换为为一种容易被被分析层理解解的实时格式式,以便在传传入数据上执执行实时分析析。事务拦截截器应能够集集成并处理来来自各种来源源的数据,比比如传感器、智智能仪表、麦麦克风、摄像像头、GPSS 设备、AATM 和图图像扫描仪。可可以使用各种种类型的适配配器和 APPI 来连接接到数据源。也也可以使用各各种加速器来来简化开发,比比如实时优化化和流分析,视视频分析,银银行、保险、零零售、电信和和公共运输领领域的加速器器,社交媒体体分析,以及及情绪分析。l 业务流程管理流流程 来自自分析层的洞洞察可供业务务流程执行语语言 (BPPEL) 流流程、APII 或其他业业务流程使用用,通过自动动化上游和下下游 IT 应用程序、人人员和流程的的功能,进一一步获取业务务价值。l 实时监视 可可以使用从分分析中得出的的数据来生成成实时警告。可可以将警告发发送给感兴趣趣的使用者和和设备,比如如智能电话和和平板电脑。可可以使用从分分析组件生成成的数据洞察察,定义并监监视关键绩效效指标,以便便确定操作有有效性。实时时数据可从各各种来源以仪仪表板的形式式向业务用户户公开,以便便监视系统的的健康或度量量营销活动的的有效性。l 报告引擎 生生成与传统商商业智能报告告类似的报告告的能力至关关重要。用户户可基于从分分析层中得到到的洞察,创创建临时报告告、计划的报报告或自助查查询和分析。l 推荐引擎 基基于来自分析析层的分析结结果,推荐引引擎可向购物物者提供实时时的、相关的的和个性化的的推荐,提高高电子商务交交易中的转换换率和每个订订单的平均价价值。该引擎擎实时处理可可用信息并动动态地响应每每个用户,响响应基于用户户的实时活动动、存储在 CRM 系系统中的注册册客户信息,以以及非注册客客户的社交概概况。l 可视化和发现 数据可跨跨企业内外的的各种联邦的的数据源进行行导航。数据据可能具有不不同的内容和和格式,所有有数据(结构构化、半结构构化和非结构构化)可组合合来进行可视视化并提供给给用户。此能能力使得组织织能够将其传传统的企业内内容(包含在在企业内容管管理系统和数数据仓库中)与与新的社交内内容(例如 tweett 和博客文文章)组合到到单个用户界界面中。3.1.2 垂直层影响逻辑层(大大数据来源、数数据改动和存存储、分析和和使用层)的的所有组件的的各方面都包包含在垂直层层中:l 信息集成l 大数据治理l 系统管理l 服务质量3.1.2.1 信息集成大数据应用程序序从各种数据据起源、提供供程序和数据据源获取数据据,并存储在在 HDFSS、NoSQQL 和 MMongoDDB 等数据据存储系统中中。这个垂直直层可供各种种组件使用(例例如数据获取取、数据整理理、模型管理理和交易拦截截器),负责责连接到各种种数据源。集集成将具有不不同特征(例例如协议和连连接性)的数数据源的信息息,需要高质质量的连接器器和适配器。可可以使用加速速器连接到大大多数已知和和广泛使用的的来源。这些些加速器包括括社交媒体适适配器和天气气数据适配器器。各种组件件还可以使用用这一层在大大数据存储中中存储信息,从从大数据存储储中检索信息息,以便处理理这些信息。大大多数大数据据存储都提供供了服务和 API 来来存储和检索索该信息。3.1.2.2 大数据治理数据治理涉及到到定义指南来来帮助企业制制定有关数据据的正确决策策。大数据治治理有助于处处理企业内或或从外部来源源传入的数据据的复杂性、量量和种类。在在将数据传入入企业进行处处理、存储、分分析和清除或或归档时,需需要强有力的的指南和流程程来监视、构构建、存储和和保护数据。除了正常的数据据治理考虑因因素之外,大大数据治理还还包含其他因因素:l 管理各种格式的的大量数据。l 持续培训和管理理必要的统计计模型,以便便对非结构化化数据和分析析进行预处理理。请记住,设设置处理非结结构化数据时时的重要一步步。l 为外部数据设置置有关其保留留和使用的策策略和合规性性制度。l 定义数据归档和和清除策略。l 创建如何跨各种种系统复制数数据的策略。l 设置数据加密策策略。3.1.2.3 服务质量层此层复杂定义数数据质量、围围绕隐私和安安全性的策略略、数据频率率、每次抓取取的数据大小小和数据过滤滤器:l 数据质量n 完整地识别所有有必要的数据据元素n 以可接受的新鲜鲜度提供数据据的时间轴n 依照数据准确性性规则来验证证数据的准确确性n 采用一种通用语语言(数据元元组满足使用用简单业务语语言所表达的的需求)n 依据数据一致性性规则验证来来自多个系统统的数据一致致性n 在满足数据规范范和信息架构构指南基础上上的技术符合合性l 围绕隐私和安全全的策略 需要策策略来保护敏敏感数据。从从外部机构和和提供程序获获取的数据可可能包含敏感感数据(比如如 Faceebook 用户的联系系信息或产品品定价信息)。数数据可以来源源于不同的地地区和国家,但但必须进行相相应的处理。必必须制定有关关数据屏蔽和和这类数据的的存储的决策策。考虑以下下数据访问策策略:n 数据可用性n 数据关键性n 数据真实性n 数据共享和发布布n 数据存储和保留留,包括能否否存储外部数数据等问题。如如果能够存储储数据,数据据可存储多长长时间?可存存储何种类型型的数据?n 数据提供程序约约束(政策、技技术和地区)n 社交媒体使用条条款(参见  参考资料)l 数据频率提供新新鲜数据的频频率是多少?它是按需、连连续还是离线线的?l 抓取的数据大小小此属性有助助于定义可抓抓取的数据以以及每次抓取取后可使用的的数据大小。l 过滤器标准过滤滤器会删除不不想要的数据据和数据中的的干扰数据,仅仅留下分析所所需的数据。3.1.2.4 系统管理系统管理对大数数据至关重要要,因为它涉涉及到跨企业业集群和边界界的许多系统统。对整个大大数据生态系系统的健康的的监视包括:l 管理系统日志、虚虚拟机、应用用程序和其他他设备l 关联各种日志,帮帮助调查和监监视具体情形形l 监视实时警告和和通知l 使用显示各种参参数的实时仪仪表板l 引用有关系统的的报告和详细细分析l 设定和遵守服务务水平协议l 管理存储和容量量l 归档和管理归档档检索l 执行系统恢复、集集群管理和网网络管理l 策略管理3.2 功能应用前面提到的技术术架构的这些些层定义了各各种组件,并并对它们进行行分类,这些些组件必须处处理某个给定定业务用例的的功能性和非非功能性需求求。本文基于于层和组件的的概念,介绍绍了解决方案案中所用的典典型原子模式式和复合模式式。通过将所所提出的解决决方案映射到到此处提供的的模式,让用用户了解需要要如何设计组组件,以及从从功能角度考考虑,应该将将它们放置在在何处。模式式有助于定义义大数据解决决方案的架构构。利用原子子模式和复合合模式可以帮帮助进一步完完善大数据解解决方案的每每个组件的角角色和责任。3.3 原子模式对于大数据上下下文中经常出出现的问题,原原子模式 有有助于识别数数据如何是被被使用、处理理、存储和访访问的。它们们还有助于识识别所需的组组件。访问、存存储和处理来来自不同数据据源的多种数数据需要不同同的方法。每每种模式都用用于满足特定定的需求:例例如,可视化化、历史数据据分析、社交交媒体数据和和非结构化数数据的存储。可可以将多种原原子模式结合合使用,组成成一个复合模模式。这些原原子模式没有有进行分层或或排序。例如如,可视化模模式可以与社社交媒体的数数据访问模式式直接交互,可可视化模式还还可以与高级级分析处理模模式进行交互互。3.3.1 数据使用组件这种类型的模式式处理使用数数据分析结果果的各种方式式。数据使用用模式可以满满足几个需求求。3.3.1.1 可视化组件可视化数据的传传统方式以图图表、仪表板板和摘要报告告为基础。这这些传统的方方法并不总是是用来可视化化数据的最佳佳方式。大数据可视化的的典型需求(包包括新出现的的需求)如下下所示:l 执行流数据的实实时分析和显显示l 基于上下文,以以交互方式挖挖掘数据l 执行高级搜索,并并获得建议l 并行可视化信息息l 获得先进的硬件件,支持未来来的可视化需需求l 正在进行研究,以以确定人类和和机器如何使使用大数据洞洞察。这些挑挑战包括所涉涉及的数据量量,并且需要要将数据与上上下文相关联联。必须在适适当的上下文文中显示洞察察。l 可视化数据的目目的是为了更更容易、更直直观地使用数数据,因此报报告和仪表板板可能提供全全高清的观看看效果和 33-D 互动动视频,并且且可以为用户户提供使用应应用程序控制制业务活动和和结果的能力力。3.3.1.2 即席发现组件创建满足所有业业务需求的标标准报告往往往是不可行的的,因为企业业的业务数据据查询会有不不同的需求。用用户在查找特特定信息时,可可能需要获得得根据问题的的上下文执行行即席查询的的能力。即席分析可以帮帮助数据专家家和关键业务务用户了解业业务数据的行行为。即席处处理中涉及的的复杂性来自自多种因素:多个数据源可用用于相同的域域。l 单一的查询可以以有多个结果果。l 输出可以是静态态的,并具有有多种格式(视视频、音频、图图形和文本)。l 输出可以是动态态和交互式的的。3.3.1.3 数据转储组件在大数据的初步步探索中,许许多企业选择择使用现有的的分析平台来来降低成本,并并依赖于现有有的技能。加加强现有的数数据存储有助助于拓宽可用用于现有分析析的数据的范范围,包括驻驻留在组织边边界内外的数数据,比如社社交媒体数据据,它可以丰丰富主数据。通通过拓宽数据据范围,使之之包含现有存存储中的新事事实表、维度度和主数据,并并从社交媒体体获取客户数数据,组织可可以获得更深深入的客户洞洞察。但要牢记的是,新新的数据集通通常比较大,而而现有的提取取、转换和加加载工具可能能不足以处理理它。您可能能需要使用具具有大规模并并行处理能力力的高级工具具来解决数据据的数量、多多样性、真实实性和速度特特征。3.3.1.4 信息推送/通知知组件大数据洞察使人人类、企业和和机器可以通通过使用事件件通知而立即即采取行动。通通知平台必须须能够处理及及时发送出去去的预计数量量的通知。这这些通知与大大量邮件或群群发短信不同同,因为内容容一般是特定定于使用者的的。例如,推推荐引擎可以以提供有关世世界各地的庞庞大客户群的的洞察,而且且可以将通知知发送给这样样的客户。3.3.1.5 自动响应组件从大数据获得的的业务洞察,可可用于触发或或启动其他业业务流程或事事务3.3.2 数据处理组件无论数据是处于于静止状态还还是在运动中中,都可以处处理大数据。具具体情况取决决于分析的复复杂性,有可可能不需要对对数据进行实实时处理。这这种模式解决决了对大数据据进行实时、近近实时或批量量处理的方式式。以下高级的大数数据处理类别别适用于大多多数分析。这这些类别通常常也适用于基基于 RDBBMS 的传传统系统。惟惟一的区别是是庞大规模的的数据、多样样性和速度。在在处理大数据据时,要使用用机器学习、复复杂事件处理理、事件流处处理、决策管管理和统计模模型管理等技技术。3.3.2.1 历史数据分析组组件传统的历史数据据分析仅限于于预定义的数数据时间段,这这通常取决于于数据保留策策略。由于处处理和存储的的限制,超出出此时间段的的数据通常会会被归档或清清除。基于 Hadooop 的系统统和其他等效效的系统可以以克服这些限限制,因为它它们具有丰富富的存储以及及分布式大规规模并行处理理能力。运营营、业务和数数据仓库的数数据被移动到到大数据存储储,您通过使使用大数据平平台功能对它它们进行处理理。历史分析包括分分析给定时间间段、季节组组合和产品的的历史趋势,并并与最新的可可用数据进行行比较。为了了能够存储和和处理如此庞庞大的数据,您您可以使用 HDFS、NNoSQL、SSPSS® 和 InffoSpheere® BBigInssightss。3.3.2.2 高级分析组件大数据提供了很很多实现创意意洞察的机会会。不同的数数据集可以在在多种上下文文中存在关联联。发现这些些关系需要创创新的复杂算算法和技术。高级分析包括预预测、决策、推推理过程、模模拟、上下文文信息标识和和实体解析。高高级分析的应应用包括生物物统计数据分分析(例如,DDNA 分析析)、空间分分析、基于位位置的分析、科科学分析、研研究,等等。高高级分析要求求大量的计算算来管理大量量的数据。数据专家可以指指导您识别合合适的技术、算算法和数据集集,以及在给给定上下文中中解决问题所所需的数据源源。比如 SSPSS、IInfoSpphere Streaams 和 InfoSSpheree BigIInsighhts 等工工具提供了这这类功能。这这些工具访问问存储在大数数据存储系统统(比如 BBigTabble、HBBase,等等等)中的非非结构化数据据和结构化数数据(例如,JJSON 数数据)。3.3.2.3 预处理原始数据据组件大数据解决方案案主要由基于于 MapRReducee 的 Haadoop 系统和技术术组成,MaapReduuce 是开开箱即用的分分布式存储和和处理解决方方案。然而,从从非结构化数数据提取数据据(例如,图图像、音频、视视频、二进制制提要,甚至至是文本)是是一项复杂的的任务,需要要具有机器学学习能力并掌掌握自然语言言处理等技术术。另一个主主要挑战是如如何验证这些些技术和算法法的输出的准准确度和正确确性。要对任何数据执执行分析,数数据都必须是是某种结构化化格式。从多多个数据源访访问的非结构构化数据可以以按原样存储储,然后被转转化成结构化化数据(例如如 JSONN),并被再再次存储到大大数据存储系系统中。非结结构化文本可可以转换成半半结构化或结结构化数据。同同样,图像、音音频和视频数数据需要转换换成可用于分分析的格式。此此外,使用预预测和统计算算法的高级分分析的准确性性和正确性取取决于用来训训练其模型的的数据和算法法的数量。下面的列表显示示了将非结构构化数据转换换成结构化数数据所需的算算法和活动:l 文档和文本分类类l 特征提取l 图像和文本分割割l 关联特征、变量量和时间,然然后提取包含含时间的值l 输出的准确度检检查使用了混混淆矩阵(cconfussion mmatrixx)等

    注意事项

    本文(气象大数据技术架构思路39956.docx)为本站会员(you****now)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开