Hadoop大数据平台方案课件.pptx
《Hadoop大数据平台方案课件.pptx》由会员分享,可在线阅读,更多相关《Hadoop大数据平台方案课件.pptx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2Hadoop大数据大数据平台建设方案平台建设方案C时时代代24小小时时在在线线(Connected 24 hours Era)全方位网全方位网络络覆盖覆盖2C时时代代带带来数据的爆炸性增来数据的爆炸性增长长3通俗的描述通俗的描述:Big Data大数据大数据(Big Data)是大交易数据是大交易数据,大,大交交互数互数据据和大和大数数据据处处理理的的统统称。称。在在线线交交易易处处理理(OLTP)在在线线分析分析处处理理(OLAP)&数据数据仓库仓库设设备备社交社交媒体媒体数数据据其他其他交互交互数数据据科学科学、基因、基因机器机器/设备设备大交易数据大交易数据大交互数据大交互数据大数据大
2、数据处处理理大数据集成大数据集成详细详细呼叫呼叫记录记录、图图 像,点像,点击击流数据流数据4我我们们需要合理疏需要合理疏导导和利用大数据和利用大数据5各种各各种各样样的数据和的数据和标标准准S S服务资料库平面文件和文档交互数据行业标准XML最广范围的大数据定位定位名称名称 =值值/限定限定限定限定社交设备/传感器 科学生产力直观解析环境预定义转换Any DI/BI architecturePIGEDWMDM19hadoop dt-hadoop.jar My_Parser/input/*/input*.txt1.在 HParser 可视化工作室中定义解析器2.在 Hadoop 分布式文件系统
3、(HDFS)上部署解析器3.运行 HParser 提取数据,并在 Hadoop 产生表格格 式在在 Hadoop 上解析和准上解析和准备备数据数据工作原理是怎工作原理是怎样样的?的?20金融保险B2B 标准SWIFT MTDTCC-NSCCUNEDIFACTSWIFT MXACORD-AL3EDI-X12NACHAACORD XMLEDI ARRFIXEDI UCS+WINSTelekursEDI VICSFpMLRosettaNetBAI V2.0Lockbox医疗保健OAGICREST DEXIFXHL7TWISTHL7 V3其他UNIFI(ISO 20022)HIPAASEPANCPDP
4、IATA-PADISFIXMLCDISCPLMXMLMISMONEIM基于简单示例 的可视化增强 和编辑功能使用业务(行业)术语和定义做出的定义增强的验证功能所有版本的所有消息的现成转换 交 付的更新和新版 本工作效率:数据工作效率:数据转换转换工作台工作台21资资料料库库Map-ReduceHadoop创建/运行配置文件发现 Hadoop 数据属性 配置文件自动转换成 Hadoop 查询/代码(Hive,MapReduce 等)在在 Hadoop 上上本地本地执执行行通过到 Hadoop 的本地连接导入元数据(Hive、HDFS、Hbase 等)通过浏览器或 Eclipse 客户检 查和共享
5、结果单单一表格一表格/数数据据对对象象交叉表格交叉表格/数数据据对对象象数数据域据域发发现现HIVEHDFSHBase132发发现现 Hadoop 问题问题/异常异常22客客户户标标识识示示例例国家国家/地地区区代代码码示例示例3.追溯分追溯分析(析(Hadoop 数据)数据)2.值值和和 模式模式分析分析 Hadoop 数据数据1.探探查查统计统计数据:数据:最小最小值值/最大最大值值,空,空值值 推推导导的的数数据据类类型型等等邮邮政政编编码码示示例例追溯实际数据值来检 验整个数据集中的结 果,包括可能的重复值和模式频率与不一 致的/脏数据或意外模 式隔离Hadoop 数据探查结果 通过浏
6、览器接触企业中的 任何人员标识数据中的异常和 反常现象的统计数据Hadoop 数据探数据探查结查结果果23Hadoop 数据域数据域发现发现寻寻找找 Hadoop 数据的功能意数据的功能意义义1.利用 INFA 规则/mapplet 识别Hadoop 数据的功能意义敏感数据(例如 SSN、信用卡号 等)债债务务和合合规规性性风险风险?PHI:受保受保护护的的健健康康信息信息 PII:个个人人识识别别信息信息 可可扩扩展展到到查查找找/发发现现任任何何域域类类型型2.查看/共享 Hadoop 中包含 的数据域/敏感数据的报告。追溯了解可疑数据值的能力。2425保保护护敏感敏感数数据据数数据据脱密
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 数据 平台 方案 课件
限制150内