(大数据资料)H3C DataEngine Lion技术白皮书.pdf
《(大数据资料)H3C DataEngine Lion技术白皮书.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)H3C DataEngine Lion技术白皮书.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)H3C DataEngine Lion技术白皮书H3C DataEngine Lion技术白皮书Copyright 2016杭州华三通信技术有限公司 版权所有,保留一切权利.非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播.本文档中的信息可能变动,恕不另行通知.第 1 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书i目 录1 概述12 技术优势、特点12.1 技术特点 12.1.1 领先的分布式架构 12.1.2 线性扩展能力22.1.3 高可靠性42.1.4 良好的性能42.1.5 自动化运维42.
2、1.6 开放兼容43 功能介绍43.1 数据采集 43.2 格式解析 53.3 数据存储 53.4 数据检索 53.5 数据分析挖掘53.6 可视化53.7 告警53.8 分享64 关键技术指标 65 典型应用场景 75.1 使用场景 75.1.1 日常IT 运维76 硬件规格86.1 硬件要求 86.2 典型组网架构9第 2 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书11 概述概述运维行业现状(TODO)H3C DataEngine Lion运维大数据平台能够帮助运维人员从传统被动救火的运维方式中解脱,利用大数据技术做到精准、智能的运维,主要解决用户如下运
3、维难题:1)运维日志分散,定位问题需要单独登陆设备、系统去分析.一个简单问题定位原因可能会涉及系统众多,需要很长时间多部门人员沟通协调,Lion可以做到运维日志的集中管理.2)海量数据存储、检索问题,每天新增大量的日志数据,历史数据存储成本高,存了无法有效分析利用、带来价值,Lion做到了存储的弹性扩展以及高效检索.3)各种设备、应用提供的日志信息之间难以关联,一个问题的出现很可能从应用系统到硬件都有日志记录保存,利用Lion的机器学习、大数据技术能分析日志之间的关联性,可高效定位问题.4)问题事件难以提前预警,往往是出了问题再去分析定位,Lion利用丰富的机器学习算法,做到运维问题事件的智能
4、预警.5)报表统计需要手工操作,日志数据可视化程度不够,Lion集成丰富的可视化图表、仪表盘,让数据更生动,让用户更易发现日志数据的关联.2 技术优势、特点技术优势、特点2.1 技术特点Lion支持布式搜索,它的特点有:分布式,索引自动分片,索引副本机制,零配置,自动发现,restful风格接口等.支持对日志进行收集、分析,并将其存储供后续使用.提供的日志分析友好的Web界面,可以帮助您汇总、分析和搜索重要日志数据.2.1.1 领先的分布式架构H3C DataEngine Lion基于 ElasticSearch架构,提供了一个分布式搜索引擎架构.Lion可以扩展到上千节点来存储、处理PB级的
5、数据.分布式特性主要体现在:1、当文档数据存储到不同分片时,可以分散在多个节点中.2、分片会均匀的分配到各个节点,保证对索引建立、搜索的负载均衡.第 3 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书23、每个分片存在冗余副本,保证集群的可靠性.4、集群中任一节点收到请求会路由到数据对应节点.5、节点的增加或删除时,分片数据会做到无缝扩展、迁移.当数据量或查询压力超过单机负载时,需要多个节点来协同处理,所有节点构成集群来处理,其中有1个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的.Lion实现了去中心化,从外部来看集群,在逻辑上是一个整
6、体,你与任何一个节点的通信和与整个集群通信是等价的.当需要存储大规模文档时,由于内存、硬盘容量的限制,仅仅使用一个节点是不够的,Lion会把数据切分存储,每一部分都是一个单独的索引分片,每个分片可以存储在集群的不同节点上.当需要查询有多个分片构成的索引时,Lion会将查询发送到相关分片,并将结果合并.这些过程对具体应用而言是透明的,无需关心分片的存在.2.1.2 线性扩展能力所谓线性扩展能力,主要体现在两个方面:一个是集群部署规模可以线性扩展,另一个方面,随集群规模的扩展,其性能要能够线性或近似线性扩展.当数据量或者查询负载超过当前集群负载时,会增加新节点来解决,新的节点配置好正确的集群名称后
7、,会自动加入集群中来,并且Lion会重新平衡集群,转移一些数据到新加入的节点上.集群有两种自动发现策略:组播和单播Zen发现机制.当节点还未加入任何集群时,它会发出一个个多播的请求,这相当于通知所有可见节点和集群,它已经准备好加入集群了.当关闭默认组播方式后,可以使用单播方式,当节点不是集群中节点时,它会发送请求给所有节点表示已准备好加入集群了.集群单节点场景:默认情况,一个索引5个主分片,这里以3个举例,副本设置为1,对于单节点集群,如果节点故障,数据可能会丢失,集群不能正常工作.第 4 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书3图 集群单节点第二个节点
8、加入集群,新节点会将三个复制分片分配,如丢失任意一个节点,依旧可以保证数据的完整性.文档的索引将首先被存储在主分片中,然后并发复制到对应的复制节点上,确保数据在主节点和复制节点上都可以被检索.图 集群两节点集群节点继续横向扩展,第三个节点加入集群,分片会重新分配以做到负载均衡.6个分片的情况下,一般最多扩展到6个节点,每个分片独享硬件资源.第 5 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书4图 集群三节点2.1.3 高可靠性Lion的高可靠性利用副本机制来保证,每个索引分片创建冗余的副本,原始分片称为主分片,默认副本数为3(包含主分片),当主分片丢失或者所在
9、节点宕机,副本可以升为主分片,从而保证整个集群的高可靠性.2.1.4 良好的性能Lion具有良好的检索性能,支持全文检索功能.支持近实时的搜索效果,一般查询在毫秒级响应,亿级数据查询在秒级内响应.2.1.5 自动化运维2.1.6 开放兼容强大的数据处理和方便的扩展能力,提供接口,满足用户开发自定义应用,兼容第三方探针采集.3 功能介绍功能介绍3.1 数据采集支持采集服务器、网络设备、安全设备、操作系统、数据库、应用系统等日志文件;支持采集数据库访问日志;支持网络流量采集;支持设备性能指标采集;支持端口监听收集数据等,几乎支持全数据源采集.3.2 格式解析支持自动化解析常见类型的日志,如JSON
10、、Nginx、Log4j、XML等.第 6 页 共 11 页(大数据资料)H3C DataEngine Lion技术白皮书5支持配置解析规则对日志解析包含正则解析、KeyValue分解、数值型字段转换、url解码、时间戳识别、geo解析、字段值拆分、xml解析、自定义字典等.对于不能被自动识别的日志,会对其全文索引.3.3 数据存储采用分布式存储架构,节点可在线动态扩展增加存储容量,支持PB级以上海量数据存储,支持高可用、多副本机制、快照功能.3.4 数据检索1)支持全文检索功能.支持近实时的搜索效果,一般查询在毫秒级响应,亿级数据查询在1秒内响应.2)支持检索条件的载入、保存,灵活、复杂的条
11、件过滤.3)支持基于快速时间点、时间段检索.4)支持数据字段、事件字段的列表展示,支持字段别名功能.5)支持定时页面刷新结果,时间序列结果展示.6)支持自定义告警规则,智能预测发现问题,做到对告警事件及时响应.3.5 数据挖掘支持丰富的机器学习算法,能自我完善模型、训练数据.支持基于Spark、Storm等分布式计算框架,支持离线数据挖掘,实时数据分析,支持基于大数据的用户行为分析、多数据源关联分析.3.6 可视化1)提供了折线图、面积图、饼图、地图、区域图、表格、曲线图、柱状图、雷达图、标签云、桑基图、时间轴、热力图、雷达图、雷达扫描图等图表功能.2)基于已有搜索创建可视化、支持可视化的载入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据资料H3C DataEngine Lion技术白皮书 数据资料 H3C Lion 技术 白皮书
限制150内