《招商银行Tivoli集中监控平台案例介绍.pdf》由会员分享,可在线阅读,更多相关《招商银行Tivoli集中监控平台案例介绍.pdf(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 案例介绍-招商银行Tivoli集中监控平台 2009年3月 深圳市希格玛计算机技术有限公司 ShenZhen SIGMA C&D Co.,Ltd.(86-755)83749197 Copyright 2009 SHENZHEN SIGMA C&D Co.,Ltd All Rights Reserved 案例简介-招商银行 Tivoli 集中监控平台 目 录 目 录 1 项目背景.3 2 需求分析.3 3 方案设计.4 4 功能描述.6 4.1 资源监控.7 4.1.1 服务器监控.7 4.1.2 中间件监控ITCAM for WAS.9 4.1.3 数据库监控ITM for Database
2、.11 4.1.4 其它资源监控ITM UA.13 4.2 事件处理.14 4.2.1 TEC事件管理.15 4.2.2 短信报警.17 4.3 集中展现.18 4.3.1 TEP视图展现.18 4.3.2 报表系统.19 5 用户收益.24 6 公司简介.25 深圳市希格玛计算机技术有限公司 第 2 页 案例简介-招商银行 Tivoli 集中监控平台 1 项目背景项目背景 经过多年的建设和积累,招商银行 IT 系统已颇具规模,成为业界信息化水平最高、建设最快的金融单位之一。然而随着快速的 IT 业务的增长,信息中心积累了各类不同厂商、不同型号的设备和运行在此之上的各种数据库、操作系统、中间件
3、等,这样如何将这些 IT 资源进行有效的管理,建立一个高效的系统管理平台,保证计算机系统及应用系统的正常运行,并实现高效安全的运转是一个关键任务。当前招商银行运维管理主要依靠人工检测和监控,系统管理中服务器种类和数量较多,造成人力消耗过大,另外系统管理范围广,包括操作系统、数据库、中间件甚至大型主机,需要管理人员熟悉不同的管理平台和不同的管理技能,人工监控造成系统维护的不一致性、孤立性和封闭性,在加重管理员负担的同时也增加了故障发生的风险,阻碍了故障的及时解决。所以招商银行系统管理急需一个强有力的统一的管理平台,不仅能应对当前系统管理的需要,而且具有良好的可扩展性,使管理人员能根据需要方便地自
4、定义监控内容。2 需求分析需求分析 根据用户当期的状况和遇到的挑战,我们建议招商银行集中监控平台必须能够方便地对应用系统主机、中间件、数据库和应用进行监控,并根据监控数据提供必要的预警功能,监控过程的历史应该是可查询的并能够生成报表,用于向上级管理人员报告,便于领导层掌握 IT 系统整体的运维水平和工作考核,从而保证整个系统的高可用性和高可靠性,以集中统一的管理方式,高效率、反应灵敏的技术服务机制,标准化、自动化的管理流程达到提供优质的 IT 服务,更好地为招商银行的业务发展服务。需要满足:1、整体设备的管理:对涵盖各种类型的设备,包括各类型主机、数据库、中间件等进行统一的管理,另外还要考虑到
5、将来把管理扩展到存储、网络、机房等;2、数据库管理:能及时迅速地反映各种类型数据库的可用性和性能情况,深圳市希格玛计算机技术有限公司 第 3 页 案例简介-招商银行 Tivoli 集中监控平台 并给出详细预警处理,实时地监控到数据库的状况,并清晰地反映和数据库相关业务故障的拓扑线路;3、应用服务器的管理:能全面反映机器配置信息,能够对以 Websphere为主的中间件进行实时的监控、告警,帮助进行业务性能趋势分析等。根据对招商银行系统现状和需求的认证分析,集中监控平台需要实现:?IT 系统状态与性能监控?运行维护管理?统一事件管理?性能管理?故障管理?完善的报表系统 经过前期的产品选型和测试,
6、经过招投标和严格细致的供应商考察后,招商银行最终采用了 IBM Tivoli 解决方案,并选择了希格玛公司作为其集中监控平台项目的服务提供商。3 方案设计方案设计 通过对招商银行集中监控平台项目的需求分析,可以归纳为对 RS/6000 小型机、WAS 中间件、数据库(DB2、Sybase)和应用系统的监控,当上述相关的被监控的部件出现问题时,能够以多种方式报告给系统管理员,并在此基础上进行统计报表、决策分析等服务质量管理。因此其业务系统管理的目标在于提高整个系统的可靠性、可维护性,及时发现系统资源故障和性能故障,以此提高整个系统运维管理的服务效率和质量。基于以上的考虑,我们采用如下的系统整体架
7、构:深圳市希格玛计算机技术有限公司 第 4 页 案例简介-招商银行 Tivoli 集中监控平台 网络资源服务器数据库中间件应用软件操作系统空调/UPS等服务器管理中间件管理数据库管理网络管理应用管理环境设备管理网络资源服务器数据库中间件应用软件操作系统空调/UPS等服务器管理服务器管理中间件管理中间件管理数据库管理数据库管理网络管理网络管理应用管理应用管理环境设备管理环境设备管理事件管理/历史数据管理管理视图资源监控层数据处理层统一展现层资源监控层数据处理层统一展现层系统管理架构系统管理架构 整个管理系统的架构分为数据采集层(资源监控)、数据处理层(事件管理)、统一展现层(物理视图、逻辑视图、
8、报表系统)等几个层面,管理系统逐次递进、逐步深化。(1)数据采集层:对各类 IT 资源和应用进行监控,了解系统的各个部分分别发生了哪些情况,包括运行情况、性能情况,或者使用情况,采集性能和状态数据,并根据这些信息对异常状态和故障情况产生报警和进行记录。(2)数据处理层:数据处理层是整个管理系统的枢纽。它通过事件的规则对资源监控层产生的事件进行集中的收集、过滤、分析、自动处理和报警,并将事件传递给业务展现层和故障处理流程,因此居于核心的位置。同时也将 IT 系统的状态、性能和事件数据存储在数据仓库中。(3)统一展现层:统一展现层提供给管理员一个统一的管理控制台,集中展现招商银行 IT 系统的整体
9、状态和服务能力。根据以上的架构设计,本解决方案采用了如下的产品模块:?IBM Tivoli Monitoring?IBM Tivoli Monitoring for Databases 深圳市希格玛计算机技术有限公司 第 5 页 案例简介-招商银行 Tivoli 集中监控平台?IBM Tivoli Composite Application Manager for Application Server?IBM TIVOLI Enterprise Console?希格玛综合业务报表平台 4 功能描述功能描述 考虑到招商银行存在被监控系统跨网段、防火墙隔离的特殊环境要求,在系统部署上,采用了 HU
10、B TEMS+REMOTE TEMS 的多层结构,同时这种架构也有效地解决了今后南京/上海等外地分行系统纳入监控平台进行集中统一管理的问题。系统结构图如下:深圳市希格玛计算机技术有限公司 第 6 页 案例简介-招商银行 Tivoli 集中监控平台 4.1 资源监控资源监控 4.1.1 服务器监控服务器监控 利用 ITM 对 Windows、UNIX、LINUX 服务器提供的全面监控管理功能,实现了对服务器状态、性能和各类事件信息的集中监控。监控的资源主要包括:?UNIX 系统信息系统信息 包括虚拟空间利用率、页面读写错误情况、物理内存和虚拟内存使用情况、CPU 利用率、平均负载情况;?磁盘资源
11、监控磁盘资源监控 包括前十名的空间利用率、节点(i-node)利用率、磁盘利用率、磁盘读写繁忙程度等;?UNIX 进程状况进程状况 包括前十名最高的 CPU 利用率的进程、耗用内存最大的十个进程、进程利用情况列表等;?其它系统资源监控其它系统资源监控 包括磁盘性能、RPC 调用的性能情况、用户访问情况、服务器网络使用情况、文件情况等 效果示意图:深圳市希格玛计算机技术有限公司 第 7 页 案例简介-招商银行 Tivoli 集中监控平台 深圳市希格玛计算机技术有限公司 第 8 页 案例简介-招商银行 Tivoli 集中监控平台 4.1.2 中间件监控中间件监控 ITCAM for WAS 在系统
12、的管理中,中间件的可用性和性能的监控至关重要,通过 IBM Tivoli Composite Application Manager for Web Resources 来进行中间件性能监控和管理。对 WAS 的监控内容主要包括:1、获取中间件的重要性能指标、获取中间件的重要性能指标?交易吞吐量?应用服务器所在系统的 CPU 使用率?JVM 堆大小、JVM GC 次数/JVM 频率?应用服务器的会话数/用户数?应用服务器的数据库连接池列表、容量及使用率?应用服务器的线程池列表、容量及使用率?应用服务器上部署的应用列表?WAS 日志 2、对中间件资源使用的异常进行自动报警、对中间件资源使用的异常
13、进行自动报警?WAS 日志中有错误记录?数据库连接池线程超时?应用服务器不可用?无堆资源可用?应用服务器所在平台的系统 CPU 使用率过高?GC 过程消耗了过多的时间?线程池占用过高?能够对被管 WAS 对象进行启动停止等操作。深圳市希格玛计算机技术有限公司 第 9 页 案例简介-招商银行 Tivoli 集中监控平台 效果示意图:深圳市希格玛计算机技术有限公司 第 10 页 案例简介-招商银行 Tivoli 集中监控平台 4.1.3 数据库监控数据库监控 ITM for Database 数据库系统是业务系统的核心环节,Tivoli Monitoring for Databases提供了集成的
14、、自动化的数据库监控体系来帮助企业简化数据库的管理,实现对跨平台的数据库系统 24x7的自动职守,支持对于 Oracle、DB2、Informix、Sybase、MS SQL Server 等各种主流数据库软件的监控与管理。通过统一的Tivoli Enterprise Portal 界面来监控各种数据库的关键资源,并且为数据库提供了极为丰富的管理功能。通过使用 IBM Tivoli Monitoring for Databases 的最佳实践,数据库管理员就不会再遇到确定监视内容、监视时间以及如何解释和处理监视结果的两难局面,从而为数据库管理员留出更多的时间来集中解决更为复杂的业务关键型任务。
15、IBM Tivoli Monitoring for Databases 提供日常的、一致的监视,在数据库性能和客户信任度下降之前预见并纠正问题。例如,本项目对 DB2 数据库监控的主要 KPI 指标包括:?目录高速缓存溢出数?无效触发器数目?处于锁等待的应用程序百分比超过阀值?被拒绝的管道排序数的百分比超过临界阀值?缓冲池命中率低?辅助日志使用总日志空间百分比超过临界阀值?数据库排序溢出次数过多?受监视的 UDB 未处于活动状态?DMS 表使用空间百分比高?表空间状态异常?死锁数目?锁定升级次数?锁超时?缓冲池索引命中率低?缓冲池命中率百分比低于临界阀值?DMS 表已使用空间百分比超过临界阀值
16、 深圳市希格玛计算机技术有限公司 第 11 页 案例简介-招商银行 Tivoli 集中监控平台 效果示意图:深圳市希格玛计算机技术有限公司 第 12 页 案例简介-招商银行 Tivoli 集中监控平台 4.1.4 其它资源监控其它资源监控 ITM UA 在项目实施中,我们还利用 Tivoli Monitoring 提供的 Universal Agent来帮助招商银行对监控进行扩展,从而实现其作为通用监控平台的能力,通过采用 File Data Provider、Script Data Provider、Socket Data Provider等多种 UA 开发方式实现对 ITM 没有现成 Ag
17、ent 支持的资源信息监控,例如:?主机 errpt 日志?SNA 状态?关键端口?端口连接数?应用日志?主机资源状态监控?HA 状态?DB2 Diaglog SNA 状态监控效果展示:主机运行状态监控效果展示:深圳市希格玛计算机技术有限公司 第 13 页 案例简介-招商银行 Tivoli 集中监控平台 端口状态监控效果展示:4.2 事件处理事件处理 除了各种资源监控信息和数据,管理员总是不希望面对复杂的性能曲线进行管理,而有效的系统管理的核心也在于准确有效的问题判断和报警机制,这称为事件管理。系统管理员所面对的管理主题也往往是各类事件的处理。事件管理构建在所有系统性能管理之上,是系统可用性管
18、理的核心议题。在本次项目中,管理事件主要从以下几个方面产生:?ITM 产生的操作系统告警事件 深圳市希格玛计算机技术有限公司 第 14 页 案例简介-招商银行 Tivoli 集中监控平台?ITM 产生的数据库系统告警事件?ITM 产生的应用中间件告警事件?IITCAM 产生的告警事件?系统日志事件 通过事件集中后,不但日常监控系统的操作员可以大大减少,节约人力成本,而且便于实现集中报警,事件自动关联处理,集中故障处理和集中报表。4.2.1 TEC 事件管理事件管理 本项目中,采用了 Tivoli Enterprise Console(TEC)作为事件管理平台,通过集中收集、集中处理、状态同步、
19、规则检查和自动处理 5 个环节来实现对事件的机制能够处理。TEC 作为业界使用最为广泛的事件处理系统之一,拥有多种机制来满足企业级大容量事件处理的需要:事件采集事件采集 能够支持多种的事件采集方式,TEC 提供多种的事件适配器能够支持对SNMP 事件、主机系统日志事件(syslog)、第三方可集成产品管理事件的集成。TEC 提供了多种抗事件风暴的能力,通过内存缓存、硬盘缓存来建立事件缓存队列,从而防止管理事件的丢失。事件分析事件分析 TEC 独有的基于规则的分析引擎具有多重的事件关联分析能力,能够按照时间、事件属性、事件类别、来源进行跨资源的分析,帮助进行问题事件的查找。TEC 提供了多重的规
20、则定义方法,包括:?图形化的简单事件定义、过滤和处理?基于 SQL 的事件过滤条件设定?内置的事件关联模板,包括重复事件合并、事件合计阀值检查、基于集 深圳市希格玛计算机技术有限公司 第 15 页 案例简介-招商银行 Tivoli 集中监控平台 合的规则等。?编写复杂的跨资源的事件关联脚本 事件处理事件处理 TEC 的事件处理机制可以根据多种条件触发不同的处理方法,包括告警方式、自动脚本调用方式等。运行管理人员可以在 TEC 的事件管理窗口进行事件的交互式处理,从而可以通过手工方式对特定事件进行处理。TEC 支持将事件送到故障管理流程平台中。事件查看事件查看 运行管理人员可以分成不同的组,每个
21、组可以查看、处理不同类型的事件,从而进行分区域管理。运行管理人员可以使用 TEC 的 Java Console 实现从远程来访问 TEC 服务器,从而实现方便的管理。效果展示:深圳市希格玛计算机技术有限公司 第 16 页 案例简介-招商银行 Tivoli 集中监控平台 4.2.2 短信报警短信报警 本项目中我们还开发了短信报警系统接口,可以根据用户需要,定制不同短信告警条件和告警内容,系统自动定义策略自动将告警事件发送到制定的用户手机上。事件产生 事件控制台 事件自动导出短信平台短信平台短信发出事件 事件被接收 深圳市希格玛计算机技术有限公司 第 17 页 案例简介-招商银行 Tivoli 集
22、中监控平台 情景过滤设置:短信内容定制:4.3 集中展现集中展现 4.3.1 TEP 视图展现视图展现 展现层在资源监控和事件管理的基础上,为不同的人员角色和管理需要提供灵活多样的展现方式。我们采用了 IBM Tivoli Monitoring 提供的管理门户 Tivoli Management Portal 制定了各种不同的物理视图,提供了统一展现 IT 系统运行状况的控制台,还针对招商银行应用架构、业务组成等信息建立了逻辑管理视图。效果展示:深圳市希格玛计算机技术有限公司 第 18 页 案例简介-招商银行 Tivoli 集中监控平台 4.3.2 报表系统报表系统 本项目根据招商银行对报表的
23、要求,在希格玛综合报表管理平台基础之上,定制开发了满足招行集中事件管理平台的报表系统。系统功能图:深圳市希格玛计算机技术有限公司 第 19 页 案例简介-招商银行 Tivoli 集中监控平台 功能效果图例:全局控制台:在全局范围内对所有业务系统的健康状况进行监控,对全局事件走势进行监控,以及对全局活动事件滚屏显示。深圳市希格玛计算机技术有限公司 第 20 页 案例简介-招商银行 Tivoli 集中监控平台 系统监控状态:以单个业务系统为单位,以列表和图标的形式,展示业务系统的健康状况。性能走势:显示当前操作系统的 CPU 使用率和内存使用率在过去 24 小时以内的使用情况。快捷查询:系统定义了
24、下列 7 种事件快速查询模式。事件明细查询:通过组合检索条件,以列表的方式,呈现当前的事件列表,深圳市希格玛计算机技术有限公司 第 21 页 案例简介-招商银行 Tivoli 集中监控平台 支持表头排序。系统性能:侧重于历史性能数据的展现,在这张复合报表中可以呈现某个业务系统下一个或多个配置(服务器、数据库或 WAS)的资源在过去某段时间内使用情况,强调纵向对比和横向对比。深圳市希格玛计算机技术有限公司 第 22 页 案例简介-招商银行 Tivoli 集中监控平台 自定义查询:允许组合一系列的查询条件进行查询统计,这些组合条件可以保存为一个(默认)模式;模式化查询允许您按预先已定制了的模式进行
25、快捷查询。服务器信息:呈现ITM中受监控的操作系统的资产信息,它是从Warehous中同步过来的。定时报表:系统提供模式报表的定期生成功能,方便用户每天、每周、每月报表分析,系统支持不同周期的定时报表。深圳市希格玛计算机技术有限公司 第 23 页 案例简介-招商银行 Tivoli 集中监控平台 报表查询:仿 Windows 文件管理方式,分层搜索和浏览属于您的定时报表,并提供下载。5 用户收益用户收益 通过本项目的实施,实现了招商银行对 AIX 主机、WAS 中间件和 DB2、Sybase 数据库的性能与状态的集中监控管理,并通过 UA 开发、TEC 规则定义、短信告警、视图定制和报表开发满足
26、了运维管理中对事件的快速定位处理和面向业务的集中展现,在生产环境中部署了对 80 余台 RS6000 服务器、40 余套数据库系统和 10 余套中间件系统的监控应用。达到了如下的建设目标:?实现了招行 RS6000 系统的集中监控和统一管理;?及时发现故障:变被动管理为主动管理;深圳市希格玛计算机技术有限公司 第 24 页 案例简介-招商银行 Tivoli 集中监控平台?实现了事件集中收集、集中展现和自动化处理;?自动化预警机制,自动短信发送告警信息,及时通知系统管理人员;?提供业界最强的故障事件相关性处理引擎,快速确定故障的原因;?深入的应用诊断能力,有效帮助开发人员诊断用户应用的缺陷;?掌
27、握完整运行情况,提高容量管理水平?准确把握性能趋势、故障发生/解决情况?部署多类监控代理,确保监控系统安全、稳定、易扩展;?实现了集中业务管理平台实时性能监控和智能报表分析;?全行统一的监控平台,加强全局运维管理;?对服务台(ITIL)提供有力的平台支撑。6 公司简介公司简介 深圳市希格玛计算机技术有限公司成立于 2001 年,注册资金 5460 万元,是中国卓越的 IT 综合服务提供商,现已形成“软件开发、系统集成、产品增值分销”三大主营业务,专业从事高端行业用户的应用软件开发、系统集成服务以及国际知名品牌 IT 产品分销与增值服务。希格玛公司始终致力于为客户的商业战略、业务拓展、绩效提升和
28、服务创新提供一流的解决方案和端到端服务,是一家综合实力雄厚、具有高度诚信意识的新型高科技企业。希格玛公司在中国地区拥有多年的 IT 行业技术服务经验,在金融、电信、制造、能源、交通、电力、教育、政府及大型企业等诸多重要领域内,拥有广泛深厚的客户基础,业务和服务网络覆盖整个中国地区,自成立以来,公司始终保持高速稳定的业绩增长。希格玛公司多年来的突出成绩得到了政府部门和社会各界的充分肯定,自成立以来分别获得国家信息产业部颁发的计算机信息系统集成二级资质、广东省计算机信息系统安全服务资质、ISO9001:2000 国际质量管理体系认证等多项资格认证,是深圳市高新技术企业、深圳市软件企业、深圳市软件行
29、业协会会员单位。公司长期以来注重技术与产品应用的结合,研发的多项科技产品均荣获政府科技基金奖励。希格玛公司始终坚持“技术创新、服务至上”的经营理念,不断进取,开拓 深圳市希格玛计算机技术有限公司 第 25 页 案例简介-招商银行 Tivoli 集中监控平台 创新,以优质的专业技术服务,帮助客户规划、实施及管理企业 IT 系统;同时,凭借敏锐的市场洞察力、丰富的行业经验、出色的整合服务,以达成“信息化平台建筑大师,信息化管理服务专家”为目标,为客户提供一流的顾问咨询、规划设计、系统集成、软件开发和增值服务,业务范围包括:企业统一信息管理、知识门户、业务集成、数据整合、商业智能等具有自主知识产权的
30、应用解决方案以及主机存储、智能网络、信息安全、业务连续性等系统集成建设服务,帮助客户把信息技术应用转化为战略资产,充分挖掘信息技术的能量,实现业务创新和优势提升,获得了广大客户的一致赞誉。希格玛公司凭借雄厚的实力、一流的诚信和精锐的技术团队,与众多世界级著名 IT 厂商建立了长期的战略合作伙伴关系。作为厂商服务的延伸,帮助客户认知并深化理解厂商产品,以多产品、跨平台的技术服务能力,为客户提供全方位的高效、安全、个性化的产品增值服务;成为 IBM 公司全线软件产品及相关服务之中国地区总代理(VAD)及最佳解决方案提供商和金牌技术服务提供商,在IM、Websphere、Tivoli、Lotus 等
31、各条产品线上为客户提供优质的专业服务。同时,公司也是 HP、ORACLE、EMC、CISCO、Symantec、Microsoft、H3C 等世界知名厂商的核心合作伙伴。希格玛公司一贯注重人才的培养与储备,目前员工有170 多人,其中深圳总部 120 多人,凝聚着一批具有国际化背景和本地化经验的优秀人才,塑造了一支开拓敬业、经验丰富、技术过硬的技术服务队伍,众多技术骨干均获得了 PMP、CCIE、CCNP、Oracle DBA、MCSE、SCEA、SCJD、ICS、ICATE、CISSP 等专业资格认证。希格玛公司的客户遍及全国,公司除深圳总部外,还在北京、上海、广州、天津、苏州、福州、南宁、重庆、长沙等重点城市与地区设有分支机构,建立了遍及全国的本地化营销与支持服务网络,及时响应客户需求,为客户提供优质、规范、高效的技术支持和售后服务。希格玛公司的优势不仅在于领先技术和专业团队所打造的杰出方案和服务能力,更在于积极创新和遵守承诺。展望未来,希格玛公司将一如既往地坚持开放、合作、诚信与共赢的原则,竭诚为客户提供最优质的产品与服务。深圳市希格玛计算机技术有限公司 第 26 页 案例简介-招商银行 Tivoli 集中监控平台 持续推动中国信息产业的发展,为客户提供全方位的 IT 服务,是希格玛公司始终不渝的使命与追求。深圳市希格玛计算机技术有限公司 第 27 页
限制150内