IT运维管理解决方案V1.0(29页).doc
《IT运维管理解决方案V1.0(29页).doc》由会员分享,可在线阅读,更多相关《IT运维管理解决方案V1.0(29页).doc(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-IT运维管理解决方案V1.0-第 29 页系统运维管理整体解决方案目 录第一章项目概述4第二章监控技术方案51系统总体框架设计51.1设计原则51.1.1管理系统自动化51.1.2管理系统化51.1.3管理系统实时性61.1.4管理系统简单直观性61.1.5管理系统对资源的占用61.1.6管理体系的开放性61.1.7管理系统的安全性61.1.8管理系统的扩展性71.2方案概述71.2.1总体结构71.2.1.1ITM架构81.2.1.2TPC架构101.2.1.3ITCAM架构101.2.1.4Netcool网络及事件管理平台111.2.1.5报表系统架构111.2.2架构分析122项目实施
2、技术方案122.1监控功能122.1.1与事件管理平台整合122.1.2用ITM实现对操作系统的监控132.1.2.1磁盘监控:132.1.2.2文件监控:142.1.2.3网卡142.1.2.4NFS统计142.1.2.5RPC统计142.1.2.6进程152.1.2.7CPU152.1.2.8系统属性152.1.2.9用户属性162.1.3用ITM实现Windows平台的监控162.1.4用ITCAM For database实现对Oracle、SQL等数据库监控182.1.4.1ITCAM实现Oracle数据库监控182.1.4.2ITM实现SQL Server数据库监控212.1.5用
3、ITCAM 实现对WebSphere、Tuxedo的监控222.1.6用TPC实现对存储的监控242.1.7事件管理实施252.1.8报表管理实施252.1.8.1报表展现262.1.9数据采集频率272.1.10报警处理282.1.10.1报警分级282.1.10.2报警方式282.2分布式支持282.3系统安全性292.4扩展接口292.4.1与Tivoli其他产品的接口292.4.2二次开发的接口292.4.3通用代理(Universal Agent)292.5性能分析302.6方案总结312.7本方案的优势31第三章IT运维流程管理方案324.1需求分析324.2流程设计334.3 T
4、ivoli Service Request Manager的流程实现334.3.1Tivoli Service Request Manager支持的管理流程334.3.2管理对象分类和管理条目定义334.3.3服务申请344.3.4突发事件管理354.3.5问题管理364.3.6变更管理374.3.7配置管理384.3.8服务水平管理384.4 Tivoli Service Request Manager的技术实现394.4.1 Tivoli Service Request Manager体系架构39第一章 项目概述客户IT环境复杂,IT资源类型众多,维护难度高,亟需建立一个集中的运维监控体系
5、。以达到IT资源的集中管理、综合分析,提高工作效率和运维质量的目标。项目建设的整体目标为: 整体规划、分布实施、重点突破,务求实效,作为整个系统与网络监控平台建设的知道思想; 采用成熟的技术,配置要平衡; 具有良好的稳定性、高效性、安全性、灵活性; 具有良好的开放性,有较好的兼容能力; 具有较强的扩充能力; 需要能保护现有投资。总体需求分析包括: 监控:主机、存储、网络、应用(数据库、中间件),故障告警、性能分析、自动发现 2.服务流程:服务台、事件管理、故障管理、变更管理、发布管理、配置管理、知识库 3.多维度展现: 4.报表:第二章 监控技术方案1 系统总体框架设计1.1 设计原则客户信息
6、系统的管理必须采用有效的方法,在客户信息系统整个范围内实施管理策略和流程。客户信息系统的管理体系侧重在如何提供一个适合客户信息系统的低风险的IT管理模式,设计、建构、实施一个统一、集成并可扩展的管理结构,实现对复杂的计算机系统有效的管理。客户信息系统面对的是复杂的管理对象和多种管理需求。如果没有一套统一、集成的管理系统,在网络、系统和服务发生变化时,或者管理任务发生变化时,将可能导致管理体系大的调整,管理员可能需要花费很长时间和精力重新学习新的管理技能,从而导致管理效率的下降。最终将导致管理工作实施的周期加长,管理错误增多。统一和集成的管理将帮助最好的利用管理员的技能和精力,对客户系统进行高效
7、、准确的管理。根据客户信息系统平台建设需求和我们的经验,在设计信息监控平台时应满足以下原则:1.1.1 管理系统自动化对于客户信息系统而言,建构在管理平台上的,统一、集成的管理模式可以降低管理系统维护的费用和风险,主要体现在: 能够识别出管理复杂系统存在的困难和长远发展的问题,从而得到避免,防止用户重复投资 减少对将各种单点管理工具勉强组合在一起工作,以满足管理工作的需要 避免重复的管理工作,减少管理功能上的重复 管理平台可以实现各管理应用间的通信,以更好的解决问题 自动化管理减少管理员维护工作量,可以在统一平台上完成自动管理和监控,从而提高管理效率。1.1.2 管理系统化该平台要对客户信息系
8、统进行综合管理。系统的构成层次从下至上为:物理网络层、系统层、数据库层及应用层,只有做到对所有资源的统一管理,才能全面的管理好系统资源。任何管理上的遗漏,都将成为系统故障出现的隐患。同时在单一管理环境下,实现对所有IT资产的集中化管理,并且对所有的平台都有统一的操作界面及管理, 简化操作。 全面的管理,提高客户信息系统的整体可用性。 减少系统管理人员对问题的定位时间。1.1.3 管理系统实时性IT系统管理平台的监控对象是重要的IT资源,这些IT资源承载着多个关键的业务系统,对于监控系统来说,要在系统发生问题时实时的捕捉,确保信息的实时、完整。1.1.4 管理系统简单直观性系统应采用直观监控界面
9、,并采用直观、清晰的展现形式;同时系统还应具有操作简便、使用方便的功能。1.1.5 管理系统对资源的占用在实现管理的同时,必然会占用一定的网络系统资源,如何尽量减少资源的占用,是实现有效的管理系统的重要因素。因此在IT系统平台的选择上,需要管理平台对资源的占用最少,尽量采用单一代理,轻客户端程序,以减少对系统资源的占用。同时管理平台需要具有分布式结构,以减少管理对网络资源的占用。1.1.6 管理体系的开放性管理系统的开放性,是设计客户监控系统的一个原则。管理系统需要符合业界标准,以实现对各种资源的统一管理和与其它管理软件的集成。同时管理系统需要开放开发接口,以方便客户扩展管理功能。 该系统管理
10、需要基于开放的管理平台,遵循业界标准,并提供管理接口: 网络管理基于SNMP标准网管协议 系统管理平台基于面向对象标准:Object Management Group(OMG):Object Request Broker ArchTECture (CORBA) 支持第三方厂商的应用集成,为系统管理的选型提供更高的灵活性 开放的API支持用户应用软件的集成,为系统管理的内容扩充提供发展余地1.1.7 管理系统的安全性管理系统自身的安全性是保证管理工作正常进行的关键因素,因此在设计监控系统时,充分考虑了管理系统的安全性,包括: 提供管理工作的安全审计控制和日志记录 提供方便维护的安全通信结构,如信
11、息的加密 提供完整的策略和框架,并能适应组织的变化,灵活地设定管理人员的角色及权限客户系统监控需要管理平台具有优秀的体系安全管理,以保证管理的安全。1.1.8 管理系统的扩展性该监控系统平台规模会随着网络、系统、应用的扩展而扩展,因此选择的信息运维平台的扩展性对保护投资有重要意义。扩展性主要体现在: 管理功能的扩展 管理范围的扩展客户监控系统平台体系建立在企业级管理平台基础之上,具有优秀的扩展性,用户可以在需要时增加管理模块,扩展管理节点,保护现有网络系统以及应用管理投资。1.2 方案概述1.2.1 总体结构IBM Tivoli管理总体架构如下:最底层为管理对象层,包括数据中心内部的各种被管理
12、对象。中间为采集层,负责管理数据的采集,一般采用专用的协议和技术。在上层为数据处理层,主要为集中的告警信息、集中的性能数据和集中的配置信息管理最上层为集中展现层,展现数据中心的实时和历史运行状况,通过个性化的界面提供给不同层面的管理人员。服务流程层则负责管理运行流程的建立、运行和落地实现。在数据采集层,分别采用不同的技术来管理不同的IT资源:管理对象采用技术IBM产品服务器和操作系统CORBA和运行日志文件Tivoli Monitoring存储SNIA协议和syslogTivoli Productivity Center数据库、中间件产品自身接口或者标准协议ITCAM产品家族网络Syslog、
13、SNMPOmnibus下面就每个产品的具体实现进行说明:1.2.1.1 ITM架构Tivoli Monitoring v6 基于CORBA版本v2.5实现。Tivoli Monitoring v6 主要逻辑部件: 管理服务器 Tivoli Enterprise Monitoring Server 管理网关 Hub Tivoli Enterprise Monitoring Server 管理代理 Tivoli Enterprise Monitoring Agent 展示门户 Tivoli Enterprise Portal Server 数据历史保存 Tivoli Data Warehouse对
14、于分布式环境,可以通过Remote TEMS来实现高度的扩展性ITM6.1与其他各tivoli产品的关系图如下:由上图可以看出,ITCAM产品可以作为一个agent直接和TEMS联系。1.2.1.2 TPC架构TPC为客户提供完整的存储基础架构-包括磁盘,数据和光纤网络-提供了一套管理,配置及分析工具。下图举例描述了一些可管理的组件。 通用代理程序为应用程序特定代理提供了一个平台。 根据子代理所使用的任务,通用代理将被选择安装至应用服务器,桌面PC机,或笔记本上。1.2.1.3 ITCAM架构Tivoli Composit Application Manager基于Tivoli Monitor
15、ing的底层实现技术,实现对数据库、J2EE服务器、应用服务器等的中间件和应用的监控。1.2.1.4 Netcool网络及事件管理平台 Netcool/OMNIbus 提供了业务最为强大的事件处理能力使IT管理人员更高效地进行原始数据的访问、处理和显示。通过增加智能化来提高事件分析功能,该功能具备先进的程序语言和数据触发器,从而允许进行批处理和更复杂的数据处理操作,这为先进的商业服务管理和服务质量管理提供了一个坚实的基础。Netcool/OMNIbus 应用软件包括一个成品软件模块库,从安全、声音和IP、DSL/宽带、无线、转换器和路由器、企业管理系统和应用软件等超过一千个环境中收集并整理错误
16、信息。Netcool/OMNIbus居于各类Netcool解决方案的核心,包括那些商业服务管理、服务质量管理、安全管理,以及先进的关联和诊断Netcool解决方案。Netcool/OMNIbus还为IT管理团队提供有关其基础架构和业务的重要信息,以及Netcool套件中那些备受赞誉的功能,包括可扩展性、覆盖面、适应性,还有已成为实时错误管理解决方案的公认标准的快速部署能力。Micromuse公司首席技术官Craig Farrell 表示:“Netcool/OMNIbus产品以经被全球范围内超过一千八百家用户选中,作为其Netcool解决方案的一部分,为大型企业和服务提供商提供安全、可升级的管理
17、骨干。Netcool/OMNIbus 增强了我们行业领先的可扩展性、高效率和性能,并针对多区域服务管理提供更多的功能性,内建更多操作智能标准,从而保持了我们的行业领先地位。这些提升能使IBM的客户实现更高的操作效率,并更为高效地访商业服务管理数据。”1.2.1.5 报表系统架构数据展示平台从各管理模块收集性能数据,其中,主机系统运行监控、中间件运行监控、数据库运行监控数据从IBM Tivoli系统数据库中获取,并汇总到本系统的报表统计模块。报表统计模块包含实时报表、历史报表、运行月报、趋势报告、比较报告、主机健康报告子系统,可对监测数据实时统计和分析,并出具分析报告。并根据实际情况可以以曲线、
18、饼图、柱图、表格等形式进行展示,并可以根据用户需求把巡检性能报告定时发送到管理员的邮箱中。该系统可以根据管理员的需求设定不同用户以及不同的访问权限。1.2.2 架构分析由于客户系统监控规划的监控对象估计在100台以上,考虑到Tivoli监控服务器HUB TEMS(Tivoli Enterprise Monitoring Server)负载会比较大,我们会采用Remote TEMS来分担负载。可以考虑按照机房来规划remote tems。ITM OS agent、ITM for Message and Collaboration、ITM for Database agent、ITCAM For
19、Web Resource agent先连到remote tems,然后由remote tems去和hub tems通信,再由tivoli enterprise portal server进行展现。这样的设计,一方面方便了各机房系统管理员的维护工作;另一方面,HUB TEMS的负载减小很多,故可以不用对HUB TEMS做failover,减少了一台PC服务期的采购,为客户节省了成本。每个Agent配置primary remote tems和secondly remote tems。正常情况下,agent和primary remote tems通信,当primary remote tems出现问题
20、的时候,agent会自动连接到secondly remote tems。这样的设计,可以保障agent和hub tems的通信,相当于是做了remote tems的failover。由于历史数据可以存放在agent端,采集经常也是由agent自己驱动,所以当TEMS出现问题的时候,数据采集还是正常进行,不会出现历史数据丢失。2 项目实施技术方案2.1 监控功能2.1.1 与事件管理平台整合对于应用系统来说,网络、设备、各种分布式的系统、数据库系统、中间件、各种应用程序都会产生各自的事件,在系统出现故障时,故障信息通过事件的方式显示在管理员的控制台上。对于大型网络系统,一个系统管理员往往要面对成
21、百上千个不同的事件,负担很重,而且,由于事件量大,关系不清楚,管理员很难在众多事件中分出事件的重要程度,难以把重点放在对关键事件上,同时,也难以对问题进行准确的分析。由于各种事件,如网络、系统、数据库、应用的事件之间有相关性,因此对事件进行统一处理可以大大提高管理效率,加快故障分析定位和故障处理,降低由于系统故障带来的损失。IBM Tivoli软件提供专业的事件故障管理工具IBM NetCool Omnibus为管理员提供企业统一的事件管理控制台,对来自各种管理应用的事件和故障进行统一处理,并且提供全周期的自动化和事件控制。包括:事件集成-一个灵活且可扩展地从分布式环境中各个信息源收集和集成消
22、息及事件的事件集成机制,专门收集网的IT环境产生的事件。使管理员只需要面对一个事件控制台,就可以查看网络中发生的所有事件。同时,事件可以按照来源、类型进行分组,管理员可以方便的进行查看。事件处理-对于各种信息事件进行处理。包括对事件进行过滤,滤除某些不重要的设备的不重要的事件,避免事件风暴的产生,减轻管理员的工作量。同时Omnibus提供强大的事件相关处理机制(Event Correlation),管理员可以定义事件处理的规则、流程,在收到事件后,会自动经过流程处理,将多个不同事件之间的相关性进行分析,将根源事件显示到控制台上。管理员可以通过定义不同的事件处理流程,完成故障的定位,相关事件的分
23、析,大大提高事件处理的效率。事件响应-一个通过从中央服务器发送和控制分布式应答作为系统事件应答的分布式自动响应引擎,负责根据对各种事件分析的结果实现对远程分布式系统进行控制。管理员可以定义在收到相应事件时的反应方式,如声电报警、执行预定义的程序、重新启动出现故障的程序等自动化处理方式,或者将本地无法处理的故障传送给上级管理中心需求帮助。事件的自动化处理可以减轻管理员的工作量,同时提高对故障的响应速度。利用Omnibus提供的大量的事件收集Adapter可以将第三方的告警信息方便地传送到Omnibus中,进行集中管理,充分发挥Tivoli对系统的管理能力,同时也使整个系统的管理更统一。事件存放在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 管理 解决方案 V1 29
限制150内