ITSS问题管理程序.docx
一、目的问题管理的目标如下:1 .降低由问题引起的事件对业务的影响.被动性问题管理:对历史事件进行分析,找出其根本原因,并提出解决措 施或纠正建议方案2 .主动性问题管理:通过评估分析或隐患排查等方式,找出支撑业务系统 运作的基础设施、IT系统中的薄弱环节,并采取措施来防止或减少由于 该问题导致的事件的发生。二、范围适用于运维服务过程中通过对问题原因的识别、分析、管理直至关闭,使得对业务影响最小化的服务管理活动。本过程中所指的问题是指引发一个或多个事件的未知因素。问题通常具有如下特征:1 . 一组具有一定关系的已结束的事件;.没有解决方案的事件。问题的根本原因找出后即成为错误;许多事件往往是由一个问题引起的。三、问题概念问题应区别于事件,问题是共通性事件的引申,通过主动性分析和被动性管分析诊断问题问题分析员接受到派单后,应立即着手对问题进行调查和分析,提供问题临 时解决方案。确认问题根源问题分析员对问题进行分析和诊断,找出问题可能存在的原因。如果不能找 到问题根源,那么转入工程经理协调资源分析诊断问题。协调资源分析诊断问题工程经理协调专家对问题进行会诊,找出问题可能存在的原因并转入记录问 题根源。记录问题根源问题分析员对确认的问题的原因进行记录,并制定问题解决方案转入(3. 1.4) 问题解决。确认根本原因阶段应记录的信息包括:1 .问题原因描述;.问题状态(处理中)。5 .问题实施评估问题实施评估过程是问题得到解决后,应该遵循问题实施评估的具体过程, 图表4为问题实施评估流程图同题实施评怙3 13 1验证问题解决结果在问题的解决方案得到实施后,问题请求人对实施结果进行验证,以确认问 题得到妥善解决。如果问题请求人判断问题是正常解决,更新知识库。如果问题是通过变通方法解决,问题请求人判断是否接受,否那么重新分配问 题。关闭工单关闭后的问题即为“错误”,在问题被关闭的同时将问题以及相应的解 决方案应用到事件管理流程当中。该阶段应该记录的信息包括:1 .问题关闭时间;102 .问题关闭状态(已关闭)。6 .问题管理回顾组织回顾会议工程经理每季度组织相关人员召开问题流程管理回顾会议一问题预防及处 理联席会议。参会人员包括:工程经理、问题分析员以及其他相关人员。回顾内容问题预防及处理联席会议上,回顾的主要内容包括:1 .重大问题解决的过程及效果;.重大问题解决方案的有效性;2 .重大问题解决方案是临时措施还是永久的解决方案,如果是永久的解决 方案,那么添加到知识库中;.当前问题管理流程,使得流程评审小组清晰的了解当前流程的运转情况, 结合实际需求,评审该流程是否需要改进。如果需要改进,提出问题管 理流程改进建议,形成流程改进建议文档,提交至服务改进计划流程。回顾报告问题预防及处理联席会议结束后,所回顾内容形成重大问题回顾单,报 告给相关的领导。11六、问题管理过程的KPI为保证问题管理过程更好的得到执行,定义以下关键指标。问题管理经理应 每季度对所定义的指标进行统计和分析。问题解决成功率290%12理,来发现故障的根源并进行解决。角色和职责.工程经理1 .确定并协调必要资源来处理所有(潜在)影响服务级别的所有类型问题, 最小化问题的负面影响;.领导问题管理小组,确保员工的积极性、技能水平和绩效表现;2 .发现造成问题的可能原因,将问题分派给问题分析员(二线工程师);.跟踪问题解决的过程及结果,必要时进行升级以及问题升级后的协调工 作;3 .将关键问题的解决状态及时地通报给相应的人员和管理层,必要时与客 户方沟通确认解决方案;.确保制定清晰有效的工作流程和准那么;4 .确保所有相关人员都足够程度地引入到问题管理的流程中;.负责对问题管理流程的有效性和效率进行监控,并提供问题服务报告 在需要的时候做出改进;5 .当问题分析员不能查明问题根源时,及时协调其他资源进行问题的分析 定位。1 .问题分析员.问题分析员通常由技术工程师兼任;1 .接受来自工程经理分派或主动发现的问题;.定期回顾事件,并对事件趋势进行分析;2 .基于影响度/优先级和分类代码执行问题分析,在规定的时间范围内调 查可能的事件根本原因,测试解决方案,同时确保问题得以解决;.协调变更管理功能,实施解决方案;3 .不但使事件发生时把它的影响降到最小,还应根除事件的根本原因从而 防止事件的再次发生;.利用现有IT环境分析历史数据来改善IT系统和工作方法从而防止潜在 问题的发生;4 .在必要时修正事件或问题的影响度和分类编码;.在服务中断时,尽快提供临时解决方案,帮助客户尽快恢复正常工作状 态;5 .提供问题的正确状态、进展和历史信息;.问题处理员1 .问题处理员通常由技术工程师或服务工程师(在技术工程师的指导下) 兼任;2 .在服务中断时,尽快根据临时解决方案,帮助客户尽快恢复正常工作状 态;.按照问题解决方案解决问题,并记录实施过程。五、问题处理过程.问题处理概要流程从问题的生命周期出发,将问题管理过程分解为以下5个过程,形成问题管 理过程的概要过程。对该5个过程所包含的活动,将在后续的章节中做进一步的 细化和说明。图表1是问题处理概要流程图。1 .问题收集和记录收集问题和记录问题并设定问题优先级、分类等;2 .问题的识别和分派对问题进行识别,确认问题,并将问题安排给合适的问题分析员进行问题分 析;.问题调查与分析调查分析问题的根本原因,并根据问题分析的根本原因,提供问题解决方案 或变通措施;.问题解决根据问题分析的结果和问题解决方案对问题处理;3 .问题实施评估对问题实施后的效果进行评估;如果问题得到了解决,那么遵循问题关闭过程 结束该问题。mnvxt«,xi£«k*9图表1同区请求人J-IIftJCN一一 e. It一一一一一*工程鲤理问也分析M问的处理办M他通解/说明.问题收集和记录问题收集和记录过程是对如何收集和记录问题所进行具体的描述。问题的来源如下:1 .事件升级,没有根本解决的且二次发生的事件;.事件经理审核事件报告时,认为根本原因没有得到识别或解决的事件;2 .事件经理通过主动式分析(如事件发生的趋势),认为有必要作为问题进 行分析的异常现象;.变更失败后,可能需要生成一个问题进入后续的解决过程。问题登记单记录的基本信息应包括:1 .问题请求人;.问题请求日期;2 .问题分类;.紧急程度;3 .问题影响度.问题优先级4 .问题工程类型;.问题标题;5 .问题描述;.关联资产;6 .上传附件。3 .问题的识别和分派问题分类和分派过程是工程经理识别和安排相应的问题分析员以进行处理 的过程,参见图表2问题识别和分派流程图。问题识别与分派问翳求人问翳求人3.1.Z2iih 火 K图表2确认问题信息工程经理收到问题通知后,应与问题请求人进行沟通,确定问题性质,以安 排合理的资源对问题进行处理,并完善问题信息。进行关联工程经理判断此问题是否与其他问题相关,如果相关,那么进行问题关联,并 且更新问题相关信息。需要记录信息包括:1 .关联问题标题;.关联流程;2 .当前环节;.当前处理人;3 .关联方式。分派问题工程经理根据设置的问题分类和优先级,协调空闲的问题分析员进行处理, 并进行派单。为防止问题派单后被退单以及派单后问题分析专家未能及时获得派 单信息(如在开会或不在座位),建议:1 .当前每次在问题的分派前 通知被分派人员,同时发送短信和邮件;.如果发现人员安排紧张时,应优先安排优先级高的问题。派单后应在系统中记录的信息包括:1 .派单时间;.被派单人;2 .问题的状态。接受分配问题分析员接受到派单后,应立即着手对问题进行调查和分析。1 .如果问题派单错误,那么立即告知问题经理重新派单,并阐述理由。2 .如果接受该派单,那么调整问题状态。受单时应在系统中记录的信息包括:1 .受单人;.受单时间;2 .问题状态(已分派)。3 .问题调查与分析问题调查和分析过程是问题分析员接受派单,对问题进行分析和诊断的过程, 参见下列图表3问题调查与分析流程图。问也调宜与分析a 13 “火耳孙v11