运维应急响应管理制度0803.docx
《运维应急响应管理制度0803.docx》由会员分享,可在线阅读,更多相关《运维应急响应管理制度0803.docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除应急响应管理制度山西精英科技股份有限公司版本记录目录1 目的52 术语定义与引用标准52.1术语定义52.2引用标准53 适用范围64 工作原则64.1统一指挥、有效组织64.2突出重点,加强演练64.3技术支撑,健全机制65 风险评估65.1系统重要性评估75.2影响度评估75.3发生几率评估75.4发生时段评估85.5风险等级评估85.6进行风险评估96 事件分级96.1信息系统重要性96.2信息系统服务时段106.3事件定级107 组织机构和职责117.1公司内部组织117.1.1总负责人117.1.2应急指挥小组117.1.3应急工作小组
2、117.1.4相关外部角色128 应急要素与体系128.1事件处置要素128.1.1管理层面128.1.2技术层面128.1.3事件归口138.1.4分级响应138.2指挥和协调138.3信息共享和处理148.4通讯148.5外部沟通148.6服务需方148.7供应商159 运行机制159.1日常监测和预警159.2应急启动159.3事件报告159.4应急调度169.5排查和诊断169.6处理和恢复169.7事件升级179.8持续服务179.9应急事件关闭179.9.1申请179.9.2核实189.9.3事件通报189.10总结改进189.10.1应急工作总结189.10.2应急工作审核191
3、0 保障措施1910.1通信保障1910.2物资保障2010.3技术保障2010.4经费保障2010.5人员保障2011 宣传、培训和演练2011.1宣传2011.2培训2011.3演练2112 应急响应管理关键指标231 目的为了规范客户的各类信息系统应急事件的应急管理,提高应对应急事件的管理水平和应急处理能力,有效防范信息系统风险,减少信息系统故障对生产业务造成的影响,确保信息系统运行的连续性,特制定本预案2 术语定义与引用标准2.1 术语定义服务级别管理术语定义如下:术 语缩略词定 义重点时段保障important period assurance提升服务级别以确保某一时间段内重要活动或
4、重点业务的开展所采取的措施和活动。应急事件emergency event导致或即将导致运行维护服务对象运行中断、运行质量降低,以及需要实施重点时段保障的事件。应急响应emergency response组织为预防、监控、处置和管理应急事件所采取的措施和活动。2.2 引用标准l GB/T 28827.12012 信息技术服务 运行维护 第1部分:通用要求;l GB/T 28827.22012 信息技术服务 运行维护 第2部分:交付规范;l GB/T 28827.32012 信息技术服务 运行维护 第3部分:应急响应规范;l ITSS 1-2015 信息技术服务 运行维护服务能力成熟度模型V1.0
5、;l ISO/IEC 27001:2013信息技术-安全技术-信息安全管理体系要求。3 适用范围本制度适用于公司运维业务范围内的信息系统、网络系统、数据中心等应急事件。本制度用于指导和规范公司运维业务范围的信息系统、网络系统、数据中心等应急预案,建立自上而下、分级负责应急事件应急处置体系,规范处理突发事件的逐级汇报流程。本制度适用于应急预案编制、预案评审、预案实施、应急队伍、培训教育、应急装备、应急演练等工作。4 工作原则4.1 统一指挥、有效组织成立应急总负责人,由公司总经理担任;应急指挥小组,由公司副经理,技术骨干等组成;并成立应急工作小组。组织开展事件预防、应急处置、恢复运行、事件通报等
6、各项应急工作。相关部门要主动协调有关各方面,参与实施部门听从指挥、步调一致。4.2 突出重点,加强演练对关键信息系统加大监控和应急处理力度,确保应急信息及时准确传递。每年开展应急演练工作,确保应急措施合理、有效。4.3 技术支撑,健全机制在充分利用客户现有的信息资源、系统和设备基础上,采用先进适用的预测、预防、预警和应急处置技术,改进和完善应急处理的装备、设施和手段,提高应对信息系统应急事件的技术支撑。建立健全应对信息系统应急事件的有效机制。5 风险评估应急响应小组每年对重要信息系统进行一次风险评估,并根据风险评估结果来制定或更新应急预案。风险评估方法如下:5.1 系统重要性评估等级描述赋值1
7、级将对客户造成极严重的或灾难性的损失42级将对客户造成较重要的损失33级将对客户造成一定损失24级将对客户造成有限损失1根据上表对信息系统以及相关外部环境进行重要性评估。5.2 影响度评估等级赋值影响度描述高3核心业务全面中断;影响大面积用户正常使用;中2部分核心业务中断;影响一定范围内用户的正常使用;低1单一业务中断;影响个别用户正常使用;根据上表对信息系统以及相关外部环境进行影响度评估。5.3 发生几率评估等级可能性取值可能性描述(威胁发生的频率)经常3可能每个季度发生一次或者以上偶尔2可能每半年会发生一次极少1可能每年发生一次或更少根据上表对风险发生几率进行评估。5.4 发生时段评估等级
8、赋值时段程度描述高3核心业务并发高峰期;核心业务关键程序执行期;中2部分核心业务并发高峰期;部分核心程序执行期;低1非核心业务并发期;非核心程序执行期;5.5 风险等级评估按照重要性、影响度、发生几率赋值相乘,得出信息系统以及相关环境的风险等级。等级描述如下:可能性123影响度123123123重要性1123246369224648126283369612189874481281624246风险值 重要性 风险发生可能性 风险发生的严重性风险等级风险值n高(H)n=12中(M)12n4低(L)n=45.6 进行风险评估按照风险等级评估,列出信息系统以及相关外部环境,描述可能发生的风险,针对每一
9、个风险制定控制措施,并明确相应责任人,形成风险评估表,撰写风险评估报告。6 事件分级根据信息系统事件的分级考虑要素,将信息系统事件划分为三个级别:I级事件、II级事件、III级事件。l 一般(III级):综合分值在1-4分;l 较大(II级):综合分值在5-12分;l 重大(I级):综合分值在大于12分;6.1 信息系统重要性信息系统的重要性由以下要素决定:1) 信息系统所属类型,即信息系统资产的安全利益主体。2) 信息系统主要处理的业务信息类别。3) 信息系统服务范围,包括服务对象和服务网络覆盖范围。4) 业务对信息系统的依赖程度。其中第1)与 2)个要素决定信息系统内信息资产的重要性,第3
10、)与第4)个要素决定信息系统所提供服务的重要性,而信息资产及信息系统服务的重要性决定了信息系统的重要性。信息系统分级及赋值如下:赋值描述14级信息系统23级信息系统32级信息系统41级信息系统6.2 信息系统服务时段信息系统服务时段划分为3级。依据应急事件发生的不同时间,对信息系统恢复正常服务所需的时间要求而确定。赋值描述1非系统服务时段(不含系统服务时段即将开始)2系统服务时段或系统服务时段即将开始3系统处于重点时段保障(业务必须正常运行时间)或处于服务高峰时段信息系统损失程度赋值应急事件造成的信息系统损失程度划分为3级。依据故障发生对信息系统提供的服务能力的下降程度而确定。系统性能系统功能
11、功能无损部分损失全部损失小于阈值13大于或等于阈值123重点时段保障的损失程度赋值为36.3 事件定级将以上应急事件三个要素的赋值相乘,事件级别如下表所示:范围级别16III事件818II事件2636I事件7 组织机构和职责7.1 公司内部组织公司内成立应急处置领导小组、指挥小组、工作小组。应急组织设置根据实际项目的应急组织管理机制,受客户的应急组织领导。7.1.1 总负责人总负责人的主要职责:统一领导信息系统的应急事件的公司内部应急处理工作,发起研究重大应急决策和部署,决定实施和终止应急预案。7.1.2 应急指挥小组应急指挥小组的主要职责:接受应急总负责人的领导,传达和落实应急总负责人的各项
12、指令,汇总和上报应急信息,负责应急工作小组成员的协调沟通,协调应急事件处置工作中的重大问题。7.1.3 应急工作小组应急工作小组主要职责:落实应急总负责人及应急指挥小组布置的各项任务;组织制定应急预案,并监督执行情况;掌握应急事件处理情况,及时向应急总负责人和应急指挥小组报告应急过程中的重大问题。角色角色匹配总负责人总经理、工程运维中心总监(副总经理)应急指挥小组运维部经理、技术支持部经理、运维项目经理、综合管理部、质量管理部经理应急工作小组技术支撑主管、研发主管、运维主管、运维工程师、备件管理员等运维团队成员、质量管理员7.1.4 相关外部角色服务需方应急响应责任人与供应商等外部联络人及相关
13、人员。8 应急要素与体系8.1 事件处置要素8.1.1 管理层面1) 启动指挥体系:I级事件的启动和指挥由应急总负责人负责,II、III级事件的启动应急指挥小组负责。2) 掌握事件动态:事件动态由应急工作小组人员收集并及时反馈给应急指挥小组,应急指挥小组决定信息的共享、沟通、处置。3) 处置实施:l 控制事态防止蔓延l 做好处置消除隐患4) 后期处置:事件调查报告和经验教训总结及改进建议。5) 保障措施:包括通讯与信息保障,应急支援与设备保障,技术储备与保障,宣传、培训和演练,监督检查等。8.1.2 技术层面信息系统事件发生后,事发部门应立即启动相关应急预案,实施处置并及时报送信息。1) 控制
14、事态发展,防控蔓延。事发部门先期处置,采取各种技术措施,及时控制事态发展,最大限度地防止事件蔓延。2) 快速判断事件性质和危害程度。尽快分析事件发生原因,根据信息系统运行和承载业务情况,初步判断事件的影响、危害和可能涉及的范围,提出应对措施建议。3) 及时报告信息。事发部门在先期处置的同时要按照预案要求,及时向上级报告事4) 做好事件发生、发展、处置的记录和证据留存。8.1.3 事件归口发生应急事件的归口部门是应急体系启动的责任部门。8.1.4 分级响应发生I级事件,由应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息、做出应急准备;应急指挥小组响应判断为I级事
15、件后,立即通知应急总负责人,并由应急总负责人启动应急预案。发生II、III级事件,由应急工作小组初步判定事件级别后,将信息通知应急指挥小组并注意持续监控事态、收集信息、做出应急准备;应急指挥小组响应判断为II、III级事件后,立即启动应急预案。应急事件的级别应置于动态调整控制中。8.2 指挥和协调I级级事件,由应急工作小组收集信息,应急指挥小组做出预判,并迅速通知应急总负责人,由应急总负责人进行指挥和决策。II、III级事件,由应急指挥小组进行指挥和决策,并及时将处理过程、报告等上报应急总负责人。8.3 信息共享和处理I级事件,由应急工作小组收集信息并提交给应急指挥小组和应急总负责人,由应急总
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应急 响应 管理制度 0803
限制150内