2020年计算机机房应急预案.pdf
《2020年计算机机房应急预案.pdf》由会员分享,可在线阅读,更多相关《2020年计算机机房应急预案.pdf(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机机房应急预案计算机机房应急预案XXXX单位名称20X X年XX月文档仅供参考,不当之处,请联系改正。编 制 人 员编 制XXX审 核XXXX文档仅供参考,不当之处,请联系改正。-ix.a刖 百近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时或人为因素操作不当,导致严重后果,造成了巨大的经济损失。为了避免类似事情发生,项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。本应急预案编制依据 单位网络系统运行管理规定而编写。根据单位领导提出新的改进建议,应急预案的版本修订相比之前有了较大的改动,项目组结合机房的实际情况,针对
2、所涉及故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其它人员也能以及有效协助处理突发情况。项目组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。文档仅供参考,不当之处,请联系改正。目 次11.1 目的.1.2 应急预案存放.1.3编制依据.1.4 技术资料.2 适用范围及启动条件.3 应急组织和职责.4应急响应流程.4.1 应急事件响应.4.2 应急事件升级
3、.5 应急执行流程.5.1 影响程度的评估.5.2 宣告启动应急.5.3 应急恢复.5.4 事后处理.5.5 应急注意事项.6 应急恢复步骤.6.1 强电系统故障.6.2 UPS 故障.6.3 网络系统故障.6.4 机房漏水.6.5 空调故障.6.6 机房火灾.附表一交换机信息.附表二自主运维办公交换机信息.附表三交换机常见命令.附表四机房应急预案联系人信息表附表五机房服务器联系人信息表.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未
4、定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。.错误!未定义书签。文档仅供参考,不当之处,请联系改正。7 预案附录.错误!未定义书签。附录一机房示意图.错误!未定义书签。附录二 配电柜操作说明书.错误!未定义书签。附录三UPS操作说明.错误!未定义书签。附录四空调操作手册.错误!未定义书签。附录五设备监控软件使用说
5、明书.错误!未定义书签。文档仅供参考,不当之处,请联系改正。1概述1.1 目的为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少突发事件及其造成的损害,保障设备正常运行,制定本预案。本预案参照单位领导的要求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。1.2 应急预案存放1)电子版本本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。2)纸质版本本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。1.3 编制依据本应急预案编制依据 单位安全管理规定编写。1.4 技术资料序号资料名称存放地点获取方式1U P S 使用手册机房缓
6、冲区桌面进入机房获取2机房专用空调操作维护指南机房缓冲区桌面进入机房获取3消防使用手册机房缓冲区桌面进入机房获取文档仅供参考,不当之处,请联系改正。2适用范围及启动条件1)地域范围:本预案适用于本单位机房及网络运行中发生故障时使用。2)人员范围:本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机房内各应用系统负责人等。3)启动条件机房、网络运行中出现的一般性突发事件和重大突发事件。一般性突发事件:是指机房、网络突发故障,将影响机房提供正常服务及网络服务的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:1)市电中断和U P S 故障引起的电力供应中
7、断。2)机房空调冷凝水或上下水管道漏水。3)机房温度超过304)网络故障影响用户范围超过2 0%,预计修复时间在2 小时以内。重大突发事件:是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,而且修复时间大于2 小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:1)机房出现火灾。2)市电中断和U P S 故障引起的电力供应中断。3)机房温度超过40.4)网络故障造成全网中断,预计修复时间超过2 小时。3应急组织和职责计算机机房应急组名单如下:表1 应急小组名单部门/岗位职责姓名联系方式文档仅供参考,不当之处,请联系改
8、正。单位领导重大应急决策指挥部门主任应急决策指挥应急小组组长负责评估应急事件并协调处理应急预案操作岗启动应急预案并实施文档仅供参考,不当之处,请联系改正。4应急响应流程4.1应急事件响应1、发生突发事件时,经过电话或当面通知应急小组组长报告情况。2、必要时第一时间启动应急预案。3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。4、电话通知机房内生产业务系统管理员做相应的应急措施。5、应急小组组长根据情况判定是否需要将事件升级为重大事件。6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。4.2应急事件升级在应急小组组长认
9、定突发事件升级为重大事件时,应按以下步骤操作:1、立即通知部门主任。2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。3、根据应急决策领导的决策指令处理故障。4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。文档仅供参考,不当之处,请联系改正。表2 影响程度评估表5 应急执行流程5.1 影响程度的评估序号故障类型影响程度及范围一般性突发事件重大突发事件1市电中断和U P S 故障引起的电力供应中断o影响程度大,修复时间大于3 0 分钟,小于2 小时的电力供应中断,影响范围为机房内所有设备及系统。影响程度为重大,修复时间2 小
10、时以上的电力供应中断,影响范围为机房内所有设备及系统。文档仅供参考,不当之处,请联系改正。2机房漏水影响程度一般,机房出现小摊积水,修复时间大于30分钟,小于2小时的机房漏水,影响范围为机房内所有设备及系统。影响程度重大,机房出现大面积漏水,或者漏水修复时间2小时以上的机房漏水,影响范围为机房内所有设备及系统。文档仅供参考,不当之处,请联系改正。3机房温度过高影响程度大,机房温度超过30度,修复时间大于30分钟,小于2小时的,影响范围为机房内所有设备及系统。影响程度重大,机房温度超过40度,修复时间2小时以上的空调故障,影响范围为机房内所有设备及系统。文档仅供参考,不当之处,请联系改正。4网络
11、系统故障影响程度大,修复时间大于30分钟,小于2小时的网络系统故障,影响范围为生产业务系统及影响用户范围超过 20%。影响程度重大,修复时间2小时以上的网络系统故障,影响范围为生产业务系统及影响用户范围超过20%o影响程度重5机房火灾大,影响范围为机房内所有设备、系统及用户。5.2宣告启动应急应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行。重大事件时要向部门主任、单位领导汇报。文档仅供参考,不当之处,请联系改正。表3 应急恢复步骤5.3应急恢复突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复O序号启动条件恢复步骤 操作人员备注1市电中断见步骤6.1应
12、急小组组长、应急预案操作人员2U P S 故障见步骤6.2应急小组组长、应急预案操作人员3网络系统故障见步骤6.3应急小组组长、应急预案操作人员文档仅供参考,不当之处,请联系改正。4机房漏水见步骤6.4应急小组组长、应急预案操作人员应急小组5空调故障见步骤6.5组长、应急预案操作人员应急小组6机房火灾见步骤6.6组长、应急预案操作人员5.4事后处理事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。5.
13、5应急注意事项为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。文档仅供参考,不当之处,请联系改正。熟读应急预案,责任分工明确,应急流程掌握熟练。加强技术能力和业务能力。通讯保持畅通,应急小组的人员要保持24小时手机开机。处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。文档仅供参考,不当之处,请联系改正。6应急恢复步骤6.1 强电系统故障6.1.1 市电中断1)当发生市电中断或同时收到U P S输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查U P S工作状态。非工作时间发生电力中断时,电话联系
14、保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三步。紧急联系人姓名联系电话备 注(住所)2)检 查U P S的负载量及电池能够支持的时间:步骤:双 击UPS控制面板“ESC”按键,点 击“n”键,找到相关信息,查看电池负载;在“电池参数显示”处,查看备用时间确认U P S供电剩余时间。(具体详情可参照附录三:U P S操作说明进行操作。图1 U P S控制面板3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:联系人信息表进行查询)4)当发生单路供电中断时
15、,应立即通知物业切换至另一路供电,观察U P S状态是否供电正常,等待第一路供电恢复切回。5)如物业通知无法切换电路且3 0分钟内无法恢复供电,应立即按照附表五:机房服务器联系人信息表的清单顺序通知各生产业务系统管理员进行系统备份并关闭系统。同时维护项目组关闭机房内负责的所有设备。6)向部门主任及单位领导汇报当前情况。7)确认所有服务器关闭后,直接手动拉下配电柜0 1后 面A 4、A 5、A 6、文档仅供参考,不当之处,请联系改正。B 2、B 5、C 3 机柜输出开关,关闭网络设备。8)当机房温度超过4 0 度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜0 1
16、 后面所有机柜输出开关,关闭机房内所有设备。图2 配电柜0 19)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。1 0)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果。1 1)如 U P S 故障造成的电力供应中断,手动重启U P S,查看U P S 故障是否解除并恢复正常。(在 U P S 显示屏上点击“开机”,查看U P S 是否正常启动)1 2)如U P S 故障依旧,立即通知各生产业务系统切换备份系统。1 3)向部门主任和单位领导汇报当前情况,并联系厂商对U P S 进行检修。1 4)待所有系统恢复正常后,提交处理报告,上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2020 计算机 机房 应急 预案
限制150内