2022年运维应急故障处理方案实用 .pdf
《2022年运维应急故障处理方案实用 .pdf》由会员分享,可在线阅读,更多相关《2022年运维应急故障处理方案实用 .pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、运维应急故障处理方案文件编码AQ2I-02-S001 版本V03 文件层级 一阶 二阶 三阶文件类别体系文件技术文件编制部门运维部机密等级内文秘密机密绝密编制人文件类别通用项目审核编制日期审批生效日期总页数9 分发编号01 文件发布盖章名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 10 页 - - - - - - - - - 公司名称文件编码AQ2I-02-S001 文件名称运维应急故障处理方案页次 /总页码1 /9 文件制 /修订记录页码章节制/ 修订记录版本修订人修
2、订日期备注修订前修订后全部全部首次制定无V01 2,3 4,5 职责 / 作业内容V01 V02 全部全部按新的角色职责定义更新角色V02 V03 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - 公司名称文件编码AQ2I-02-S001 文件名称运维应急故障处理方案页次 /总页码2 /9 1 目的用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行2 适用范围本程序适用于所有在系统平台运行过程中能事先预
3、测到的非自然灾害所产生的突发性事件。3 术语和定义突发事件 : 由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达 30 分钟以上,造成关键服务不可用,形成重大影响的事件。4 职责4.1 运维工程师:负责突发性事件应急处理计划和对策的拟定和执行。4.2 平台研发部,移动应用部,客户服务部,服务营销部:由部门负责人及相关人员共同处理突发性应急事件。4.3 质量管理工程师:负责突发性事件应急处理计划和对策的监督执行。5 作业内容名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - -
4、 - - - 第 3 页,共 10 页 - - - - - - - - - 公司名称文件编码AQ2I-02-S001 文件名称运维应急故障处理方案页次 /总页码3 /9 5.1 突发事件分类和应急处理5.1.1 基础设施环境不可用包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于 30 分钟的。对于运营商已告知问题原因时处理方案:1.提前通知相关运营人员和客户服务部2.通告影响时间,影响范围3.公告用户4.调整域名解析,启用容灾机房对于运营商未告知问题原因时处理方案:1.紧急联络机房接口人2.了解故障原因,和影响时间,评估影响范围3.紧急公告,启用预案同已知问题处理
5、5.1.2 设备不可用服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于30 分钟的故名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - 公司名称文件编码AQ2I-02-S001 文件名称运维应急故障处理方案页次 /总页码4 /9 障处理方案:1.通知相关运营人员和客户服务部2.启用备份设备3.分析故障原因,通知厂家售后5.1.3服务不可用软件程序问题,且影响时间高于30 分钟的故障处理方案:1.通知相关运营人员和客
6、户服务部2.回滚到上一个稳定软件版本3.保存日志文件,分析定位问题原因4.通知开发人员修正软件缺陷5.测试通过之后重新上线数据库问题,且影响时间高于30 分钟的故障处理方案:1.通知相关运营人员和客户服务部. 2.提前建立数据库集群3.从库出现问题,访问解析到其它从库上4.主库出现问题,将一台从库提升为主库5.定期全备份和增量备份数据文件5.保存日志操作文件遭受恶意攻击,且攻击时间高于30 分钟的故障处理方案:1. 通知相关运营人员和客户服务部. 2.在防火墙上操作内容:定期检查更新防火墙策略;屏蔽恶意 IP;限制每秒的连接数。3.在服务器上操作内容:提前部署 cache服务器;屏蔽公网访问核
7、心服务端口;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 10 页 - - - - - - - - - 公司名称文件编码AQ2I-02-S001 文件名称运维应急故障处理方案页次 /总页码5 /9 设定 iptables 策略。4.病毒入侵等情况操作内容:定期扫描系统和应用软件漏洞;定期升级系统 Patch;利用云服务。对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾。5.1.4 正常业务量徒增处理方案:1.和相关运营部门建立即使
8、沟通机制,了解产品推广活动2.购置 IDC 富余带宽,用于抗峰值3.将关键服务分布式部署5.2 故障记录和备案5.2.1建立【事件记录表】5.2.2分析故障原因,制定解决方案,避免相似故障再次发生5.3 应急预案演练5.3.1明确演练范围和参与人员如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大规模的演练能够让组织获得更多的价值。在明确了演练的范围后,组织需要确定演练的参与人员。参与人员通常是与演练范围相对应的执行人员,同时也可以包括熟悉演练范围的管理人员。预先明确演练范围和参与人员的好处在于,能够深入演
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年运维应急故障处理方案实用 2022 年运维 应急 故障 处理 方案 实用
限制150内