《运维故障应急预案21225.pdf》由会员分享,可在线阅读,更多相关《运维故障应急预案21225.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 运维故障应急预案 文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)运维故障应急预案 V1.0 深圳市 XX 科技有限公司 修订记录 版本编号 版本日期 修订人 说明 1.0 2014-5-13 CC 初稿 1.1 1.2 1 机房失火,断电,断网 1.1 紧急预案 1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,无法远程登录服务器,ping 不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复
2、的时间;一部分是对公司外,描述因为系统升级,而导致网站不能访问。4)再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复服务。5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。6)视故障影响范围,统计出未受影响的服务器。7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。8)评估网站恢复的时间点,修改通告内容。1.2 风险预防 杭州和深圳均实施数据跨机房备份。2.区域性网络故障问题 1.1 紧急预案 1)全国某个区域短时间内有多个客户反
3、映无法访问网站,其他区域访问正常。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如机房服务正常,运维人员测试出现故障区域的网络连接与 dns 解析是否正常。4)如果网络连接或者 dns 解析不正常,则可认为出现了区域性网络故障问题。5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。6)尽快联系当地运营商,询问网络故障的情况及恢复时间。1.2 风险预防 网站 CDN 镜像。3.域名失效故障 1.1
4、 紧急预案 1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如服务器服务正常,再通过 DNS 检测工具并发现域名 IP 指向异常,则认为出现了域名失效故障。4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为域名运营商 DNS 解析故障,导致网站不能访问。5)登录并查看域名供应商平台设置解析配置,若是域名供应商配置有问题,则修正该配置;若是 DNS 解析平台故障,则寻找另外的 DNS 解析平台,重新配置 DNS
5、解析。6)告知业务部门,临时处理解决方法。发出修改 hosts 的 bat 脚本给各区域销售和客服团队,并告知允许脚本前要先退出 QQ 管家。7)跟进全国域名解析的进展。8)全国域名恢复后,撤出通告,并通知内部人员。1.2 风险预防 1)DNS 加固安全锁。2)每个月更换域名供应商和 DNS 解析平台的密码。4.机房网络设备,服务器故障 1.1 紧急预案 1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如无法正常登录服务器,ping 服务器不通,并紧急联系机房人员,并询问初步情况,则判断是否出现机房网络设备,服务器故障。4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为网站升级改造,导致网站不能访问。5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相应的设备,看是否能正常恢复运作。6)收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;若设备,服务器完全损坏,则让机房供应商协助购买新设备,服务器或者借用现有设备,服务器。7)配置新设备,服务器搭建运营环境。1.2 风险预防 1)HA 热备,消除重点设备的单点问题。2)确保配置文件均有备份。
限制150内