攀枝花智慧城市大数据中心应急预案.docx





《攀枝花智慧城市大数据中心应急预案.docx》由会员分享,可在线阅读,更多相关《攀枝花智慧城市大数据中心应急预案.docx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国电子检验检疫主干系统环境建设项目 Version: 浪潮软件集团有限公司 Date: 2020-08-14攀枝花大数据政务云服务大数据中心应急预案2019年8月攀枝花智慧城市大数据中心应急预案目 录1.总则51.1.编制目的51.2.编制依据51.3.工作方式51.4.应急响应服务指标61.5.适用范围92.应急处理的组织机构102.1.组织结构图102.2.内部组织112.3.外部组织123.应急措施143.1.事件处理准备143.1.1. 内部准备143.1.2. 外部准备143.2.事件处理143.2.1.处理原则143.2.2.故障检测和预警143.2.3.故障检测基本流程153.
2、3.处理过程183.4.故障的跟进193.5.报备、通告流程193.6.文档管理224.信息系统组件234.1.平台总体架构234.2.基本业务功能234.3.关键信息系统及组件244.4.设备清单255.应急预案275.1.供配电应急预案275.2.消防应急预案285.3.精密空调应急预案305.4.网络安全应急预案325.5.云平台应急预案345.6.重点事件预案376.应急演练477.应急预防预警488.后期处置498.1.调查评估498.2.恢复重建499.附件50附件1:应急预案组织人员50附件2:主要设备厂商联系人50附件3:远程应急人员联系表51附件4:应急事件通报表52附件5:
3、浪潮云计算平台故障分析报告52附件6:浪潮云计算平台故障解决报告53附件7:应急响应分析报告53附件8:应急响应事件记录单54附件9:事件分析54附件10:事件处理总结报告551. 总则1.1. 编制目的为了规范浪潮攀枝花云计算中心系统运行环境自身的应急响应能力,完善应急响应机制,确保信息系统的安全、稳定运行和业务的连续性,特制定本总体应急预案。1.2. 编制依据以国家有关法律、法规、规章、相关政策为依据,以突发公共事件总体应急预案为准则编制浪潮云计算平台总体应急预案。适用性法规标准主要有:国家网络安全事件应急预案 中网办发文20174号计算机信息系统安全保护条例 中华人民共和国国务院令第14
4、7号发布 1994年信息技术安全技术 信息安全事件管理指南 全国信息安全标准化技术委员会信息安全技术 信息安全时间分类分级指南GBZ209862007信息系统安全等级保护基本要求GB/T 22239-2008计算机安全事件处理指南SP800-611.3. 工作方式11.11.21.1.1.1.2.1.3.1.3.1. 远程应急响应远程应急响应是指主干系统环境运维相关工程师在接到客户相关人员通过电话、Email、传真方式的请求后,如果无法通过相同的方式为客户解决问题,经与客户网络相关人员确认后,客户方网络相关人员提供主机或设备的临时支持账号,由运维工程师远程登录主机进行监测和服务,问题解决后出具
5、详细的安全响应服务报告。如远程系统无法登陆,或无法通过远程访问的方式替客户解决问题,客户确认后,转到现场紧急相应流程,同时此次远程响应无效,归于现场应急响应类型。1.3.2. 现场应急响应现场应急响应是指运维工程师在第一时间处理云计算平台故障,在现场查找事发原因并解决相应问题,并出具详细的安全响应服务报告。下面简单的介绍了现场应急响应服务的步骤:1. 现场服务,运维工程师完成以下工作:事件范围控制,事件处理,内部脆弱性分析;2. 提供相关文档详实记录分析判断过程及结果,包括使用堡垒机记录应急响应运维工程师在其主机上的所有操作,便于审计和考核;3. 现场部分结束后,协助相关人员进行事件原因调查,
6、以及系统恢复等后期工作;4. 事件处理完后,协助相关人员进行全面的业务系统恢复,建立正常的业务运行环境;5. 现场对相关人员的专题交流,主要是与该事件相关问题的处理,如如何保护现场、如何控制事件蔓延、如何启动备份机制等;6. 事件处理结束后,会提交完整的事件处理报告。包括(但不限于)以下文档:n 应急响应事件记录单n 事件分析n 事件处理总结报告7. 提供所有突发事件的应急响应处理文档。若在应急响应中涉及风险隐患彻底解决需牵涉到主干系统运行环境调整方面的内容。应急响应的事件处理总结报告中对实施方式进行详细描述。1.4. 应急响应服务指标1.4.1. 网络安全事件级别定义网络安全事件分为四级:特
7、别重大网络安全事件、重大网络安全事件、较大网络安全事件、一般网络安全事件。级别标准影响程度特别重大网络安全事件符合下列情形之一的重要网络和信息系统遭受特别严重的系统损失,造成系统大面积瘫痪,丧失业务处理能力。国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成特别严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成特别严重威胁、造成特别严重影响的网络安全事件。重大网络安全事件符合下列情形之一且未达到特别重大网络安全事件的重要网络和信息系统遭受严重的系统损失,造成系统长时间中断或局部瘫痪,业务处理能力受到极大影响。国家秘密信息、重要敏感信息和关键数据丢失或
8、被窃取、篡改、假冒,对国家安全和社会稳定构成严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成严重威胁、造成严重影响的网络安全事件。较大网络安全事件符合下列情形之一且未达到重大网络安全事件的重要网络和信息系统遭受较大的系统损失,造成系统中断,明显影响系统效率,业务处理能力受到影响。国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成较严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成较严重威胁、造成较严重影响的网络安全事件。一般网络安全事件除上述情形外对国家安全、社会秩序、经济建设和公众利益构成一定威胁、造成一定影响的网络安全事件1.5.1.4
9、.2. 故障优先级定义浪潮云计算平台根据故障影响范围定义故障级别,并且针对于不同级别的事件拟定切实可行的快速处理方式和临时解决办法。故障优先级定义及描述如下表所示。故障级别描述一级1、政务互联网、政务外网或者专网全网中断2、云中心动力环境导致全网业务中断二级1、全部业务出现性能下降2、单个及以上业务出现中断三级核心设备出现故障四级边缘设备出现故障1.4.3. 问题升级流程事件处理升级流程如下表所示。 事件等级时间(分钟)一级二级三级四级15分钟一线运维1530分钟二线运维一线运维1小时技术管理处经理二线运维一线运维2小时运维保障部经理技术管理处经理二线运维一线运维4小时总经理运维保障部经理技术
10、管理处经理二线运维8小时总经理运维保障部经理技术管理处经理24小时运维保障部经理对于四级事件,一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;由一线进行处理。对于三级事件,一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;由二线进行处理。对于二级处理,一线运维工程师发现故障应15分钟内通知服务台;在查明故障原因后应15分钟内通报服务台;由二线进行处理。对于一级处理,一线运维工程师发现故障应15分钟内通报服务台;在查明故障原因后应15分钟内通报服务台;由二线进行处理。1.4.4. 术语核心设备范围:核心设备WAF全局防火墙
11、核心交换机存储设备(软件、功能)虚拟化集群级存储网关中间件软件数据库软件动力环境设备边缘设备范围:边缘设备接入层设备(接入交换机、管理交换机、FC等)虚拟化服务器固件及其部件一台VM的操作系统防病毒软件存储设备硬件(硬盘、单控)管理网内设备,安全、审计类备份设备、软件其他1.5. 适用范围本预案适用于浪潮云计算平台突发事件的应急处置。1. 事件涉及的资产对象包括但不限于以下方面: n 相关的服务器硬件设备和操作系统的运行;n 相关的数据库服务运行环境;n 相关的存储设备的运行;n 相关的安全设备的运行;n 主干系统运行环境相关的网络环境;n 主干系统运行环境相关的中间件基础环境;2. 事件可能
12、具有但不限于以下几种现象:n 网络速度缓慢,堵塞;n 重要业务系统出现资源占用异常升高(包括CPU和内存使用率、硬盘占用等);n 重要系统出现启动或关机异常,系统崩溃;n 业务访问安全事件等。3. 事件的处理结果分为:n 对于疑似事件进行了准确判定;n 对确认为事件的进行了处理和清除,恢复主干系统运行环境(包括启用备份系统)。4. 应急响应的启动条件n 运维人员通过日常巡检发现重要资产存在可疑事件(如启动不正常的服务、非法访问、异常进程等情况),经相关人员(包括系统管理员、设备厂商、安全服务厂商等)分析判断可能为安全事件,且对网络、主机或系统已经造成影响的情况下,如经处理无法解决,可以启动应急
13、响应;n 运维人员通过评估、检查等方式发现可能对业务造成影响的问题,无法自行解决或无法在短时间内自行解决时,可以启动应急响应;n 运维人员在解决一般事件的过程中,由于处理不当或无法解决,造成事件的影响扩大或蔓延,在一定时间内没有解决的情况下,可以启动应急响应;n 发生以上情况启动应急响应,因技术或事件等限制,需要厂商提供对事件应急响应的知识经验、技术手段和产品支持,启动本应急响应项目。2. 应急处理的组织机构2.1. 组织结构图应急组织机构结构如下图:应急响应领导小组由运维支持处部门领导组成,总体负责云计算平台应急响应事件的领导、协调、资源调度等工作。其他各小组统筹做好云计算平台的网络安全事件
14、的预防、监测、报告和应急处置工作。2.2. 内部组织应急领导小组组成:运维支持处经理、片区经理n 组长:决策应急处置重大事宜(三级以上故障)。包括中断关键运行业务、向国家相关部门通报信息、对(外部机构、社会公众)信息发布(披露的时间和方式)等。n 副组长:参与重大突发事件应急的全局工作,执行对外的信息发布等。其他影响全局的事件的决策的讨论、与外部国家级信息安全单位的联络。应急协调小组n 组成:运维经理、各执行小组负责人。n 组长:指导整个应急协调小组的工作;接受公安部等部门的指示;组织小组人员对故障的等级进行讨论和确定;对2级以及以下的安全故障的启动、处理、跟踪等进行决策;对3级及以上故障及时
15、汇报到应急领导小组进行决策。n 副组长:由各个执行小组的组长承担,指挥相应的实施小组工作;确定突发事件级别;参与决策应急预案的启动;根据领导小组授权,决定中断重大运行业务;接受、处置外界投诉;相关外部组织的工作协调。主要包含如下部分:u 网络运维副组长:负责网络运维的相关协调工作。u 安全监控副组长:负责安全监控的相关协调工作。u 系统运维副组长:负责系统维护的相关协调工作。u 动环运维副组长:负责动环维护的相关协调工作。u 应急保障副组长:负责故障处理过程中的后勤保障与协调工作。应急执行小组在协调小组领导下工作,负责突发事件的初步诊断,分析评估损失、业务中断持续时间、影响范围,根据相应的预案
16、进行事件的处置与跟踪等。具体包括如下小组:n 网络运维组:实时对网络状况进行监控,在发生网络异常时,及时启动相应的预案;在进行故障处理时,根据协调小组的建议提供所需的网络流量、设备工作状况、设备日志以及网络状况综合分析报告;在故障发生时,能及时对网络状况、网络设备等进行分析,并根据协调小组的建议进行处置。n 安全监控组:由安全管理员、二线安全团队成员组成,对监测的安全事件进行监测、分析以及综合分析报告提供;发现扫描、攻击等行为及时报告,并启动相应的处置预案;并由当班监控组组长负责记录事件处理的全过程;在事件处理完毕后,做好必要的跟踪工作。n 系统运维组:在故障发生时,根据相应的应急预案对系统进
17、行检查、修复等,对与硬件故障及时根据应急预案组织设备提供商对主机继续进行维修、替换等。n 动环运维组:在故障发生时,根据相应的应急预案对动力环境进行检查、修复等,对与硬件故障及时根据应急预案组织设备提供商对主机继续进行维修、替换等。n 应急保障小组:负责后勤保障应急计划的制订,保障应急情况下行政等资源的可用性。负责应急采购计划的制订,保障应急情况下各类设施和物资的装备和供应。2.3. 外部组织对应突发的安全事件,还需要国家和社会相关单位的支撑,主要包含:国家级信息安全支持单位中国互联网络信息中心(CNNIC)、中国信息安全评测中心、公安部、国家计算机网络应急技术处理协调中心等。产品供应商包含操
18、作系统、应用软件、主机、网络设备、安全设备等的供应商,在事件响应期间提供必要的技术支持工作,比如日志解读、设备配置、设备维修等;另外还要对重要的设备提供必要的备用支持。社会专业支持外聘专家、中国电信、中国网通等。3. 应急措施3.1. 事件处理准备3.1.1. 内部准备n 各部门预案措施文档n 关键系统的备用设备n 系统及数据日常备份n 系统日志定期保存n 系统资料、软件归档n 系统变更管理3.1.2. 外部准备n 设备、软件等紧急购置方式、联系人员、联系方式n 服务提供商的联系人员、联系方式3.2. 事件处理3.2.1. 处理原则n 最小影响原则:处理过程中,尽量避免将故障的范围扩大n 重点
19、优先原则:优先考虑重点站点的故障处理问题n 及时上报原则:发现问题最快速度上报协调小组n 保护现场原则:现场发生的所有情况必须真实保存n 双人处理原则:所有应急处理需要两人以上现场处理n 操作记录原则:应急处理的操作必须记录n 整体稳定性原则:保护整体业务系统的可用性n 现场一人指挥原则:确保现场处置有序、可控n 第一时间处理原则:事件发生后,尽快处理3.2.2. 故障检测和预警预警类故障的来源分为:n 外部公告n 内部通报n 国家部门公告n 安全厂商安全公告协调小组安排相应的执行小组进行初步分析,分析后协调小组决定是否启动相应的预案。监测类故障的来源分为:n 网络监控:网络设备故障、流量异常
20、、主机故障、供电故障、网络中断等。n 安全监控:扫描事件、攻击事件、反弹链接事件、病毒事件等n 应用监控:页面故障、链路故障、内容异常等n 业务部门反馈:服务器故障、页面故障、应用与主机系统故障等n 用户反馈:网站不能访问、视频问题、页面异常等n 互联网搜寻:网站系统被入侵、网站系统漏洞、敏感事件等在各部门发现故障后,马上进行故障的初步分析,分析后,将故障分析结果协调小组进行决策。3.2.3. 故障检测基本流程预警类故障:预警事件的来源分为:外部公告、内部通报、国家部门公告、安全厂商预警通告等。协调小组收到预警信息,经过初步分析,决定是否启动预案。确认启动后,向执行小组下发任务,执行处置。监测
21、类故障:类似于预警事件,不管事件是已经发生还是正在发生,都由协调小组确定预案的启动。不同的是对于正在发生的事件,要启动监控,密切监控事态发展,如果事件还未产生影响,可以由执行部门启动合适的阻止方式。3.3. 处理过程本处理过程只考虑三级及以上故障的基本处理要求,对以四级的故障,由执行小组内部处理,并制作处理记录,事后上报协调小组。三级以上故障的处理过程,按照各个部门的处理预案逐步执行,并做好记录。处理完毕后,执行故障的跟进工作。3.4. 故障的跟进恢复完成后,执行小组分析事件原因,根据分析结果,协调小组对故障的影响进行评估,并制作改进建议,改进建议采用谨慎策略,必须在执行前进行必要的测试和验证
22、。3.5. 报备、通告流程(1)、所有故障均需要上报服务台,一、二级故障在15分钟内上报服务台;三、四级故障在30分钟内上报服务台。(2)、服务台发出故障通报,根据不同故障等级通知不同人员。通报分为内部通报和外部通报,通报方式有:邮件、电话、短信三种方式。故障等级通报时间外部通报邮件电话短信一级一线运维工程师发现故障应15分钟内通报服务台;在查明故障原因后应15分钟内通报服务台;服务台收到故障通报,应在15分钟内发出故障通报;服务台获知故障原因后,应在15分钟内发出追加通报。王方、杨宏林、薛立强、张沐昀、左鹏、于磊、石峰、李腾、片区二线、片区PM、王巧丽、杨南、王继、孔令磊;(常德特例:故障通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 攀枝花 智慧 城市 数据中心 应急 预案

限制150内