欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    攀枝花智慧城市大数据中心应急预案.docx

    • 资源ID:65737970       资源大小:1.21MB        全文页数:61页
    • 资源格式: DOCX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    攀枝花智慧城市大数据中心应急预案.docx

    中国电子检验检疫主干系统环境建设项目 Version: <1.7>浪潮软件集团有限公司 Date: 2020-08-14攀枝花大数据政务云服务大数据中心应急预案2019年8月攀枝花智慧城市大数据中心应急预案目 录1.总则51.1.编制目的51.2.编制依据51.3.工作方式51.4.应急响应服务指标61.5.适用范围92.应急处理的组织机构102.1.组织结构图102.2.内部组织112.3.外部组织123.应急措施143.1.事件处理准备143.1.1. 内部准备143.1.2. 外部准备143.2.事件处理143.2.1.处理原则143.2.2.故障检测和预警143.2.3.故障检测基本流程153.3.处理过程183.4.故障的跟进193.5.报备、通告流程193.6.文档管理224.信息系统组件234.1.平台总体架构234.2.基本业务功能234.3.关键信息系统及组件244.4.设备清单255.应急预案275.1.供配电应急预案275.2.消防应急预案285.3.精密空调应急预案305.4.网络安全应急预案325.5.云平台应急预案345.6.重点事件预案376.应急演练477.应急预防预警488.后期处置498.1.调查评估498.2.恢复重建499.附件50附件1:应急预案组织人员50附件2:主要设备厂商联系人50附件3:远程应急人员联系表51附件4:应急事件通报表52附件5:浪潮云计算平台故障分析报告52附件6:浪潮云计算平台故障解决报告53附件7:应急响应分析报告53附件8:应急响应事件记录单54附件9:事件分析54附件10:事件处理总结报告551. 总则1.1. 编制目的为了规范浪潮攀枝花云计算中心系统运行环境自身的应急响应能力,完善应急响应机制,确保信息系统的安全、稳定运行和业务的连续性,特制定本总体应急预案。1.2. 编制依据以国家有关法律、法规、规章、相关政策为依据,以突发公共事件总体应急预案为准则编制浪潮云计算平台总体应急预案。适用性法规标准主要有:国家网络安全事件应急预案 中网办发文20174号计算机信息系统安全保护条例 中华人民共和国国务院令第147号发布 1994年信息技术安全技术 信息安全事件管理指南 全国信息安全标准化技术委员会信息安全技术 信息安全时间分类分级指南GBZ209862007信息系统安全等级保护基本要求GB/T 22239-2008计算机安全事件处理指南SP800-611.3. 工作方式11.11.21.1.1.1.2.1.3.1.3.1. 远程应急响应远程应急响应是指主干系统环境运维相关工程师在接到客户相关人员通过电话、Email、传真方式的请求后,如果无法通过相同的方式为客户解决问题,经与客户网络相关人员确认后,客户方网络相关人员提供主机或设备的临时支持账号,由运维工程师远程登录主机进行监测和服务,问题解决后出具详细的安全响应服务报告。如远程系统无法登陆,或无法通过远程访问的方式替客户解决问题,客户确认后,转到现场紧急相应流程,同时此次远程响应无效,归于现场应急响应类型。1.3.2. 现场应急响应现场应急响应是指运维工程师在第一时间处理云计算平台故障,在现场查找事发原因并解决相应问题,并出具详细的安全响应服务报告。下面简单的介绍了现场应急响应服务的步骤:1. 现场服务,运维工程师完成以下工作:事件范围控制,事件处理,内部脆弱性分析;2. 提供相关文档详实记录分析判断过程及结果,包括使用堡垒机记录应急响应运维工程师在其主机上的所有操作,便于审计和考核;3. 现场部分结束后,协助相关人员进行事件原因调查,以及系统恢复等后期工作;4. 事件处理完后,协助相关人员进行全面的业务系统恢复,建立正常的业务运行环境;5. 现场对相关人员的专题交流,主要是与该事件相关问题的处理,如如何保护现场、如何控制事件蔓延、如何启动备份机制等;6. 事件处理结束后,会提交完整的事件处理报告。包括(但不限于)以下文档:n 应急响应事件记录单n 事件分析n 事件处理总结报告7. 提供所有突发事件的应急响应处理文档。若在应急响应中涉及风险隐患彻底解决需牵涉到主干系统运行环境调整方面的内容。应急响应的事件处理总结报告中对实施方式进行详细描述。1.4. 应急响应服务指标1.4.1. 网络安全事件级别定义网络安全事件分为四级:特别重大网络安全事件、重大网络安全事件、较大网络安全事件、一般网络安全事件。级别标准影响程度特别重大网络安全事件符合下列情形之一的重要网络和信息系统遭受特别严重的系统损失,造成系统大面积瘫痪,丧失业务处理能力。国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成特别严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成特别严重威胁、造成特别严重影响的网络安全事件。重大网络安全事件符合下列情形之一且未达到特别重大网络安全事件的重要网络和信息系统遭受严重的系统损失,造成系统长时间中断或局部瘫痪,业务处理能力受到极大影响。国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成严重威胁、造成严重影响的网络安全事件。较大网络安全事件符合下列情形之一且未达到重大网络安全事件的重要网络和信息系统遭受较大的系统损失,造成系统中断,明显影响系统效率,业务处理能力受到影响。国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成较严重威胁。其他对国家安全、社会秩序、经济建设和公众利益构成较严重威胁、造成较严重影响的网络安全事件。一般网络安全事件除上述情形外对国家安全、社会秩序、经济建设和公众利益构成一定威胁、造成一定影响的网络安全事件1.5.1.4.2. 故障优先级定义浪潮云计算平台根据故障影响范围定义故障级别,并且针对于不同级别的事件拟定切实可行的快速处理方式和临时解决办法。故障优先级定义及描述如下表所示。故障级别描述一级1、政务互联网、政务外网或者专网全网中断2、云中心动力环境导致全网业务中断二级1、全部业务出现性能下降2、单个及以上业务出现中断三级核心设备出现故障四级边缘设备出现故障1.4.3. 问题升级流程事件处理升级流程如下表所示。 事件等级时间(分钟)一级二级三级四级<15分钟一线运维1530分钟二线运维一线运维1小时技术管理处经理二线运维一线运维2小时运维保障部经理技术管理处经理二线运维一线运维4小时总经理运维保障部经理技术管理处经理二线运维8小时总经理运维保障部经理技术管理处经理24小时运维保障部经理对于四级事件,一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;由一线进行处理。对于三级事件,一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;由二线进行处理。对于二级处理,一线运维工程师发现故障应15分钟内通知服务台;在查明故障原因后应15分钟内通报服务台;由二线进行处理。对于一级处理,一线运维工程师发现故障应15分钟内通报服务台;在查明故障原因后应15分钟内通报服务台;由二线进行处理。1.4.4. 术语核心设备范围:核心设备WAF全局防火墙核心交换机存储设备(软件、功能)虚拟化集群级存储网关中间件软件数据库软件动力环境设备边缘设备范围:边缘设备接入层设备(接入交换机、管理交换机、FC等)虚拟化服务器固件及其部件一台VM的操作系统防病毒软件存储设备硬件(硬盘、单控)管理网内设备,安全、审计类备份设备、软件其他1.5. 适用范围本预案适用于浪潮云计算平台突发事件的应急处置。1. 事件涉及的资产对象包括但不限于以下方面: n 相关的服务器硬件设备和操作系统的运行;n 相关的数据库服务运行环境;n 相关的存储设备的运行;n 相关的安全设备的运行;n 主干系统运行环境相关的网络环境;n 主干系统运行环境相关的中间件基础环境;2. 事件可能具有但不限于以下几种现象:n 网络速度缓慢,堵塞;n 重要业务系统出现资源占用异常升高(包括CPU和内存使用率、硬盘占用等);n 重要系统出现启动或关机异常,系统崩溃;n 业务访问安全事件等。3. 事件的处理结果分为:n 对于疑似事件进行了准确判定;n 对确认为事件的进行了处理和清除,恢复主干系统运行环境(包括启用备份系统)。4. 应急响应的启动条件n 运维人员通过日常巡检发现重要资产存在可疑事件(如启动不正常的服务、非法访问、异常进程等情况),经相关人员(包括系统管理员、设备厂商、安全服务厂商等)分析判断可能为安全事件,且对网络、主机或系统已经造成影响的情况下,如经处理无法解决,可以启动应急响应;n 运维人员通过评估、检查等方式发现可能对业务造成影响的问题,无法自行解决或无法在短时间内自行解决时,可以启动应急响应;n 运维人员在解决一般事件的过程中,由于处理不当或无法解决,造成事件的影响扩大或蔓延,在一定时间内没有解决的情况下,可以启动应急响应;n 发生以上情况启动应急响应,因技术或事件等限制,需要厂商提供对事件应急响应的知识经验、技术手段和产品支持,启动本应急响应项目。2. 应急处理的组织机构2.1. 组织结构图应急组织机构结构如下图:应急响应领导小组由运维支持处部门领导组成,总体负责云计算平台应急响应事件的领导、协调、资源调度等工作。其他各小组统筹做好云计算平台的网络安全事件的预防、监测、报告和应急处置工作。2.2. 内部组织应急领导小组组成:运维支持处经理、片区经理n 组长:决策应急处置重大事宜(三级以上故障)。包括中断关键运行业务、向国家相关部门通报信息、对(外部机构、社会公众)信息发布(披露的时间和方式)等。n 副组长:参与重大突发事件应急的全局工作,执行对外的信息发布等。其他影响全局的事件的决策的讨论、与外部国家级信息安全单位的联络。应急协调小组n 组成:运维经理、各执行小组负责人。n 组长:指导整个应急协调小组的工作;接受公安部等部门的指示;组织小组人员对故障的等级进行讨论和确定;对2级以及以下的安全故障的启动、处理、跟踪等进行决策;对3级及以上故障及时汇报到应急领导小组进行决策。n 副组长:由各个执行小组的组长承担,指挥相应的实施小组工作;确定突发事件级别;参与决策应急预案的启动;根据领导小组授权,决定中断重大运行业务;接受、处置外界投诉;相关外部组织的工作协调。主要包含如下部分:u 网络运维副组长:负责网络运维的相关协调工作。u 安全监控副组长:负责安全监控的相关协调工作。u 系统运维副组长:负责系统维护的相关协调工作。u 动环运维副组长:负责动环维护的相关协调工作。u 应急保障副组长:负责故障处理过程中的后勤保障与协调工作。应急执行小组在协调小组领导下工作,负责突发事件的初步诊断,分析评估损失、业务中断持续时间、影响范围,根据相应的预案进行事件的处置与跟踪等。具体包括如下小组:n 网络运维组:实时对网络状况进行监控,在发生网络异常时,及时启动相应的预案;在进行故障处理时,根据协调小组的建议提供所需的网络流量、设备工作状况、设备日志以及网络状况综合分析报告;在故障发生时,能及时对网络状况、网络设备等进行分析,并根据协调小组的建议进行处置。n 安全监控组:由安全管理员、二线安全团队成员组成,对监测的安全事件进行监测、分析以及综合分析报告提供;发现扫描、攻击等行为及时报告,并启动相应的处置预案;并由当班监控组组长负责记录事件处理的全过程;在事件处理完毕后,做好必要的跟踪工作。n 系统运维组:在故障发生时,根据相应的应急预案对系统进行检查、修复等,对与硬件故障及时根据应急预案组织设备提供商对主机继续进行维修、替换等。n 动环运维组:在故障发生时,根据相应的应急预案对动力环境进行检查、修复等,对与硬件故障及时根据应急预案组织设备提供商对主机继续进行维修、替换等。n 应急保障小组:负责后勤保障应急计划的制订,保障应急情况下行政等资源的可用性。负责应急采购计划的制订,保障应急情况下各类设施和物资的装备和供应。2.3. 外部组织对应突发的安全事件,还需要国家和社会相关单位的支撑,主要包含:国家级信息安全支持单位中国互联网络信息中心(CNNIC)、中国信息安全评测中心、公安部、国家计算机网络应急技术处理协调中心等。产品供应商包含操作系统、应用软件、主机、网络设备、安全设备等的供应商,在事件响应期间提供必要的技术支持工作,比如日志解读、设备配置、设备维修等;另外还要对重要的设备提供必要的备用支持。社会专业支持外聘专家、中国电信、中国网通等。3. 应急措施3.1. 事件处理准备3.1.1. 内部准备n 各部门预案措施文档n 关键系统的备用设备n 系统及数据日常备份n 系统日志定期保存n 系统资料、软件归档n 系统变更管理3.1.2. 外部准备n 设备、软件等紧急购置方式、联系人员、联系方式n 服务提供商的联系人员、联系方式3.2. 事件处理3.2.1. 处理原则n 最小影响原则:处理过程中,尽量避免将故障的范围扩大n 重点优先原则:优先考虑重点站点的故障处理问题n 及时上报原则:发现问题最快速度上报协调小组n 保护现场原则:现场发生的所有情况必须真实保存n 双人处理原则:所有应急处理需要两人以上现场处理n 操作记录原则:应急处理的操作必须记录n 整体稳定性原则:保护整体业务系统的可用性n 现场一人指挥原则:确保现场处置有序、可控n 第一时间处理原则:事件发生后,尽快处理3.2.2. 故障检测和预警预警类故障的来源分为:n 外部公告n 内部通报n 国家部门公告n 安全厂商安全公告协调小组安排相应的执行小组进行初步分析,分析后协调小组决定是否启动相应的预案。监测类故障的来源分为:n 网络监控:网络设备故障、流量异常、主机故障、供电故障、网络中断等。n 安全监控:扫描事件、攻击事件、反弹链接事件、病毒事件等n 应用监控:页面故障、链路故障、内容异常等n 业务部门反馈:服务器故障、页面故障、应用与主机系统故障等n 用户反馈:网站不能访问、视频问题、页面异常等n 互联网搜寻:网站系统被入侵、网站系统漏洞、敏感事件等在各部门发现故障后,马上进行故障的初步分析,分析后,将故障分析结果协调小组进行决策。3.2.3. 故障检测基本流程预警类故障:预警事件的来源分为:外部公告、内部通报、国家部门公告、安全厂商预警通告等。协调小组收到预警信息,经过初步分析,决定是否启动预案。确认启动后,向执行小组下发任务,执行处置。监测类故障:类似于预警事件,不管事件是已经发生还是正在发生,都由协调小组确定预案的启动。不同的是对于正在发生的事件,要启动监控,密切监控事态发展,如果事件还未产生影响,可以由执行部门启动合适的阻止方式。3.3. 处理过程本处理过程只考虑三级及以上故障的基本处理要求,对以四级的故障,由执行小组内部处理,并制作处理记录,事后上报协调小组。三级以上故障的处理过程,按照各个部门的处理预案逐步执行,并做好记录。处理完毕后,执行故障的跟进工作。3.4. 故障的跟进恢复完成后,执行小组分析事件原因,根据分析结果,协调小组对故障的影响进行评估,并制作改进建议,改进建议采用谨慎策略,必须在执行前进行必要的测试和验证。3.5. 报备、通告流程(1)、所有故障均需要上报服务台,一、二级故障在15分钟内上报服务台;三、四级故障在30分钟内上报服务台。(2)、服务台发出故障通报,根据不同故障等级通知不同人员。通报分为内部通报和外部通报,通报方式有:邮件、电话、短信三种方式。故障等级通报时间外部通报邮件电话短信一级一线运维工程师发现故障应15分钟内通报服务台;在查明故障原因后应15分钟内通报服务台;服务台收到故障通报,应在15分钟内发出故障通报;服务台获知故障原因后,应在15分钟内发出追加通报。王方、杨宏林、薛立强、张沐昀、左鹏、于磊、石峰、李腾、片区二线、片区PM、王巧丽、杨南、王继、孔令磊;(常德特例:故障通报邮件要抄送常德公司吴强、蔡相成)外部通报:故障发生15分钟后由运维经理电话通知主管单位技术负责人内部通报:故障发生即时通报,由一线运维工程师电话通报石峰、左鹏、运维经理、片区二线、片区PM杨宏林、左鹏、石峰、李腾、片区二线、片区PM、运维经理(服务台负责短信通知故障发生和故障结束)二级一线运维工程师发现故障应15分钟内通知服务台;在查明故障原因后应15分钟内通报服务台;服务台收到故障通报,应在15分钟内发出故障通报;服务台获知故障原因后,应在15分钟内发出追加通报。王方、杨宏林、薛立强、张沐昀、左鹏、于磊、石峰、李腾、片区二线、片区PM、王巧丽、杨南、王继、孔令磊;(常德特例:故障通报邮件要抄送常德公司吴强、蔡相成)外部通报:故障发生15分钟后由运维经理电话通知主管单位技术负责人内部通报:故障发生即时通报,由一线运维工程师电话通报石峰、左鹏、运维经理、片区二线、片区PM杨宏林、左鹏、石峰、李腾、片区二线、片区PM、运维经理(服务台负责短信通知故障发生和故障结束)三级一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;服务台收到故障通报,应在30分钟内发出故障通报;服务台获知故障原因后,应在30分钟内发出追加通报。杨宏林、张沐昀、左鹏、于磊、石峰、李腾、片区二线、片区PM、王巧丽、杨南、王继、孔令磊;内部通报:故障发生即时通报,由一线运维工程师电话通报运维经理、片区二线、片区PM左鹏、石峰、李腾、片区二线、片区PM、运维经理(服务台负责短信通知故障发生和故障结束)四级一线运维工程师发现故障应30分钟内通知服务台;在查明故障原因后应30分钟内通报服务台;服务台收到故障通报,应在30分钟内发出故障通报;服务台获知故障原因后,应在30分钟内发出追加通报。杨宏林、张沐昀、左鹏、于磊、石峰、李腾、片区二线、片区PM、王巧丽、杨南、王继、孔令磊;内部通报:故障发生即时通报,由一线运维工程师电话通报运维经理、片区二线、片区PM左鹏、石峰、李腾、片区二线、片区PM、运维经理(服务台负责短信通知故障发生和故障结束)服务台故障跟踪机制,由服务台电话询问运维经理现场情况,并邮件发出通报故障等级故障进程跟踪周期和通报时间一级未明确故障原因每隔30分钟邮件通报一次直至故障原因明确已明确故障原因每隔1小时邮件通报一次直至故障明确修复期限已明确修复期限每隔2小时邮件通报一次直至业务修复二级未明确故障原因每隔30分钟邮件通报一次直至故障原因明确已明确故障原因每隔1小时邮件通报一次直至故障明确修复期限已明确故障修复期限每隔2小时邮件通报一次直至业务修复三级未明确故障原因每隔4小时邮件通报一次直至故障事件结束已明确故障原因每隔1天邮件通报一次直至故障明确修复期限已明确故障修复期限每隔2天邮件通报一次直至故障明确修复期限四级未明确故障原因每隔4小时邮件通报一次直至故障事件结束已明确故障原因每隔1天邮件通报一次直至故障明确修复期限已明确故障修复期限每隔2天邮件通报一次直至故障明确修复期限3.6. 文档管理安全事件评估部分交付成果和报告包括:n 应急响应事件记录单n 浪潮云计算平台故障分析报告事件处理事后总结交付成果和报告包括:n 浪潮平计算平台故障解决报告4. 信息系统组件4.1. 平台总体架构浪潮攀枝花政务云计算平台是运用云计算技术,统筹计算资源、存储资源、网络资源、信息资源、应用支撑等资源和条件,统一建设并为各政务部门提供基础设施、支撑软件、应用功能、信息资源、运行保障和信息安全等服务的电子政务综合性服务平台。4.2. 基本业务功能浪潮云计算平台(浪潮攀枝花政务云平台)包含两个个子平台,分别为:政务外网云平台、互联网云平台,其中政务外网云平台和互联网云平台共用一套网络设备,相互之间逻辑隔离,各平台主要功能如下:政务外网云平台用于满足政府各部门政务外网业务接入需求。互联网云平台用于满足各部门网站应用及公共服务应用接入需求。管理平台用于内部管理运维。云平台各个区域通过vlan的方式来区分管理网络以及各个业务网络。互联网区域中:定义vlan99为设备管理网络,实现平台的统一管理。各个客户业务使用vlan301至382vlan来区分用户。对于不同vlan之间的用户使用分级防火墙的方式来实现vlan间的隔离,而同一个vlan之间不同虚拟机的网络隔离通过虚拟防火墙实现。4.3. 关键信息系统及组件根据国家电子政务外网建设相关要求,云计算平台整体可划分为互联网区、政务外网区、管理区三个部分。互联网区面向社会公众对外提供政务服务,政务外网区面向公务人员对外提供政务服务,管理区面向云服务商运维人员。互联网区可划分为网络接入域、核心交换域、数据存储域、应用系统域。其中网络接入域部署有负载均衡、防火墙(含AV防病毒模块和IPS入侵防御模块)、VPN、WAF等安全组件。核心交换域部署有核心交换机、接入交换机等网络组件。数据存储域部署有光纤交换机、存储设备、备份设备等存储组件。应用系统域部署有计算服务器等计算组件。政务外网区可划分为网络接入域、核心交换域、数据存储域、应用系统域。其中网络接入域部署有防火墙(含AV防病毒模块和IPS入侵防御模块)等安全组件。核心交换域部署有核心交换机、接入交换机等网络组件。数据存储域部署有光纤交换机、存储设备、备份设备等存储组件。应用系统域部署有计算服务器等计算组件。管理区主要部署堡垒机、漏洞扫描、日志审计、数据库审计、防病毒服务等安全组件;终端准入服务、系统补丁服务、NTP时钟服务、zabbix运维服务、ICP云管平台等组件。在业务网层面,互联网区与政务外网区通过硬件网闸设备实现物理隔离。在管理网层面,互联网区与管理区通过两台核心交换机上配三层地址并采用路由的方式实现连接,同样政务外网区与管理区也是通过两台核心交换机上配三层地址并采用路由的方式实现连接。1. 互联网接入区边界存在联通、电信两家运营商的网络接入,部署边界防火墙设备(包含IPS、AV),用于策略控制、安全防护和流量管理;政务外接入区边界部署防火墙边界设备(含IPS模块、AV),用于政务外网的访问策略控制;政务互联网和政务外网之间的边界设备为安全隔离网闸,作用在于实现政务外网和互联网区的业务服务器跨边界进行的数据传输。访问与管理关键系统时采用远程管理方式,通过SSL VPN设备拨入网络内,远程登陆至堡垒机设备进行操作,SSL VPN记录登陆用户信息和流量限制,堡垒机记录远程登陆用户日志。4.4. 设备清单4.4.2.4.3.4.4.1. 设备清单交付项一级分类交付项二级分类交付内容数量计算资源通用性能虚拟化服务器NaviData5200 G2 10台高性能虚拟化服务器UniServerR6900 G34台大数据平台Hadoop与ETL节点服务器NaviData5200 G25台大数据平台MPP节点服务器NaviData5200 G22台共享交换平台虚拟化服务器NaviData5200 G28台存储资源FC存储设备1CF88401台FC存储设备2CF88401台备份资源备份存储设备CF88401台光纤交换机CN6600B2台网络资源业务核心交换机S12508X-AF2台业务接入交换机S6800-4C2台管理网核心交换机S5560X-30C-EI2台管理网接入交换机S5130S-52P-EI6台虚拟化平台软件服务器虚拟化软件CAS云计算管理平台1套SDN网络虚拟化控制器VCF控制器1套云操作系统云计算管理平台H3CloudOS 云操作系统1套管理服务器NaviData5200 G29台云运维管理平台U-Center智能运维系统1套安全体系多功能安全网关SecPath M90102台云负载均衡LB5000-S 2台WEB应用防火墙W2020-G1台运维审计A2020-G1台数据库审计D2020-G1台漏洞扫描SysScan-A1台网络安全态势感知SecCenter CSAP网络安全态势感知平台1台出口防火墙F50302台5. 应急预案5.1. 供配电应急预案攀枝花市大数据中心机房坐落于攀枝花中国移动良友通讯枢纽大楼,配备2路从不同变电站发出的10KV市电电源(分别为10KV紫瓯线、10KV园瓯一线),同时配备2台应急柴油发电机(1300KW泰豪机组、880KW威尔逊机组互为备份),固定式柴油发电机组预备10小时运行柴油,额外还配置一台600KW应急移动发电车。为防止攀枝花市新一代云计算中心因动力环境等原因导致客户业务受到影响,保障数据中心安全、稳定、可靠,并保障机房设备安全稳定运行,根据相关基础设施及IT系统设备操作、维护及应急处置手册要求,特制定此保障方案。启动条件:1)市电长时间不稳,供电质量恶化,影响变配电设备运行;2)市电停电后,固定式柴油发电机组不能在规定时间内启动供电;3)设备及供电线路故障导致不能供电;4)逆变系统不能正常供电5)UPS变换供电出现问题6)UPS变换、交流供电同时出现问题当出现以上一种或几种事件时,启动应急预案。抢修、供电顺序:发生重大故障时,抢修、供电顺序,应遵循下述规则:1)先供电(包括油机供电和另外接市电),后抢修。2)先给重要负载(电信网络设备、服务器、账务系统、机房专用空调)供电,再依据负载使用情况给其它负载供电。故障抢修界面划分高压变配电部分由供电公司负责抢修,低压(含交、直流)部分和油机由攀枝花移动公司抢修小组负责抢修。故障判断程序及处理原则1)当设备发生障碍时,首先应根据设备告警指示、监控系统显示,初步判断障碍段落和性质,确定是设备障碍还是线路障碍、内部障碍还是外部障碍。2)初步判明障碍段落性质后,如不能迅速恢复,应根据设备重要性调度办法规定的顺序,设法调通并恢复重要设备。3)当发生电源系统瘫痪时,应很快判断原因,并做好抢修配合工作。处理流程A、单路市电停电流程(正常情况下不需人工干预)1)确认市电停电、系统检测到主路断电后立即送出油机启动指令,油机在主路掉电后8秒内启动,油机电送出并自动供应主路; 2)应急人员到场后手动切换备用市电线路,确认同步后自动合闸,油机供电断开并空载运行15分钟后停机,此时切换至备用市电线路供电;3)开油机室门,高低压配电室门、机房门进行巡检。B、双路市电停电且柴油机组故障流程1)启动移动电源车柴油发电机组2)连接车载电缆至低压配电室配电柜后母线,配电系统自动检测移动发电机组供电质量和线序,正常指示灯亮起后,在低压配电室的4楼配电柜上手动合闸为大数据中心机房及通讯机房单独供电。3)对机房进行巡检。C、UPS故障处理1)UPS变换供电出现问题,切换旁路交流直接供电,同时及时处理好故障。2)UPS变换、交流供电同时出现问题,给供电设备从交流屏接一临时线,保障设备正常工作,同时及时处理好故障。3)如不能处理的问题,及时联系厂家派人来处理。5.2. 消防应急预案为了提高攀枝花新一代云计算中心应对火灾的自防、自救能力,一旦发生火灾事故,能做到有计划、有步骤、准确、及时、有效的进行扑救,使火灾损失减少到最低程度。当运维人员发现火情后,按照如下的流程处理:1、运维人员通过监控软件报警或值班巡检发现火情,应双人立即到现场确认是否有火警发生,查明报警部位。2、如运维人员现场查看后未发现任何火情及与火情相关现象发生,可判定为误报警,运维人员通知消防厂商工程师到场维修误报警故障。3、如局部发生火灾,火势较小,应迅速利用现场消防器材(机房区域内使用二氧化碳灭火器)进行扑救,并做好启动气体灭火系统的准备。火情处理完毕向运维经理报告。4、如火势较大并有蔓延的趋势无法控制,应向运维经理报告,立即通知机房内人员撤离,并通知物业消防人员迅速到场配合。运维人员将新风空调、组合空调、机房精密空调全部关闭。物业消防人员根据着火区域启动所在区域气体喷出启动按钮。(1)如物业消防人员无法通过控制柜启动气体灭火系统,可根据着火区域通道门口紧急启动按钮启动该区域气体喷出;如气体仍无法喷出,可进入机房着火楼层钢瓶间找到对应着火区域拔出消防钢瓶保险栓,按下钢瓶喷出按钮。(2)如消防联动无法正常切断新风、空调电源,运维人员立即通知高压配电室,关闭带有新风、精密空调的高配低压侧开关。4、气体喷洒启动后,该分区外的“放气勿入”警示灯亮起,严禁任何人进入;5、喷洒完毕应佩戴专用空气呼吸器或氧气呼吸器进入喷洒区域确认火灾扑灭后,开启排气系统进行排气。严禁不采取防护措施直接进入喷洒现场。6、联系机房设备、主机、网络和各应用系统管理员,检查起火原因,查看设备和系统运行情况,如以上硬件或软件系统因火灾出现故障,则启动对应的应急处置操作。如火势较大无法控制,紧急疏散步骤如下:1、运维人员立即拨打119请求消防救援。2、物业消防人员立即通过值班室内消防广播系统对整楼人员进行广播,要求尽快疏散;3、运维人员将大楼正门全部打开作为应急疏散通道;现场负责人将人员疏散情况向上级领导逐级报告。应急处理完成后应总结处理过程,形成总结报告报经信委,说明故障发生的原因,处理的过程及须改进措施,形成经验积累,便于以后应急处理。5.3. 精密空调应急预案精密空调系统采用N+1部署模式,机房配备依米康精密空调2+1台,室外机4+2台,辅以给、排水系统,保持机房的恒温恒湿,为设备运行提供良好的运行环境。启动条件:1)空调回风温度超过28;2)空调回风温度仍然上升趋势;3)机房环境温度超过32。处理过程:1)处理流程故障处理流程如下图所示:2)故障处理步骤系统控制板故障a)给部门领导汇报现状。b)调用机房所有的电扇到该机房,或调用一台柜式空调临时安装到该机房。c)请大家根据系统的不同按下面进行操作:控制器出故障,空调机就会失去控制不能正常工作。紧急情况下,为保证机房温度不致过高,可以强制启动制冷系统运行。具体方法如下:n 关闭空调总电源。n 根据电路图,从空调的交流变压器处引出24V交流电火线经由空气开关(自备)接至要启动系统相对应的压缩机、室内风机24V交流接触器的A1端,A2端接变压器公共端。一个系统接一个空气开关。(注意同一个系统内的压缩机、室内风机交流接触器的A1必须接在同一个空气开关上)。n 合上空调总电源。根据机房负荷要求,先后合上加装的空气开关(注意不要同时合上加装的开关,以免压缩机启动电流过大引起开关跳闸)。机械故障a)室内风机故障:调用机房所有的电扇到该机房或调用一台柜式空调临时安装到该机房;联系当地维修单位进行维修;联系供应商维修事宜。b)室外风机故障:利用备件更换;情况紧急又无备件更换时,可拆下损坏的室外风机,接上水管直接用水给冷凝器散热。联系当地维修单位进行维修;联系供应商维修事宜。当空调出现高低压故障时首先检测压力,判断故障点。当出现高压时,重点检查冷凝器,室外风机。改善室外机散热环境,若一切正常,在系统氟过量,则放掉多余的氟。当出现低压时,重点查漏补漏,若无漏点,可充氟解决故障。空调进排水故障,造成机房大面积渍水由值班室通知空调使用单位迅速关断进水阀或关闭空调,查找水源,维修进水管路,疏通排水管。现机房有3台专用空调,共6个机组,使用1个机组为备用,可基本保障机房制冷需求。若有多个(23个)机组故障,则可采用外购冰块配合电扇的方式进行应急制冷。5.4. 网络安全应急预案业务监控系统或值班人员发现云平台异异常时,值班人员应第一时间通知相关负责人,负责人根据实际情况上报故障,一线团队15分钟内无法解决故障,上报二线团队,二线团队30分钟内无法解决,上报二线专家组 故障发生后一线立即向服务台汇报故障信息,故障处理完成后一线工程师或二线工程师编写故障分析报告发送至服务台以及相关领导和同事。5.4.1. 运营商线路或通信故障平台自用线路故障用户自行申请线路故障(1)平台自用线路故障中断,一线应立刻通报故障,并联系运营商确认是否是线路异常,如异常,则如实上报故障如运营商线路确认没有问题,应立刻通知二线处理,二线查看关键设备情况,定位故障,如短时间无法确认故障,应将业务切换至备用线路,恢复主要业务,再进行故障线路处理,事后二线应输出故障分析报告,以及同类故障规避办法(2)申请线路故障中断,通常仅影响中断线路用户业务,一线应立刻通知用户,并配合用户进行故障处理,如无法解决,上报二线请求支持5.4.2. 平台业务性能下降全部业务性能下降单个业务性能下降1)全平台业务性能下降,一线应立刻通知二线,二线应有网络工程师检查网络网络设备、安全设备运行状态,安全设备防护情况,系统工程师检查平台各类主机运行状态,如30分钟类无法定位故障,二线应立刻上报专家组支持,2)单个业务性能下降,一线应查看涉及业务主机运营情况,以及内网测试业务访问情况,以及业务安全设备防护情况,如15分钟内无法定位,请求二线支持5.4.3. 设备软硬件故障核心设备硬件故障、软件故障边缘设备硬件故障、软件故障1)核心设备硬件故障,软

    注意事项

    本文(攀枝花智慧城市大数据中心应急预案.docx)为本站会员(热心****k)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开