基础设施维护方案建筑市政工程_建筑-市政工程.pdf
《基础设施维护方案建筑市政工程_建筑-市政工程.pdf》由会员分享,可在线阅读,更多相关《基础设施维护方案建筑市政工程_建筑-市政工程.pdf(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基础设施维护方案 一、概述 运行维护,由维护及定检两部分内容组成。维护定检不 仅是在问题出现时能迅速地定位、解决问题;而更重要的是 在故障产生前,能够通过例行的巡检工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效 的维护,不仅能够减少设备的故障率,并且可以延长设备的 使用寿命。维护定检的基本原则就是在例行维护定检工作中及时 发现、解决问题,防患于未然。如果维护人员能在故障发生 之前,在例行巡检之中,及时检测到故障的先兆,将故障解 决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌 乱、业务中断所造成的经济损失;而且还可以避免故障严重 化对整个设备所造成的损伤,从而降
2、低板件更换等维护费用,延长设备的使用寿命。而这一切,不但要求维护人员有深厚 的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。二、总则 为基础设施的连续性和信息安全性,制定有效的运行维 护策略来保证服务交付的质量,兼顾运行维护过程(及时和 规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的 持续改进原则。2.1 可用性 采取适当措施,确保按服务协议提供长期、持续的满足 需求的优质服务,保持服务对象符合 SLA的可用性要求。括:a)在服务实施时,建立相关的作业流程和响应机制,必 要时按需方要求制定系统冗余和备份规范,以满足需方对可 用性的要
3、求;b)进行合理的人员岗位设置和职责定义,保证专人专岗 并设置人员备份;c)配备具有相应能力的人员和必要的工具,并定期进行 专业培训,以提高服务可用性。人员能力具体要求;d)选择适用的运行维护技术,以保证服务的可用性;e)根据运行维护服务级别要求,必要时应建立体系架构 的关键健康检查点,并配备相应的运行维护工具,以保证服 务水平。运行维护工具等级;f)根据服务要求配备足够的资源,避免由于资源的缺失 导致对服务的可用性带来影响。问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维
4、护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保2.2 安全性 采取各种安全手段或措施,有效控制数据中心运行维护 服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括
5、:a)建立适当的信息安全管理机制,以规范数据中心运行 维护服务人员的信息安全行为;b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;c)对运行维护服务人员进行相关安全管理及安全要求培 训,并进行适当的检查,以确保服务人员了解并遵守数据中 心安全、保密相关规定;d)充分关注数据中心业务安全需求,结合信息安全技术 与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;e)对数据中心安全进行监控、分析,把安全风险控制在 可接受范围内,防止安全事件发生;f)建立有效的安全通报机制,以及时通报安全事件相关 问题而更重要的是在故障产生
6、前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保情况和相应防范处理措
7、施等。2.3 及时性 采取适当的手段确保提供满足 SLA时间指标要求的运 行维护服务。包括:a)对事件、问题、变更建立明确的分级策略,并与服务 窗口时间、响应时间等指标相匹配;b)建立可确保满足需方要求的沟通联络机制,保持沟通 渠道通畅,以实现对服务需求的及时响应;c)建立有效的服务资源调度机制及与服务相关方的协同 机制,配置必要的备品备件,以提供及时的服务保障;d)特殊时间段(如法定节假日或重大事件等),应提升响 应级别,提供必要的现场支持;e)建立有效机制,周期性对事件级别定义进行更新,以 确保定义准确有效。2.4 规范性 问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患
8、消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保建立适当的服务管理流程、服务活动指导文件或实施规 则,以保证
9、服务过程的规范运作。包括:a)建立有效的服务管理流程文件,以保证服务过程实施 规范性;b)建立或遵循需方的数据中心相关管理制度,如出入场 管理制度、安保控制制度等;c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;d)对于非例行操作服务(响应支持、优化改善、调研评 估),应在实施前,制定详细的实施方案,并进行风险评估 及分析,采取相应的风险规避措施和回退手段;e)在服务过程中进行的任何活动,应建立服务档案,可 形成服务报告,保留完整的服务记录。三、服务对象与交付说明 3.1 服务对象及内容(1)定期对硬件设备进行巡检、保养,以保障设备运 行正常(具体设备范围因合同而异,基本包
10、括电力系统、空 调系统、安防系统、网络系统、问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措
11、施确保按服务协议提供长期持续的满足需求的优质服务保监控系统以及综合布线系统 等);(2)定期升级配套软件的版本;(3)协助米购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;(4)针对重要设备,实时监控运行状况,及时发现故 障、排除故障;(5)针对周期性巡检发现的安全隐患进行防范和处 理;(6)提供配件维修、更换服务(7)系统重部署及调试:新机上架协助及系统移位协 助。(8)协助采购人,规范硬件管理维护标准化工作。3.2 交付内容 服务交付内容包括调研评估、例行操作、响应支持和优 化改善四类,其中:a)调研评估服务:根据需方、服务相关方或系统运行的 需求,对服务对象的运行状况、运行
12、环境进行现状调 研、系统分析和评估并提出相应的建议和服务方案;问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原
13、则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保b)例行操作服务:按照约定条件触发或预先规定的常态 服务,分为监控、预防性检查和常规作业;1)监控:指采用各类工具和技术,对服务对象的动 态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;2)预防性检查:保证服务对象的持续正常运行,根 据服务对象的监控记录、运行条件和运行状况进行检查 和趋势分析,发现其脆弱性,以便消除或改进;3)常规作业:对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启 等活动,以保证服务对象的稳定运行。C)响应支持服务:根据响应的前提不同,分为事件驱动 响应、服务
14、请求响应和应急响应;1)事件驱动响应:由于不可预测原因导致服务对象 整体或部分性能下降、功能丧失,触发将服务对象恢复 到正常状态的服务活动。事件驱动响应的处理过程首先 争取在最短的时间内恢复服务或启用备份资源,维持服 务的持续提供,并应对事件做出分析、明确诱发事件的 原因和影响的范围,采取有效的防控措施,减少问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以
15、避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保类似事 件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;2)服务请求响应:由于需方提出各类服务请求,引 发的需要针对服务对象、服务等级做出调整或修改的响 应型服务。服务请求响应需要根据总体服务策略并参考 已有的 SLA/SOW 做出判断,对服务的实施进行影响
16、评 估,制定详细的实施方案和回退措施,并在条件允许的 情况下执行实施方案和回退方案的测试。变更型响应服 务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术 资源变更、服务提供方式变更等;3)应急响应:指在出现跨越预定的应急响应阈值的 重大事件、发生重大自然灾害、由于政府部门发出行政 指令或需方提出要求时,应当启动应急处理程序。d)优化改善服务:包括适应性改进、增强性改进和预防 性改进三种类型;1)适应性改进:为保持服务对象在已变化或正在变 化的环境中可持续运行而实施的改造;问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐
17、患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保2)增强性改进:根据运行需求或由于服务对象的缺 陷,采取相应改进措施增
18、强数据中心的安全性、可用性 和可靠性;3)预防性改进:检测和纠正服务对象运行过程中潜 在的问题或缺陷,以降低系统风险,满足未来可靠运行 的需求。四、运行维护交付内容 4.1 服务对象 服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS 系统、发电机系统)、安防系 统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布 线系统。4.2 调研评估 基础设施调研评估服务内容包含但不限于:a)空调系统(精密空调系统、新风系统):机房环境指 标分析及改进建议、机房热点分析及布置改进建议、机房送 风、回风方式改进建议,新风风量、
19、风压指标分析及改进建 议;辅助制冷单元配置建议等;问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取
20、适当措施确保按服务协议提供长期持续的满足需求的优质服务保b)电力系统(供配电系统、UPS 系统、发电机系统):机柜供电分析及改进建议、机房回路调整分析调整建议、机 房扩容建议等;发电机负荷分析及调整建议等;UPS 运行分 析及扩容建议,超过设计使用寿命的电池更换建议、整流直 流电容、逆变交流电容等;C)安防系统(防雷接地系统、消防系统、视频监控系 统和门禁系统):防雷接地系统分析及改进建议、消防系统 现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分析和改进建 议等;d)综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进
21、或扩容建议;级别提 升建议等。e)机房电源使用效率:通过对机房 PUE 连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优化(消 除机房热点、冷热通道遏制、改善送回风、使用节能型设备 等)、电力系统优化(回路优化、使用节能型设备等)、实施 容量管理(对机柜的电力容量、制冷容量及空间容量进行统 筹管理,以充分利用资源)等。问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故障发生后由于抢修的慌乱业务中断所
22、造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保f)网络及网络设备调研评估:(整体或局部)网络实际 负荷与承载能力分析;(整体或局部)网络预期负荷与承载 能力分析与建议;(整体或局部)网络架构分析与建议;(整 体或局部)网络路由策略分析与建议;(整体或局部)网络 安全策略分析与建议;(整体或局部)网络配置调优
23、分析与 建议等。g)服务器调研评估:服务器负载情况分析;服务器安 全策略分析;服务器的高可用性分析;服务器性能分析及调 整建议。4.3 例行操作 基础设施的例行操作服务包括:监控、预防性检查、常 规作业。4.3.1 监控 对基础设施的监控内容参见表 1,包括但不限于:表 1 基础设施监控内容表 服务对象 监控内容 空调系统(精 环境温度、环境湿度、出风温度、回风温度,问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以
24、避免故障发生后由于抢修的慌乱业务中断所造成的经济损失而且可以避免故障严重化对整个设备所造成的损伤从而降低板件更换等维护费用延长设备的使用寿命而这一切不但要求维护人员有深厚的功来保证服务交付的质量兼顾运行维护过程及时和规范和运行维护结果可用和安全实现事前防范风险前移事中控制快速响应事后改进持续评估的持续改进原则可用性采取适当措施确保按服务协议提供长期持续的满足需求的优质服务保密空调系统、新风系统)告警情况等 电力系统(供 配电系统、UPS 系统、发电机系统)供配电系统:电流、电压、功率因数、有功 功率、无功功率、谐波等 发电机:启停情况、电流、电压、负载率、控制系统供电情况等 UPS:输入电流电
25、压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电 压等 电源使用效率:PUE 值(通过监控软件监测 或计算得出)安防系统(防 雷接地系统、消防系统、视 频监控系统 和门禁系统)防雷接地系统:浪涌保护器、避雷器状态等 消防系统:消防控制系统状态、气体火火钢 瓶压力、灭火器有效期检查 视频监控系统:告警情况、监控录像等 门禁系统:门禁状态、告警情况 问题而更重要的是在故障产生前能够通过例行的巡检工作及时发现故障隐患消除故障隐患使设备长期稳定地运行对设备良好有效的维护不仅能够减少设备的故障率并且可以延长设备的使用寿命维护定检的基本原则就是在例行维护定故障解决在萌芽期这样不但可以避免故
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基础设施 维护 方案 建筑 市政工程
限制150内