XXX数据中心运维方案.docx
《XXX数据中心运维方案.docx》由会员分享,可在线阅读,更多相关《XXX数据中心运维方案.docx(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.1 项目背景XXXXXX1.2 项目需求本项目主要采购内容为 XXXXXXX 基础设施设备的维修和保养服务。设备维修服务是指当最终用户的设备出现故障(如服务中断、数据丢失、设备不能正常工作等)时,投标人须为最终用户提供软硬件修复、备件更换及系统软件故障排除的服务。设备保养服务是指定期、例行的维修,以帮助设备保持正常运转,防止任何计划外的停机和设备意外故障造成的昂贵费用。在实际问题出现之前仔细规划和安排设备维修,准确记录过去的检查和维修报告,了解每个部件的使用寿命,了解更换频率。向最终用户提供建议:更换零件的适当时间并预判可能需要更换的备件。服务范围 XXXX 系统 XXXX 设备以上设备还
2、包括但不限于:相关输入输出电缆、管路连接件、涡轮杆型碳钢蝶阀、排污阀、温度计、压力表、流量计、电动三通阀、电动阀、止回阀、温度传感器、Y 型过滤器、压差旁通阀、截止阀、水表等零备件,全部包含在服务范围之内。3.弱电系统(包含相关硬件及软件): 电力监控系统; 动环/集中监控系统; BA 系统; 防盗报警系统; 门禁系统 视频监控系统(包含摄像机和存储服务器); 视频矩阵及大屏显示系统。服务内容我司提供 7X24 小时的统一服务电话,受理故障报修,解答最终用户技术人员的技术咨询问题。当设备发生故障时,我司将启动公司的多层技术资源支持,帮助客户排查问题,直到问题最终获得妥善处理。对于客户系统的重要
3、问题,我司将至少每天汇报一次问题解决情况,协助最终用户进行问题定位,就解决问题所需要相关系统信息的收集方法,指导最终用户的技术人员。我司将帮助最终用户进行问题根源的分析和诊断,提出解决问题的建议方案。当设备发生故障时,我司将派合格的技术人员(对于具有原厂授权的设备故障,我方将协调原厂技术人员)在 4 小时内到达事故现场并修复故障,如 4 小时内未能修复故障,我方将在此 4 小时内提出解决此类问题的紧急预案方案,以恢复系统的正常运行。在设备维修中如需更换备件,我司将免费提供备件并进行更换(大件的维修更换,根据原厂家的维修解决方案另行商议,我方将在报价部分对大件设备进行报价)。我司如有幸中标将提供
4、原厂商生产的同型号全新部件或者原厂商生产的兼容型号的全新部件,每次更换硬件部件时将出示该部件为原厂商生产证明,如我司采用不符合要求的部件替换故障部件,最终用户有权要求我方更换,给最终用户造成损失的,最终用户有权要求给予损失赔偿。更换下来的备件,如果是可能造成环境污染的物质,我司将交予具备相关废弃物处理资质的机构对其进行无害化处理,并且出具书面处理报告。我司将针对不同的设备,制定详细的保养计划,保证每年 4 次的设备保养。设备保养完毕,我司将提供书面的保养报告与最终用户。我司提供的护养材料, 符合行业质量标准。如最终用户需要对设备进行保养或检修时,最终用户须提前 2 个工作日通知我司,我司将提供
5、合格的技术人员进行现场技术支持。此项服务,每年应不超过4 次。每次服务,我司将提供服务报告给最终用户,由最终用户签字认可。我司将以自己的设备、技术和劳力,完成设备护养工作。未经最终用户同意, 我司绝不将设备护养主要工作交由第三人完成。若发生上述情况,我司将向最终 用户承担所发生损失的赔偿责任。因我司护养不善造成设备及其相连管线的损坏、灭失的,我司将向最终用户承担赔偿实际损失的责任。1.3 服务 SLA 指标要求服务项目服务指标要求n 提供 7*24 小时热线服务n 工作日:5 分钟响应,1 小时内提出应急响应方案,4 小时到现场解决问题;n 非工作日:15 分钟响应、1 小时内提出应急响应方案
6、,4 小时到应急响应现场解决问题;n 如 4 小时内未能修复故障,则须在此 4 小时内提出解决此类问题的紧急预案方案,以恢复系统的正常运行;n 备品备件须 8 小时到现场。如确有备件无法保证 8 小时到现场,经双方协商,投标人应保证 3 天备件到现场。在本项目的服务过程中,我方将严格遵守以下 SLA 指标要求,响应甲方对本项目的服务要求。1.4 服务期限本项目服务期限自合同签订生效之日起 1 年。1.5 项目需求理解随着云计算的发展,机房规模急剧扩大、机房数量不断增加,由小规模、封闭式、单一功能向大规模、开放式、多功能方向发展,机房管理更为重要。机房运维水平的高低也直接影响着机房的使用率和使用
7、寿命,机房运维应引起机房管理人员的高度重视。尤其对于 XXXXXXXXXXXXXX 这样的大型数据中心来说,一方面对机房稳定性有着超高的需求,另一方面对安全性、专业性也有着超过一般数据中心的多方面需求。如果没有一支专业运维团队对各种系统、基础设备进行统一规划管理,那对于机房来说将是一场灾难。通过专业化、规范化基础设施管理,有效维护机房的基础设备运行健康,增强各基础系统的安全性、可靠性和可维护性;延长系统设备的使用寿命,降低系统的故障率和维护成本;使用户更加熟练操作设备,提高设备利用率;对本数据中心来说是有着至关重要的作用的。通过对本项目的需求理解,我们对本项目的需求总结为以下三个方面:1. 确
8、保 XXXXXXXXXXXXXX 机房基础设备健康运行,通过对机房基础设备、环境设备定期检测的定期维护保养,保障机房各设备运行稳定,延长设备生命周期, 降低故障率。2. 确保设备在突发事故,影响 XXXXXXXXXXXXXX 正常运作情况下,通过协调各个产品供应商调配设备、人力资源。可快速分析问题,给出解决问题预案,并快速解决故障。3. 对机房进行科学合理的系统扩容、升级规划的跟踪、预测,从而保证系统能够满足不断增长的应用需要。1.6 难点分析及实施方法缺少专业的维护人员是本项目的难点目前许多机房运维已经实现从人工运维到计算机管理,但在同客户的交流中发现其中很多机房运维管理还只是处在“半自动化
9、”的运维状态。因为这种机房运维仍然是等到机房故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的机房运维管理模式经常让机房管理者疲惫不堪。在机房运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使机房运维人员终日忙碌,也使机房运维本身质量很难提高,导致机房使用者对机房运维的服务满意度都不高。目前绝大多数的机房运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使到机房运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。由以上问题可以看出
10、本项目主要存在的难点是:缺少专业的维保人员和技术 人员对日常维护做有序的梳理,没有充足的维保工作经验,不能把故障消灭在萌芽状态。数据中心的日常运维工作是至关重要的。设备故障时,应提供快速的备件供应、技术支持、故障处理等服务。通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。解决本项目难点的主要实施方案是:通过引入专业的维护公司进行日常运维工作。建设及使用单位相关管理人员可从日常需要完成专业性很强的维护保养工作中解放出来,重点做好管理及协调工作,更好的发挥信息或科技部门的其它职能。通过专业、系统、全面的维护可以提前发现问题,并解决问题。
11、将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本,为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。通过专业的维护,将数据中心机房内各类设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。对现有设备运行情况的了解程度是本项目实施难点对设备的了解程度,直接影响设备在维保过程中的故障判断和维修时间,对设备了解程度的不同,直接影响维护效率,在对机房装饰、装修、机房供配电系统、UPS 系统、新风排风系统、空调系统、门禁系统、动力环境监控系统、机房消防系统进行维保前,首先要对这些设备的详细参数、
12、近几年的运行状态、巡检记录、维修记录、备件更换记录等资料文档进行详细的了解和分析。对频发的故障、系统报警、备件等,工程师应制订有针对性的维护方案和必要的备件储备。在巡检过程中有针对性的进行检查,及早发现问题处理问题。解决方案:如我方有幸中标,我放将在进场之初将对现场各系统的图纸进行全面的熟悉,并结合现场实际情况记录各个设备的现在的运行情况充分了解,进行巡检预演和虚拟故障维护演练,从根本上提高我方对现场设备的熟悉度,提高故障解决效率。管线设施的维保是本项目的难点管线设施在设备维保项目中常常被忽视,也是最容易酿成事故的导火索。在本项目机房建设过程中,各机房空调冷媒管汇集在有限的走廊顶部空间和垂直管
13、道竖井内通往裙楼屋顶。当管路出现漏氟现象,维修不及时会导致空调停机,影响 IT 设备的散热,事故严重会导致 IT 设备宕机,对系统安全运行构成隐患。在对设备巡检过程中,对于工程师来说,这些管线的巡检和维护并不在工作职责范围内,因此,管线设施的维护在本项目中非常重要。解决方案:如我方有幸中标,我方将对本项目的管路、线缆进行统一梳理,对走廊顶部、垂直空间内的管线逐项巡检,记录管路、线缆的通过方向和所对应的系统。管路和线路有磕碰、破损、通过空间狭窄的地方,一一记录在巡检方案内,方便项目实施后我方排查故障点。通过前期对管路、线缆的巡检,做到管路、线缆路由明确、管控明确的目标,为后期运维工作打下坚实基础
14、,提高运维工作效率。1.7 服务优势XX 计算机 XX 有限公司的前身 XX 计算机公司始创于 1987 年,是我国 IT 产业的开路先锋。多年来,XX 公司依托华北计算技术研究所的雄厚实力和鼎力支持,先后承担了数百项国家大型信息化项目,数据中心机房的建设和实施工作。在多年服务于各级政府信息化建设的过程中,XX 公司不断提高业务水平,建立了完善的技术支持和售后服务体系,拥有一支优秀的、高素质的服务队伍和一套严格的服务标准和服务流程。XX 公司拥有丰富的 IT 服务经验,多年的工程实践培养造就了一批既精通专业技术又熟悉业务流程,且具备过硬工作作风的员工队伍。XX 公司的技术支持服务中心,可为用户
15、提供全方位的、高效的、及时的技术支持和售后服务,可迅速地为用户解决应用过程中出现的问题。持续的服务保障体系、真正的用户化服务模式及迅速的维护响应是我们服务的特点。这种服务打破了一般的“快速响应,热情周到”的服务范畴,而使服务提升到“长期保驾, 全面负责”的运行级服务水准。根据本次招标文件的要求以及项目的特点,我公司在本项目维护过程中将充分调动资源,发挥我公司多年服务各大部委的优势,为本项目提供本地化支持和快速响应服务,并量身定制本项目技术支持和售后服务方案,使各级用户能够得到良好和及时的技术支持和售后服务保障,保证所有系统安全、稳定、畅通地运行。XX 公司将针对本次项目成立专门的技术支持售后服
16、务组,由现场工程师、售后工程师组成。在项目的整个运行过程中,专职负责技术支持、维护期外服务等工作,以保证本次项目的顺利实施。1.8 服务原则前瞻性原则:对问题做出预见性分析,并为用户系统将来的发展和扩充提供建议。实效性原则:即快速反应。我们会根据系统的硬件配置、地理环境等因素,采取电话、远程诊断和现场服务的方式及时解决各种突发的技术问题。顾问性原则:提供用户咨询服务;对用户在使用系统中遇到的问题,提供改进的原则和手段。完备性原则:对所提供的所有设备进行服务支持,并对用户与系统相关的其它设备提供必要的服务。规范性原则:服务过程可监督、可管理、可追溯,从而保证服务的质量。 安全性:机房安装门禁、图
17、像监控、漏水检测系统、动力设备环境集中监控系统和设置安全通道,确保人员和设备的安全。可靠性:应结合机房特点和所使用设备情况,充分考虑使用的长久性。灵活性:结合该机房的现状充分考虑不同运行状态下,运行的灵活性。先进性:结合现代化数据处理中心运维的特点,人员技术能力要具有一定的先进性。系统运维功能完整性:综合全面各个子系统,充分考虑各子系统的内在联系, 使该机房具有完整和完善的系统功能。1.9 服务策略服务标准化:基于 ISO9001 质量控制体系的技术服务标准,形成标准化的作业流程,标准化的追诉制度,标准化的文挡管理,标准化的资格认证等。服务体系化:建立授权服务体系,让客户在最短的距离感受到最全
18、面的服务。服务多样化:在售前、售中、售后,倡导基于用户满意度为 99.99%的个性化关怀;完全满足用户标准化服务以外的特殊使用需要。服务主动化:定期回访制度,针对客户问题比对历史案例,提出预先解决方案,并保证服务在短时间内到位。服务电子化:针对具备上网条件的用户,提供远程登录、WEB 互动、在线支持等电子化服务内容,逐步建立完善的电子化服务渠道。1.10 服务目标“用户满意”是 XX 人的根本服务目标。事实上,在产品和技术日益遵循开放式标准的现实中,各厂商之间的主要区别就是服务质量,我公司技术支持与服务的三大目标是:用户的事业通过我们的服务得到发展;用户的投资通过我们的服务得到升值; 用户的烦
19、恼通过我们的服务得到排解。通过上述目标的实现来保证机房运维项目的正常和安全运行。1.11 维护管理制度1) 熟悉掌握各设备的操作规程,保证设备正常运转。2) 做好各设备运转时的日常检查工作,发现问题及时处理。3) 严禁各设备超负荷运转,严格按照各设备技术要求进行操作。4) 加强设备的日常维护和保养制度,设备调试运转,确认正常以后,方能投入使用。5) 建立健全各种设备台帐、设备卡片,并将设备的维护保养落实到人。6) 保持设备的清洁卫生,对易产生热量和安装在潮湿处的设备,运转时要及时检查,发现异常情况立即停止使用。7) 停用设备及闲置设备要做到归库管理,保持整洁。8) 对于特殊设备,操作人员必须持
20、证上岗,并做好专业理论教育及培训考核工作,严禁违章操作。9) 做好设备维护保养检修记录,责任落实到个人,检修过的设备在下次使用期间发现问题影响生产由检修人承担责任。10) 由于操作失误发生设备事故及损坏设备,操作人员应按设备维修费用的80%进行赔偿,并责令下岗。1.12 运行分析、优化和管理支持服务我公司及时了解系统运行情况,定期出具系统运行分析报告,每周通过邮件和电话(邮件或口头)向用户方相关人员提交本周运行情况和运行分析报告,每月提交月运行报告。在保证期内,我公司工程师根据巡检情况,对系统安全策略配置和系统性能进行调优,保证系统最好的提供服务和稳定运行。根据系统运行实际状况,结合用户对今后
21、系统发展规划和需求,我公司免费提供有关系统安装、调试、使用、维护、升级等方面的咨询服务。同时提供针对本系统的优化服务,提高系统的稳定性和可靠性。1.13 重大节日值守服务在特殊时期,XXXX 将派资深安全运维专家提供 724 小时实时不间断驻场职守服务,随时准备为突发情事件做出服务响应,为系统的稳定保驾护航。根据 XXXXXXX 需求,依托我方资源,为 XXXXXXXXXXXXXX 提供专业化的重点保障服务(不超过三次/年),满足在国家重大事件或突发重大事件期间,保障系统安全稳定运行的需求。当 XXXXXXXXXXXXXX 系统发生重大事件或重大变更(如应用系统上线、变更、重要系统割接、重要系
22、统升级、优化调整、机房搬迁、突发事件保障等)时,如XXXXXXXXXXXXXX 有人员需求,我方全力准备完整的支持方案,提供人员现场支持。1.14 维护档案文件的形成与管理1. 服务计划书我公司运维部在实施服务之前,根据签订好的维护合同制定相应的服务 计划书,并获得技术部的认可与批准。该服务计划书包括:服务实施机制、巡检计划表、年度计划表、服务人员的安排、资源保障等必须项目。当服务人需要进入机房内开展服务时,我公司需要针对相关服务人员的劳务管理制定适当的计划。2. 作业计划书我公司运维部根据服务计划按照各项服务制定作业计划书,并在作业开始前获得机房负责人的认可,作业计划书应该对具体作业时间、作
23、业内容、作业步骤、作业范围、作业人姓名、安全管理等进行详细的规定。对于紧急抢修作业,可以不事先提交作业计划书,但作业完成后必须提交相关内容的作业报告。3. 作业报告与记录将和机房机房负责人协商的结果整理记录。将各项作业做好详细的作业报告,报告的格式以本规程后的附表为标准,如果机房负责人有特殊要求,以与机房负责人的协商结果为标准制作。制作记载了作业执行全部经过的文件。但对于重复的相同业务,在于机房负责人协商的前提下可以省略。4. 制定相应的培训计划以上报告与记录须按照合同或与机房负责人的约定,提交给机房负责人。 机房资料使用与管理 机房内应该备有如下相关的资料: 机房工程竣工图和改造图 机房各功
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XXX 数据中心 方案
限制150内