机房运维方案.pdf
机房运行维护工作建议书为加强*单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、高效运行。根据*信息化工作管理规定,编制适合于*机房运维方案。1.1.运维现状分析运维现状分析*数据中心机房目前由*部门管理,由指定的外协公司承接基本运维工作,其职能限定于出入安全、配件管理、设备管理、运行物理环境管理。对于设备本身及其运行维护、软件运行维护等工作,仍由各个供应商按项目签订的协议提供免费服务,目前这些免费服务大部分处于过期或者即将到期的状态。目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设备间等,未构成一个完整的运维体系。1.1.1.1.故故障连带现象障连带现象多方运维导致机房出现中断或者服务不良的情况时有发生。*公司机房由于始终未能受到规范统一的运维管理,加上机房作为数据核心,由各种外部单位组成的运维团队无论在数据安全性、人员责任感、技术全面性等方面,都难以保持机房的持续性运转。我们没有精确的数据来说明机房的运行情况,这也是目前运维工作尚未达标的一种表现,同样,这也导致我们对现状无法进行精确描述。但是,通过一些现象仍然可以发现机房运维工作应该大幅度改进。1.1.1.1.1.1.长时间断网长时间断网具体原因不详,但由于机房服务器大部分无法接通,成都地区的二级单位网络依赖的 DHCP 服务无法使用等现象持续多个小时,发现晚,响应慢。1.1.2.1.1.2.上班时间网速慢上班时间网速慢具体原因不详,但简单归结为 SEP 或者人多并不能完全的解释网速慢的问题,由于网络是信息化建设的基础,充分发挥机房内部与外部的资源是运维工作的重要职责。1.1.3.1.1.3.服务意外退出服务意外退出当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上的一些服务器无故宕机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。1.1.4.1.1.4.不易寻找责任人不易寻找责任人机房是一完整的整体,涉及到环境、网络、服务器、存储、操作系统、数据库、应用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。1.2.1.2.半半自动化运维现状自动化运维现状目前许多企业的 IT 运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的 IT 运维管 理还只是处在“半自动化”的运维状态。因为这种 IT 运维仍然是等到 IT 故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的 IT 运维管理模式经常让 IT部门疲惫不堪,主要表现在以下三个方面:1.2.1.1.2.1.运维人员被动、效率低运维人员被动、效率低在 IT 运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使 IT 运维人员 终日忙碌,也使 IT 运维本身质量很难提高,导致 IT 部门和业务部门对 IT 运维的服务满意度都不高。目前绝大多数的企业 IT 运维人员日常大部分时间和精力是 处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到 IT 运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。1.2.2.1.2.2.缺乏一套高效的缺乏一套高效的 ITIT 运维机制运维机制目前许多企业在 IT 运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难 快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决 方案,也缺乏全面的跟踪记录。1.2.3.1.2.3.缺乏高效的缺乏高效的 ITIT 运维技术工具运维技术工具随着信息化建设的深入,企业IT 系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让 IT 运维人员难以 从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和 诊断工具等 IT 运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。现在随着 IT 运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通 了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资 源,以达到防患于未然。例如,全天候自动检测与及时报警能实现 IT 运维的“全天候无人值守”,大大降低 IT 运维人员的工作负担。而且,通过自动化诊断能最 大限度地减少维修时间,提高服务质量。因此,对于越来越复杂的 IT 运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。1.3.1.3.规规范制度不健全范制度不健全IT 系统三分建、七分管,运维管理十分复杂,技术要求高,涉及范围广,实施难度大,突出有“三难”。1.3.1.1.3.1.职责难明职责难明IT 系统运维管理离不开使用、建设、运维三方的共同努力。不能将所有运维责任归于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。1.3.2.1.3.2.资料难全资料难全网络设备价格和系统集成复杂度不断降低,部门自建“网中网”、“小系统”现象愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维部门掌控系统资源越来越难,运维管理资料难求完整。1.3.3.1.3.3.绩效难估绩效难估运维部门有个“两难”境界:系统问题越多,工作量越多,但有人认为维护水平越低;维护水平越高,问题越少,但别人认为工作量越少。运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。因此运维人员积极性越来越低,人员流失率高。2.2.总体目标总体目标2.1.2.1.机机房运维管理规范化、流程化、制度化房运维管理规范化、流程化、制度化鉴于最终用户对信息化服务持续性供应的要求,*数据中心机房运维工作急需由被动式变更为主动式,针对以下内容进行规范化管理,确保其持续运行时间与工作性能满足生产需求。机房环境,包括温度、湿度、供电、防雷、消防、承重等;机房设备,包括服务器、交换机、存储、网络安全、通讯等设备;机房链路,包括骨干光缆、机房跳线、收发与中继等;机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;机房软性资源,包括 IP 地址、VLAN 等。对于以上各个项目类别,基本上都包括监察、报警、故障排除、优化等工作,由于应用软件等受到供应商的限制,其故障排除与优化往往只能由供应商提供,但对其运行进行实时监控仍然是机房运维职责范围内的工作。2.2.2.2.统统一管理和集中授权一管理和集中授权机房运维目前存在的诸多问题,导致工作较为混乱,职责不清,相互推诿时有发生,这与运维本身所需要的快速排除事故,综合性根本性的解决潜在问题的要求是不一致的。除了技术上需要一个中央平台以外,显然管理上也应该形成一个统一的运维团队,这个团队应该对机房内各项内容都承担相应的职责,这种职责是深入的,而不仅仅是简单的遇到事故时一个通知者的角色。设备厂商、应用软件开发商都是在不断变化中的,而运维管理团队却是不变的。地研院信息中心认为,运维管理团队应该保障运维行为的合理性。不允许在事故排除、问题诊断、持续改进的过程中,出现互不承担责任,尤其在一些业务交叉点上;对运维配置项的识别方法是统一的,工作单、知识库等的格式是标准一致的;对石油钻探行业的知识理解是一致的,包括不同应用的重要性等级、不同部室数据的安全性等级等;团队内应共同对运维服务工作的推进承担责任;内部区分不同的安全等级,比如管理员账号与密码属于高安全级,而外部人员的工作则是适度授权的。在业务与管理上达到集中统一的要求后,就形成了“*数据中心机房运维一体化”的工作模式,由于这种模式加强了运维内部凝聚力,因此易于在运维流程、技术等方面进行持续改进,从而不断提高*公司在信息化运维工作上的能力,也就为*公司信息化建设解除了后顾之忧。那么,我们再看一看现在的现状,可以反射出多方运维所形成的一些后果。2.3.2.3.集集中监控平台中监控平台机房是公司的信息化核心,无论是应用服务、核心网络、骨干链路,都将牵动全公司的信息化使用。而机房的软硬件通常都是由不同的渠道采购的,这就造成了多厂商与多供应商共同维护的局面,由于不同厂商有不同的管理平台,不同集成商有不同的运维方式,运维队伍良莠不齐,在运维的及时性、有效性、安全性上,都无法满足*公司的业务需要。事实上,我们需要如下所述的一个平台。统一而且固化可执行的流程,保证无论何人来都可以按标准执行,以减少运维风险;集中的监控预警系统,通过集成机房环境、网络、服务器等系统,任何系统出现故障,都将在第一时间发现并报警,同时,管理人员也只需在一个统一门户上进行操作管理,而无需面对各种各样的管理体系,在减缓学习曲线的同时也提高运维品质;1)集中的知识库,知识包括历史实施过程、技术方案、原始资料等,由于运维的延续性非常重要,因此,具有高度参考价值的历史运维资料是一笔相当宝贵的财富;2)集中的运维队伍管理;3)统一规范的基础配置项数据库。4)只有通过一个中心平台,封装不同厂商与集成商所提供的不同内容,最终达到运维工作可执行,业务延续而不受到厂商或者集成商的过度牵制。5)但是,业务上或者说技术上只是提供了一个系统,而运维要落地仍然需要各类人员来完成,那么,保证运维工作的实施与落地就需要统一的管理。2.4.2.4.运运维自动化维自动化首先,IT 运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT 运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。3.3.建设方案建设方案*数据中心机房的运维是一个整体化的工作,无论在电信、金融等信息化程度较高的行业,都是由一个运维团队来承担运维工作,鉴于行业信息安全的需求,通常是由一个内部服务机构进行统一管理,外协单位辅助来统一开展工作。地研院信息中心作为距离*数据中心机房较近,信息化人员有一定运维经验,有足够的意愿为*数据中心机房运维提供良好的支持,目前地研院信息中心与一些有经验的外协单位通力合作,正在努力向 ISO/20000 标准所要求的运维服务规范化流程化的方向前进,并根据自身对机房运维工作的理解,已经开发出一些流程与制度,为机房运维奠定足够的基础。3.1.3.1.自自顶向下设计顶向下设计机房运维涉众自顶向下牵系到各个层面的诉求,*数据中心机房的运维是一种分层次的服务,整个运维过程将会涉及多类人员。根据*公司的现状与实际情况,我们分析以下人员将构成整个运维生命周期中的干系人,并行使各自的角色权利。3.1.1.3.1.1.终端用户终端用户终端用户是我们的最终客户,其满意度是我们运维工作是否良好的主要评判标准。终端用户不局限于大楼内的办公用户,也包括骨干网络联通的对端用户、机房服务器上各类应用的使用者、集团公司的远程网络管理者,等等。终端用户也是运维费用的承担者,我们的职责就是让其满意度逐步提升。3.1.2.3.1.2.内部服务管理部门内部服务管理部门公司信息管理部作为内部服务管理部门,承担了保证终端用户满意度的责任。由于内部服务管理部门承担了大量的管理工作,再承担运维服务工作事实上不具有可行性。因此,信息管理部应承担运维的管理工作,包括选择运维工作承担单位、审批管理流程、传递集团公司管理规范或者制定公司内部的企业规范,等等。内部服务管理部门也是运维费用的评定方与支付方,为整个运维工作履行管理职责。3.1.3.3.1.3.运维承接单位运维承接单位地研院将作为运维工作的承接单位,将贯彻落实服务管理部各项指标,并为终端用户提供服务界面。运维承接单位必须是中石油内部单位,其一是由于信息安全的要求,其二是为了更好的遵循企业规范,其三是不断提升内部队伍的运维水平。运维承接单位本质上还是一个内部服务单位,在一些技术与业务无法支撑的情况下,需要外部协作单位提供运维技术工作的支撑。3.1.4.3.1.4.外部协作单位外部协作单位外部协作单位为运维工作提供了附加的人力资源与技术专家服务,是整个运维工作的重要组成部分,其通常会承担实际工作的执行者角色。作为外部协作单位,必须遵守公司的规范与要求,并按需提供相应的数据资料与过程文档。由于机房的技术复杂性,外部协作单位可能不只一家,这些外协单位将由运维承接单位进行统一的管理,形成统一的运维团队。3.1.5.3.1.5.供应商与厂商供应商与厂商供应商与厂商,包括软件与硬件,这两部分都需要他们提供配件服务与修复服务,无论在免费服务期还是收费服务期,这些商家都属于运维体系中的一部分。供应商与厂商,也包括一些项目研究与测试阶段的参与者,这些商家也必须遵守机房相应的管理规定。3.2.3.2.采采用自底向上与自顶向下相结合用自底向上与自顶向下相结合*数据中心机房运维目前处于一种被动式的工作状态,距离主动式运维还有很长一段距离,这是由于各个运维单位没有标准的工作流程与数据规范,导致基础数据极度欠缺,这些工作目前都必须一步一步通过坚实的工作来逐渐补充和完善。同时,我们不能将运维工作简单当作一个软件系统或者平台,我们必须要按照 ITILv3 等国际标准,结合*公司实际,制定自已的标准,这样展开工作才有章可循,有法可依。按照这自底向上与自顶向下结合的原则,我们建议采用如下步骤来实施*数据中心机房运维。3.2.1.3.2.1.建设运维团队建设运维团队运维团队的建设主旨,就是满足运维工作的 PDCA 循环,结合内部与外部工作人员,构建一个良性的不断自我成长的运维生态圈。由于对 IT 运维的不够重视,很多企业并没有建立良好的运维团队来系统而规范的进行运维管理,这在一定程度上引发了 IT 运维人员的流失,使得企业的IT 运维无法在质量上得到最大限度提升。此外,随着企业 IT 应用的深入,运维已无法单纯依靠几个“运维先锋”以及“技术大鳄”来解决。运维专业化的细分,需要企业能够充分了解 IT 运维以及运维人员的特性,才能让运维人员在合适的细分空间不断进行运维经验的积累,从而提升运维质量。而这恰恰是很多企业无法正视的问题,运维中总是采取消极应对的态度,使得众多“运维先锋”以及“技术大鳄”也因为受重视程度不够等诸多原因选择离开。在运维管理中,团队质量直接影响着服务质量,只有持续投入管理精力,建立相应晋升培训机制方能确保较高的服务水平和较稳定的服务质量。我们将在后续章节详解我们的运维团队组成计划,由于工作都是由人开展的,所以这是最急迫的工作,也是*数据中心机房运维工作的重要部分。由于中石油属于国家战略行业,我们必须在考虑到人员技术性的同时,也要考虑到内外部人员的信息安全性。3.2.2.3.2.2.建立规章制度建立规章制度加强 IT 系统运维制度建设事半功倍,通过运维工作制度化,全面落实各项管理责任,可有效保证 IT 系统的安全、稳定、可靠运行。随着 IT 系统在各行各业的迅猛普及,IT 部门工作重点,逐渐由系统建设转向运维管理,确保 IT 系统高效稳定运行、提高服务水平成为重心。近年来,IT 系统运维管理发展了一些先进理论方法,诸如以 ITIL 为核心的 IT 服务管理十大流程、IT 外包等,推进了信息化服务水平的提高。但是,对于 IT 系统规模较小、功能简单的单位来说,运维部门人力弱,经费投入少,运用实施这些理论办法存在着较大的难度。因此,解决运维管理“三难”问题,惟一的办法就是建立较为完整的运维管理制度,形成一套职责、流程和指标,做到事事有章可循、有规可依。根据*的实际情况,参照行业内的一些经验,我们已经拟定了一些规章制度的初稿,可以在后续章节中看到。不过仍需要在实践过程中不断改进,以适应我们的实际情况。3.2.3.3.2.3.采集基础配置项数据库采集基础配置项数据库*数据中心机房运维的基本工作欠缺较多,尤其是在基础数据方面,一直难以提供一份完整的资料,对运维工作的开展造成巨大的障碍。配置项管理数据库即 CMDB,通过识别、控制、维护,检查企业的 IT 资源,从而高效控制与管理不断变化的 IT 基础架构与 IT 服务,并为其它流程,例如事故管理、问题管理、变更管理、发布管理等流程提供准确的配置信息。随着 IT 技术的进步与发展,企业的 IT 环境越来越复杂。数量庞大、品种繁多的 IT 设备很难被有效的管理,更不用说管理以这些 IT 设备为基础的各种IT 服务。同时,企业的 IT 环境在不断变化,如何评估某个设备或服务发生的事故或变更所造成的影响,以及如何为其它流程提供 IT 资源当前准确的配置信息都是企业面临的重大挑战。CMDB 正是为了解决以下这些问题而诞生的。3.2.3.1.3.2.3.1.信息整合信息整合如何将众多 IT 设备、IT 服务、甚至使用它们的部门与人员整合在一个完整的库中这样整合的信息将使有效与高效的管理 IT 设备与服务成为可能。可自动发现各种主机、网络设备、应用。同时支持全网发现、指定子网、指定配置项三种发现方式。3.2.3.2.3.2.3.2.关系映射关系映射如何将硬件、软件以及 IT 服务之间的物理和逻辑关系映射可视化使得 IT人员可以看到其互相之间的依赖关系,并确定该 IT 组件对客户带来的潜在影响。若 IT 人员可以实时看到其对公司或客户业务的影响,将大大有助于提高 IT 服务水平。展示IT 资源、部门、人员之间的关联关系,实现关联关系的定义与维护。CMDB 不仅仅存储 IT 资源的属性与关联关系,还自动关联 IT 资源与其发生过事故、问题、变更、发布。3.2.3.3.3.2.3.3.流程支持流程支持如何为其它 IT 运维流程提供准确的 IT 设备、IT 服务的配置信息(包括当前设备或服务发生过的事故、问题、变更、发布等信息)对服务台、事故管理、问题管理、变更管理、发布管理来说,准确的配置信息将极大的提高流程的运作效率。在服务台、事故、问题、变更、发布流程中,均可以快速查看当前流程涉及到的 IT 资源的全面、准确的信息。3.2.3.4.3.2.3.4.软件库与硬件库软件库与硬件库如何保证应用到 IT 环境的软件与硬件均是经过授权与测试的这是保证 IT环境质量与提供稳定 IT 服务的前提条件。通过支持 DSL(Definitive SoftwareLibrary,最终软件库)与 DHS(Definitive Hardware Store,最终硬件库),保证在发布管理中使用的软件与硬件均是通过授权与测试的。CMDB 是 IT 运维的一个关键,但是因为每个企业对 CMDB 的要求都会有些差别,因此 CMDB 的灵活性很重要。*公司机房的配置项虽然不比电信或者互联网应用服务商,但由于其具有远比电信、互联网应用的复杂性,在分析、采集 CMDB 资料时,将面临更多的挑战。3.2.4.3.2.4.研发研发*运维平台运维平台*数据中心机房运维,如果仍然延续大量的人工,规章制度、业务流程难以落地,执行时容易偏离,大量基本数据无法采集或者采集困难,造成好的运维理念最终仍然无法贯彻。随着信息时代的持续发展,IT 运维已经成为 IT 服务内涵中重要的组成部分。面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT 应用需要越来越合理的模式来保障 IT 服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是 IT 运维(其他因素是更加优越的 IT 架构等)。从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT 服务成本的因素越来越被人们所重视。其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。IT 运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT 运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动 IT 运维决策的层面,IT 运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。因此,IT 运维自动化是一组将静态的设备结构转化为根据 IT 服务需求动态弹性响应的策略,目的就是实现IT 运维的质量,降低成本。可以说自动化一定是 IT 运维最高层面的重要属性之一,但不是全部。3.3.3.3.运运维团队的最低配备满足维团队的最低配备满足 PDCAPDCA 循环循环运维团队的构成与职责分配是*数据中心机房运维是否能够达到预期目标的一种保障,根据*公司的组织结构与信息化建设现状,结合ISO/20000 标准,我们以一个完整的 PDCA 循环作为建立团队组织构成的依据,建立一个完整成体系的运维队伍。以上图示表达了整个团队的基本配备情况,每个环节都承担相应的职责不可或缺,在图中并未表达在机房运维过程中可能出现的供应商与厂商人员,但一旦出现,也同样纳入团队的管理规程中,并形成相应的制度与评估考核体系。3.3.1.3.3.1.客服人员客服人员客服工作人员是与用户沟通的主要渠道之一,需具备一定的话术要求和基本技能。要保障 7x24 小时的不间断服务质量,需要至少 4 名员工进行轮班工作,人员需求量相当较大。鉴于*数据中心机房目前的运行需求,可以安排 2 名客服人员轮值,每日12 小时,其余时间由驻点运维工程师提供客服服务。根据实际运行情况进行人员调整。3.3.2.3.3.2.运维工程师运维工程师运维工程师是一线工作人员,包括驻点工程师和移动工程师,运维工程师是与用户交流的零距离界面,沟通的主要渠道之一,需具备一定的话术要求和基本技能。1)接受工作任务单,登记处理过程与结果2)现场故障排除3)远程故障排除4)提出流程改进建议5)每日工作汇总6)提供技术知识与业务知识积淀7)协助用户工作,提供技术支援运维工程师属于一线员工,在接人待物、沟通以及基本技术水准都需要达到一定的要求。运维工程师在排除故障或者技术支援的时候,必须严格按流程进行,对于无法解决的问题,需要通知客服中心,加派或者另派技术专家协助。*数据中心机房运维目前需要 24 名工程师轮班,这些人员可能由运维承接单位与外部协作单位共同组成。3.3.3.3.3.3.行为督查员行为督查员行为督查员的主要工作是检验流程的符合度与运维最终效果,同时也起到一个工作过程监管的作用,形成运维工作持续改进的依据。1)检查工作流程的执行情况,派发工作整改单2)实施客户满意度调查3)实施客户新的需求调研4)工作检查情况汇总5)统计运维 KPI 指标,提供改进依据6)运维质量保证体系的内部评审目前,行为督查员同时承担了劳动监察与客户反馈的双重角色,作为 PDCA循环中“检查”这一重要环节,行为督查肩负了为运维工作持续改进提供量化依据的职责。行为督查员需要 12 人,无需轮班。3.3.4.3.3.4.技术专家技术专家作为运维工作的核心,技术专家将承担对整个运维技术、流程、规范的制定与改进工作,同时,当一线人员遇到难以解决的问题时,技术专家会从二线转为一线,为用户排除故障。1)制定与改进运维流程与规章制度2)协助运维工程师解决技术难题3)研制新的服务内容4)追踪问题及解决方案5)研发运维自动化产品6)研发运维配套软件7)维护配置数据库技术专家是一个团队,通常根据各自熟悉的业务,分为多种技术专家。技术专家通常集中办公,按需提供技术支撑保障。技术专家是 PDCA 循环中计划的制定者,也是改进的实施者,承前启后,并且为工程师和用户提供专业的技术支持,是整个团队的灵魂。目前,在*数据中心机房运维的专家团队中,需要机房环境、IT 设备、数字网络、操作系统与数据库、软件研发方面的专家,由于各能一人多项,所以专家人数约在 35 人左右不等。3.3.5.3.3.5.文档管理员文档管理员文档管理员是为了保证运维工作受控,建立企业知识库,提高运维水平所必须配备的。文档管理员一方面是实现了纸质文档与电子文档的归类以便于查询,另一方面则是整理出知识形成知识库。1)收集运维过程文件,分类归档2)收集外来文件,分类归档3)电子档案的历史版本管理4)维护运维知识库5)业务资料查询6)文档规范化管理*数据中心机房运维的文档管理员需要 1 名专职或者兼职人员。3.3.6.3.3.6.管理人员管理人员为了团队的管理与实际工作的扩展,可能还需要增加一些人员配备,以便于工作的开展。这些人员通常可以在前述角色中寻找人员兼任。1)运维团队总负责人,主要进行管理工作,调配人员2)运维管理人员,负责运维工作中的日常管理,跟协助配全等工作。其中运维团队总负责人可能会由运维承接单位的人员兼任。3.4.3.4.自自动化建设动化建设自动化建设根据(基础设施类、业务系统类、应用能力类)进行划分。提供自动告警提供短信、邮件和声光等手段通知监控人员。监控人员可以看到业务系统实时的未处理告警数目、告警详情。并可以对告警进行故障预判,系统会记录下告警的处理过程,对有通用性的解决方案可以归入知识库。建立集中日志动态监控和分析系统,为了提升故障综合分析的能力、通过关联关系分析故障原因;提供特定场景的监控分析,比如重点商品的下载性能、VIP 用户的使用性能分析等等;并快速响应新的、甚至是自定义的监控和分析需求。通过可视化的界面从业务系统内部构成的角度,即通过拓扑关系来对告警进行展示和处理,通过业务系统的构成配置,可以把业务系统的各个组成部分,各部分之间的联系通过图形化界面的方式直观展示。当其中某一点发生告警时,相应的部分将会有颜色变化,监控人员可以看到该告警可能影响的业务,从而有针对性的加强监控。3.4.1.3.4.1.现有自动化软件及远景现有自动化软件及远景也随着信息化的管理*也迈向自动化的设计及管理,现集团公司、各机关也在运用自动化的工作及软件,如 SEP、安全监控软件、包括辅助办公软件等。为完善更高运维要求,做到 IT 运维的自动化监控和管理平台。总之,实现 IT 运维自动化管理是指通过将 IT 运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是 IT 运维工作的升华,IT 运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是 IT 运维的最高层次,也是未来的发展趋势。3.4.2.3.4.2.NagiosNagios运维工具简介运维工具简介Nagios 是一款开源的免费网络监视工具,能有效监控 Windows、Linux 和Unix 的主机状态,交换机、路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。Nagios 可以监控的功能有:1)监控网络服务(SMTP、POP3、HTTP、NNTP、PING 等);监控主机资源(处理器负荷、磁盘利用率等);2)简单地插件设计使得用户可以方便地扩展自己服务的检测方法;3)并行服务检查机制;4)具备定义网络分层结构的能力,用parent主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;5)当服务或主机问题产生与解决时将告警发送给联系人(通过 EMail、短信、用户定义方式);6)可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用;7)自动的日志滚动功能;8)可以支持并实现对主机的冗余监控;9)可选的 WEB 界面用于查看当前的网络状态、通知和故障历史、日志文件等。PUPPETPUPPETpuppet 是一种 Linux、Unix、windows 平台的集中配置管理系统,使用自有的 puppet 描述语言,可管理配置文件、用户、cron 任务、软件包、系统服务等。puppet 把这些系统实体称之为资源,puppet 的设计目标是简化对这些资源的管理以及妥善处理资源间的依赖关系。puppet 采用 C/S 星状的结构,所有的客户端和一个或几个服务器交互。每个客户端周期的(默认半个小时)向服务器发送请求,获得其最新的配置信息,保证和该配置信息同步。每个 puppet 客户端每半小时(可以设置)连接一次服务器端,下载最新的配置文件,并且严格按照配置文件来配置服务器。配置完成以后,puppet 客户端可以反馈给服务器端一个消息。如果出错,也会给服务器端反馈一个消息。开发 puppet 是为了让系统管理员可以相互交流和共享成熟的工具,避免重复的劳动.通过以下两个特性来实现这一目标:1)提供一个简洁的但是强大的框架来完成系统管理任务2)系统管理任务可以描述成 puppet 语言,因此可以相互分享代码,就像分享其他语言的代码一样,比如 python,c 等3)因此,作为系统管理员的你可以更快的完成工作,因为你可以用 puppet 来处理所有的管理细节,甚至你还可以下载其他管理员的 puppet 代码来让你的工作完成的更快。CACTICACTICacti 是通过 snmpget 来获取数据,使用 RRDTool 绘画图形,而且你完全可以不需要了解 RRDTool 复杂的参数。它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结 构、host 以及任何一张图,还可以与LDAP 结合进行用户验证,同时也能自己增加模板,功能非常强大完善。界面友好。Cacti 的发展是基于让 RRDTool 使用者更方便使用该软件,除了基本的SNMP流量跟系统资讯监控外,Cacti 也可外挂 Scripts 及加上 Templates 来作出各式各样的监控图。Cacti 是用 php 语言实现的一个软件,它的主要功能是用 snmp 服务获取数据,然后用 rrdtool 储存和更新数据,当用户需要查看数据的时候用 rrdtool生成图表呈现给用户。因此,snmp 和 rrdtool 是 cacti 的关键。snmp 关系着数据的收集,rrdtool 关系着数据存储和图表的生成。Mysql 配合 PHP 程序存储一些变量数据并对变量数据进行调用,如:主机名、主机 ip、snmp 团体名、端口号、模板信息等变量。3.5.3.5.自自主软件工具研发主软件工具研发目前,地研院正在与外部相关公司共同组成研发队伍,在充分了解市场已有产品(如北塔、摩卡等)的优势与缺点后,结合中石油与*自身的实际情况,研发符合需要的运维软件工具。目前正在研发和计划研发的内容包括:1)工单系统,跟踪任务流程,实现在线的知识采集、客户反馈,由此来固化操作流程、收集运维数据2)基本配置项数据库系统,整理机房运维的资源与对象,是运维工作基础中的基础3)知识库系统,是业务知识与技术流程固化的重要手段4)运维数据统计分析系统5)中央运维门户平台,集成各个不同厂商的运维或者监控系统的数据,并采用门户的方式集中呈现目前我们已经在开展一些工作,如工单的创建与跟踪,以逐渐规范运维的管理工作。4.4.运维实施运维实施4.1.4.1.运运维规范流程维规范流程我们遵循 ISO/20000 的标准规范提出的十大流程,其中一线员工通常提供巡检、排障、技术支持等工作,是客户可见的部分,而客服中心、专家、督查、后勤等角色,与客户也会有接触,但其核心工作是不可见的。鉴于流程与表单是运维服务工作的核心组成部分,在此我们以数个规范流程作为示例,表述在 ITILv3 和 ISO/20000 的指导思想下,如何结合*数据中心机房运维的实际需求,开发满足自身需要的操作流程。4.1.1.4.1.1.序号序号1服务分工服务分工服务模块服务模块机房环境内容描述内容描述提供方提供方根据标准规范,对机房环境进行检查,地研院,外协是否防潮防尘234机房卫生UPS对机房卫生检查,是否到处是垃圾检查 UPS 情况地研院,外协地研院,外协,厂商地研院,外协综合布线、网络 检查各电缆线、光纤、网线等是否有损坏5机房供电制冷设施保证机房供电与制冷正常工作地研院,外协,厂商6设备上架与更换 操作设备上架实施,被放置位置的列柜、机架等地研院,外协7系统安装应用系统根据需求对设备操作系统规范安装根据需求对系统的应用系统的维护地研院,外协地研院,外协8现场软件升级业务维护方负责对旧版本、低版本的 地研院,外协,厂商软件升级操作910现场故障诊断对出现的问题进行分析、诊断地研院,外协地研院,外协电话远程支撑对驻点工作人员不能处理的的问题进行给予协助技术支撑对疑难问题的技术分析、探讨、总结解决问题外协,厂家11问题管理系统负责对日常故障的统计与分析、总结地研院,外协12门禁管理负责对外来人员的登记管理地研院,外协4.1.2.4.1.2.设备上架流程设备上架流程设备上架的流程,首先需求方提起需求申请,发起工单到运维服务台,填写需求申请表,相关领导审核通过后,流程提交到运维部门,到上架实施,上架验证,日常维护等工作。流程流程说明明1)需求方提出新增服务器的需求。2)服务台派发工单,判断上架设备的类型,让申请需求都填写申请表,并将申请资源发给资产管理员。3)物理服务器由资产管理员指定特定物理位置组织人员服务器上架(安装电源线、网线)4)维护人员按需求安装操作系统。5)把回单回执给需求方。6)资产管理员更新资产列表。7)由需求方自于安装应用软件。8)软件运行正常后,由运维中心按需求进行安全检查。9)试运行正常,投入生产,纳入 IT 监控、业务监控、投入维护工作。设备申请设备申请如服务器、网络上架需要申请人或者申请部门填写设备申请表,得到签字同意后方可按照流程继续进行。资源核查资源核查本阶段主要包括以下工作需求确认与资源检查。申请部门填写的设备资源申请表,设备申请部门各表单所填写的客户信息、设备信息必须一致,经部门经理审核后,与设备上架申请书一并提交至运维部门备档管理,并对需求进行归口管理。资料检查包括被分配的资源信息进行核对,详情见设备验收上架表,如检查合格后,需要签字确认,运维部分需存档。上架实施上架实施资源申请到位后,则执行上架实施工作,上架实施前,由维护人员发起上架实施工单至服务台,服务台进行记录,纳入到工单系统。对信息事件进行备档处理。上架后,需要维护人员根据上架信息表进行补充工单信息,包括上架位置、电源接口,所占 U 数据,上架时间,上架人员,维护人员等,并且需要需求方与设备方签字确认签字上架完毕后,即完结工单。上架信息归档上架信息归档维护中心根据已经上架的设备信息进行整理归档,上架信息表是对服务器已经上架后的确认信息表,保证上架设备信息的完备性,便于运维资产信息管理。纳入日常运维纳入日常运维从设备上架之日起,确定了责任部门及运维部分,就按照运维流程开始日常维护工作,包括日常巡检、故障处理、优化建设、作业计划等。过程表单过程表单*设备上架申请书设备上架申请书项目名称联系人联系电话所属部门申请时间工作邮箱上架时间注:如特殊需求内容为加急或临时(测试),则上架时间和申请时间间隔不得超过规定时间。需求事项1加急上架(不超过规定时限);2临时上架(需给出下架时间);3其他需求原因及操作内容:设备内容设 备 型大小(U 数)号数量资产编码服务器配置IP 需求核 定 功耗产权归属上架进机房人员姓名姓名姓名姓名电话电话电话电话身份证号码身份证号码身份证号码身份证号码申请部门经理签字:运维部经理意见:备注:服务器类型请假根据客户自己的服务器类型在相应位置做如下标记设备需求与*数据中心机房设备申请表内容相对应*数据中心机房设备申请表数据中心机房设备申请表项目名称申请事由申请内容使用周期编号中大型项目类型小型设备类型设备型号申请环境正式环境测试环境配置需求申请数量设备编号其他物资申请人(签名):申请人单位