数据中心设施运维现状报告.pdf
12随着数据中心设施数量的不断上升以及单体数据中心的复杂度的提高,运维的重要性也与日俱增。因此,数据中心设施论坛理事会发起了首个中国数据中心设施运维现状调查。希望借助行业的调查,了解行业现状,为行业间互相学习、借鉴、及共同的努力奠定基础。该调查委托中科仙络咨询服务有限公司执行。图 1调查概况在 2016 年 5 月 7 月期间,中科仙络共收到了近200 个用户单位的调查问卷。参与问卷调查的人员负责管理的数据中心超过400 个。为了与国际调查数据进行比较,本次调查对于数据中心的定义,参照国际惯例,定义为 500 平米及以上的企业数据机房。同时,调查的对象仅限于数据中心拥有者或管理者。在回答问卷的人里面,职位的分布是:CEO/CIO等公司高级管理人员占了30%,IT部门负责人占19%,设施部门负责人占30%,运维工程师占21%。参与回答问卷的人群中,有21%的人负责管理2 个数据中心,还有17%的人负责管理3 个及以上的数据中心。(如图 1 所示)近400 个数据中心近200个用户单位200个400个公司高级管理人员 30%IT负责人19%设施部门负责人30%运维工程师21%调查人群职位及人员背景表公司高级管理人员IT负责人设施部门负责人运维工程师3在参与答卷的人员中,第三方数据中心的比例是:45%,自用数据中心的比例为 55%(如图 2 所示)。就本次调查的目的,对于第三方数据中心的定义包括数据中心托管服务提供商、互联网服务、及云服务提供商。在区域方面,北京、上海、广东三个地区参与调查的数据中心占所有参与调查的51%,其中北京27%,上海 14%,广东10%(如图 3 所示)。调查参与者的比例从某种程度反映了中国数据中心的分布情况。图 2图 3第三方数据中心,45%自用数据中心,55%,0,0第三方数据中心自用数据中心IDC互联网服务云服务提供商政 府制造业金 融27%14%10%北 京上 海广 东中国数据中心的分布情况需要说明的是,鉴于本调查的样本选择来自于中科仙络的客户数据库的定向邀请,并不能完全真实反映市场上数据中心的分布。因此,在2017 年以后的调查活动中,我们将会改进调查方式,通过报名等多种方式来邀请更大范围数据中心用户的参与,以更加完整地反映市场全貌。4数据中心建设速度是否放缓了?从调查数据看,似乎并没有看到建设热潮停滞的脚步。当问到2016 年的数据中心建设和运行预算时,有的单位表示,预算基本持平,另有31%的表示预算有 10%以上的增长。(如图 4 所示)49 的单位表示,预算基本持平31%的表示预算有 10%以上 的增长2016 年的数据中心建设和运行预算图 4图 5投资依然火热,有64%的受访单位表示在将来的12 个月新建数据中心。其中,第三方数据中心的建设意愿明显高于自用数据中心。80%的第三方数据中心计划新建数据中心。相应地,自建数据中心这一比例是50%(如图 5 所示)。如果比较 Uptime 在国外的调查数据,我们基本可以预测在后续的几年中,第三方投资预算增加的速度将持续高于自用数据中心。64%有64%的受访单位表示在将来的12 个月新建数据中心。第三方数据中心的建设自建数据中心80%第三方数据中心的建设意愿明显高于自用数据中心。50%5中国数据中心依然处于一个快速发展的阶段,对于数据中心是否过热这个话题,似乎整个市场并没有形成共识。(如图 6 所示)过热或许在特定的区域发生,但并未成为一个行业共识。同时,有16%的人认为现在市场上的数据中心质量不能满足自己的要求,仍然要自己建设。图 6图 7?您对于数据中心建设过热的看法是?16%35%43%27%0%10%20%30%40%50%还要自建看区域不算过热明显过热Source:Uptime Institute 2016 Data Center Industry Survey Result 我们比较一下 Uptime Institute 的全球调查结果,可以看到全球第三方数据中心(Colocation)在过去三年里,新建的速度一直高于自建数据中心(Enterprise)。(如图 7 所示)6运维团队在规划和建设阶段的参与度从数据看,运维团队已经在规划和设计阶段占据重要的角色。其中有47%的受访单位的建设和运维团队是完全一体的。在自用数据中心单位中,这个比例只有37%。这个和我们看到的大量金融或政府单位,建设往往由基建部门来承担,后期才交付給科技部门来负责运维是比较一致的(如图 8 所示)。在第三方数据中心单位中,运维和规划设计由同一部门完成的比例高达58%。总体来看,只有8%的运维团队完全没有参与规划设计,这也说明了后期设备供应商需要更加重视与运维团队的沟通。图 8选项百分比我们的运维团队同时也全程负责数据中心的规划和设计 46%我们的运维团队积极参与了规划设计的工作 30%规划设计团队有征求运维团队的意见 16%我们的运维团队没有参与规划设计工作 8%原始数据58%37%第三方数据中心自用数据中心47%建设和运维团队完全一体7需要注意的是,仍有34%的数据中心没有做测试验证。这个比例在第三方数据中心中高达47%,在自用数据中心中为24%(如图 9 所示)。如果探究其原因,应该可以推测出第三方数据中心在建设周期和建设预算方面承受的压力都远大于自用数据中心。因此容易导致将测试验证这个重要步骤忽略。同时,在三大运营商传统的数据中心建设流程中,测试验证不是一个标准流程,也是第三方数据中心做验证比例偏低的一个重要因素。图 9图 1034%仍有 34%的数据中心没有做测试验证47%24%第三方数据中心自用数据中心我们也发现了一组有趣的数字,当被问到运维团队是否有参与数据中心的规划和设计时,领导和一线运维人员的回答有很大不同,有80%的领导答案为“是”,主管答案为32%,工程师答案为37%,这说明领导需要更重视让运维团队参与前期工作。(如图 10 所示)工程师领导主管37%80%32%8对于第三方数据中心和云的接受度这部分的调查问卷是限于自用数据中心的客户回答。从结果上看,既不使用托管服务,也不使用云服务,完全自给自足的数据中心客户占了38%,只使用托管,还没有使用云的客户占了33%;既使用托管服务,也使用云服务的有 29%(如图 11 所示)。图 11图 1238%33%29%0既不使用托管服务,也不使用云服务,完全自给自足的数据中心客户只使用托管,还没有使用云的客户既使用托管服务,也使用云服务的客户38%33%29%从后期的计划看,计划加大云服务的客户占了21%,计划维持现状的客户占了48%,计划增加使用托管服务的占 18%,同时,计划减少使用托管服务的也有13%(如图 12 所示)。不过,如果我们考虑到我们调查对象均是拥有 500 平米以上机房的企业级客户,这或许只是表明有部分企业客户在加大自建的数据中心后,会相应减少托管空间。而另外一部分客户则会加大托管比例。本调查并不包括大量的中小企业客户。从我们的总体判断看,中小企业客户还是会加大托管,或者云服务的使用。13%48%18%21%计划加大云服务 的客户计划维持现状的客户计划增加使用托管 服务计划减少使用托管服务9最让运维人员睡不着的问题是可用性毫无悬念地排在第一;其次是运维人员不够以及运维人员资质没有达到要求,缺乏良好的管理流程则占据了第三的位置。(如图 13 所示)图 13和 Uptime 的数据比较,可用性同样排名第一,而预算在Uptime 调查中排名第二,人员则排名第三。中国客户则把人员问题排在前列,预算则没有排在前面。(如图 14 所示)?可用性毫无悬念地排在第一一二?其次是运维人员不够以及运维人员资质没有达到要求三?缺乏良好的管理流程则占据了第三的位置可用性人员管理流程图 14Source:Uptime Institute 2016 Data Center Industry Survey Result 10你的数据中心出过事吗?有 13%的单位在过去的12 个月里面,数据中心发生过导致应用中断的故障。41%的单位发生过异常事件,但这些事件没有导致应用的中断。(如图 15 所示)当问到故障及事件的原因时,我们看到各种原因的得票数几乎相当:人员数量不够51%,人员资质不够54%;流程不完善51%,设计和建设过程留下的问题55%。(如图 16 所示)图 15图 16图 1741%13%当问到故障及事件的原因是,我们看到各种原因的得票数几乎相当人员数量不够51%54%人员资质不够51%流程不完善55%建设遗留问题对于第三方及自用数据中心在这个话题上比例最大的不同是:第三方把设计建设问题排在第一位,給了75%的的投票,自建数据中心只是把这个问题排在第三位。(如图 17 所示)?第三方把设计建设问题排在第一位,給了75%的的投票;建设遗留问题有多大?12313?自建数据中心只是把这个问题排在第三位。之前我们看到第三方数据中心有较大的比例没有做测试验证,这个情况与他们后期比较多地把引起数据中心故障的原因归结于设计建设阶段之间是否有关联?11运维人员的配置、资质、及培训我们进一步了解运维人员的配置和人员资质情况。有51%的单位认为自己运维人员配置非常充足或者基本充足。另外 39%的单位则认为自己的人员配备略有不足,另有10%认为自己的人员严重不足。为何出现如此的反差?其中原因之一,当然是行业对于数据中心的人员配备本来就缺乏一个统一的标准,每个单位领导就会对于人员的需求量有自己的看法。结果就可能出现很大的反差。(如图 18 所示)如果去探究人员不足的原因,51%的人认为因为公司对于人员数量的指标有严格控制。另外30%的人则认为,即使有招聘指标,在市场上也招不到合适的人才。只有19%的人提到预算的问题。(如图 19 所示)图 18图 1951%39%10%非常充足或者基本充足略有不足严重不足51%30%19%人员数量的指标有严格控制招不到合适的人才预算的问题12谈到人员资质,有39%的单位认为运维人员资质比自己理想情况有差距。造成差距的原因,首当其冲的是培训时间和费用不够,其次则是市场上缺乏合格的运维人才,缺乏有效的培训手段也并列第二名。(如图 20所示)关于运维团队的培训计划,27%的单位有年度培训计划,但很少执行到位。另有25%的单位没有系统性的培训计划。(如图 21 所示)对于外部培训机构的看法,有36%的人认为外部培训费用高,自己没有预算。另外22%则认为没有时间去参加培训。(如图 22 所示)对于培训方式的建议(多选),68%的人建议实训基地,让学员有更多的动手机会;46%建议采用互联网的方式,降低培训成本和时间限制因素;另有40%的人建议探索引入虚拟现实科技手段进行培训。图 20图 21图 2227%25%培训计划36%22%影响培训原因39%人员资质差距选项百分比人员资质充分满足要求 18%人员资质基本满足要求 43%人员资质离理想情况略有差距 33%人员资质离理想有很大差距 6%原始数据13图 23图 24图 2568%32%主动维护26%8%年度维护72%28%生命周期管理主动维护年度维护生命周期管理运维的管理对于已经运行多年的数据中心,是否应定期进行健康检查和评估,有68%的人表示对于数据中心一直有主动性的维护,没有必要。还有32%的人表示对于数据中心的了解有限,需要进行健康检查。(如图 23 所示)关于年度维护,26%表示有运维计划,但可能有延时的执行,还有8%的数据中心没有维护计划。(如图 24 所示)生命周期管理,72%的会主动评估更换设备,28%会等到设备实在不行了才更换。(如图 25 所示)图 27图 26图 286%41%容量规划67%33%双人操作容量规划方面,设施和 IT 部门的沟通仍然问题不小,有 41%的单位认为 IT 部门都是临时提需求。还有 6%处于应急的状态。(如图 26 所示)在操作流程方面,72%的单位对于自己的操作流程比较有自信。(如图 27 所示)他们有完备的流程,并会及时根据配置的变化而更新。67%的操作,会采用一人唱票,一人操作的方式,还有33%则没有这么严格。(如图 28 所示)72%28%操作流程14当被问到“是否有严密的应急预案,而且运维团队非常了解并定期演习”时,近90%的高层领导给出的答案是确定的,但一线主管中则只有43%的給了肯定的答复。(如图29 所示)再次说明高层管理人员了解的情况和一线实际情况可能有不同。数据中心的能效绿色数据中心的概念一直是市场热议的话题,那么实际的情况如何?在受访者中,有 72%的人认为自己数据中心的 PUE 达到了 1.8 或者更低 (如图 30 所示 )。第三方数据中心中有55%则做到了 PUE 低于 1.5。与此同时,很大比例的人也认可设计 PUE 和实际的运行 PUE 存在差异,而导致此差异的一个重要因素是实际运行的容量远低于设计容量。PUE 1.51.5PUE 1.81.8PUE37%35%19%9%没有监测 PUE51%第三方图 30图 2943%89%领 导主 管YesYes15图 31数据中心54%33%只有 1/3 的客户 KPI 里面包含了能效的指标。67%的单位依然没有把能效作为考核指标。当问到能效指标与可用性指标的关系时,自用数据中心与第三方数据中心的回答迥异。对于自用数据中心来说,54的人认为可用性目标主导一切,能效只是辅助目标。换言之,可用性100 分,能效只是加分项。而对于第三方数据中心来说,能效指标就比较重要了。甚至还有33%的人认为能效指标为主,可用性为辅。这体现了自用数据中心与以经营为主要目标的第三方数据中心管理思路的重大不同。(如图 31 所示)总结来自于近 200 家单位的声音,刻画出2016 年数据中心设施管理者所处的一个大环境。数据中心建设的热度并没有慢下来;在设计和设备选型过程中,运维团队的角色越来越占主导;有更多的人会使用IDC,也有部分会退出 IDC,但更多人会明确使用云的服务。让运维团队最睡不着觉的是可用性、运维人员、以及运维流程。14%的企业在过去 12 个月里面出过影响应用的故障,这也说明了为什么可用性依然是让大家睡不好觉的首要原因。做好运维最重要的因素是人,49%的人认为自己的人不够,32%的人认为自己运维团队的资质不够。提升资质的最好手段是培训。但是因为预算及时间因素,培训往往难以实施到位。最后,我们看到对于能效截然不同的态度。对于自用数据中心而言,能效只是可用性 100%之后的一个加分项。对于第三方数据中心而言,能效是可以实实在在转化为收益的重要项目,因此在管理目标上作为一个重要的辅助项。最后,我们在调查过程中发现对于某些问题高层管理人员和一线人员給出的答复有很大的不同,说明高层人员有可能对于一线实际情况了解不准确。因此,我们建议高层管理人员加强和一线运维人员的沟通。毕竟,只有团队上下齐心协力,才能保证数据中心运行的最佳结果。在此感谢所有参与本次调查的数据中心运维同行们,你们奉献的时间让整个行业受益!