数据中心基础运维手册.pdf
《数据中心基础运维手册.pdf》由会员分享,可在线阅读,更多相关《数据中心基础运维手册.pdf(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据中心基础运维手册 数据中心基础运维手册如今,随着数据中心容量的增加、规模的扩大以及新型设备与技术的引入,数据中心运行与维护的难度也在加大。但是,无论如何,提高数据中心性能、降低数据中心能耗、降低数据中心运维成本始终是数据中心管理人员的终极目标。具体来讲,如何做好数据中心冷却?如何保证数据中心电源系统稳定高效的运行?如何对数据中心实现“绿色”运营?如何对数据中心网络进行监管,并保证数据中心的网络性能?这一切都是摆在数据中心管理人员的难题,本技术手册将对这些问题进行解答。数据中心冷却数据中心服务器和关键设备时刻受到以温度过高为代表的各种威胁,这些威胁常常使得工程师和IT 技术人员夜不能寐、寝食
2、难安。尽管大家都有广泛的防范意识,但要找到一个长期有效的解决办法也并非易事。数据中心冷却策略:如何防止服务器过热?优化数据中心的冷却水生产 提高数据中心水冷却装置的冷却容量 数据中心电源管理过去的一年中,许多数据中心管理员的设备出现了电源问题,这很让人担忧。当然,我所指的问题并不是设备组件的失效,而是指数据中心IT 架构的电力供应无法得到保障。有些人在这个问题变成灾难之前就有所注意,而有些人却因为负载过重而经历了数据中心的供电中断事故。数据中心基础运维手册Page 2 of 43 使用双电源服务器提供2N冗余 如何确定全新UPS(不间断电源)单元的规格 如何使用 UPS负载总线同步控制器?如何
3、在 UPS维修期内维持设备的正常运行?如何防止数据中心电力中断 用 SNMP 工具来监控数据中心电源和冷却设备 数据中心能耗管理如今的数据中心正面临着一个异常现实而又紧迫的问题:能源危机。导致这一问题的罪魁祸首是服务器和交换机,尽管说如今的服务器和交换机的规模要比之前小的多,但能源消耗量却在大幅增加。如何战胜数据中心能源危机 如何通过空气通道控制来降低数据中心PUE 数据中心绿化 结构管理至关重要 如何利用电费分摊模式降低数据中心能源消耗(上)如何利用电费分摊模式降低数据中心能源消耗(下)数据中心网络监管在数据中心中,最至关重要的一项任务是对网络设备、服务器和数据中心本身的监控。大部分相关规划
4、都集中在选择有效的监控解决方案和持续的数据中心网络设备管理办法方面。一个有效的监控方案对于数据中心网络维护显得至关重要。如何监控和管理数据中心网络?管理虚拟网络关系 服务器虚拟化环境中网络性能和吞吐量 数据中心基础运维手册Page 3 of 43 数据中心冷却策略:如何防止服务器过热?服务器和关键设备时刻受到以温度过高为代表的各种威胁,这些威胁常常使得工程师和 IT 技术人员夜不能寐、寝食难安。尽管大家都有广泛的防范意识,但要找到一个长期有效的解决办法也并非易事。虽说业界已尝试过统一数据中心冷却方法,如标准化热或冷通道机柜布置,VUF(vertical underfloor)和 VOH(ver
5、tical overhead)通风系统等等,但我们要做的还有很多。为了帮助大家尽可能降低风险,进一步改进这些标准做法,以便它们能长期发挥作用,下面将介绍一些具体策略:灵活设计:鉴于大多数关键任务设备在使用生命期中都会经历4 到 5 次计算机设备彻底更换,所以我们需要对它们进行灵活的设计,既要保证升级过程中的成本和风险最低,又要保持连续正常的运行时间。灵活设计的关键是多方面的,其中包括安装大号的管道、为额外的计算机和机械电子设备安装留有富余空间等等。设计过程中的交流:在规划机房布局时,IT 人员一定要与设计工程师交流,以便他们能够更好地了解如何应用热通道和冷通道策略布局设备机架、如何布置多孔板以
6、优化冷气分配。此外,通过交流还可以帮助IT 人员了解会长期存在的空间限制。利用出版的指南:为了协助大家进行空间规划、估算负载增长和机械电子系统设计,行业的某些集团已经开始发布全球性标准了,如American Society of Heating,Refrigerating and Air-conditioning Engineers(ASHRAE),7 24 Exchange和Uptime Institute等。这些指南迈出了更高标准数据中心设计的第一步。利用计算流体力学(CFD):CFD 模型可以通过如下方式得到应用:设计工程师通过输入物理空间描述来对机房进行描述,其中物理空间描述包括墙壁、
7、天花板、活动地板、设备布局和设备负载。然后,CFD 软件会将机房空间分隔为几百万个“小单元”。然后,CFD 软件会通过迭代过程同时计算出每个单元的能量、质量和动量守恒方程式,输数据中心基础运维手册Page 4 of 43 出的结果是每个小单元的温度、压强和速度等状态。人们对这个过程中的物理学和数学非常清楚,可以帮助我们对实际应用提供良好的预测。CFD 模型不仅可以在数据中心的初始设计阶段发挥重要的作用,还应该在设备的整个生命周期中得到应用 从初始设计到各种升级和扩展,主动防止设备过热和停机的发生。开发替代性系统设计和布局:为了减少冷通道中的热点(hot-spot),数据中心设计还必须有替代性设
8、计和布置,比如除了CFD 分析以外还应有置顶空气分配(overhead air distribution)和组合气流处理设备等。要对各个替代性系统设计进行比较,最好使用几个测量指标来衡量冷却系统的有效性。惠普公司开发的SHI(Supply Heat Index)和 RHI(Return Heat Index)可以帮助大家记录热气流再循环进入冷通道的情况和回流入空气调节单元的冷气量。此外,Magnus Herrlin开发的 RCI(Rack Cooling Index)还可以帮助我们评估冷却系统是否适合特定的环境。尽管设备过热的威胁在IT 领域依然存在,在设计更加标准化和成本高效性的数据中心的过
9、程中,本文介绍的这五个步骤占有不可或缺的地位。(作者:Christopher Johnston,Vali Sorell 译者:涂凡才 来源:TechTarget 中国)数据中心基础运维手册Page 5 of 43 优化数据中心的冷却水生产对于数据中心冷却,Mike Flaherty提出了优化冷却水生产的概念。本系列共有三部分,本文为第一部分,重点强调了水冷却系统配置、控制策略和设备选择等的优化。尽管没有人使用汽油进行冷却,但4 美元每加仑的价格应该让所有数据中心人员吃惊。自由市场下的所有不可再生能源价格是相互关联的,大多数数据中心用于冷却的煤、石油、天然气等的价格也有所上升。服务器消耗的每吨冷
10、却水都是由水冷却系统生产的,如果要节省成本,就既要减少冷却需求,也要提高冷却水生产效率。如果这些道理你都熟记于心,你可能会感到疑惑:“为什么绝大多数技术发展和贸易的媒体报道都只针对减少冷却消耗,却很少注意如何提高生产冷却水的效率?”本系列将探讨这个被忽视的方面并提出一些解决方案,帮助大家减少电力消耗(每吨冷却水耗电量减少 0.1 到 0.4 千瓦)。很多水冷却装置每年生产5 百万以上吨小时(ton-hour)冷却,当这个量不能满足实际的冷却需求时,如果能够提高生产的效率,原本需要的额外冷却投资可能得到大大的推迟,甚至不用增加任何冷却投资就可以满足现在的冷却需求。提高水冷却生产效率要提高水冷却装
11、置的效率,需要注意以下三个方面:管道配置或循环水冷却装置;控制系统和控制策略;机械设备选择。这三个方面都共同带来0.1 到 0.4 千瓦的节约量,而且它们所能带来的节省量会受到水冷却装置的原始设计、控制策略、当前操作方法和设备条件等因素的影响。水循环装置:水冷却装置一定要用能源利用效率高的管道设计来连接各冷却器、水泵、冷却塔和CRAC,而且管道设计一定要最大限度地利用节约装置进行自然冷却。遗憾的是,大多数冷却水系统使用的都是过时的P/S(primary/secondary)模型。这个模型是二十世纪七十年代开发的一种方案,当时冷却器需要有恒定的蒸汽流,电费1 千瓦只收 1 分钱,所以节约装置不用
12、太重视。数据中心基础运维手册Page 6 of 43 到了二十世纪九十年代中期,冷却器改进了,可以处理变速流(variable flow),所以 VP(variable primary)模型应运而生,更好地利用了VP 设计低初始成本的优势。从那以后,很多聪明的人发现VP 流系统比 P/S 系统更加节约能源,因为VP 系统最大限度地利用了冷却水的温差(T),从而降低了水泵的耗能、优化了冷却器的装载。他们还发现,在天气较冷的时候使用户外空气进行冷却可以最大限度地利用节约装置。因此,如果你想要冷却水系统变得高效一些,一定要使用VP 装置,最大限度地利用节约装置进行免费冷却。控制策略:通常,水冷却装置
13、都是按照传统的操作顺序进行操作的。这样的操作顺序设计时只考虑了如何满足冷却需求,只是尽量多的生产冷却水而没有考虑生产效率的问题。因此,这样的控制程序只是由简单地由“如果,那么”逻辑和固定的设定点构成,唯一的程序调整仅限于工作人员的修补工作。要获得高效的冷却生产,就要坚持最优化操作顺序 以最低的耗电量满足冷却需求。控制程序使用合适的算法自动持续地调整设备操作也同样重要,好的控制程序应该能够根据实际负载和实际情况对设备进行调整。不用多说大家也会明白,这里所推荐的操作次序和控制技术比较复杂,但并不是所有人都应遵循的准则,所以大家要详细咨询顾问工程师和控制承包商,以免陷入标准式的模式。设备选择:如果你
14、已有一个高效的管道装置和控制系统,那么剩下的三个设备决策也会让你的水冷却装置与众不同:z离心式冷水机代表了初始成本、电能消耗和可靠性三者的最佳平衡z变速冷却塔不仅散热快而且耗电量最低zCRAC/AHU线圈上的双向、高性能旋转阀提供了必要的压力范围和关闭压力,可以对所有系统负载和压力进行合理控制。下文:优化现有水冷却装置本文的一些建议仅仅局限于一些新建的水冷却装置,很多现有的冷却装置已经成功地进行了翻新,改进了循环装置、控制和设备等。在本系列的下文中,我们将重点讲解如何翻新现有的冷却装置,帮助节省电能损耗。(作者:Mike Flaherty 译者:涂凡才 来源:TechTarget 中国)数据中
15、心基础运维手册Page 7 of 43 提高数据中心水冷却装置的冷却容量在不久前的 AFCOM 大会和 Data Center Decisions会议上,很多专家都探讨了数据中心容量(capacity)限制的问题以及它对新设备的影响。处理器能力、电源功率、冷却场所空间等任何容量限制因素都会导致新的设备需求。如果能更充分地利用现有设备的容量,可能你就不用投入新的设备了。在会议上,IT 专家们探讨了如何更好地利用服务器和房地产,也有一些业内人士谈及了占地空间方面的策略,但没有任何人涉及到数据中心的另一关键资源:冷冻水循环装置(CHW)。有意思的是,尽管根据经验大多数冷却装置经常处于未充分利用状态,
16、冷却容量限制却往往成为新建数据中心的原因。因此,冷却容量也是数据中心的一个关键考虑因素。即使暂时不会受到容量限制,提高水冷却装置效率也可以降低运营成本。CHW冷却基本原则冷却生产量与两个量成比例:通过冷却器的水的流速和水流进出冷却器前后的温差。用数学表达式表述为Tons=(Q*T)/24,其中 Q(单位为 GPM)为每分钟通过冷却器的水量(加仑),T 单位为华氏度。要确定 CHW 的冷却容量是否充足,只需对比一下“安装容量”和“实际最大容量”即可。安装容量是指冷却器的总额定吨位数,实际最大容量可以根据Q*T 关系计算得出。总之,如果安装容量远远小于计算得出的实际最大容量,则需要考虑更新如下的C
17、HW,如果安装容量足够,也可以考虑一下降低耗电量。数据中心基础运维手册Page 8 of 43 效率低下的 CHW 装置T 是评估冷却装置容量和性能的关键参数。尤其是较低的T,几乎每个CHW 系统都会存在。如果水流返回到冷却器时没有吸收足够的热量,就会导致T 比较低。由于水流离开冷却器时的温度是恒定的,所以实际T 会比设计的 T 要小一些。热能方程式(Q T)可以告诉我们为什么低T 会对 CHW 容量和效率产生不良影响。z一个冷却器的冷却产出是和Q T 成比例的,所以产出的而定吨数要视设计的T 与设计的水流量(Q)而定,或者增加水流量来抵消低T。但是,由于在通常的循环装置中CHW 的水流量是不
18、变的,所以实际最大容量与T 成正比。因此,我们就不得不启用备用冷却器来帮助现有冷却器来满足冷却需求。如果没有多余的备用冷却器,现有装置就已经达到了它的实际最大容量了,尽管它还有一定的容量是可用的。冷却容量实际上已经丢失了。考虑到普通冷却装置的安装成本,每吨冷却大概要花费1000美元,太昂贵了。z无论什么时候,只要安装的冷却器(以及水泵和冷却塔)数量比必需数量多,低T 都会增加每吨冷却的耗电量。这种情况对耗电成本的影响尤为重要,因为在高负荷期间经常会运行过多的设备。z系统的 T 过低还会导致同样的冷却需要更多的水流量。Q T 关系告诉我们,如果实际的 T 是设计的 T 的一半,那么就需要两倍的水
19、量。由于泵能是和水数据中心基础运维手册Page 9 of 43 的立方数成比例的,那么两倍的水就需要八倍的泵能。下面是你可以采取的一些减少电能浪费的措施。图2 是采取这些措施之后的样子。恢复丢失的容量,降低耗电量z有的人在冷却容量不足时花钱增加了新的设备,而实际上他们可以解决T 过低的问题,从而恢复丢失的容量。他们并不知道,导致容量限制的两个根本原因是可以轻松解决的:z传统的水循环装置设计需要保持恒定的冷却水流,因此CHW 的产出也是恒定的。所有多余的冷却水都会流通到分离器(decoupler)路线,然后与从机房空调(CRAC)路线返回的热水混合。这次混合会降低返回水的温度,从而降低T。zCR
20、AC 和 AHU(空气处理机组)控制阀会确保有足够的水流量流经线圈(coil),而不是确保合适的水流量。只有控制阀可以控制水流量与热量的合适比例,才能够让热交换变得高效。渗漏线圈控制阀(leaking coil control valves)让多余的冷水通过,进一步降低了系统的T。因此,要增加最大可用冷却容量和降低耗电量,可以从减少CHW 直通道开始,CHW 直通道降低了系统的T。如下三个步骤至关重要:替换渗漏线圈控制阀首先从最大的CRAC 开始,检查进出水流的温度,并与规范水温相比较。如果通过线圈的 T 比规范 T 高两度,那么水流量就太多了,应该替换控制阀。不要使用低质量或错误类型的控制阀
21、,要使用高质量、高变化幅度、防气泡的阀门,你会发现T 比设计的T 还高。高性能的回转阀会在规范和价格之间进行绝佳的平衡。消除分离器水流由于在多数系统设计中CHW 水流都会流经分离器,所以解决这个问题就需要将基本的循环模型修改为VP 装置。如今,VP 是人们比较倾向的一种方法,因为它降低了初始成本(本系列第三部分的话题)。不过,在翻新P/S 系统时 VP 比较受欢迎的关键是它的高效性和对容量的影响。幸好,多数现有系统转换为VP 模型只需要几步机械修改即可,其中包括:数据中心基础运维手册Page 10 of 43 z在分离器线路中安装调节阀(modulating valve)z在冷却器中安装隔离阀
22、(isolation valve)z在冷却器蒸发器上安装DP 传送器(transmitter)采取合适的控制策略消除直通水流和安装调节阀后,首要水泵(primary pump)和第二水泵(secondary pump)就是串联的了。在这个更改后的循环线路中,可变速第二水泵(variable speed secondary pump)将单独负责整个循环线路,而首要水泵不再使用。这个更改非常重要,它显然需要一个新的操作控制次序。同时,它也为新的控制策略打开了一扇大门。在新控制策略中,控制算法会持续自动地进行实时调整,从而有效地生产冷却水。通常,合适的算法包括:z冷却器设定次序优化冷却器的stagi
23、ng或 de-staging z第二水泵控制通过速度调整减少水泵的总耗能z冷凝器水平衡降低塔风扇耗能和chiller lift z节约装置优化,最大限度地利用免费冷却操作T 更高的 CHW 总结数据中心基础运维手册Page 11 of 43 由于内在的设计限制、设备规格和实际操作维护条件等因素,冷却装置通常会未充分利用和效率低下。大多数数据中心业主在降低耗能成本或建设成本时都忽视了改善冷却装置操作的需要。要想最大限度地利用现有的CHW 装置,就要寻找造成低T 的原因,解决它们,采用合适的控制技术。然后,自然会看到冷却容量提高,耗能降低。(作者:Mike Flaherty 译者:王霆来源:Tec
24、hTarget 中国)数据中心基础运维手册Page 12 of 43 使用双电源服务器提供2N冗余电源是数据中心的基础要素之一,通常由服务器管理员负责管理。而且,断电或低质量电源是造成数据中心服务器停机的一大主要因素。这里,我指的不是公用电源故障,而是电源分布系统的操作和管理的通病。在数据中心,有如下几个关键的基本电源组成部分:z公用电源和主电源板z备用发电机和自动转换开关(ATS)z不间断电源(UPS)和支路维护板(maintenance bypass panel)z电源分配单元(PDU)z机架级 PDU z服务器的内部电源在大多数情况下,服务器管理员都不会涉及到前四项的设计或操作。不过,他
25、们会直接掌管着机架级PDU 和服务器电源。大多数电源故障都发生在这里。双电源服务器的实际情况在关键任务环境下,双电源服务器是比较普遍的做法,它可以提高数据中心的可靠性。然而,尽管服务器管理员想尽可能地充分利用双电源提高冗余,但有时这些双电源服务器并未得到合理地部署。有时,不合理的操作实际上反而会降低电源的冗余。在“完美”的安装执行中(如,Tier 4数据中心),应该有两条完全独立的电源线路,每条线路分别由上述6 个部分组成。而且,每条线路必须能够独立承载整个数据中心的负载。这就是我们所说的2N 冗余。2N 冗余意味着电源故障绝不会中断数据中心设备的运行。当然,并不是每个人都那么走运能操作一个T
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 基础 手册
限制150内