《智能监控与治理对进步UPS系统可用性的特殊作用.docx》由会员分享,可在线阅读,更多相关《智能监控与治理对进步UPS系统可用性的特殊作用.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、智能监控与治理对进步UPS系统可用性的特殊作用 衡量UPS系统平安性能的指标中,有两个指标尤其重要:一个是系统的可靠性,另一个那么是可用性。作为进步电源系统质量的主要设备,UPS系统本身的可靠性、可用性,是衡量UPS系统性能最重要、最根本的指标。这里对影响UPS可用性的因素进展详尽的剖析,进而得出通过采用先迸UPS智能治理技术来进步系统可用性的有效方法。新的UPS治理技术及产品,对进步UPS系统的可用性具有重要的意义。 从系统可用性的定义可以看出,进步UPS系统可用性有两个途径:一是进步系统可靠性,即延长平均无故障时间MTBF,另一途径那么是降低平均故障修复时间MTTR。从UPS系统平均故障修
2、复时间MTTR与UPS系统可用性的关系可以看出,缩短平均故障修复时间MTTR对进步系统可用性具有更明显的作用。 这里通过一个详细的案例具体分析平均故障修复时间MTTR的构成。所分析的案例是一台80kVA的UPS系统。假如这样的UPS系统发生故障,通常是需要厂商专业技术人员才能进展维修的。对于这样一个系统,诸多厂商纷纷提出了4小时响应、24小时修复等效劳承诺。但值得留意的是,这些时间并非真正的故障恢复时间。首先,所谓的4小时响应,通常仅仅是指厂商方面的工程师在得到用户的通知到做出上门维修方案的时间,离真正故障修复还有相当的间隔 ,而24小时修复那么会有很多的附加条件,如发生故障的设备所在地有无工
3、程师、备件等条件。其实,真正的故障修复时间与整个故障修复经过的每个环节都有严密的联络。 下面就上述UPS系统故障案例的修复时间进一步地按实际分段加以具体分析时发现,一次故障修复时间由以下时间段构成: 故障报警通知时间。从故障发生到用户发现故障的时间,用T1表示。 厂商反响时间。用户将故障信息反应给厂商的售后效劳部门,到厂商售后效劳工程师与用户沟通,做出上门维修方案的时间,用T2表示。 故障初步判定时间。厂商售后效劳工程师通过 等方式与用户沟通,理解故障现象和故障经过,对故障做出根本判定的时间,用T3表示。 上门效劳时间。从厂商售后效劳工程师通过 等方式与用户沟通对故障做出根本判定后到上门效劳的
4、时间,用T4表示。 故障排除时间。从厂商售后效劳工程师上门效劳,到故障排除的时间,用T5表示。 1.首先来分析第一段时间故障报警通知时间T1 看起来这段时间应该是很短,但是实际上它存在极大的不确定性。首先,由于中、大容量的UPS一般安装放置在专用的电源机房,由于噪音、平安等原因,电源机房平时一般无人值守。因此,假如UPS发生故障往往要等到故障产生严重后果后才会被用户发现,同时,由于UPS系统作为强电设备,需要具有专业知识、经过专门培训的人员才能进展日常的维护操纵,所以在出现故障后也需要专业人员到现场进展评估、判定,然后才能进展相应的操纵,这一因素也制约了故障通知的速度。正是由于上述原因,加上空
5、间间隔 及专业知识方面的不确定因素,UPS的故障通知时间T1也就变得具有很大的不确定性,使它可能成为降低系统可用性的一个重要因素。 有这样一个详细的实际案例。天津某银行数据中心,使用了1台125kVA的UPS为数据中心供电,UPS系统安装在数据中心地下2层,平时无人值守。一天上午10点,UPS系统忽然出现10s的短暂停电,导致整个数据中心瘫痪。经工程师现场检查发现,UPS其实并无任何硬件故障,只是在故障发生时运行在旁路状态,经查阅UPS运行历史记录发现,当时市电正好发生10s的短暂故障停电,由于UPS运行在旁路状态,相当于市电向负载直接供电,所以市电停电直接影响到负载。但进一步检查发现,UPS
6、实际上在两天以前就已经处于旁路状态,其原因是大容量负载启动导致的过载并锁定在旁路状态(UPS设置运行形式),尽管当时UPS已经发出了声音报警信号,由于空间间隔 的原因,工作人员并末听到报警声讯,所以直到发生严重的后果以后才觉察。从这个案例可以看到,通常以为并不重要的故障通知时间T1竟然长达两天。由于乃存在较大的不确定性,实际上对MTTR具有很大的影响,它可能是导致UPS系统可用性降低的重要原因。 2、再来看看第二段时间厂商的反响时间T2 由于中、大容量UPS的维修需要专业的知识及技能,通常需要由厂商技术人员完成,这段时间的长短反映了厂商对售后效劳的重视程度及才能。不同的厂商分别为不同的产品提供
7、58(每周5天,天天8h的法定工作时间内)、724(每周7天,天天24h全天候)的售后效劳响应。 3、再看看第三段时间故障初步判定时间T3 为了加快故障修复速度,厂商售后效劳工程师在提供上门维修效劳之前,通常需要通过 等通讯手段与用户进展沟通,理解故障现象,通过用户得到UPS系统的故障状态和相关信息。这一工作非常重要,故障初步判定对预备接下来的故障现场修复起着指导作用。这段时间的长短与很多因素有关,这些因素包括:用户维护程度和故障前系统的运行状况、售后效劳工程师的技术才能和沟通才能、产品智能治理和使用的方便程度、是否人性化等。譬如,用户对UPS系统越理解,用户运行维护人员的技术程度越高,故障初
8、步判定时间就越短。除了用户、售后效劳工程师的技术才能对T3具有很大的影响外,沟通才能等非技术因素往往成为决定T3长短的重要因素,用户与售后效劳工程师的方言、语言表达习惯甚至性格等非客观因素的差异和售后效劳工程师的沟通技巧等,都会对沟通的有效性产生直接的影响,进而影响T3的长短。 4、再看看第四段时间上门效劳时间T4 厂商工程师上门效劳时间受到空间间隔 、天气情况、交通状况等条件的影响,但是相对轻易控制,在进展MTTR分析时,可以作为相对稳定的参数处理。 5、最后,再看看第五段时间故障排除时间T5 这段时间除了与售后效劳工程师的技术程度有关外,还直承受到第三步故障初步判定结果的影响。由于故障初步
9、判定的失误,可能导致带到现场的备件不能知足维修的需要,进而使故障不能很快得到修复。另外,UPS系统的构造设计也会对故障排除时间几有很大程度的影响。例如,有些厂商的UPS采用模块化设计,其故障部件的更换时间大为缩短,也有些厂商是采用所谓N+1的模块化加冗余配置技术,这就更加大大缩短故障的修复时间T5。 综上所述,在影响故障修复时间的各个阶段中,除了厂商的效劳标准和工程师的技术程度对故障修复时间具有重要的影响外,故障报警通知、故障初步判定等环节,由于其轻易受到诸多非确定因素的影响,具有很大的不确定性,同时又不为大家所重视,所以往往成为延长故障修复时间MTTR的主要原因。 为了有效缩短T1(故障报警
10、通知时间)、T3,(故障初步判定时间)和T5(故障排除时间),首先,UPS系统必须有故障远程报警的功能,UPS系统能在故障发生时,通过各种有效的远程报警手段,向不在现场的系统运行维护人员及时报告故障信息,其次,售后效劳工程师能通过直接、客观的手段理解故障情况,进而得到有关故障的正确、完好的信息,防止由于人为因素造成的信息失真、缺漏。 要想使UPS系统具备远程报警、远程测试、故障远程诊断和远程修复等新的功能,这就要借助电源治理的新技术(包括一系列的附件、软件产品)才能实现。以下进一步介绍采用这些电源治理技术后的故障修复经过,从中不难看出,电源治理技术对UPS系统的可用性正在产生深远的影响。 给U
11、PS系统装备上新的远程报警治理卡,系统治理员可以对这种远程报警卡进展设置。系统治理员设置好了以后,远程报警治理卡便可以根据系统治理员的设置定期对UPS自动进展检测。当远程报警治理卡检测到系统的潜伏问题或故障发生时,会立即自动通过 、寻呼、网络邮件、手机短信等方式向运行维护人员发出报警通知,防止故障的发生或及时将故障警报通知厂商售后效劳部门,进而将报警时间T1缩短到分钟级。UPS系统维护人员在得到报警通知后,立即通知厂商售后效劳人员,厂商售后效劳工程师能通过 网络、Internet,直接对故障UPS进展访问、远程检测和远程故障诊断,以及下载UPS运行参数、运行历史记录等,这一切都由售后效劳工程师直接进展,无需用户的介入,防止了人为因素的干扰,使得对故障的初步判定更为准确,这可大大缩短故障初步判定时间T3,也为缩短故障排除时间T5奠定根底。在判定清楚故障情况后,售后效劳工程师就可以根据情况进展处理,假如故障仅仅是由于系统的某些参数设置不当,那么只需要对UPS系统相应的参数进展远程调整就可以完成故障排除,假如需要上门排除故障时,工程师就可以直接携带备件进展上门维修。由于故障初步判定相对准确,故障排除时间T5也相应缩短。整个平均故障恢复时间MTTR便大为缩短,进而可以显著进步系统的可用性。 0
限制150内