使用维护手册.docx
使用维护手册 EMC CLARiiON使用维护手册 第一章系统日常使用规范 1环境需求 空气质量 EMC设备须安装于空调环境中,空气的温度及湿度均可调节;如从室外补充新风,需经滤网过滤,以保证空气的洁净度。 机房温度 湿度 机房高度 对于EMC CLARiiON CX3系统,从活动地板至天花板或吊顶的最小高度为250cm. 水平高度 重量 设备重量因设备型号,配置的不同及产品的改进而有所不同,变化范围很大。下表仅供 活动地板 活动地板必须能够支撑设备的重量,包括静态单点承重及动态移动承重。如果地板不够,地板的四角必须有坚固立柱支撑。对于超过500公斤存储系统的安装,除满足上述要求外,承重地板需进行额外加固,在每块承重地板的中央另加立柱支撑 静态单点承重 静态单点承重的计算方法是:设备满配置重量(最大重量)÷承重点数量 所有EMC存储设备均有4个滚轮,因此活动地板的静态单点承重=设备满配置重量÷ 4 动态移动承重 态移动承重是指设备移动时地板承受的重量 动态移动承重的计算方法是:设备重量÷承重点数量 除上述设备重量外,用户应根据自己的实际情况,考虑周围设备及人员活动情况,综合计算地板的承重 电源容量 的开关,以防止当某一相电源跳闸时,带动另外两相电源同时跳闸。 2管理设备 为了更好的对盘阵状态进行监控,要求在机房内安装一台预装Win2000 的PC并与机房网络连接。该PC 同时要求预装JRE 1.4。 3注意事项 为确保数据高可用性及安全,我公司对所有销售的EMC CLARiiON 系列产品均有完善周到的售后服务,因此在设备出现硬件故障时,希望客户及时与我们联系。如因特殊原因需客户自行进行硬件更换,必须在远程监控下完成。 同时光纤线不能被挤压,踩踏,折角不能超过90度。所有的备用盘均应避免震动。 第二章系统启动和停止系统启动 1.开启机柜电源 2.开启所有与CX3-40连接的DAE电源 3.开启CX3-40风扇电源模块电源 4.开启SPS电源开关 5.加载应用 系统关闭 1.停止主机所有对盘阵的I/O 2.如果应用系统是UNIX OS 要Umount file systems 3.关闭SPS电源 4.在SPS电源关闭后,将所有的DAE电源开关置于关闭状态 5.将机柜电源关闭 第三章日常监控 监控工具 EMC CLARiiON CX3-40可以通过EMC公司Navisphere Manager软件进行日常监控,Navisphere Manager 可以安装在Windows 2000/NT/XP 平台上,可以通过网络对盘阵进行日常监控。 图1 Navisphere Manager 正常工作状态下,会定时更新磁盘阵列状态,如果磁盘阵列发生故障会有下图内容显示,参见图2: 图2 这时将树型管理菜单展开即可明确判定发生故障的模块,同时可以点击主菜单Tools在下拉菜单中选择Fault选项查看故障分析。 为了对潜在的问题及时发现,EMC还对磁盘阵列的日常运行有log记录,可以在树型管理菜单中右键点击SPA和SPB,在出现的下拉菜单中选择View Events,这时象对应的SP 的log记录窗口会弹出,磁盘阵列运行中的所有异常情况都可以在这个窗口看到,同时也可以点击Save保存log记录。 状态灯 EMC CLARiiON CX3-40所有硬件设备都有状态灯,如果状态灯亮黄灯,即可判定有设备故障发生,建议此时通过Navisphere Manager软件进一步定位故障原因。需要注意的是可能出现设备使用时间较长,故障灯被灰尘覆盖。 第四章常见故障 一、通过检查所有硬件的状态灯,初步确定故障部件。前面板左边的灯为磁盘阵列整体的状态灯。其他每个部件都有自己的状态灯。例如: SPS(standby power supply)备用电池,用来保护磁盘阵列的写cache,右侧显示灯从上至下分别为 Power 正常工作,如果在闪烁为电池正在充电 On Battery 启动充电 Batt. Discharged 电池放电 Fault 故障 SP(Storage Processors) 电源或者风扇故障灯 控制器故障灯 DISK 硬盘上左边为绿灯,正常工作时常亮;右边为黄灯,故障时亮 二、通过NA VICLI确定故障 使用navicli h getcrus命令 输出显示故障部件 例如: DPE2 Bus 0 Enclosure 0 SP A State: Present SP B State: Empty Bus 0 Enclosure 0 Fan A State: Present Bus 0 Enclosure 0 Fan B State: Present Bus 0 Enclosure 0 Power A State: Present Bus 0 Enclosure 0 Power B State: Present Bus 0 Enclosure 0 SPS A State: Present Bus 0 Enclosure 0 SPS B State: Empty Bus 0 Enclosure 0 SPS A Cabling State: Valid Bus 0 Enclosure 0 SPS B Cabling State: Cabling Status is unknown 可以看出SPB是空,系统已经不能认到设备。 Present为正常,Empty和Fault为故障 三、通过日志确定故障 通过管理界面,右键点击SPA和SPB,在出现的下拉菜单中选择View Events 蓝色为正常,黄色为警告,红色为错误 可以通过Fiter过滤掉information,再对现有的错误进行分析,根据Time确定故障发生的时间段然后再做分析,因为在安装过程中会有多个错误信息报出。 根据经验,常见错误如下: 1、硬盘故障 报错信息如下 02/10/2022 00:13:30 (2580)Storage Array Faulted Bus 0 Enclosure 0 : Faulted Bus 0 Enclosure 0 Disk 6 : Removed 08/07/2022 02:22:20 Enclosure 0 Disk 9 (a07) CRU Powered Down 0x00 0 920c 2、SP故障 08/13/2022 08:11:24 (2580)Storage Array Faulted Bus 0 Enclosure 0 : Faulted SP B : Removed 大多数控制器故障会是出现重起的现象,造成控制器重新启动主要是以下几个报错: A.05/20/2022 00:44:44 (3e9) The computer has rebooted from a bugcheck. The bugcheck was: 0x0000000a (0xf34117e4, 0x00000002, 0x00000000, 0xf5d964df). Microsoft Windows NT v15.1381. A dump was saved in: C:dumpscrash.dmp. 注:大多数出现bugcheck的情况需要升级firmware软件,个别需要更换控制器 B07/28/0507/28/05 注:控制器内存故障,需要更换控制器 3、其它硬件故障 同样会报像02/10/2022 00:13:30 (2580)Storage Array Faulted Bus 0 Enclosure 0 : Faulted Bus 0 Enclosure 0 PS A : Removed 注:对于电源模块报错,需要先检查是否为外接电源供电故障。 4、其它常见日志 A. 05/26/2022 02:47:46 SP A (944) Hard Peer Bus Error 0x01 0 0 有可能引起另外一个控制器重起,如果报错数量较多,建议更换 B.11/30/2022 12:33:48 Enclosure 0 Disk 7 (6a0) Disk soft media error 0x22 0 0 有可能引起一块硬盘故障,如果报错数量较多,并且涉及的硬盘较多,建议更换 附录: EMC CLARiiON CX3 日常维护记录单 年月日时1硬件检查 2软件检查 3检查结果 EMC CLARiiON CX3 日常维护命令: 主机上执行: 1.收集存储信息 navicli h SPA/IP getcrus>crusa.txt navicli h SPA/IP getall>alla.txt navicli h SPA/IP getlog>loga.txt navicli h SPA/IP getcrus>crusb.txt navicli h SPA/IP getall>allb.txt navicli h SPA/IP getlog>logb.txt