hp日常维护指南(共11页).docx
精选优质文档-倾情为你奉上日常维护检查使用指南 硬件 在这部分中,我们检查以下内容: 面板指示: 在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。在正常情况下,应该是FxxF的格式。在系统出现故障时,会出现WARNING或FAULT的提示。具体请参见技术指南。 系统管理员应该定期检查该指示,确认系统正常工作;否则,应该立即联系HP公司。 服务器中的各个扩展卡的指示灯 在服务器中,存在多种扩展卡,例如,SCSI卡(连接SCSI设备),以太网卡等。这些卡都由一个或多个指示灯。从这些指示灯可以了解这些卡的工作情况。 具体情况,请参见各个卡的说明书。 SCSI卡: 在正常情况下,自检灯(self test)应该是暗的;终结电源指示灯(Terminator PWR)是亮的 以太网卡: 在正常情况下,自检灯(self test)应该是暗的;连接灯(Link)是亮的 其他卡: 外设的状态 大部分外设也都由自己的状态指示。下面是比较常见的几种: M10,M20,M30磁盘阵列 这些磁盘阵列,正常情况下,硬盘的指示灯:应该是绿色;如果变成黄色,则说明该磁盘发生故障。 维修灯(Service Lamp): 应该是绿色;如果变成黄色,则说明该阵列中存在故障部件。例如,硬盘故障。 AutoRAID磁盘阵列 该磁盘阵列有一个液晶面板。如果出现故障,在面板上会出现Warning提示信息。 磁带库 磁带库一般也有一个液晶面板。如果出现故障,在面板上会出现报错信息。 其他外设 XP256:该外设实全冗余的如果有部件发生故障,会自动通过DDN拨号到美国技术中心。 其他硬件检测: 在N4000中,有一个attention灯,正常情况下,该灯应该是暗的。如果是黄色的,则说明系统中存在一些问题。 操作系统 在这一部分,通过一些实用、简单的命令,检查系统的情况: 控制台( console )显示 在系统出现问题时,常常会在控制台上显示一些出错信息。系统管理员应该定期检查这些信息。这往往是最方便的方式。 另外,在使用完毕后,应该确保退出控制台,从而避免一些安全性问题。 命令“dmesg” 系统中存在一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。 我们可以通过dmesg命令,阅读该缓冲区。 在正常情况下,该缓冲区只应该包含自检信息。如果出现了warining、error或者是一些不熟悉的信息,应该仔细检查或通知HP服务人员。 命令“uptime” 该命令显示了系统自从上次重启以来运行的时间。通过该命令,可以知道系统是否发生了异常的重启。 命令“bdf” 系统中文间系统过满,有时会导致系统工作不正常。 我们可以用该命令显示了文件系统的使用情况。 如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。 命令“mail” 系统在发现问题时,往往会把一些信息发给root用户。 系统管理员应该定期检查root的mail信息,以确认系统中不存在异常。 日志“/var/adm/syslog/syslog.log” 该日志文件中包含一些重要的维护信息。系统管理员应该定期用more或者vi命令,检查该文件。 系统管理员如果发现warning、error、failure以及一些不熟悉的信息,应该提高警惕。 命令“cmviewcl” 对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。 确认应用包、节点和网络均正常工作。 其他命令 用netstat in检查网络状况,尤其是ATM网卡。 备份 系统管理员应该检查: 是否按照计划完成了备份 备份过程是否正常 应用 系统管理员也应该养成定期检查应用的习惯。在支持服务中,操作系统工作正常,但用户应用由于种种原因无法正常工作的例子并不罕见。 根据具体情况,系统管理员应该检查: 应用的日志文件 组成应用的主要进程的执行情况,例如数据库的DBWR,LGWR等等。 和我们每天做的一样,我也传一份: (HP9000)小型机日常维护流程表 主机名: 检查时间:08:00/10:30/13:00/16:30(其中08:00全检查) 日期 检查人 检查内容 环境 温度合适 电源线路/插座 硬件 主机面板显示:RUN,无ERROR信息 硬盘灯/磁带机/磁盘阵列灯(电源灯/硬盘灯) 网络是否正常(背后面板网卡等灯是否异常闪烁) 控制台(console显示) 操作系统 #dmesg (系统诊断信息) #uptime (系统UP后运行时间及登录用户信息) #bdf (文件系统信息used%<90%,特别是 /stand目录很重要) #mail (读root的mail信息) #glance(系统性能监测报告) #sar 1 10/sar -d 1 3(cpu/disk运行报告) 查看log #top(看占用CPU大的进程) 并清理一 #/var/adm/syslog/syslog.log(系统日志) 些log #/etc/rc.log(运行日志) #/var/adm/wtmp(登录成功日志)可清理(#>wtmp) #/var/adm/btmp(登录失败日志)可清理(#>btmp) core 文件的清理(#find / -name core -exec rm 大文件(#find / -name -size +10000) 注:以上文件确认无用后rm删除 应用程序 备份是否完成正常 备注 今天增加/删除unix用户记录 检查过程是否碰到问题? 今天故障是否出现,如何解决? 系统管理员对UNIX系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面: 1 开关机步骤 2 用户组及用户管理 参见手册 HP-UX System Administration Tasks 3 文件系统维护 发现文件系统已满,应及时删除无用文件或扩大文件系统。 可定期清理日志 #/var/adm/syslog/syslog.log(系统日志) #/etc/rc.log(运行日志) #/var/adm/wtmp(登录成功日志)可清理(#>wtmp) #/var/adm/btmp(登录失败日志)可清理(#>btmp) core 文件的清理(#find / -name core -exec rm 大文件(#find / -name -size +10000) 注:以上文件确认无用后rm删除 4 系统日常管理 4-1. 命令“dmesg” 系统中存在一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。 我们可以通过dmesg命令,阅读该缓冲区。 在正常情况下,该缓冲区只应该包含自检信息。如果出现了warining、error或者是一些不熟悉的信息,应该仔细检查或通知HP服务人员。 4-2. 命令“uptime” 该命令显示了系统自从上次重启以来运行的时间。通过该命令,可以知道系统是否发生了异常的重启。 4-3. 命令“bdf” 系统中文间系统过满,有时会导致系统工作不正常。 我们可以用该命令显示了文件系统的使用情况。 如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。 4-4. 命令“cmviewcl” 对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。 确认应用包、节点和网络均正常工作。 4-5. 其他命令 用netstat in检查网络状况,尤其是ATM网卡。 系统管理员最好用 sam (System Administrator Manager)来进行系 统管理。Sam是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操作简便。 5 系统备份 备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下: A. 每一台机器的操作系统至少有一个全备份。 B. 每天备份用户数据。 C. 操作系统配置修改后重新备份操作系统。 6 硬件维护 6-1 定时检查设备指示灯状态: 在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。在正常情况下,应该是FxxF的格式专心-专注-专业