AIX巡检报告以及操作手册.docx
巡检报告单机器型号:序列号: 检查时间:_年_月_日1. 机房环境:Ø 温度 符合要求 不符合Ø 湿度 符合要求 不符合2. 机器清洁(根据需要清洁机器各部件): 已清洁 不需要3. 检查系统硬件情况: Ø 设备故障灯是否有亮 有 无Ø 是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)有 无4. 系统错误报告(Error Log): Ø 有否硬件故障 有 无故障内容:若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)结论(如SRN, FRU等):Ø 有否软件故障 有 无故障内容:结论:5. 有否发给root用户的错误报告(mail): 有 无结论:6. 检查hacmp.out,smit.log,bootlog等: 正常 不正常7. 文件系统的使用率不大于80%: 是 否8. 查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:是 否若有,用syncvg 命令修复"stale"逻辑卷。备注:9. 系统性能,有否性能瓶颈(topas, vmstat等): 有 无Ø 交换区使用率是否超过70%(lsps -s),实际值_Ø CPU是否繁忙(sar 1 10),idle值_Ø I/O平衡(iostat 1)10. 备份: Ø 有否合符要求的系统备份: 有 无 Ø 最近一次系统备份的时间_Ø 有否符合要求的用户数据备份: 有 无Ø 有否符合要求的用户数据备份: 有 无Ø 磁带机是否需要清洗: 需要 不需11. 通信:Ø 网卡的状态、IP地址、路由表等: 正常 不正常Ø 网卡通信(ping): 正常 不正常Ø /etc/hosts文件或DNS设置: 正常 不正常12. 系统DUMP设置是否正确: 正常 不正常13. HACMP 测试: Ø Cluster Verification: 正常 不正常; Ø 相关参数设置检查: 正常 不正常Ø (根据需要)接管测试: 正常 不正常 14. 系统硬件诊断:Ø 系统板、CPU、内存、I/O板: 正常 不正常Ø 网卡、SCSI卡、SSA卡: 正常 不正常 Ø 系统其他扩展卡: 正常 不正常Ø 硬盘、磁盘阵列: 正常 不正常Ø 磁带机、磁带库: 正常 不正常15. 查系统参数是否正确: 是 否Ø I/O pacing: High Water Mark/Low Water Mark:33/24Ø Syncd:10Ø Aio :availableØ /etc/environment文件中TZ不应有夏时制Ø Hacmp 系统中Power Monitor子系统应关闭16. 补丁程序(PTF)检查,现有补丁维护版本为_:根据系统运行状况决定是否安装新的PTF。需要安装的补丁程序:17. 运行#snap ac,生成文件命名为snap+s/n.pax.Z。18. 检查errdemon, srcmstr是否正常运行: 是 否 巡检内容及操作指导1 IBM RS6000小型机机房要求:1 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。2 温度(摄氏 )10 40湿度(%)8% 80%2 设备故障灯分类:主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。FAStT700磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。3 系统错误报告(Error Log)的检查: 硬件故障检测命令:# errpt -d H -T PERM若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户 软件故障检测命令:# errpt -d S -T PERM若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户4 有否发给root用户的错误报告(mail): #mail1 观察所有未读消息,注意有关diagela的消息。2 常用命令:h <num> Display headings of group containing message <num>t <msg_list> Display messages in <msg_list> or current message.n Display next message.q Quit 3 对发现的问题详细分析,结果报告给客户5 文件系统的检查:命令:# df kP%Used为文件系统的使用率。所有文件系统的使用率不能大于80%6磁带机清洁的检查:命令: #/usr/lpp/diagnostics/bin/utape -cd rmt0 n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。6 通信系统的检测: 1 网卡的状态命令:#ifconfig a输出判断:en0: flags=7e<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。2 路由的检测命令:#lsattr El inet0hostname shaixsvr Host Name Truegateway Gateway Trueroute Route Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface Trueauthm 65536 Authentication Methods True3 网络的检测命令:#ping ip address输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。RAID 的Hotspare 属性是否打开 #smitty ssaraidà Change/Show Attributes of an SSA RAID Array检查Enable Use of Hot Spares属性是否为YES8系统DUMP设置的检查 命令:#sysdumdev l输出判断:结果应为primary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression OFF若不正确请用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull9HACMP 配置检测: Cluster Verification:命令:# /usr/sbin/cluster/diag/clconfig -v '-tr'输出判断:结果无Fail项输出。10系统硬件诊断: 命令顺序为: 1#diag 2.Enter 3.Diagnostic Routines4.System Verification5.All Resources6.F7输出判断:结果应为No trouble was found.11补丁程序(PTF)的检查 1 系统维护补丁版本为ML05,检查命令为:#instfix i |grep ML12系统参数的检查 1HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 & 更改命令为:#vi /sbin/rc.boot4aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart Truefastpath enable State of fast path True 更改命令为:#smitty aio5Limits文件的设置:#ulimit a输出判断:结果应为time(seconds) unlimitedfile(blocks) data(kbytes) /尤其是这项参数stack(kbytes) 32768memory(kbytes) 32768coredump(blocks) nofiles(descriptors) 2000 更改命令为:#vi /etc/security/limits更改data为 巡检内容及操作指导1 IBM RS6000小型机机房要求:1 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。2 温度(摄氏 )10 40湿度(%)8% 80%2 设备故障灯分类:主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。FAStT700磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。3 系统错误报告(Error Log)的检查: 硬件故障检测命令:# errpt -d H -T PERM若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户 软件故障检测命令:# errpt -d S -T PERM若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户4 有否发给root用户的错误报告(mail): #mail1 观察所有未读消息,注意有关diagela的消息。2 常用命令:h <num> Display headings of group containing message <num>t <msg_list> Display messages in <msg_list> or current message.n Display next message.q Quit 3 对发现的问题详细分析,结果报告给客户5 文件系统的检查:命令:# df kP%Used为文件系统的使用率。所有文件系统的使用率不能大于80%6磁带机清洁的检查:命令: #/usr/lpp/diagnostics/bin/utape -cd rmt0 n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。6 通信系统的检测: 1 网卡的状态命令:#ifconfig a输出判断:en0: flags=7e<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。2 路由的检测命令:#lsattr El inet0hostname shaixsvr Host Name Truegateway &nAIX巡检报告以及操作手册 时间 : 2010-03-18 作者:匿名 编辑:Smi1e 点击: 67 评论 -bsp; Gateway Trueroute Route Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface Trueauthm 65536 Authentication Methods True3 网络的检测命令:#ping ip address输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。RAID 的Hotspare 属性是否打开 #smitty ssaraidà Change/Show Attributes of an SSA RAID Array检查Enable Use of Hot Spares属性是否为YES8系统DUMP设置的检查 命令:#sysdumdev l输出判断:结果应为primary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression OFF若不正确请用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull9HACMP 配置检测: Cluster Verification:命令:# /usr/sbin/cluster/diag/clconfig -v '-tr'输出判断:结果无Fail项输出。10系统硬件诊断: 命令顺序为: 1#diag 2.Enter 3.Diagnostic Routines4.System Verification5.All Resources6.F7输出判断:结果应为No trouble was found.11补丁程序(PTF)的检查 1 系统维护补丁版本为ML05,检查命令为:#instfix i |grep ML12系统参数的检查 1HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 & 更改命令为:#vi /sbin/rc.boot4aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart Truefastpath enable State of fast path True 更改命令为:#smitty aio5Limits文件的设置:#ulimit a输出判断:结果应为time(seconds) unlimitedfile(blocks) data(kbytes) /尤其是这项参数stack(kbytes) 32768memory(kbytes) 32768coredump(blocks) nofiles(descriptors) 2000 更改命令为:#vi /etc/security/limits更改data为