2022年Aix服务器检查命令[借 .pdf
巡检一般又厂商或者代理商来做。第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。参考值:温度(摄氏)10 40 湿度8% 80% 第二:就是关于电源的检测,这个只要不是新装机,一般没问题。参考值:零 - 地电压小于1V 火- 地电压200-240V 补充:当然59 系列的机器相间380V ,相地 240V 。第三:关于报错。主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯(如果不正常,在后面的帖子将会细讲)第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r注:又时候不能使用是因为系统版本低的原因第五:其他检测执行 sysdumpdev l 检查 dump是否设置为always allow sysdump 执行 sysdumpdev e 检查当前dump大小应该为主dump设备的大小的80 以下执行 lsvg -l rootvg检查有否 stale状态的逻辑卷执行 lsps -s检查内存交换区占用情况执行 df k 检查文件系统的分配状况,一般不要超过80% 执行 lsdev Ccdisk检查硬盘状态为available 执行 lsdev Ccadapter检查 PCI 卡状态为available 执行 lsdev Cctape检查磁带机状态为available 执行 lsdev Ccprocessor检查 CPU 状态为 available 执行lsattr El sys0|grep autorestart检查系统crash后是否自动重新启动执行 lsattr El sys0|grep cpuguard检查 CPU GUARD是否开启执行 lsattr El mem0检查内存状态正常size=goodsize 执行vmstat 2 iostat,topas观察 us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈执行 netstat in 和 netstat rn观察网络状态执行 entstat d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M 半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)执行 ping命令检查网络连接状况执行 lsdev C|grep aio 检查异步IO 是否可用执行 lssrc g cluster查看是否有三个进程均为active状态(这个主要看起了几个HA的进程了,有的时候是一个或两个)执行 /usr/sbin/cluster/clstat a 查看 cluster状态是否正常检查 /etc/hosts, 确保双 机配置 中IP别名不 会存在 包含关系( share_ip1包含了share_ip)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 执行more /usr/es/adm/cluster.log more /usr/es/sbin/cluster/history/* cat /tmp/hacmp.out检查这三个日志中是否有error或者 fail. 检查 7133面板上的指示灯,如果黄灯亮则需要诊断问题HOTspare 磁盘检测1、检查是否有raid 保护 # smitty ssaraid-List All Defined SSA RAID Arrays 2、 检查是否有Hot Spare # smitty ssaraid-List Components in a Hot Spare Pool 对于 7133 ,执行 Smitty ssaraid List All Defined SSA RAID Arrays查看 7133 raid状态,正常应该为good状态。对于 7133 ,执行 Smitty ssaraidChange/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者 spare状态对于 FastT , 分别登录上两个controller (登陆方法后面详细讲解), 查看是否有错误日志。记录检查结果基本就是这些命令吧,如果我有遗漏后面继续补充。对了,如果是华为和IBM 的联合巡检就会多出几个项目:cpu (主频 * 数量) #lsattr -El proc0内置磁盘个数:#lsdev -Ccdisk 网卡信息:#lsdev Ccadapter AIX 服务器信息收集说明下面列举 AIX 平台上部分常用的系统信息查看方式,仅供参考:1、操作系统版本oslevel r 或 instfix i|grep ML 2、系统微码级别lsmcode 或 lscfg vp|grep ROM3、主机机型、序列号lscfg vp | grep Machine4、服务器系统配置输出prtconf5、检查系统 CPU 的状态lsdev -Cc processor正常输出结果:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - - - - - - 正常输出结果范例:proc0 Available 00-00 Processorproc1 Available 00-01 Processorproc2 Available 00-02 Processorproc3 Available 00-03 Processorproc4 Available 00-04 Processorproc5 Available 00-05 Processor正常情况下所有的CPU 的状态为 Avaliable检查 CPU 具体信息lscfg vl proc0(/pro1)6、检查系统内存的状态lsdev -Cc memory 正常输出结果:所有的 memory 的状态为 Avaliable 检查系统内存的大小lsattr -El mem0 正常输出结果范例:size 16384 Total amount of physical memory in Mbytes Falsegoodsize 16384 Amount of usable physical memory in Mbytes False在内存发生故障时,实际的输出结果会比以上数量少。7、检查系统交换区( Paging Space )的状态lsps -a 正常输出结果范例:Page Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 3072MB 1 yes yes lv正常情况下 Paging Space 的利用率非常小,当发现Paging Space 的使用率持续增大达到 60%时,应引起注意,并检查系统资源情况; 当使用率达到 80%时系统会发出告警,应立即与IBM 公司工程师联系,检查系统。8、检查系统所有硬盘的状态lsdev -Cc disk ;正常状态:所有硬盘的状态为avaliable检查硬盘具体信息名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - lscfg vl hdisk19、检查系统卷组的状态lsvg ;正常输出结果范例:rootvgjfarfsvg01jfarfsvg02jfindxvgjfdatavg01jfdatavg02jfdatavg03jfdatavg04 jfdatavg05jfdatavg06oraclevgjfcalfsvg1jfcalfsvg2jfcalfsvg3jfcalfsvg4正常情况下,在输出结果中将能看到所有定义的卷组。10、检查系统激活卷组的状态lsvg -o正常输出结果范例:rootvgjfarfsvg01jfindxvgjfdatavg01jfdatavg02jfdatavg03jfdatavg04jfdatavg05jfdatavg06oraclevgjfcalfsvg1名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 7 页 - - - - - - - - - jfcalfsvg3所有在此机器上激活的卷组应该与应用上所计划的定义相一致。如果出现与计划不一致的信息,可以检查HACMP 的情况,看是否系统发生了切换。11、检查卷组使用和定义状态lsvg rootvg (rootvg ,oraclevg ,jfdatavg01.) ;(确认参数 stale pv 和 stale pp 均为 0)正常输出结果范例:VOLUME GROUP: rootvg VG IDENTIFIER: 000c539deefabcc4VG STATE: active PP SIZE: 32 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 542 (17344 megabytes)MAX LVs: 256 FREE PPs: 192 (6144 megabytes)LVs: 9 USED PPs: 350 (11200 megabytes)OPEN LVs: 8 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 1016 MAX PVs: 3212、检查卷组内逻辑卷的状态lsvg -l rootvg (rootvg ,oraclevg ,jfdatavg01.) ;(确认 lv 工作正常 )正常输出结果范例:rootvg: LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 96 192 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 4 8 2 open/syncd /hd2 jfs 68 136 2 open/syncd /usrhd9var jfs 2 4 2 open/syncd /varhd3 jfs 30 60 2 open/syncd /tmphd1 jfs 100 200 2 open/syncd /homeptfslv jfs 50 100 2 open/syncd /ptfs名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 7 页 - - - - - - - - - 正常情况下,在此卷组中的所有逻辑卷应该都是同步(syncd)状态。如果发现有不同步的现象,可以进一步做硬盘检查,看是否有硬盘的故障。13、检查卷组内各物理卷的状态lsvg -p rootvg (rootvg ,oraclevg ,jfdatavg01.) ;rootvg:PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTIONhdisk0 active 542 190 28.00.00.53.109hdisk2 active 542 190 58.12.00.11.109(确认 pv 工作正常 )正常情况下,卷组内的所有物理卷都应该是同步的。14、检查文件系统的状态df -k ; (检查 FS 是否使用正常,是否需要立即扩充)正常输出结果范例:Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 131072 62208 53% 5623 9% /dev/hd2 2228224 37496 99% 53318 10% /usr/dev/hd9var 65536 42584 36% 838 6% /var/dev/hd3 983040 249976 75% 5255 3% /tmp/dev/hd1 3276800 576880 83% 4951 1% /home/dev/ptfslv 1638400 265964 84% 962 1% /ptfs/dev/oraclelv 4194304 171608 96% 47461 5% /oracle/dev/ora817lv 2097152 444748 79% 6115 2% /ora817/dev/jfarfs01_lv 153812992 149957844 3% 29 1% /archjf1/dev/jfcalfsjf1alv 290717696 250561884 14% 64381 2% /billdata/jf1/jf1a/dev/jfcalfsjf1blv 290717696 288356688 1% 16404 1% /billdata/jf1/jf1bhbboss_jf2_svc:/billdata/jf2/jf2a 290717696 285226740 2% 40 1% /billdata/jf2/jf2ahbboss_jf2_svc:/billdata/jf2/jf2b 290717696 280281808 4% 19933 1% /billdata/jf2/jf2b在正常情况下,对于系统的文件系统空间不能全部使用完,特别是 “/ ”、 “/tmp”、 “/var ”等。如果使用率达到100% ,将会引起系统的崩溃,所以在检查时应特别仔细,及时清除不再使用的文件,并扩大文件系统的空间。15、检查系统运行实时状态vmstat 2 (检查系统核心资源的使用情况)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 7 页 - - - - - - - - - 通过 vmstat 命令可以实时地监视系统CPU 和内存资源的使用情况, 为系统和应用更合理地使用系统资源提供依据。具体的数据信息描述可以参考IBM 的有关技术文档。iostat 2 (检查系统 I/O 资源的使用情况)iostat 命令主要是实时地检测系统I/O 的资源使用情况。netstat 2 (检查系统网络的传输情况)netstat 命令主要是实时地检测系统网络的资源使用情况。sar P ALL 2 100 (检查系统 CPU 的使用情况)sar 命令可以实时地检测每个CPU 的使用情况。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 7 页 - - - - - - - - -