最新AIX操作系统运行维护手册-Ver1.0.docx
《最新AIX操作系统运行维护手册-Ver1.0.docx》由会员分享,可在线阅读,更多相关《最新AIX操作系统运行维护手册-Ver1.0.docx(211页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateAIX操作系统运行维护手册-Ver1.0AIX操作系统运行维护手册-Ver1.0AIX操作系统工作手册文件编号版本0.1作 成 日2013年10月24日修 订 日发 布 日修改履历序号版本修改日期章节号修改记录修改人批准人10.12013/10/23创建修游目录1引言51.1编写目的51.2适用范围51.3预期读者51.4文档说明52操作系统健康性检查62.1系统日志
2、62.1.1系统硬件错误日志检查62.1.2系统所有错误日志检查72.1.3系统错误日志Core_dump检查82.1.4系统错误日志DELAYED_INT检查92.1.5系统邮件日志内容检查92.1.6系统邮件日志大小检查112.1.7登录失败日志文件大小检查112.1.8登录日志文件大小检查122.1.9su日志文件大小检查132.1.10异常终止的vi日志文件大小检查132.2系统性能142.2.1系统CPU使用率检查142.2.2查看占用CPU资源最多的进程172.2.3系统内存使用率检查182.2.4系统占用内存资源最多的进程202.2.5系统磁盘繁忙程度检查222.3交换空间232
3、.3.1交换空间使用率检查232.4进程状态242.4.1僵尸进程检查242.5网络状态242.5.1网卡状态检查242.5.2路由状态检查252.5.3网络传输检查262.5.4网络连接数量及状态检查302.5.5主机解析检查322.6存储状态322.6.1HBA卡状态检查322.7文件系统状态332.7.1文件系统使用率检查332.7.2文件系统挂载检查342.7.3NFS文件系统挂载检查352.7.4dump设备空间检查352.8逻辑卷状态362.8.1Rootvg的剩余空间检查362.8.2PV状态检查372.8.3是否存在stale的pp检查372.9系统安全382.9.1系统登录情
4、况检查382.9.2特权用户检查392.9.3Su操作次数检查402.9.4失败登录记录检查402.10双机状态412.10.1双机心跳状态检查412.10.2Hacmp.out日志检查422.10.3Cluster.log日志检查422.10.4双机节点状态检查432.11其它442.11.1操作系统时间检查443操作系统异常快速排查规范443.1系统日志检查453.2CPU使用率检查453.3内存使用率检查453.4I/O使用率检查463.5网络检查463.6交换区检查473.7文件系统检查473.8双机检查481 引言1.1 编写目的为了保证项目组所运维系统的持续健康运行,降低操作系统的
5、出错几率,并在出现问题时及时且有效的进行排查、处理,故编写本手册。本手册是以AIX操作系统管理员的技术为基础,并结合四年项目运营的实际经验进行编写。有关AIX操作系统的主要工作包括:操作系统健康性检查、操作系统异常快速排查。本运维手册按照以上两个方面的内容进行编写。1.2 适用范围IBM AIX5/6操作系统日常运维1.3 预期读者国家外汇管理局项目组运维工程师。1.4 文档说明1、 粗体表示注意事项、操作命令;2、 所有命名规范中所用字母,未特殊标注的,均使用小写;3、 本文所有截图是为了配合文字说明,图片内容仅供参考。2 操作系统健康性检查对于IBM AIX操作系统的健康性,主要从以下几个
6、方面进行检查:l 系统日志l 系统性能l 交换空间l 进程状态l 网络状态l 存储状态l 逻辑卷状态l 文件系统状态l 系统安全l 双机状态l 其它2.1 系统日志2.1.1 系统硬件错误日志检查 检查点: 操作系统错误日志是否含有硬件错误 检查方法: #errpt -dH 标准: 检查结果如存在硬件错误则为系统不健康 检查结果如不存在硬件错误则为系统健康 重点关注输出信息第三列为P的错误日志 示例:# errpt -dHIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONE142C6D4 0802115413 T H sysplanar0 EE
7、H temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapter49A8321
8、6 0802115313 T H hdisk0 DISK OPERATION ERRORF3931284 0802115313 I H ent0 ETHERNET NETWORK RECOVERY MODE 输出信息说明:第三列:类型TYPE 错误的类型或者说严重的程度类型说明简写PEND设备或功能组件可能丢失PPERF性能严重下降PPERM硬件设备或软件模块损坏PTEMP临时性错误,经过重试后已经恢复正常TINFO一般消息,不是错误IUNKN不能确定错误的严重性U2.1.2 系统所有错误日志检查 检查点: 操作系统错误日志是否含有错误 检查方法: #errpt 标准: 检查结果如存在错误则为
9、系统不健康 检查结果如不存在错误则为系统健康 重点关注输出信息第三列为P 第四列为H、S的错误日志 示例:# errptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for
10、 adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapter49A83216 0802115313 T H hdisk0 DISK OPERATION ERRORF3931284 0802115313 I H ent0 ETHERNET NETWORK RECOVERY MODEE142C6D4 0802115313 T H sysplanar0 EEH temporary e
11、rror for adapter49A83216 0802115313 T H hdisk0 DISK OPERATION ERRORE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0
12、EEH temporary error for adapter49A83216 0802115213 T H hdisk0 DISK OPERATION ERRORE142C6D4 0802115113 T H sysplanar0 EEH temporary error for adapterA6DF45AA 0802115113 I O RMCdaemon The daemon is started.E142C6D4 0802115113 T H sysplanar0 EEH temporary error for adapter 输出信息说明:第四列:种类CLASS 指错误源类型说明简写
13、HardWare硬件错误HSoftWare软件错误SOperation用户操作错误OUnKnown不能确定的错误U2.1.3 系统错误日志Core_dump检查 检查点: 操作系统错误日志是否含有应用程序Core_dump错误 检查方法: #errpt -a|grep CORE_DUMP 标准: 检查结果如存在Core_dump错误则为系统不健康 检查结果如不存在Core_dump错误则为系统健康 示例:# set -o vi# errpt -a|grep CORE_DUMP# 输出信息说明: 无2.1.4 系统错误日志DELAYED_INT检查 检查点: 操作系统错误日志是否含有应用程序DE
14、LAYED_INT错误 检查方法: #errpt -a|grep DELAYED_INT 标准: 检查结果如存在DELAYED_INT错误则为系统不健康 检查结果如不存在DELAYED_INT错误则为系统健康 示例:# # errpt -a|grep DELAYED_INT# 输出信息说明:1. DELAYED_INT 错误是版本BUG,出现该错误需要进行版本补丁升级2.1.5 系统邮件日志内容检查 检查点: 操作系统邮件日志是否含有异常错误信息 检查方法: #mail 标准: 检查结果如存在异常错误信息则为系统不健康 检查结果如不存在异常错误信息则为系统健康 示例:# mailMail 5.
15、2 UCB AIX 5.X Type ? for help./var/spool/mail/root: 1 message 1 newN 1 root Thu Jul 25 19:21 28/1144 diagela message from aix1? Message 1:From root Thu Jul 25 19:21:48 2013Date: Thu, 25 Jul 2013 19:21:47 -0500From: rootTo: esaadmin, pconsole, rootSubject: diagela message from aix1A PROBLEM WAS DETEC
16、TED ON Thu Jul 25 19:20:38 CDT 2013 801014 The Service Request Number(s)/Probable Cause(s)(causes are listed in descending order of probability): B17CE433: Surveillance Error Predictive Error, general. Refer to the system service documentation for more information. Additional Words: 2-030000F0 3-833
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 AIX 操作系统 运行 维护 手册 Ver1
限制150内