AIX简单故障维护手册.docx
《AIX简单故障维护手册.docx》由会员分享,可在线阅读,更多相关《AIX简单故障维护手册.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、AIX简单故障维护手册1 查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。2 查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMES
2、TAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION
3、TIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 ; 选高级诊断(Advance Diagnostic); 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出
4、SRN 代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。7查看系统重要记录日志在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明a 系统启动日志系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载,后台进程的启动等信息。这些信息在错误日志没有完整的记录,但是通过查看启动日志,可以得到详细的信息。查看系统启动日志的命令为alog o t bootb smit.logsmit
5、.log记录了通过smit菜单执行命令的过程和结果信息。通过查看smit.log可以知道在系统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故障。Smit.log在系统根目录下,通过cat命令就可以查看。c HACMP.OUTHacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。查看hacmp.out文件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。二 判断故障类别1硬件故障通常将硬件故障分为以下几个类别IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。Checkp
6、oints 检查点是系统加电CMOS初始化程序(initial program load (IPL)运行后显示在 I/O柜的显示面板上一系列信息。IPL 流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。. Phase 2: 由 Service Processor 引导的硬件初始化Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx
7、checkpoints 。91FF 是最后的代码标志着第三步骤的开始. Phase 3: 系统固件的初始化在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分). Phase 4: AIX 启动当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示
8、相对应问题硬件的位置码。SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。用diag命令进行检测,diag步骤如下:#diag ; 选高级诊断(Advance Diagnostic); 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等2 操作系统故障系统无法正常操作,命令无法正常执行,
9、或者系统频繁的报系统问题,都有可能是操作系统故障造成的。软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。1) 文件系统空间不够。查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df k 查看。# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 2806
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIX 简单 故障 维护 手册
限制150内