HP设备预防性巡检报告模版V1.doc
HP设备预防性巡检报告模版V1HP设备预防性巡检报告模版V1HP主机巡检服务报告公司名称客户信息部门联系人手机公司名称服务商信息地址联系人手机南京南瑞集团公司南京市鼓楼区南瑞路8号210003电话电子邮件025-83092831电话电子邮件主机硬件检查检查内容指示灯状态分区状态(仅限高端产品)处理器内存磁盘I/O正常正常正常正常正常正常正常异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:异常说明:检查结果网络正常正常磁带机DVD,CD-ROM正常正常机器的出风口和入已清洁不需要清洁说明:风口是否需要清洁系统日志检查检查内容GSP/MP/SP日志dmesg输出系统启动日志系统运行日志正常正常正常正常检查结果异常说明:异常说明:异常说明:异常说明:第1页共3页HP主机巡检服务报告系统shutdown日志文件系统正常正常异常说明:异常说明:有说明:有说明:系统近期有无HPMC无系统近期有无Core无Dump检查内容集群的运行状态集群的日志锁盘检查正常正常正常检查结果异常说明:异常说明:异常说明:系统备份检查做vg配置信息的备份询问客户有否在系统变更后或每半年做ignite系统备份询问客户数据库及应用、应用数据是否定期有效进行备份询问客户磁带机是否按要求定期清洁完成是是是失败说明:否建议:否建议:否建议:系统总体性能评估Usr:%Sys:%CPU平均使用率Idle:%IO所占用的CPU使用率空闲的物理内存交换区使用情况Wio:%Free:K建议:建议:建议:PctUsed(Total):%建议:第2页共3页HP主机巡检服务报告检查结论:下一步工作计划:客户意见:非常满意满意不满意客户建议:客户签字:年月日联系电话:(签字人有效电话,便于客服回访)工程师签字:年月日第3页共3页扩展阅读:HP主机设备巡检标准版V1HP巡检指导说明目录1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.PM过程中注意事项.3预防性报告的使用方法.3登录系统注意事项.3确定机器型号及操作系统型号.3查看MP日志及Cell版状态.3查看系统硬件状态-IOSCAN命令.4Dmesg查看系统缓冲区内容.5系统启动日志.7系统运行日志.7系统shutdown日志.7EMS日志.8文件系统(bdf).8系统近期有无HPMC.8系统近期有无CoreDump.8查看逻辑卷状态.9Dump区的配置是否合理.9集群的运行状态.10集群的日志.11锁盘检查.12系统信息收集.12CPU平均使用率(#sar).13IO所占用的CPU使用率.13空闲的物理内存(#top).14交换区使用情况(#swapinfoatm).14查看系统CPU个数,内存数量.1.PM过程中注意事项预防性报告的使用方法在到达用户现场前,打印预防性维护报告,一式两份。在完成维护后,签名并留一份拷贝给客户,另一份保存在公司文档中。PM过程中,请尽量保存详细的日志,以备不时之需本文档为巡检的简易文档,如有时间,请多阅读我的MP:138261817602.登录系统注意事项登陆HPUX操作系统,以避免产生彗星撞地球之类不可预料事,请多开窗口以防万一A:开多个窗口命令:#TSMB:切换窗口命令:#CTRL+wC.退出TSM命令:#quit同时请打开SecureCRT等软件的日志Log功能,以便记录下相关重要日志3.确定机器型号及操作系统型号a.确定系统型号命令:#modelb.确定系统序列号命令:#getconfCS_MACHINE_SERIAL如果此命令失效,物理观察取得机器序列号c.确定操作系统型号命令:#unameaHP-UXasogz3B.11.11U9000/8001135931517unlimited-userlicense4.查看MP日志及Cell版状态a.查看MP卡错误日志,及消除System黄灯告警1.从串口或者MPLAN口登陆MP卡Account:AdminPassword:Admin2.出现如下登陆窗口MPMAINMENU:CO:ConsoleVFP:VirtualFrontPanelCM:CommandMenuCL:ConsoleLogSL:ShowEventLogsHE:MainHelpMenuX:ExitConnectionrp4440_mpMP>输入命令:SL3.紧接着就可查看MP卡日志命令序列:e->a->3此时就可以看到导致System黄灯事件了,多按几次Enter,黄灯就能被消灭了.b.查看系统Cell版电源状态,或者风扇状态:MPMAINMENU:CO:ConsoleVFP:VirtualFrontPanelCM:CommandMenuCL:ConsoleLogSL:ShowEventLogsHE:MainHelpMenuX:ExitConnectionrp4440_mpMP>在此窗口下,输入命令:CM然后输入命令:PS此时就可以看到Fan及Power状态了,如下:rp3440MP:CM>psPSSystemPowerstate:OnTemperature:NormalPowersuppliesState-PowerSupply1NormalPowerSupply2NotInstalledFansState-Cooling1(Sys)NormalCooling2(Mem)NormalCooling3(Disk)Normal5.查看系统硬件状态-IOSCAN命令Ioscan作为查看系统硬件状态的重要命令,其状态CLAIMED为正常,NO_HW,UNCLAIMED,UNKNOWN为不正常,至于三命令为何种不正常,请参看,在此略过不提a:ioscan磁盘命令:#ioscanfnCdiskb:ioscanIO命令:#ioscannfc:ioscan网络命令:#ioscannfClan命令:#lanscan命令:#ifconfiglanX此处有两条辅助命令lanscan及ifconfigLanscan状态UP为正常,down为异常Ifconfig显示正确配置ip为正常,非配置ip为异常6.Dmesg查看系统缓冲区内容运行命令dmesg是一个即简单又快捷的方法来查看系统硬件及文件系统有无报错。dmesg的工作原理是直接从系统的缓冲器(buffer)中读取系统最近一段时期内的硬件状态。命令dmesg的缺点是输出结果中没有时间标志,同时因为缓冲器的容量有限,近期的内容会覆盖缓冲器里以前的内容,因此如果有些故障输出,而机器一两年没重启过,也属正常,不必过分关注.服务器没有硬件报错时,dmesg的标准输出是:May1410:38gate64:sysvec_vaddr=0xc0002021for2pagesNOTICE:autofs_link():Filesystemwasregisteredatindex3.NOTICE:cachefs_link():Filesystemwasregisteredatindex5.NOTICE:nfs3_link():Filesystemwasregisteredatindex6.0sba0/0lba0/0/0/0btlan0/0/1/0c7200/0/1/0.7tgt0/0/1/0.7.0sctl0/0/1/1c7200/0/1/1.2tgt0/0/1/1.2.0sdisk0/0/1/1.7tgt0/0/1/1.7.0sctl0/0/2/0c7200/0/2/0.7tgt0/0/2/0.7.0sctl0/0/2/1c7200/0/2/1.2tgt0/0/2/1.2.0sdisk0/0/2/1.7tgt0/0/2/1.7.0sctl0/0/4/0asio00/0/5/0asio00/1lba0/2lba0/2/0/0c7200/2/0/0.0tgt0/2/0/0.0.0schgr0/2/0/0.1tgt0/2/0/0.1.0stape0/2/0/0.7tgt0/2/0/0.7.0sctl0/3lba0/4lbac8xxBUS:5SCSIC1010UltraWideLVDassignedCPU:00/4/0/0c8xx0/4/0/0.6tgt0/4/0/0.6.0sctl0/5lba0/5/0/0c7200/5/0/0.2tgt0/5/0/0.2.0stape0/5/0/0.7tgt0/5/0/0.7.0sctl0/6lba0/6/0/0tdtd:claimedTachyonXL2FibreChannelMassStoragecardat0/6/0/00/6/0/0.8fcp0/6/0/0.8.0.110.0fcparray0/6/0/0.8.0.110.0.0tgt0/6/0/0.8.0.110.0.0.0sdisk0/6/0/0.8.0.110.0.0.1sdisk0/6/0/0.8.0.110.0.0.2sdisk0/6/0/0.8.0.110.1fcparray0/6/0/0.8.0.110.1.0tgt0/6/0/0.8.0.110.1.0.0sdisk0/6/0/0.8.0.110.1.0.1sdisk0/6/0/0.8.0.110.1.0.2sdisk0/6/0/0.8.0.255.6fcpdev0/6/0/0.8.0.255.6.14tgt0/6/0/0.8.0.255.6.14.0sctl0/7lbac8xxBUS:7SCSIC1010UltraWideLVDassignedCPU:10/7/0/0c8xx0/7/0/0.6tgt0/7/0/0.6.0sctl8memory160processor166processorbtlan:Initializing10/100BASE-TXcardat0/0/0/0.SystemConsoleisontheBuilt-InSerialInterfaceLogicalvolume64,0x3configuredasROOTLogicalvolume64,0x2configuredasSWAPLogicalvolume64,0x2configuredasDUMPSwapdevicetable:(start&sizegivenin512-byteblocks)entry0-majoris64,minoris0x2;start=0,size=5242880Dumpdevicetable:(start&sizegivenin1-Kbyteblocks)entry0000000000000000-majoris31,minoris0x12021;start=310112,size=2621440StartingtheSTREAMSdaemons-phase1CreateSTCPdevicefilesStartingtheSTREAMSdaemons-phase2$Revision:vmunix:vw:-projselectors:CUPI80_BL2021_1108-c"VwforCUPI80_BL2021_1108build"-cupi80_bl2021_1108"CUPI80_BL2021_1108"WedNov819:24:56PST2021$MemoryInformation:physicalpagesize=4096bytes,logicalpagesize=4096bytesPhysical:1310720Kbytes,lockable:1127096Kbytes,available:1091104Kbytes我们查看dmesg的输出时,应着重观察有没有类似”SCSIReset”,“DiskPowerFailed”,“PVpath”,“LPMC”,“filesystemfull”等报错信息。如果有,可以在系统的syslog中进一步确定错误发生的时间,从而对所报错误进行定位.7.系统启动日志请输入命令:#cat/etc/rc.log记录系统启动日志系统的启动日志是指文件:/etc/rc.log.我们可以用vi命令进行查看,看/etc/rc.log日志中有没有”Fail”或”error”;如果有,就代表系统在启动时相应的启动脚本运行失败。8.系统运行日志请输入命令:#more/var/adm/syslog/syslog.log记录系统运行日志,有些系统长年未重启过,日志超大,输入命令#tail-500/var/adm/syslog/syslog.log观察机器具体运行情况.系统的运行日志是指文件:/var/adm/syslog/syslog.log.查看syslog.log日志中有没有”SCSIReset”,“DiskPowerFailed”,“PVpath”,“LPMC”,“filesystemfull”,“Fail”,“Error”,“Warning”等错误信息。如果有,请根据经验给出合理的解释;如果有EMSlog,可以按照其提示的命令看具体的内容;如有必要请联系我.9.系统shutdown日志请输入命令:#cat/etc/shutdownlog记录系统关机日志.系统的shutdown日志(/etc/shutdownlog)记录了系统所有停止,重启的时间。07:35SatMay11,2021.Reboot:(bySAM)07:37SatMay11,2021.Reboot:(byasogz3!root)00:01SunMay12,2021.Reboot:(bySAM)00:04SunMay12,2021.Reboot:17:17ThuMay30,2021.Reboot:(byasogz3!oracle9i)21:33ThuMay30,2021.Reboot:(byasogz3!root)17:35FriApr30,2021.Halt:(byasogz3.guangzhou.guangdong-!root)我们可以同客户进行沟通,确认系统是否非正常重启过。10.EMS日志输入命令:#more/var/opt/resmon/log/event.logEMS日志记录系统硬件事件,仔细阅读确定有无故障.11.文件系统(bdf)用命令bdf查看文件系统的使用情况,如果有文件系统的使用率超过90%,请告知客户。有可能的话,可帮助客户扩充相应的文件系统;或者和客户一起删除过期没用的文件。12.系统近期有无HPMC查看系统近期有没有HPMC的方法是:#cd/var/tombstones#morets99HP-UXasogz3B.11.11U9000/8001135931517CPU-ID(Model)=0x11-Processor0HPMCInformation-PDCVersion:40.48-Timestamp=MonApr2110:26:49GMT2021(20:03:04:21:10:26:49)HPMCChassisCodes系统最近一次发生HPMC的时间(格林尼治时间)ChassisCodeExtension-0x0000082021ff62420x00000000000000000x18000820210063020xc3808000000000000x0000087000ff62920x00000000000000000x60000820700060620x00000000011001700x70000820700060820x0000000000a41c000x2021082374ff6b830x0000ff00002aff740x2021082374ff6b830x0000ff00002bff740x2021082274ff6bc30x0000ff00002aff740x2021082274ff6bc30x0000ff00002bff740x00000800800063100x000000000000000113.系统近期有无CoreDump查看系统近期有没有CoreDump的方法是:#cd/var/adm/crash#lltotal40-rwxr-xr-x1rootroot1May302021boundsdrwxr-xr-x2rootroot4096Apr809:59crash.0drwxr-xr-x2rootroot4096Apr110:02crash.1drwxr-xr-x2rootroot4096Mar910:04crash.2drwxr-xr-x2rootroot4096Mar210:06crash.3系统CoreDump内容存到硬盘上的时间在DUMP的子目录中的INDEX文件中dumptime和savetime会更精确地指出dump发生及存储的时间。14.查看逻辑卷状态.系统硬盘物理损坏,一般前面故障指示灯,都会亮,但也有些古董级别的机器,坏了,故障灯依然长绿.为防此类事件,可查看逻辑卷状态命令:#vgdisplayvvg00|more#lvdisplayv/dev/vg00/lv*|more逻辑卷状态为Syncd/Active为正常;stale/Unknown为不正常.15.Dump区的配置是否合理对CoreDump的分析是我们定位系统故障原因的重要手段。Dump区配置的是否合理,决定了CoreDump能否被成功保存到系统硬盘上。以下是关于DUMP区配置的一些建议,请仔细检查主机系统中Dump区的配置是否满足要求:1.#lvlnbootvBootDefinitionsforVolumeGroup/dev/vg00:PhysicalVolumesbelonginginRootVolumeGroup:/dev/dsk/c1t2d0(0/0/1/1.2.0)-BootDiskBoot:lvol1on:/dev/dsk/c1t2d0Root:lvol3on:/dev/dsk/c1t2d0Swap:lvol2on:/dev/dsk/c1t2d0Swap:lvol1on:/dev/dsk/c2t1d0Dump:lvol2on:/dev/dsk/c1t2d0,0系统DUMP区(PrimarySwap)通常情况下,系统将PrimarySwap区作为系统的Dump区.2.DUMP大小的要求HPUX10.20:Dump区的大小一定要大于PhysicalRAM。HPUX11.0&11i:为了成功将CoreDump保存到系统硬盘上,Dump区的大小需要介于PhysicalRAM的30%和60%之间,具体要根据系统发生Dump时的忙闲程度。3.如果系统现有的Dump区大小无法满足要求,请告知客户。4.在条件允许的情况下,和客户协商并征得客户同意,可以增加Swap.16.集群的运行状态用命令#cmviewclv查看整个集群的运行状态。#cmviewclvCLUSTERSTATUS正常:UP异常:DOWNacct_clusterupNODESTATUSSTATEacctdb_auprunningNetwork_Parameters:正常:running异常:down,unknownINTERFACESTATUSPATHNAMEPRIMARYup5/1/0lan2正常:UP异常:DOWNPRIMARYup3/0/0lan0STANDBYup5/0/0lan1PACKAGESTATUSSTATEAUTO_RUNNODEacct_pkg1uprunningdisabledacctdb_aPolicy_Parameters:正常:UP异常:DOWN正常:runningPOLICY_NAMECONFIGURED_VALUE异常:HaltedFailoverconfigured_nodeFailbackmanualScript_Parameters:ITEMSTATUSMAX_RESTARTSRESTARTSNAMEServiceup00service1Subnetup192.168.0.0正常:UP异常:DOWNNode_Switching_Parameters:NODE_TYPESTATUSSWITCHINGNAMEPrimaryupenabledacctdb_a(current)Alternateupenabledacctdb_bNODESTATUSSTATEacctdb_buprunningNetwork_Parameters:INTERFACESTATUSPATHNAMEPRIMARYup5/1/0lan2PRIMARYup3/0/0lan0STANDBYup5/0/0lan1PACKAGESTATUSSTATEAUTO_RUNNODEacct_pkg2uprunningdisabledacctdb_bPolicy_Parameters:POLICY_NAMECONFIGURED_VALUEFailoverconfigured_nodeFailbackmanualScript_Parameters:ITEMSTATUSMAX_RESTARTSRESTARTSNAMEServiceup00service2Subnetup192.168.0.0Node_Switching_Parameters:NODE_TYPESTATUSSWITCHINGNAMEPrimaryupenabledacctdb_b(current)Alternateupenabledacctdb_a如果集群的运行状态有异常,请和客户一起确认产生异常的原因,并请联系我.17.集群的日志集群的日志是指文件:/etc/cmcluster/pkgXX/pkgXX.log.集群的每个包(Package)都有自己的运行日志,并且每个包(Package)的实时日志是保存在这个包所正在运行的主机节点上。我们查看集群的日志主要是看日志中有没有类似于“Failed”,“Error”等报错信息,如果有请凭经验给出解释.18.锁盘检查对于由2个节点(主机)组成的集群(Cluster),我们需要确认集群中锁盘上的锁盘标志是否存在。检查集群中锁盘标志是否存在的方法是:1.首先在集群的配置文件中找出主机上的锁盘。例如:#Definitionofnodesinthecluster.#Repeatnodedefinitionsasnecessaryforadditionalnodes.NODE_NAMEacctdb_alan2NETWORK_INTERFACEHEARTBEAT_IP192.10.1.3NETWORK_INTERFACEHEARTBEAT_IPNETWORK_INTERFACEFIRST_CLUSTER_LOCK_PVlan0192.168.0.3lan1/dev/dsk/c7t5d6锁盘2.然后用下面的命令检查锁盘上的标志信息是否存在:#echo"0x2084?4D"|adb/dev/dsk/c7t5d62084:141941451010590466256有锁盘标志2084:0000没有锁盘标志如果输出结果的第二列是“1”,表明集群中锁盘上有锁盘的标志。如果输出结果的第二列是“0”,表明集群中锁盘上锁盘的标志已经丢失。如果锁盘上没有锁盘的标志,可用以下命令将锁盘标志重新写到锁盘上,建议和客户另外约时间并联系我.19.系统信息收集请用cstm收集系统相关信息a:收集相关信息到文件/tmp/hp/info.out#cstmselall>info>>>>>>il>EOF以上脚本中的几个空行是必要的,否则执行il命令时可能得不到正确结果。输出的结果被保存在info.out文件中,Memory,InternalDisk,Tapedrive等设备的序列号都会被列出来,通常CPU的序列号显示为0.b:Log收集的信息#Cat/tmp/hp/info.out20.CPU平均使用率(#sar)#saru330(每隔3秒采样一次,共采样30次)在业务高峰期使用saru命令%usr=timespentinusermode%sys=timespentinsystemmode%wio=timespentinblock,raw,andvirtualmemorymanagementI/O%idle=CPUtimenotbeingusedsar-uM:optionformultiprocessorplatforms.首先应看%idle是否接近于0.如果是,那么看%wio是否大于7.如果%wio大于7,可能需要考虑是否有IO瓶颈。如果%wio很小,但CPU依然很忙,要看一下%usr与%sys的比率。如果%usr很高,则可能说明用户的应用程序造成CPU瓶颈。如果大部分时间被%sys占用,需要进一步分析为什么系统会占用这么多时间。比如说内存的瓶颈,造成操作系统频繁的做swapping操作,就是一个可能的原因。对于一个典型的系统,通常的建议值是:%usr%sys%wio%idle602501521.IO所占用的CPU使用率如上所述,在此记录%wio值。如果%wio较高,有条件的话可以进一步分析一下。使用sard命令观察各个设备的状态。通常一个设备的%busy>50%,则说明可能存在IO瓶颈。另外一个标志是其avwait>avserv。另外,系统中各个设备的使用应该比较均衡。检查哪些设备使用率明显高于其他设备。如果该设备是存放用户数据库数据,那么可以考虑建议用户将这部分数据尽量分散到多个设备上。如果是操作系统盘,需要关注是不是在做大量的swapping操作(内存瓶颈,sar-w)。22.空闲的物理内存(#top)#top在memory:一行有xxxxxkfree一项。23.交换区使用情况(#swapinfoatm)#swapinfoatmMbMbMbPCTSTART/MbTYPEAVAILUSEDFREEUSEDLIMITRESERVEPRINAMEdev2560025600%0-1/dev/vg00/lvol2reserve-559-559total2560559202122%-0-另外需检查,如果用户的物理内存比交换区大,需确定swapmem_on核心参数已设置为1.24.查看系统CPU个数,内存数量此信息已收集在/tmp/hp/info.out文件中,亦可在SAM中查看命令序列:#sam->performancemonitors->systemproperties第 16 页 共 16 页