最新GPRS系统-爱立信健康检查手册.doc
Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateGPRS系统-爱立信健康检查手册NSN GPRS设备健康检查标准GPRS系统健康检查手册 (爱立信)中国移动通信集团公司文档版本:V0.1文档状态: 草案发布日期:2007年12月6日拟 制:日 期:审 核:日 期:审 核:日 期:批 准:日 期:-文档说明:本文档针对爱立信GPRS系统健康检查手册,对爱立信GPRS系统健康检查将遵循本文进行(本文档编号依照以下原则进行:x.y.z x: 大版本更新,文档结构变化,0表示草案 y: 具体方案的更改,部分内容的修正 z: 文字修改,奇数为包含对上一版修改记录的稿子偶数为对上修改稿的定稿 )文档修订历史版本更新日期撰稿人核稿人单位更新说明0.12007-12-6罗由陈伟栋广东公司初稿0.22007-12-26罗由邬学农、陈伟栋、马坤、甄振微、王建胶、赵海涛、王冼、陈鹏、王晓金、颜 晗、苏锋广东、重庆、山东、河北、黑龙江、上海、江苏 、湖北、广西规范文档的格式和结构,并根据评审意见更新细化DATACOM部分的内容,增加部分SGSN和GGSN的检查内容。参加评审的公司:广东、山东、河北、黑龙江、上海、江苏、湖北、广西、重庆目 录第1章 健康检查手册使用说明6第2章 SGSN检查项目72.1 SGSN检查7第3章 GGSN检查项目113.1 GGSN检查11第4章 FW检查项目124.1 系统状态检查124.2 路由状态检查124.3 FW 主备同步和流量检查124.4 FW 策略检查124.5 状态统计13第5章 SW检查项目145.1 交换机基本运行情况145.2 二层协议检查145.3 三层协议检查14第6章 Router检查项目156.1 Router基本运行情况15第7章 CG (BGw) 健康检查项目167.1 系统检查167.2 文件检查167.3 磁带备份检查177.4 进程检查17第8章 DNS健康检查项目188.1 操作系统检查188.2 DNS配置检查188.3 业务数据统计19第9章 健康检查结果记录表20附录1.1健康检查结果汇总表20附录1.2健康检查结果详表21关键词:SGSN、GGSN、FW、CG、DNS、SWITCH,健康检查摘要:本文介绍了针对爱立信GPRS系统的健康检查项目。缩略语清单:参考资料清单:1 ERICSSON ALEX SGSN R6.2 ERICSSON ALEX GGSN R3.3 NetScreen Resource 第1章 健康检查手册使用说明1、 本手册适用于爱立信GPRS核心网设备,具体设备如下:SGSN,GGSN,FIREWALL, SWITCH,ROUTER,NTP,DNS,CG。设备名称设备硬件平台设备软件版本软件补丁版本编号SGSNWPP 6.0R6GGSNJ20R3FIREWALLNS-204/NS-500/NS-ISG-10004.0.1r9.0/4.0.1r6.0/5.3.0r1.0ROUTERJuniper M7I7.2R2.4SWITCHALPINE 3804/SUMMIT 24/SUMMIT 48i7.3.3.4/7.4.3.5CGSUN-4800SunOs 5.9DNSSUN V240BIND 9.2.3NTPTrueTime NTS-2002、 本手册涉及检查指令和检查标准等,如无特殊说明,均指ERICSSON GPRS系统。3、 本文档附件一为检查记录表,在对设备进行健康检查后应将结果记录在该表中。4、 在对设备进行检查时,除根据要求进行记录检查结果外,建议以日志方式将检查指令和设备输出结果以日志方式记录下来,以便后期核对。第2章 SGSN检查项目2.1 SGSN检查编号检查内容检查方法检查标准1查询当前SGSN的IDgsh get_ne设备名称与实际设备相符。2磁盘空间检查df -k磁盘利用率低于65%.3负荷检查topCPU和内存利用率小于65%,没有异常进程占用过多CPU资源4查询告警gsh list_alarms检查是否存在关键或紧急的告警,如果存在请尽快联系爱立信人员.5Events事件gsh list_events检查是否存在异常事件6ISP log 检查tail -100 /Core/log/isp.log检查是否存在restart、reboot或reload事件,如果存在请收集相关的log信息,并联系爱立信7NCB板messages日志文件检查cd /var/logmore messages没有存在异常情况8mobility、session、alarm、event和OMS日志检查cd /tmp/OMS_LOGS/mobility_event_log/readycd /tmp/OMS_LOGS/ session_event_log/readycd /tmp/OMS_LOGS/ fm_alarm/readycd /tmp/OMS_LOGS/ fm_event/readymore logfilename日志没有存在异常情况9NCB 工作状态gsh get_active_ncbgsh get_passive_ncb显示EquipmentId信息10Chargingls -ltr /charging/chsLog/ready/显示最新时间的计费文件,文件名称为bgwAck.xxx11PM Job logsgsh list_pm_jobs检查是否存在大量的 pm job logs,如果有请联系相关人员删除文件.SGSN节点并不对对logs文件进行存储.12Load Distributioneci dist其中一块板的负荷为0,其它板的负荷分担均衡.13PXM在IE中输入SGSN的IP地址,端口为8888打开一个PXM GUI图形界面,检查它是否正常工作14检查Gr 接口1. gsh action_ss7_sys_statlinks1. 链路是“In Service” 状态;15检查Gb接口gsh list_nses -agsh list_bvcs nse <nsei>所有NSE建立正常16检查Gn和Gom接口路由信息gsh show_router_instance_ip_route端口状态正常,路由表正常。17CheckpointlistSCs补丁正确;按照集团要求定期做checkpoint18时钟检查gsh list_ntp_serverntpq -preach值为377(Comment: + Active, * Standby)19DNSgsh get_dns/tmp/DPE_SC/ApplicationData/dnsApp/test_resolv>cmwap>cmnet>quit正常解释到GGSN的IP地址20SGSN nodeprop检查gsh list_nodepropsgsh get_nodeprop NodePropIdnodeprop值符合集团的规范要求。21SGSN feature检查gsh list_feature -state "on"feature配置值符合集团的规范要求。22SGSN checkpoint备份检查Su GbsBackup按照集团的要求定期做备份23PDP激活成功率、ATTACH成功率、RAU成功率检查用以下指令从SGSN上提取counter值,根据集团的公司计算成功率:gsh get_pm_type_report -mo SM. -mt AttActPdpContext.Ggsh get_pm_type_report -mo SM. -mt SuccActPdpContext.Ggsh get_pm_type_report -mo SM. -mt UnsuccActPdpContextCC32_33.Ggsh get_pm_type_report -mo SM. -mt UnsuccActPdpContextCC29.Ggsh get_pm_type_report -mo SM. -mt UnsuccActPdpContextCC27_28.Ggsh get_pm_type_report -mt attGprsAttachgsh get_pm_type_report -mt succGprsAttachgsh get_pm_type_report -mt gprsMmSgsnUnsuccessfulAttachRequestsgsh get_pm_type_report -mo MM. -mt UnsuccAttachCC7.Ggsh get_pm_type_report -mo MM. -mt UnsuccAttachCC8.Ggsh get_pm_type_report -mo MM. -mt UnsuccAttachCC14.Ggsh get_pm_type_report -mt attInterSgsnRaUpdategsh get_pm_type_report -mt succInterSgsnRaUpdategsh get_pm_type_report -mt attIntraSgsnRaUpdategsh get_pm_type_report -mt succIntraSgsnRaUpdate性能指标良好,符合集团公司的要求。第3章 GGSN检查项目3.1 GGSN检查注:以下检查适用于J20 R3版本的网元编号检查内容检查方法检查标准24J20 IDstart shellhostname确认当前的J20设备的ID.25IP 和路由Show interface terseShow route路由表正常26文件系统Show system storage检查并保证文件系统处于非满状态.27告警show chassis alarms没有告警.28Eventsshow log messages不存在异常事件29Routing Engine 工作状态show chassis routing-enginerouting-engine工作状态正常,一主一备。30检查PICs是否在服务状态show chassis hardwareshow chassis pic fpc-slot x pic-slot yPIC板的 State为Online31Chargingstart shellls ltr /var/log/ggsn检查是否存在任何charging file,正常状态是没有的.32Startup 状态show system uptimeshow system boot-messages没有异常启动信息33Load Distributionshow services ggsn statusCheck the load distribution for all pics.34Checkpoint在configuration模式下,J20将把配置文件保存在用户的主目录下.35Patch 状态show system software软件版本正常36NTPshow ntp status正常获取到外部时钟信息, offset绝对值不大于30037负载检查start shelltopCPU和内存利用率不高于40%.38Gn/Gi接口的工作模式及统计检查show interfaces ×××端口工作模式匹配,没有丢包和误码39APN地址池检查show services ggsn statistics apn ×××地址池利用率小于85%40检查内容计费流量是否正常show services ggsn statistics apn cmwapService ID statistics下各项内容计费流量正常41APN的PDP激活成功率检查show services ggsn statistics apn cmwapPDP激活成功率指标优良(99%以上),网络性能正常。42局数据配置检查show config内容计费等局数据配置符合集团公司规范第4章 FW检查项目4.1 系统状态检查编号检查内容检查方法检查标准43设备名称start shellhostname检查设备名称定义44硬件状态show chassis alarms检查硬件总体的使用情况45CPU利用率start shelltop检查CPU峰值利用率情况46端口状态show interfaces ×××所有Gn,Gi, O&M接口都处于UP状态47事件检查show log messages没有error级别以上的事件4.2 路由状态检查编号检查内容检查方法检查标准48路由表Show route缺省路由等设置正确,路由状态正常49直连端口arpshow arp显示直连端口MAC地址与IP地址对应关系4.3 FW 主备同步和流量检查编号检查内容检查方法检查标准50主备状态show chassis routing-engine配置正常,防火墙主备状态正常。51连接数show security session最大值没有超过系统配置值52NAT数show counter statistics interface eth1查看trust端口的统计信息,no dip数为04.4 FW 策略检查编号检查内容检查方法检查标准53策略配置show config策略配置符合集团要求,没有遗漏数据4.5 状态统计编号检查内容检查方法检查标准54运行show interfaces ×××没有丢包、误码等异常信息第5章 SW检查项目5.1 交换机基本运行情况编号检查内容检查方法检查标准55软件信息show version查看设备命名和软件,符合集团入网要求56硬件模块show switch查看硬件配置是否与实际情况一致57CPU状态topCPU利用率低于70%58端口show port statshow port configshow port utilizationshow port tx | rx没有丢包和错包情况59LOG信息Show log没有错误信息60环境状态show switch温度、电源等状态都为OK61配置检查show config配置符合集团要求5.2 二层协议检查编号检查内容检查方法检查标准62STP生成树show stpd生成树处于稳定状态,或者没有起STP生成树63vlan检查show vlan detailvlan配置正确64mac地址show iparp直连端口数据齐全、正常5.3 三层协议检查编号检查内容检查方法检查标准65ESRPshow esrp主备状态正常66OSPFshow ospfshow ospf interfaceOSPF的邻居状态稳定67误码和丢包检查show ipstaterrors和discards为068路由表检查show iproute路由表正常第6章 Router检查项目6.1 Router基本运行情况编号检查内容检查方法检查标准69配置检查show configuration数据配置正确70端口状态检查show interfaces端口工作模式正常;在用端口为up;端口流量正常,没有误码和丢包71文件系统Show system storage检查并保证文件系统处于非满状态./var和/tmp目录空间利用率低于30%72告警show chassis alarms没有告警.73Eventsshow log messages不存在异常事件74Routing Engine 工作状态show chassis routing-enginerouting-engine工作状态正常。75SSB 工作状态show chassis ssbssb工作状态正常。76检查PICs是否在服务状态show chassis hardwareshow chassis pic fpc-slot x pic-slot yPIC板的 State为Online77Startup 状态show system uptimeshow system boot-messages没有异常启动信息78Patch 状态show system software软件版本正常79负载检查start shelltopCPU和内存利用率不高于40%.80路由表检查show route路由表正常81OSPFshow ospf neighborshow ospf routerOSPF的邻居状态稳定OSPF路由表正常第7章 CG (BGw) 健康检查项目7.1 系统检查编号检查内容检查方法检查标准82检查硬盘状态vxprint -ht全部磁盘卷应该正常83检查硬盘利用率df -k磁盘空间利用率小于70%84检查虚拟内存vmstat 3 10swap -s正常情况下,SWAP存储区应有足够空间,分页不应过高, Column r b w 应全部为零. CPU idle的时间比例高意味着系统负载轻.85检查预处理器mpstat 5 5大部分时间系统应该处于轻负载状态,CPU idle比例应该达到47%以上.86检查/var/adm/messagesmore /var/adm/messages没有系统错误信息。7.2 文件检查编号检查内容检查方法检查标准87检查工作目录是否有文件堆积cd /var/opt/BGw/Server1/GPRS/CXC1122516_R2C_1/storage1/ corruptls alcorrupt目录下没有文件。88检查工作目录是否有文件堆积cd /var/opt/BGw/Server1/GPRS/CXC1122516_R2C_1/storage1/ inbufferls alinbuffer目录下文件数小于30。89检查工作目录是否有文件堆积cd /var/opt/BGw/Server1/GPRS/CXC1122516_R2C_1/storage1/ outbufferls aloutbuffer目录下文件数小于10。90检查工作目录是否有文件堆积cd /var/opt/BGw/Server1/GPRS/templs altemp目录下文件数小于100。7.3 磁带备份检查编号检查内容检查方法检查标准91检查磁带备份cd /var/opt/BGw/Server1/BGwTTStorage/STS/workingls |wc -l磁带机非满,备份的CDRs应工作正常.7.4 进程检查编号检查内容检查方法检查标准92BGw进程检查ps -ef|grep BGw|grep -v grep |wc l/usr/ucb/ps -aux |grep BGw有22个左右进程,进程运行正常第8章 DNS健康检查项目8.1 操作系统检查编号检查内容检查方法检查标准93系统进程# ps -elf 没有僵死进程,named进程正常94网络接口状态# ifconfig a# netstat接口工作正常,路由信息正常编号检查内容检查方法检查标准95CPU利用率#vmstat 10 20#ps elf如果系统出现很慢的响应时间,CPU空闲时间为零,过高的用户占用CPU时间或过高的系统占用CPU时间,或者长时间的有很长的运行进程队列, 那么CPU已经成为系统的瓶颈,这需要优化系统进程或采用处理能力更强的CPU96内存利用率#vmstat 10 20#vmstat S 10 20系统的free内存一直保持在远大于active virtual memory。内存能满足系统的需求97SYSLOG#cat /var/adm/messages无错误信息8.2 DNS配置检查编号检查内容检查方法检查标准98named.conf#cat /etc/named.conf无配置错误99apn配置db文件more /var/named/ db.*.*.*.mcc460.gprscmwap,cmnet,企业apn配置数据正确100RAC配置db文件more db.inner.intersgsn.*.mcc0460.gprsRAC数据配置齐全、正确。8.3 业务数据统计编号检查内容检查方法检查标准101对国际和国内APN进行解析登录到DNS服务器,键入nslookup操作实例:rootGDDND01Ber # nslookupDefault Server: localhostAddress: 127.0.0.1> cmwapServer: localhostAddress: 127.0.0.1Name: cmwap.mnc000.mcc460.gprsAddresses: 221.177.76.81, 221.177.76.241第9章 健康检查结果记录表本附录用于记录检查结果,分为汇总表和详表。在进行健康检查后,应对每一台设备输出一份汇总表和详表。在详表中,“异常情况记录”和“整改方案和计划”只针对检查不合格的项目。在“异常情况记录”中要记录不合格的输出结果和不合格之处,“整改方案和计划”要填写针对不合格之处的整改方案和计划整改时间,如内容较多,可以图标方式嵌入附件,同时将计划整改时间写入表格内。附录1.1 健康检查结果汇总表检查人:检查日期:设备管理IP安装地点设备生产商设备型号入网时间检查项目数合格项目数合格率附录1.2 健康检查结果详表第一部分:SGSN检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划1.查询当前SGSN的ID正常异常未涉及2.IP 和路由正常异常未涉及3.查询文件系统正常异常未涉及4.查询告警正常异常未涉及5.Events事件正常异常未涉及6.ISP log 检查正常异常未涉及7.NCB 工作状态正常异常未涉及8.GPBs in service正常异常未涉及9.Charging正常异常未涉及10.Startup Status正常异常未涉及11.PM Job logs正常异常未涉及12.PM Jobs正常异常未涉及13.硬件和软件失败正常异常未涉及14.Load Distribution正常异常未涉及15.PXM正常异常未涉及16.检查Gr 接口正常异常未涉及17.检查Gb接口正常异常未涉及18.检查Gn接口正常异常未涉及19.检查Gom 接口正常异常未涉及20.Crontab正常异常未涉及21.Checkpoint正常异常未涉及22.Patch 状态正常异常未涉及23.NTP正常异常未涉及24.DNS正常异常未涉及25.Overload check正常异常未涉及26.检查N3 REQUESTS正常异常未涉及27.检查T3 RESPONSE正常异常未涉及28.附着用户数正常异常未涉及29.激活用户统计正常异常未涉及30.其它正常异常未涉及第二部分:GGSN检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划31.J20 ID正常异常未涉及32.IP 和路由正常异常未涉及33.文件系统正常异常未涉及34.告警正常异常未涉及35.Events正常异常未涉及36.Routing Engine 工作状态正常异常未涉及37.SSB 工作状态正常异常未涉及38.检查PICs是否在服务状态正常异常未涉及39.Charging正常异常未涉及40.Startup 状态正常异常未涉及41.PM Job logs正常异常未涉及42.Load Distribution正常异常未涉及43.Checkpoint正常异常未涉及44.Patch 状态正常异常未涉及45.NTP正常异常未涉及46.负载检查正常异常未涉及47.其它正常异常未涉及第三部分:CG(BGw)健康检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划48.BGw进程检查正常异常未涉及49.检查工作目录正常异常未涉及50.检查磁带备份正常异常未涉及51.检查硬盘状态正常异常未涉及52.检查硬盘利用率正常异常未涉及53.检查虚拟内存正常异常未涉及54.检查预处理器正常异常未涉及55.检查系统诊断信息正常异常未涉及56.检查 /tmp 目录正常异常未涉及57.检查/var/adm/messages正常异常未涉及58.其它正常异常未涉及第四部分:DNS检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划59.系统版本和补丁正常异常未涉及60.文件系统正常异常未涉及61.系统进程正常异常未涉及62.网络接口状态正常异常未涉及63.SNMP检查正常异常未涉及64.CPU利用率正常异常未涉及65.内存利用率正常异常未涉及66.messages log检查正常异常未涉及67.db文件检查正常异常未涉及68.named.conf正常异常未涉及69.zone正常异常未涉及70.主备同步正常异常未涉及71.性能统计正常异常未涉及第五部分:FW检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划72.硬件状态正常异常未涉及73.CPU利用率正常异常未涉及74.内存利用率正常异常未涉及75.端口状态正常异常未涉及76.丢包情况正常异常未涉及77.时间同步正常异常未涉及78.进程状态正常异常未涉及79.文件系统正常异常未涉及80.OSPF信息检查正常异常未涉及81.RIP信息正常异常未涉及82.路由表正常异常未涉及83.主备同步正常异常未涉及84.连接数正常异常未涉及85.event检查正常异常未涉及86.流量(counter)检查正常异常未涉及87.策略配置正常异常未涉及88.运行状态正常异常未涉及第六部分:SW检查项目检查项目数合格项目数合格率编号检查内容检查结果异常情况记录整改方案及计划89.软件信息正常异常未涉及90.硬件模块正常异常未涉及91.CPU状态正常异常未涉及92.端口正常异常未涉及93.LOG信息正常异常未涉及94.环境状态正常异常未涉及95.ESRP正常异常未涉及96.OSPF正常异常未涉及97.配置检查正常异常未涉及98.vlan检查正常异常未涉及99.误码率检查正常异常未涉及