wlan网络维护优化指导手册v7.doc
《wlan网络维护优化指导手册v7.doc》由会员分享,可在线阅读,更多相关《wlan网络维护优化指导手册v7.doc(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、WLANWLAN 网络维护优化网络维护优化指导手册指导手册(V1.0)(V1.0)湖南公司 网优中心2目目 录录第一章第一章 设备维护篇设备维护篇.31. AC 故障问题故障问题.31.1 上线 bas 错误问题 .31.2 发生上线 bas 错误的原因及案例分析.51.3 错误话单问题.101.4 发生错误话单的原因及案例分析.111.5 错误话单问题小结.141.6 其他 AC 设备故障.152. APAP 故障问题故障问题.182.1 AP 设备问题.202.2 POE 交换机问题 .222.3 断电问题.242.4 传输问题.252.5 数据配置问题.26第二章第二章 网络优化篇网络优
2、化篇.301.无法搜索到移动信号问题无法搜索到移动信号问题.301.1 无法搜索到网络问题排障流程.311.2 无法搜索到网络问题案例.3232.无法关联问题无法关联问题.422.1 无法关联问题排障流程.432.2 无法关联问题案例.433.无法上网问题无法上网问题.503.1 无法上网问题排障流程.503.2 无法上网问题案例.514.速度慢问题速度慢问题 .634.1 速度慢问题排障流程.634.2 速度慢问题案例.645.掉线率高问题掉线率高问题.905.1 掉线率高问题排障流程.905.2 掉线率高问题案例.916.用户不能正常登录问题用户不能正常登录问题.996.1 用户不能正常登
3、录问题处理流程.1006.2 用户不能正常登录问题案例.1014第一章第一章 设备维护篇设备维护篇1. AC 故障问题故障问题1.1 上线上线 bas 错误问题错误问题上线上线 basbas 错误产生原因分析:错误产生原因分析:上线 bas 错误的定义:在认证过程中 ac 返回了网络错误的错误码(4),或者返回未知错误码,或者接收 ACK-CHALLENGE 或 ACK_AUTH 包超时 15 秒失败,一般认为是网络或设备原因。在用户上线流程图中,和发生上线 bas 相关的交互步骤:(1) 如果查询成功,Portal Server 向 AC 请求 Challenge;(2) AC 分配 Cha
4、llenge 给 Portal Server;(3) Portal Server 向 AC 发起认证请求;(4) 而后 AC 进行 Radius 认证,获得 Radius 认证结果;(5) AC 向 Portal Server 送认证结果; WLAN用户门户网站 (Portal)接入控制器 (AC)连接请求请求认证认证结果推送归属地定制的页面,通知用户认证结果,并 启动正计时提醒用户请求,通过AC强制到Portal server统一认证页面推送请求Challenge分配Challenge查询用户信息返回查询结果 及用户连接时长相 关信息RadiusRADIUS认证流程如果查询失败,直接给 出提
5、示信息,结束认证判断归属地用户上线 Chap 认证流程图上线上线 basbas 错误包括以下四种情况:错误包括以下四种情况:5(1)AC 未发送 Ack_challenge、Ack_auth 或者发往 Portal 服务器的Ack_challenge、Ack_auth 丢失。(2)Portal 服务器接收 Ack_challenge、Ack_auth 超时 15 秒。(3)AC 发往 Portal 服务器的 Ack_challenge 或者 Ack_auth 的报文带有errcode 4 信息。以下 2 种情况 AC 将发送带有错误码 4 的报文:AC 在准备发送 Ack_challenge
6、时, 发现 Req_challenge 报文中的保留字段不为 0 或者 AC 没有能产生 16 位的挑战值,此时 AC 将发送携带错误码为4 的 Ack_challenge 报文到 Portal,表示 AC 设备告诉 Portal Server 此用户请求 Challenge 失败。 AC 在收到 REQ_AUTH 时, 发现该报文中的 REQ_ID 和之前 Req_challenge 中的 REQ_ID 不相等,从而认为该用户登录操作出现异常,发送携带有错误码 4的 AUTH_ACK 报文到 Portal,表示 AC 设备告诉 Portal Server 此用户认证失败。(4)AC 设备设计
7、缺陷,在发往 Portal 服务器的 Ack_challenge 或者Ack_auth 的报文中带有其他未知 errcode 值信息。上线上线 basbas 错误产生的主要原因:错误产生的主要原因:(1) AC 设备问题(2) 参数设置问题(3) 设备性能问题(4) 网络丢包问题1.2 发生上线发生上线 bas 错误的原因及案例分析错误的原因及案例分析1.2.11.2.1 ACAC 设备问题设备问题主要原因:主要原因:(1)AC 因设计缺陷,在发往 Portal 服务器的 Ack_challenge、Ack_auth的报文中带有其他未知 errcode 值信息。(2)AC 内进程发生错误导致无
8、法响应 Portal 服务器的请求,导致 Portal服务器无法接收到响应报文,记录为上线 bas 错误。(3)AC 和 Portal 之间通过 UDP 报文进行交互,在交互过程中 UDP 端口学习错误,将导致 Portal 无法接收到正确的响应报文,发生上线 bas 错误。(4)网络丢包导致 AC 和 Portal 之间的数据包丢失重传,因丢包重传引发超时,发生上线 bas 错误。6相关案例分析:相关案例分析:案例一:案例一:AC 响应 Portal 服务器的认证报文中携带有未知 errcode 值,发生上线 bas 错误。故障描述:故障描述:某厂家现网 AC 发生认证接通率低的问题,通过抓
9、包分析发现,在 AC 相应Portal 的报文中存在 errcode 10。AC 设备版本设计缺陷导致在发往 Portal 服务器的 Ack_challenge、Ack_auth 的报文中存在错误代码 errcode 10,此代码不符合移动集团规范,Portal 将带有 errcode 10 消息的响应报文记录为上线bas 错误。导致用户认证失败。解决方案:解决方案:依据中国移动 WLAN 用户接入流程技术规范(WEB)V3.0.0要求,在 AC 版本中,将 errcode 10 值修改为符合规范的 errcode 值,解决因未知 errcode 值导致的上线 bas 错误。案例二:案例二:
10、AC 内认证模块异常退出,导致发生上线 bas 错误。故障描述:故障描述:某厂家设备出现大量上线 BAS 错误通过 AC 日志分析发现 AC 认证模块发生重启的现象。进一步根据 AC 调试信息进行定位:分析认证代码后发现认证模块在发送停止计费时有空指针的现象。如果进程发生空指针那就会出现异常,从而引起进程退出。分析认证逻辑后发现在认证模块启用了 STOP 机制,也就是防止用户吊死在 Radius Server 的功能情况下发送 STOP 停止计费报文就会有空指针的风险,这就会导致认证模块异常退出。在认证模块退出情况下,如果发起认证请求,则 AC 无法响应报文 challenge或 Auth 报
11、文导致认证,就会造成上线 bas 错误。解决方案:解决方案:通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线 bas 错误的问题。案例三:案例三:交互过程中 AC 学习 UDP 端口号错误,导致发生上线 bas 错误。故障描述:故障描述:AC 和 Portal 之间通过 UDP 报文进行交互。通过抓包发现 AC 存在 UDP 端口号学习错误的问题。在交互过程中,如果期间有其他用户进行认证交互,AC 会7学习到其他用户的端口号。以这个端口号给 Portal 回应确认报文,AC 无法识别该确认消息,发生上线 bas 错误。用户将显示认证失败,不能正常登录使用。2011-03-02
12、 11:18:53.251408 igw8021x2248: P STA(10.0.20.75) Receive REQ_AUTH from Portal Server(221.176.1.140), port:3977739777 size:472011-03-02 11:18:53.291442 igw8021x2248: P STA(10.0.23.138) Receive REQ_LOGOUT from Portal Server(221.176.1.140), port:5455554555 size:162011-03-02 11:18:53.370251 igw8021x2248
13、: P STA(10.0.20.75) Send ACK_AUTH with Errcode 0 to Portal Server(221.176.1.140), dest port:5455554555 size:16 解决方案:解决方案:在认证模块中增加代码,记录下每一用户 Portal 请求报文的端口号,以该端口号响应 Portal 的请求,解决 UDP 端口学习错误的问题。1.2.21.2.2 参数设置问题参数设置问题AC 内关于认证计费的参数设置不当,增加 AC 内认证模块出现异常的机率,导致上线 bas 错误的发生。相关案例分析:案例一:案例一:记账间隔时间设置太短,导致出现认证接
14、通率低的问题。故障描述:故障描述:AC 内认证计费参数有一项记账间隔时间,该值作用为每隔一个记账间隔时间 AC 对所有用户进行一次检测其是否在线,如果在线则针对每用户给 Radius发送一条续费报文。表明该用户在线,对用户计费信息进行更新,确保计费的准确性。如果记账间隔时间设置太短,将导致 AC 频繁对在线用户进行检测并向Radius 发送续费报文。当用户量大时,AC 内认证模块将出现繁忙。无法及时响应 Portal 服务器发出的请求报文,产生上线 bas 错误,导致用户登录失败。8抓包截图记账间隔时间设置太短,导致 AC 和 Radius 之间进行大量的续费报文交互,从上面的截图可以看出,截
15、图中的 26 个数据报文中仅有一个是 AC 和 Portal 服务器交互的报文,其他的 25 个数据包都是 AC 和 Radius 之间的续费报文。占比达到了 96%。大量的续费报文导致了 AC 认证模块繁忙,消耗大量 AC 资源,无法 AC 及时响应 Portal 发出的认证请求报文。从问题发生的 AC 和时间来看。该问题发生在业务量较大的 AC,且发生的时间点一般发生在上网的高峰期。在 5 月份发现部分厂家 AC 内记账间隔时间采用默认值,且默认值设置太短,设置成了 30 秒,导致 AC 认证模块出现繁忙,无法及时响应 Portal 服务器发出的请求报文,产生了大量的上线 bas 错误,出
16、现认证接通率低的问题。解决方案:将记账间隔时间设置为 900 秒或更长(注:该参数 raduis 尚未使用,部分可以设置为 0 的厂家可以关闭该参数),防止认证模块出现繁忙导致发生大量上线 bas 错误。1.2.31.2.3 设备性能问题设备性能问题AC 内开启了某些功能(SNMP/NAT)后,导致 AC 内资源消耗过大或者功能实现效率不高。从而导致出现上线 bas 错误。相关案例分析:相关案例分析:案例一:案例一:AC 开启 SNMP 服务后,出现认证接通率低的问题。故障描述:故障描述:某厂家 AC 设备在开启了 SNMP 服务后,SNMP 进程对 AC 的 CPU 资源消耗较9大;在业务量
17、大的时候,将会因 CPU 利用率高而出现认证模块异常,出现上线bas 错误。解决方案:解决方案:通过优化 AC 内 SNMP 进程代码及资源调度机制,降低 SNMP 进程对资源的消耗。避免因 SNMP 进程对资源的消耗,导致 AC 认证模块出现异常,导致出现上线 bas 错误。案例二:案例二:AC 开启 NAT 地址转换功能后,出现接通率低的问题。故障描述:故障描述:长沙市目前 WLAN 用户 IP 地址分配采取私网 IP 地址+NAT 的实施方案,AC为用户分配私网 IP 地址,同时在 AC 上启用 NAT 功能进行地址转换。AC 实施地址转换需要通过软件功能实现,在地址转换时需要通过 CP
18、U 计算处理。存在地址转换产生时延和效率不高的问题。地址转换产生的时延较大,从交互过程中AC 收到用户登录请求开始计算,收到 Ack_challenge、Ack_auth 消息时间超过15 秒超时将记录为上线 bas 错误。解决方案:解决方案:WLAN 用户使用公网地址。通过 NAT 转换专业设备进行地址转换,解决地址转换存在时延和效率不高问题而产生上线 bas 错误。1.2.41.2.4 网络丢包时延问题网络丢包时延问题网络因设备兼容性问题或网络不稳定,而出现丢包和时延大的问题。AC 和Portal 之间的交互采用不可靠的 UDP 报文,UDP 报文在传输过程中如果出现报文丢失,UDP 协议
19、层次将不会对其进行重传,因此在 AC 内设计了重传机制,如果 AC 发送报文后 5 秒钟未能收到下一步交互报文,则会对发出的数据进行重传。虽然设计了重传机制,但是可能因为重传而导致超时。 可能导致 AC 和 Portal之间交互的报文丢失,或者因时延大问题导致导致整个交互过程超时 15 秒,发生上线 bas 错误。相关案例分析:相关案例分析:案例一:案例一:网络设备端口匹配问题导致出现网络丢包现象,导致出现认证接通率低的问题。故障描述:故障描述:AC 出现了大量的上线 bas 错误。从 AC 对 Portal 进行 ping 测试发现网络丢包率很高,达到了 20%。忙时 21:300:00,丢
20、包率为 24%,AP 出现闪断掉线。10通过分析发现,AC 的端口状态为自适应状态,而 AC 的对端设备端口设置为速率强制 1000M。把端口属性改为自适应后:忙时 21:300:00,丢包率为3%-6%,AP 闪断掉线的数量减少。因各厂家设备之间兼容匹配问题,导致端口无法相互协商自适应。导致出现网络丢包。丢包导致 AC 和 Portal 之间交互报文丢失、重传。因交互超时而发生大量的上线 bas 错误。解决方案:解决方案:将 AC 对端设备同样设置为自适应状态,解决端口协商问题引发丢包导致的上线 bas 错误。1.3 错误话单问题错误话单问题错单产生原因分析:错单产生原因分析:产生错误话单原
21、因均为计费报文中未携带 NAS-ID 号或携带的 NAS-ID 错误,11导致在 BOSS 系统内因 NAS-ID 值不合法而无法生成账单。AC 内 NAS-ID 值的对应关系主要有 3 中,基于 AP、基于业务 VLAN 和基于用户 IP 地址,目前主要采用基于 VLAN 对应 NAS-ID 值。Radius 计费报文内容:Radius 计费报文中包含用户帐号(user-name)、NAS-ID、上网时长(acct-session-time)、计费报文类型(acct-status-type)等内容。以下以下 3 3 类原因将产生错误话单:类原因将产生错误话单:(1)为当用户下线时,AC 给
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- wlan 网络 维护 优化 指导 手册 v7
限制150内