WLAN网络维护优化指导手册v7.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《WLAN网络维护优化指导手册v7.doc》由会员分享,可在线阅读,更多相关《WLAN网络维护优化指导手册v7.doc(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、WLAN网络维护优化指导手册v7 WLAN网络维护优化 指导手册(V1.0) 湖南公司 网优中心 2021年8月 目 录 第一章 设备维护篇 . 4 1. AC故障问题 . 4 1.1 上线bas错误问题 . 4 1.2 发生上线bas错误的原因及案例分析 . 5 1.3 错误话单问题 . 10 1.4 发生错误话单的原因及案例分析 . 11 1.5 错误话单问题小结 . 14 1.6 其他AC设备故障 . 15 2. AP故障问题 . 19 2.1 AP设备问题 . 21 2.2 POE交换机问题 . 23 2.3 断电问题 . 25 2.4 传输问题 . 26 2.5 数据配置问题 . 2
2、7 第二章 网络优化篇 . 31 1.无法搜索到移动信号问题 . 31无法搜索到网络问题排障流程 . 32 2无法搜索到网络问题案例 . 33 2.无法关联问题 . 43无法关联问题排障流程 . 44无法关联问题案例 . 44 3.无法上网问题 . 51无法上网问题排障流程 . 51无法上网问题案例 . 52 4.速度慢问题 . 64速度慢问题排障流程. 64速度慢问题案例 . 65 5.掉线率高问题 . 91掉线率高问题排障流程 . 91掉线率高问题案例 . 92 6.用户不能正常登录问题 .100用户不能正常登录问题处理流程 . 101用户不能正常登录问题案例 . 102 3 第一章 设备
3、维护篇 1. AC故障问题 1.1 上线bas错误问题 上线bas错误产生原因分析: 上线bas错误的定义:在认证过程中ac返回了网络错误的错误码4,或者返回未知错误码,或者接收ACK-CHALLENGE或ACK_AUTH包超时15秒失败,一般认为是网络或设备原因。 在用户上线流程图中,和发生上线bas相关的交互步骤: (1) 如果查询成功,Portal Server向AC请求Challenge; (2) AC分配Challenge给Portal Server; (3) Portal Server向AC发起认证请求; (4) 而后AC进行Radius认证,获得Radius认证结果; (5) A
4、C向Portal Server送认证结果; 用户上线Chap认证流程图 上线bas错误包括以下四种情况: 4 1AC未发送Ack_challenge、Ack_auth或者发往Portal效劳器的Ack_challenge、Ack_auth丧失。 2Portal效劳器接收Ack_challenge、Ack_auth超时15秒。 3AC发往Portal效劳器的Ack_challenge或者Ack_auth的报文带有errcode 4信息。以下2种情况AC将发送带有错误码4的报文: AC 在准备发送 Ack_challenge时, 发现Req_challenge报文中的保存字段不为 0 或者AC 没
5、有能产生16 位的挑战值,此时AC 将发送携带错误码为4的Ack_challenge报文到Portal,表示AC设备告诉Portal Server此用户请求Challenge失败。 AC在收到REQ_AUTH时, 发现该报文中的REQ_ID 和之前Req_challenge中的REQ_ID 不相等,从而认为该用户登录操作出现异常,发送携带有错误码4的AUTH_ACK报文到Portal,表示AC设备告诉Portal Server此用户认证失败。 4AC设备设计缺陷,在发往Portal效劳器的Ack_challenge或者Ack_auth的报文中带有其他未知errcode值信息。 上线bas错误产
6、生的主要原因: 1 AC设备问题 2 参数设置问题 3 设备性能问题 4 网络丢包问题 1.2 发生上线bas错误的原因及案例分析 1.2.1 AC设备问题 主要原因: 1AC因设计缺陷,在发往Portal效劳器的Ack_challenge、Ack_auth的报文中带有其他未知errcode值信息。 2AC内进程发生错误导致无法响应Portal效劳器的请求,导致Portal效劳器无法接收到响应报文,记录为上线bas错误。 3AC和Portal之间通过UDP报文进行交互,在交互过程中UDP端口学习错误,将导致Portal无法接收到正确的响应报文,发生上线bas错误。 4网络丢包导致AC和Port
7、al之间的数据包丧失重传,因丢包重传引发超时,发生上线bas错误。 相关案例分析: 5 案例一:AC响应Portal效劳器的认证报文中携带有未知errcode值,发生上线bas错误。 故障描述: 某厂家现网AC发生认证接通率低的问题,通过抓包分析发现,在AC相应Portal的报文中存在errcode 10。AC设备版本设计缺陷导致在发往Portal效劳器的Ack_challenge、Ack_auth的报文中存在错误代码errcode 10,此代码不符合移动集团标准,Portal将带有errcode 10消息的响应报文记录为上线bas错误。导致用户认证失败。 解决方案: 依据?中国移动WLAN用
8、户接入流程技术标准?要求,在AC版本中,将errcode 10值修改为符合标准的errcode值,解决因未知errcode值导致的上线bas错误。 案例二: AC内认证模块异常退出,导致发生上线bas错误。 故障描述: 某厂家设备出现大量上线BAS错误通过AC日志分析发现AC认证模块发生重启的现象。进一步根据AC调试信息进行定位: 分析认证代码后发现认证模块在发送停止计费时有空指针的现象。如果进程发 生空指针那就会出现异常,从而引起进程退出。分析认证逻辑后发现在认证模块启用了STOP机制,也就是防止用户吊死在Radius Server的功能情况下发送STOP停止计费报文就会有空指针的风险,这就
9、会导致认证模块异常退出。在认证模块退出情况下,如果发起认证请求,那么AC无法响应报文challenge或Auth报文导致认证,就会造成上线bas错误。 解决方案: 通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线bas错误的问题。 案例三:交互过程中AC学习UDP端口号错误,导致发生上线bas错误。 故障描述: AC和Portal之间通过UDP报文进行交互。通过抓包发现AC存在UDP端口号学习错误的问题。在交互过程中,如果期间有其他用户进行认证交互,AC会学习到其他用户的端口号。以这个端口号给Portal回应确认报文,AC无法识别 6 该确认消息,发生上线bas错误。用户将显
10、示认证失败,不能正常登录使用。 2021-03-02 11:18:53.251408 igw8021x2248: <debug>P STA(10.0.20.75) Receive REQ_AUTH from Portal Server(221.176.1.140), port:39777 size:47 2021-03-02 11:18:53.291442 igw8021x2248: <debug>P STA(10.0.23.138) Receive REQ_LOGOUT from Portal Server(221.176.1.140), port:54555 siz
11、e:16 2021-03-02 11:18:53.370251 igw8021x2248: <debug>P STA(10.0.20.75) Send ACK_AUTH with Errcode 0 to Portal Server(221.176.1.140), dest port:54555 size:16 解决方案: 在认证模块中增加代码,记录下每一用户Portal请求报文的端口号,以该端口号响应Portal的请求,解决UDP端口学习错误的问题。 1.2.2 参数设置问题 AC内关于认证计费的参数设置不当,增加AC内认证模块出现异常的机率,导致上线bas错误的发生。 相关案例
12、分析: 案例一:记账间隔时间设置太短,导致出现认证接通率低的问题。 故障描述: AC内认证计费参数有一项记账间隔时间,该值作用为每隔一个记账间隔时间AC对所有用户进行一次检测其是否在线,如果在线那么针对每用户给Radius发送一条续费报文。说明该用户在线,对用户计费信息进行更新,确保计费的准确性。如果记账间隔时间设置太短,将导致AC频繁对在线用户进行检测并向Radius发送续费报文。当用户量大时,AC内认证模块将出现繁忙。无法及时响应Portal效劳器发出的请求报文,产生上线bas错误,导致用户登录失败。 抓包截图 7 记账间隔时间设置太短,导致AC和Radius之间进行大量的续费报文交互,从
13、上面的截图可以看出,截图中的26个数据报文中仅有一个是AC和Portal效劳器交互的报文,其他的25个数据包都是AC和Radius之间的续费报文。占比到达了96%。大量的续费报文导致了AC认证模块繁忙,消耗大量AC资源,无法AC及时响应Portal发出的认证请求报文。从问题发生的AC和时间来看。该问题发生在业务量较大的AC,且发生的时间点一般发生在上网的顶峰期。 在5月份发现局部厂家AC内记账间隔时间采用默认值,且默认值设置太短,设置成了30秒,导致AC认证模块出现繁忙,无法及时响应Portal效劳器发出的请求报文,产生了大量的上线bas错误,出现认证接通率低的问题。 解决方案: 将记账间隔时
14、间设置为900秒或更长注:该参数raduis尚未使用,局部可以设置为0的厂家可以关闭该参数,防止认证模块出现繁忙导致发生大量上线bas错误。 1.2.3 设备性能问题 AC内开启了某些功能SNMP/NAT后,导致AC内资源消耗过大或者功能实现效率不高。从而导致出现上线bas错误。 相关案例分析: 案例一:AC开启SNMP效劳后,出现认证接通率低的问题。 故障描述: 某厂家AC设备在开启了SNMP效劳后,SNMP进程对AC的CPU资源消耗较大;在业务量大的时候,将会因 CPU利用率高而出现认证模块异常,出现上线bas错误。 解决方案: 通过优化AC内SNMP进程代码及资源调度机制,降低SNMP进
15、程对资源的消耗。防止因SNMP进程对资源的消耗,导致AC认证模块出现异常,导致出现上线bas错误。 案例二:AC开启NAT地址转换功能后,出现接通率低的问题。 故障描述: 长沙市目前WLAN用户IP地址分配采取私网IP地址+NAT的实施方案,AC为用户分配私网IP地址,同时在AC上启用NAT功能进行地址转换。AC实施地址转换需要通过软件功能实现,在地址转换时需要通过CPU计算处理。存在地址 8 转换产生时延和效率不高的问题。地址转换产生的时延较大,从交互过程中AC收到用户登录请求开始计算,收到Ack_challenge、Ack_auth消息时间超过15秒超时将记录为上线bas错误。 解决方案:
16、 WLAN用户使用公网地址。 通过NAT转换专业设备进行地址转换,解决地址转换存在时延和效率不高问题而产生上线bas错误。 1.2.4 网络丢包时延问题 网络因设备兼容性问题或网络不稳定,而出现丢包和时延大的问题。AC和Portal之间的交互采用不可靠的UDP报文,UDP报文在传输过程中如果出现报文丧失,UDP协议层次将不会对其进行重传,因此在AC内设计了重传机制,如果AC发送报文后5秒钟未能收到下一步交互报文,那么会对发出的数据进行重传。虽然设计了重传机制,但是可能因为重传而导致超时。 可能导致AC和 Portal之间交互的报文丧失,或者因时延大问题导致导致整个交互过程超时15秒,发生上线b
17、as错误。 相关案例分析: 案例一:网络设备端口匹配问题导致出现网络丢包现象,导致出现认证接通率低的问题。 故障描述: AC出现了大量的上线bas错误。从AC对Portal进行ping测试发现网络丢包率很高,到达了20%。忙时21:300:00,丢包率为24%,AP出现闪断掉线。 通过分析发现,AC的端口状态为自适应状态,而AC的对端设备端口设置为速率强制1000M。把端口属性改为自适应后:忙时21:300:00,丢包率为3%-6%,AP闪断掉线的数量减少。 9 因各厂家设备之间兼容匹配问题,导致端口无法相互协商自适应。导致出现网络丢包。丢包导致AC和Portal之间交互报文丧失、重传。因交互
18、超时而发生大量的上线bas错误。 解决方案: 将AC对端设备同样设置为自适应状态,解决端口协商问题引发丢包导致的上线bas错误。 1.3 错误话单问题 错单产生原因分析: 产生错误话单原因均为计费报文中未携带NAS-ID号或携带的NAS-ID错误,导致在BOSS系统内因NAS-ID值不合法而无法生成账单。 AC内NAS-ID值的对应关系主要有3中,基于AP、基于业务VLAN和基于用户IP地址,目前主要采用基于VLAN对应NAS-ID值。 Radius计费报文内容: 10 Radius计费报文中包含用户帐号user-name、NAS-ID、上网时长acct-session-time、计费报文类型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- WLAN 网络 维护 优化 指导 手册 v7
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内