4G实时计费运维及优化经验.doc
《4G实时计费运维及优化经验.doc》由会员分享,可在线阅读,更多相关《4G实时计费运维及优化经验.doc(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国移动通信集团河北有限公司 河北公司4G实时计费运维及优化经验一、 背景随着4G网络的发展,移动网速不断提升,极大丰富网络内容,从普通网页发展出视频、游戏、APP、电商等海量新型应用,不断促进流量业务的快速发展,同时也对系统处理能力和流量服务质量提出了更高的要求。首先,从报表数据来看,随着流量业务的不断发展,河北公司每月流量增长率约为6%10%,其中4G流量以60%的速度增长,系统压力越来越大,性能越来越紧张。一方面流量话单条数增加显着,系统性能消耗激增;另一方面建设成本高,扩容速度慢。其次,随着数据流量的激增,关于流量服务质量的投诉也逐渐增加,客户对流量计费和提醒越来越敏感,亟需从计费准确
2、性、提醒及时性、服务有效性等方面加强业务运营监控,采取主动措施发现系统潜在的问题。从而提升流量服务水平,提高客户满意度,帮助客户及时了解数据流量使用情况,尽享上网乐趣,保证客户利益,此服务直接关系到客户体验的提升和公司社会声誉。再次,随着业务量与业务复杂度日益增加,对计费帐务系统实时性和处理能力可扩展性提出了更高的要求;全量用户数据业务实时提醒的业务,对在线计费系统的处理能力提出了更高的要求,迫切需要在线计费与离线计费、综合账务能够分离部署,避免其他业务处理对在线计费的影响;X86架构化的建设诉求,要求应用与数据解耦,应用节点支持X86刀片集群部署,BOSS系统架构发展需考虑如何实现数据与应用
3、的解耦。基于如上背景,河北移动于2014年上线数据与应用分离的全新BDS(Billing Data Service)架构的计费账务系统以匹配如上要求。二、 当前运营过程中的风险和问题面对如上所述的背景情况,河北公司着重从建设成本和流量服务质量两方面梳理4G业务实时计费业务支撑问题和优化提升点:1、 4G业务迅速发展,BOSS系统处理的流量话单量明显增加,系统性能消耗越来越大,如何降低入口流量话单条数,降低系统性能和存储消耗是一个值得分析和研究的问题。2、 具备对所有流量客户的实时计费和实时提醒能力后,为保障实时计费的可靠性,提高客户服务满意度,需进一步监控实时计费系统运行情况,亟需一种能够识别
4、错、漏计费的记录有效的核查方法或工具,以便验证和在线计费话单的准确性。3、 实时计费异常转离线之前,存在计费消息丢失或处理失败,消息中携带的使用量信息将无法计费,需进行计费补单,而现网“模糊补单”的机制使计费不够准确,存在“重复”或“遗漏”处理的问题,损失客户利益或减少企业收入,如何使流量计费更精准。4、 河北公司新型计费账务系统BDS上线后在应用进程管理监控、TT内存库监控告警、刀片操作系统/刀箱监控等方面提出了挑战,具体如下所列: 应用进程管理监控:X86化后计费进程部署数量由3400个暴增到15000多个,新增28台刀片,已有的部署工具和操作系统自带部署工具无法满足工作需要,给运维工作带
5、来了很大不便。 TT(TimesTen)内存数据库监控告警: 为了保障内存数据库的高可靠性、高性能、标准化、高可用性,引入了TT内存数据库,同时对数据库的相关指标监控也带来了挑战。 刀片操作系统/刀箱监控:BDS上线后,新增28台刀片部署,针对这28台刀片急需支持监控,保障系统平稳运行。三、 解决措施及经验为解决上述4G业务发展面临的各种问题,河北公司不断研究创新,基于统计分析提出优化措施,并采取若干技术手段进行计费系统优化,降低建设成本,快速提高4G流量服务水平,助力TD-LTE业务健康发展, 在全国具有一定的参考和借鉴意义。3.1 减少BOSS系统流量话单条数, 降低系统处理和存储消耗一方
6、面,从网元采集的话单中存在较多的无效和无意义的话单,为避免虚耗BOSS系统处理能力,为实时计费和提醒提供更多的硬件资源,需找出此部分话单并进行拦截处理。另一方面,运营商根据管理需要设置话单关闭触发条件(如:数据流量限制、时间(时长)限制、 计费条件改变等),但随着移动网速不断提升, 促使客户流量使用量激增,当前话单关闭条件引起计费话单拆单频繁,对BOSS系统处理性能造成巨大压力,影响客户流量服务质量,因此需要优化话单关闭触发条件。3.1.1 拦截异常流量话单根据业务支撑交流网站内容计费局数据-GPRS业务代码局数据,业务代码ID:2000000009(异常流量及异常信令流量),BOSS计费应对
7、此类话单需做免费处理,且客户详单查询时此部分话单无需给客户展现。经统计某日话单情况,此类话单约占单日流量话单的25%,占比较大,虚耗BOSS系统处理能力,建议网元侧拦截或屏蔽此类话单,目前河北公司在计费做侧拦截处理,减少部分计费处理环节的消耗。3.1.2 拦截流量=0、时长=0的话单将某日客户话单按照TELNUM(客户手机号)、CHARGING_ID (计费标识:客户每次激活网络到正常下线期间的CHARGING_ID是唯一的)和service_code(服务代码:代表不同的业务种类,用于内容计费)进行合并后统计,激活网络到正常下线期间单次上网使用流量总值为0K的次数占总上网次数的比率高达30.
8、7%。可见:即便网络侧只存在“正常下线”这一种拆单条件,当客户激活网络到正常下线期间的使用流量为0时,也会在网络侧输出话单到BOSS侧进行计费处理。然而实际上,现网存在众多的拆单条件,即使客户激活网络到正常下线期间的使用流量不为0,由于触发拆单,也会生成流量为0的话单。表1 客户使用流量行为统计表流量次数占比0K 12,271,172,432 30.70% 0-1M 4,386,404,644 10.97% 1-2M 2,048,836,748 5.13% 2M-10M 5,616,462,758 14.05% 10-30M 4,492,303,868 11.24% 30M以上11,155,2
9、49,684 27.91% 经统计某日话单情况,0流量话单条数占单日流量话单的21%(其中流量=0、时长=0的话单占比6%;流量=0、时长0的话单占比15%)。对按流量计费来说,若话单流量为0则可不处理,详单查询时也无需给客户展现;但对按时长计费来说,流量为0的话单需按时长进行批价处理。为减少BOSS系统入口话单量,降低系统消耗,建议取消按时长计费的资费,且网元侧拦截或屏蔽流量为0的话单。目前河北公司是在计费做侧拦截流量=0、时长=0的话单,减少其部分计费处理环节的消耗。3.1.3 优化“话单关闭原因19(位置信息变更/QOS变更/费率切换点)”拆单机制4G网元入网后,经统计4G全量话单,其中
10、“话单关闭原因19(位置信息变更、QOS变更、费率切换点 )” 的占比高达52.2% ,且占比最高。对比统计2/3/4G 全量流量话单,此种话单的占比仅为21.16%。表2 话单占比统计表拆单类型 触发因素 2/3/4G话单占比 4G话单占比 话单关闭原因0 正常下线 17.01% 10.9% 话单关闭原因17 话单时长到达30分钟29.42% 21.7% 话单关闭原因19 位置信息变更(CGI/SAI、RAI、ULI等)、QOS变更、费率切换点 21.16% 52.2% 话单关闭原因18 SGSN变更 9.59% 3.3% 话单关闭原因22 无线接入技术变更 7.10% 1.8% 话单关闭原
11、因16 话单使用流量到达2M 5.36% 6.5% 河北公司为降低话单量,根据计费和展示需求对“话单关闭原因19”的触发因素进行了分析、简化,明确“核心网设备原则上不能开启切换enodeB产生话单的功能“。经核实只有华为公司4G网元设备开启了此功能(中兴、爱立信均关闭状态)。目前河北公司于2015年2月4日凌晨在网络侧关闭华为公司4G网元“切换enodeB产生话单功能”,为观察关闭此功能后的效果情况:统计比对2月2日和6日的华为4G设备话单的拆单情况:“话单关闭原因19”触发的拆单话单量占比由62%降为39%。统计对比2月2日和6日的华为4G设备的话单量和流量值:流量值基本持平情况下,关闭后华
12、为4G网元产生的话单条数下降25%左右。3.1.4 优化“话单关闭原因16(话单使用流量到达2M )”的拆单机制将某日客户话单按照TELNUM(客户手机号)、CHARGING_ID (计费标识:客户每次激活网络到正常下线期间的CHARGING_ID是唯一的)和service_code(服务代码:代表不同的业务种类,用于内容计费)进行合并后统计,如图1所示,激活网络到正常下线期间单次上网使用流量总值2M的次数占总上网次数的比率高达53.2%,可见“话单使用流量到达2M”切割机制不太符合客户(尤其是4G客户)的使用行为,为减少BOSS系统入口话单量,河北公司将4G离线话单按照10M拆单,理论上由流
13、量到达触发的拆单量降低80%,但考虑到其他拆单因素的影响,保守估计流量值基本持平情况下,4G话单条数约下降10%左右。3.2 实施稽核和精确补单,加强在线计费业务监控和异常自动化处理随着实时计费能力的不断提升,进一步加强对数据业务在线话单处理异常情况下的核查跟踪和业务运营监控,河北公司在集团公司的指导下,实施在线计费一致性稽核和DCC消息稽核。为进一步加强对稽核工具输出的异常结果的处理效率,河北公司对稽核结果为 “在线和离线均有,但流量有差异”的话单实施自动化“精确补单”机制,避免实时计费异常转离线之前,因计费消息丢失或处理失败而漏计费的问题,减少企业损失。3.2.1 计费一致性稽核计费一致性
14、稽核是通过定期对DCC消息、在线计费话单、离线过滤话单进行分析和匹配,以TELNUM,CHARGING_ID,GGSN字段作为键值对GPRS话单的数据流量进行稽核,识别错、漏计费的记录,用于验证和稽核在线计费话单的准确性。通过对稽核不一致的会话的分析,定位出现网配置问题、计费规则问题、规范符合度以及网元问题等与在线计费相关的各个方面存在的问题。整体稽核流程如图1所示:图1 稽核流程(1)源话单采集参与计费一致性稽核的三类话单的采集流程如图2所示:消息话单:通过直接采集GGSN与DCC_DISP消息分发之间的DCC原始数据包,经过解析保存为DCC消息消息话单。离线过滤话单:分拣的GGSN、P-G
15、W话单中若PS-FCI信息为16,则代表在线计费成功,在离线计费中应过滤不处理,将此部分拦截的在线计费客户产生的离线话单做为稽核的依据之一。在线计费话单:通过融合计费和话单实例化生成的在线计费客户产生的在线话单。图2 稽核话单的采集流程(2)源话单合并对上游传来的在线计费详单、离线过滤话单、消息话单分别进行处理:首先以TELNUM,CHARGING_ID,GGSN作为关键因素,把一次上网产生的多条话单按照关键因素进行会话合并;其次判断合并话单的完整性以决定是否输出合并话单,并根据是否满足参与稽核的条件进行稽核判断;最终合并后的话单以最早一条话单的开始时间为准。由于话单处理延时、资源限制等因素,
16、并不是所有的话单均能按照会话进行完整的合并,判断是否进行合并输出参与稽核的条件如下所述,满足其中任意一条即可: 若首张话单的开始时间和末张话单的开始时间差等于同一会话的所有话单的时长之和时,认为话单全部到齐。但考虑到设备时差或切换设备耗时情况,首末话单的时间差与时长之间的误差在5秒内都认为是到齐的,合并输出让其参与稽核。 若首张话单和末张话单均到达后,那么从最后到达那张话单(首单或者尾单)开始计时,等1小时后,不管会话是否完整,让所有到达话单合并输出参与稽核。 若首张话单和末张话单尚未全部到达,那么从最后一张到达的话单到达后开始计时,等2小时后,若没同一会话的任何话单到来,则不管会话是否完整,
17、让所有到达话单合并输出参与稽核。 若首张话单和末张话单尚未全部到达,且每隔2小时内均有同一会话的话单到来, 那么从第一张到的话单开始计时,等24小时后,不管会话是否结束,强制让所有到达话单合并输出参与稽核。(注:当有大量超过一天不下线的4G用户时,可适当调整参数,如将“24小时”调整为“48小时”。)(3)合并话单散列合并话单散列的主要目的是按规则进行分组或队列,以便后续每个组或队列并行进行稽核处理。具体处理方式为:根据键值字段(TELNUM,CHARGING_ID,GGSN)计算出对应的散列值,将合并后的话单根据散列值按设定的散列区间取模,写入不同的文件中,具有相同取模的多个合并话单能够写入
18、同一散列文件中,最后根据散列文件的数量启动若干个稽核程序进行处理。(4)稽核处理对合并且散列后的在线话单和离线过滤话单、消息话单和离线过滤话单、消息话单和在线话单分别进行稽核。首次稽核只对参与稽核的会话话单打标记,不记录和输出结果;4小时后按照键值(TELNUM,CHARGING_ID,GGSN)对新增的会话话单进行再次合并,并对打标记的会话话单再重新稽核一次;若有差异,则输出差异结果。综上,对参与稽核的会话按每4小时一次进行稽核,每次会话稽核两遍,两遍后输出稽核结果。 图3 稽核处理示意图 第一次稽核时,待稽核的话单中有会话S1、S2、S3,不管这三个会话是否有差异,都不进行输出稽核结果,只
19、对话单打戳; 第二次稽核时,新增了会话S4、S5、S6、以及S1(S1会话的延迟话单),则系统首先将S1与会话S1进行合并处理,然后稽核,输出第一次稽核打戳的所有会话的稽核结果,同时对会话S4、S5、S6进行打标记; 第三次稽核时,同样先检查是否有第二次稽核时会话的延迟话单,有则合并,然后对第二次稽核打标记的会话输出稽核结果,最后对本次首次稽核的会话打标记。(5)稽核结果展示计费一致性稽核工具对稽核结果进行统计后以报表的形式通过界面直接展示,显示出每一稽核周期总共参与稽核的在线会话多少次、消息会话多少次、离线会话多少次、一致会话多少次、不一致会话多少次等信息,并对统计后的稽核数据进行编码输出告
20、警接口文件。 在线话单和离线过滤话单的稽核结果分类:表3 在线/离线稽核结果分类情况分类稽核结果输出内容会话一致在线和离线均有,并且流量一致可选择是否输出会话不一致在线无,离线有输出离线话单作为差异在线和离线均有,但流量有差异输出差异分类流量在线有,离线无输出在线话单作为差异 消息话单与在线、离线过滤话单的稽核结果分类:表4 消息/话单稽核结果分类情况分类稽核结果输出内容会话一致消息和在线(离线)均有,并且流量一致可选择是否输出会话不一致消息无,在线(离线)有输出在线(离线)话单作为差异消息和在线(离线)均有,但流量有差异输出差异分类流量消息有,在线(离线)无输出消息话单作为差异 以在线话单和
21、离线过滤话单的稽核为例,统计报表展示如下:图4 稽核结果展示(6)不一致的会话详单对于稽核结果为不一致的会话话单则存储在稽核系统的“异常详单表”中,其中cdr_gprs_error为在线/离线异常详单表, cdr_dccon_error为消息/在线异常详单表,cdr_dccoff_error为消息/离线异常详单表。另外,通过error_flag字段来标识稽核结果类型,通过on_total、off_total、dcc_total字段来记录同一会话各种稽核话单的流量值,便于进一步查询差异的详细信息。图5 稽核不一致会话详单表内容3.2.2 DCC消息稽核DCC消息稽核是采用hadoop技术将海量的
22、DCC消息信息进行云存储,一方面分时段统计并展示在线计费相关信息:Session数、本地漫入漫出标识、上行流量总数、下行流量总数等。另一方面稽核消息的完整性和连续性,对异常结果设置不同级别的告警。从而通过DCC消息稽核系统实时监控网元和计费系统之间的消息交互运行情况,及时获取交互异常信息。DCC消息稽核的整体逻辑处理流程如下:图6 DCC消息稽核的处理流程 生成消息话单文件:将dcc_store生成的信令文件转换成消息话单文件,用于稽核。 数据保存到HBase库:解析dcc_store生成的信令数据文件,解析后保存到Hadoop的HBase中,用于进行消息统计与检查。 对消息话单的统计:从hb
23、ase读取消息话单,对Session数、本地漫出标识、上行流量总数、下行流量总数进行统计汇总。l 输入:统计的开始时间、统计的结束时间l 处理过程:遍历DCC消息话单表,对Session数、本地漫出标识、上行流量总数、下行流量总数。使用MAPREDUCE对数据进行统计,按RowKey进行MAP,并将最终结果进行汇总。上行流量总数:来源CC-Input-Octets的累加。下行流量总数:来源CC-Output-Octets的累加。本地漫出标识:根据DCC消息的SessionId中的DiameterIdentity进行本地漫出类型判断。l 输出:类别(local、roamout)、Session数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实时 计费 优化 经验
限制150内