一种基于智慧运营平台将大数据技术和数据挖掘技术相结合.docx
《一种基于智慧运营平台将大数据技术和数据挖掘技术相结合.docx》由会员分享,可在线阅读,更多相关《一种基于智慧运营平台将大数据技术和数据挖掘技术相结合.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一种基于智慧运营平台,将大数据技术和数据挖掘技术相结合引言随着移动通信成本逐步下降,移动用户渗透率超过100%,新增市场趋于饱和,面对新增市场的激烈竞争,存量用户的保有显得越来越重要。一项调查数据表明,争取1位新客户的成本是保住1位老客户的5倍。面对新的竞争形势,运营商需要从传统只重视增量发展模式向;增存并重”发展模式转变。如何最大限度地降低客户的流失并挽留客户,成为决策者关注的话题。客户流失给运营商带来了巨大损失,成功挽留一个即将流失的客户比重新发展一个客户节约大量成本。减少客户流失的关键是提前预测潜在的流失客户,采取相关措施提高客户的满意度,实现该预测的关键是数据挖掘和大数据技
2、术。基于大数据技术的数据挖掘就是从海量的客户资料、使用行为、消费行为、上网轨迹等信息中提取有用的信息进行组合关联,准确判断客户流失的现状或倾向,可以让企业及时并有针对性的对客户进行挽留;因此,利用大数据技术进行数据挖掘,预测客户流失、减少客户流失的发生成为电信行业研究的重点。1国内外研究现状在数据挖掘方面,国外有很多案例和做法值得学习,比如:中运用决策树、Logistic回归、人工神经网络等算法建立了移动用户流失预测模型。Lightbridge公司运用CART算法分析了新英格兰的一家移动服务商的数据并建立了客户流失模型AT&T公司很早就开始在大数据上的探索,2009年开始与Terada
3、ta公司合作引进天睿公司的大数据解决方案。在过去的几十年中,中国企业都扮演着技术跟随者的角色,现阶段我国互联网企业在数据挖掘、大数据处理以及人工智能、云计算等领域都有了巨大的发展。比如文献6中使用K-means聚类算法对电信客户进行细分,在此基础上探索了客户细分在营销中的实际应用。中利用神经网络算法建立用户流失预测模型,分析用户流失特征。中利用Spark平台实现了多种神经网络算法,对用户流失问题提出了快速精确的模型。国内的电信企业虽然都建立了客户流失预测、客户分群等模型,但大多都是基于数据挖掘软件如SPSS、SAS等应用,使用的数据量有限,不能全面分析用户流失行为。2大数据平台及技术安徽联通构
4、建基于B域、O域和M域数据融合的大数据平台——智慧运营平台,实现数字化转型及全业务流程的智慧运营。智慧运营平台通过企业级大数据平台实现企业全量数据的接入及治理,当前包括Hadoop、Universe、实时流处理三大资源池,共计140多个节点,存储容量3PB、2200核CPU、8T内存计算资源,实现资源动态管理;流处理平台具备百万级别消息并发处理能力,支持1分钟级别提供用户位置能力(见图1)。智慧运营平台接入BSS、CBSS、OSS、SEQ、上网等全网多种数据源,利用BDI(BigDataIntegration,数据集成套件)和Flume进行离线数据及日志数据的抽取、转换
5、、加载等数据采集功能,实现高性能海量数据处理和存储。利用Hadoop、Universe、实时流处理三大资源池,有效支撑上层各种应用的开发和运行。利用基于大数据分析平台构建的新一代智能数据挖掘系统SmartMiner进行自动化数据挖掘,实现各种算法模型的训练和预测。借助智慧运营平台强大的大数据分析和处理能力,结合现网客户运营的经验,建立有效的用户流失预测模型,实现用户的流失预警、维系策略匹配、客户反馈优化等一整套流程,能够有效降低用户流失。3离网预测模型构建3.1离网预测原理离网预测模型主要是根据历史数据特征,通过数据挖掘算法,建立预测模型,并将模型应用于现网用户,预测出离网概率高的用户。其主要
6、包括数据准备、模型训练和验证、离网预测三大部分10。如图2所示,数据准备阶段,根据出账和充值规律定义离网规则,通过对电信业务和用户行为的理解,从运营商各域数据里提取数据,并筛选离网预测特征字段,构建离网预测特征库。模型训练和验证阶段,选取数据挖掘算法,进行模型训练、评估和调优,训练出最佳模型。离网预测阶段,将训练的最佳模型应用于现网数据,实现准确的流失预测。进一步通过有效的维系手段,对预测流失用户进行精准维系,减少用户离网,提升在网用户价值。3.2随机森林算法传统数据挖掘中进行流失预测多采用决策树算法,它的特点有训练时间复杂度低、预测的过程比较快、模型容易展示等。但是单决策树容易过拟合,虽然可
7、以通过剪枝等方法减少这种情况的发生,但仍有不足。2001年LeoBreiman在决策树的基础上提出了随机森林算。随机森林是由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成过程中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用有放回抽样(bootstrapping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点。从图3中可以看到,通过K次训练,得到K棵不同的决策树T1,T2,…,TK,再将这些树组合成一个分类模型系统,随机森林是一个组合模型,内部仍然是基于决策树,同单一的决策树分类不同的是,随机森林通过多个决策树投票结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 智慧 运营 平台 数据 技术 挖掘 相结合
限制150内