VBBA方法用于电信客户流失预测.doc
《VBBA方法用于电信客户流失预测.doc》由会员分享,可在线阅读,更多相关《VBBA方法用于电信客户流失预测.doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流VBBA方法用于电信客户流失预测.精品文档.VBBA方法用于电信客户流失预测冉建荣摘 要:对于电信客户流失预测问题,流失客户相对于非流失客户来说比例非常小,这种比率的严重失衡通常会污染预测模型,导致客户流失预测效果大幅下降;另外,单一的统计学模型或人工智能模型用于客户流失预测时,存在对不同数据集模型的适应性不同的问题。本文提出采用最优算法投票(VBBA)方法来解决这些问题。文章用中国移动某公司的客户数据进行实证研究,用ROC曲线对预测结果进行评估,结果表明:采用最优算法投票(VBBA)方法,其预测效果优于任何单一算法模型直接预测的效果,这为电
2、信业客户流失管理实践提供了一套有效的提升客户流失预测精度的方法。Abstract: In telecom customer churn prediction, customer churn rate is a very small proportion, usually that will pollute prediction model and lead to reduce prediction effect; in addition, single statistical model or single artificial intelligence model is difficult
3、to satisfy various datum. So, this article proposes a Voting Based on the Best Arithmetic (VBBA) method to solve those problems. It conducts empirical study with customer data of a subsidiary company of China Mobile Communications Corporation (CMCC), and assess prediction effect using receiver opera
4、ting characteristic curve (ROC). The results show that the prediction effect of VBBA method is better than that of single arithmetic model, so VBBA method is effectual to lift prediction precision of customer churn in telecommunication customer churn management.关键词:最优算法投票 客户流失预测 ROC曲线Key words: Voti
5、ng Based on the Best Arithmetic; Customer Churn Prediction; Receiver Operating Characteristic Curve (ROC)0 引言客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务1。据中华人民共和国国家统计局统计数据表明,截止2011年12月,中国移动电话用户数达9.86亿户,比去年同期增长14.8%;固定电话用户数达2.85亿户,比去年同期减少3.14%2,表明国内电信市场逐渐趋于饱和。对电信运营企业来说,在这样一个相对成熟的市场中竞争,防御性市场策略变得越来越重要。防御性市场策略重点关注的是
6、如何减少客户流失,而不是发展新客户和诱使竞争对手的客户转网3。Reichheld4研究表明,客户保持率每提高5%,行业平均利润增加幅度在25 %85 %之间。另有研究表明,赢得一个新客户所花费的成本大约是保留一个老客户所花费成本的56倍5。因此,如何构建适合于自己的客户流失管理系统,管理好客户流失问题是各电信运营企业提高盈利能力的关键。客户流失管理主要包括预测可能流失的客户,客户收益的评估及减少客户流失的客户保持策略及方法等几方面6。本文以提高客户流失预测精度为目标,提出基于最优算法投票(VBBA,Voting Based on the Best Arithmetic)方法,对中国移动某公司客
7、户数据进行实证研究,并用ROC曲线对采用VBBA方法前后各算法模型的预测结果比较评估,结果表明VBBA方法能够大幅度提高客户流失预测效果。文章的组织结构如下:第一部分介绍了客户流失预测一般方法;第二部分提出VBBA方法的框架;第三部分用VBBA方法进行实证研究;第四部分对研究结论作简单评述,并给出实践建议。1相关研究评述由于客户流失预测是客户保持策略的关键环节,在电信客户流失管理中具有十分重要的地位和作用,近年来受到越来越多的学者和电信运营管理人员的重视。一般来说,电信业客户流失预测是利用客户记录的历史数据对潜在的流失客户进行判断的过程6。其研究方法一般分为统计学方法和人工智能方法。统计学方法
8、包括决策树(Decision Tree)、Logistic回归(Logistic Regression)、贝叶斯分类器(Bayesian Classifier)和聚类(Clustering)等,该类方法的主要优点是对所构建的模型可解释性强。应用这些统计学方法于电信客户流失预测,很多学者做了有价值的研究7-10。但统计学方法在处理大规模、高维度、含非线性关系的客户数据时效果并不理想,且不能保证学习和泛化能力,缺乏灵活性。因此,近年来越来越多的学者将学习能力强,预测精度更高的人工智能方法引入客户流失预测研究 11-17。人工智能方法主要包括人工神经网络(ANN, Artificial Neural
9、 Networks)、自组织映射(SOM, Self-organizing Map)、支持向量机(SVM, Support Vector Machine)和进化学习(EL, Evolutionary Learning)算法等。不论是统计学方法还是人工智能方法,目前的研究目标主要集中于单个算法(或改进算法)对原始数据建模或将几个单一算法组合成混合模型用于原始数据建模。但由于电信客户流失预测所用数据复杂多变,很难找到普遍适用的最优单一模型;另外,在客户数据库中,流失客户的比例往往非常小,这可能污染模型,导致流失预测模型的预测效果大幅下降。鉴于此,本文提出基于最优算法投票(VBBA,Voting B
10、ased on the Best Arithmetic)方法来系统性的解决这些问题。2 VBBA方法的提出本文提出的最优算法投票(VBBA,Voting Based on the Best Arithmetic)方法框架如图1所示。主要分为选择最优算法和对最优算法的预测结果组合投票两部分。具体构建过程如下: 图1 最优算法投票策略框架第1步:数据分区。将整理好的原始数据分成训练集和测试集两部分,根据原始数据样本多少可以按50/50、60/40、70/30等比例划分,但一般来说测试集数据不得少于总样本的20%18。第2步:抽取训练子集。对于客户流失预测等分类问题,由于流失率一般较低,流失客户数和
11、非流失客户数严重失衡,导致大多数分类模型被污染,影响模型预测效果。为提高流失客户在训练数据集中的比例,一般采用保留所有流失客户数据的同时,抽取部分非流失客户数据组成训练子集,以平衡训练集中流失客户和非流失客户的比例。对非流失客户数据多次随机抽样从而可以形成多个训练子集,记为n,n取奇数。一般建议将数据子集中流失客户和非流失客户比率平衡为20/8018。第3步:训练模型。选用多种(记为M)基本分类算法(如决策树、神经网络、逻辑回归、支持向量机、粗糙集等)分别对n个训练子集建模。第4步:选择最优算法模型。对M个算法模型分别在n个训练子集的预测结果进行比较评估,选取n次结果中平均精度最高、标准差最小
12、的算法模型作为最优模型。第5步:最优模型组合投票。分别将n个最优模型用于测试集,对预测结果采用少数服从多少的投票策略,得票数大于等于票的目标类(即流失或非流失)作为对该客户的预测结果。如:在9次预测中,对某客户有5次(或5次以上)预测为流失,4次(或4次以下)预测为不流失,则最终投票结果为该客户流失。3 实证研究3.1研究数据及评估方法(1)研究数据本文以中国移动某公司客户数据作为研究对象。由于临时卡客户(即购买临时卡将所含费用用完即丢弃或换号的客户)的消费行为具有极大的不稳定性,运营企业记录的相关数据甚少,文章在研究时考虑先将此部分客户排除。因此,我们随机抽取该公司2012年13月一直在网的
13、用户25075户,取其协议数据、消费行为数据和账单数据,以2012年4月1日至2012年5月30日作为客户流失判别窗口。对所提取客户数据进行清理、集成、变换、离散化等预处理后,得到数据有效样本24862户,占总样本数的99.2%;其中,流失用户2345户,流失率9.4%。通过特征选择方法对所有变量进行筛选,得到与流失预测问题强相关的变量21个作为参与流失预测的特征变量,其中类别型特征变量4个,数值型特征变量17个。(2)评估方法本文选用Clementine12.0中的Neural Net、C5.0、Logistic和SVM四种模型作为研究的基础模型,采用ROC曲线(Receiver Opera
14、ting Characteristic Curve)19对预测结果进行比较评估。ROC分析50年代起源于统计决策理论,广泛应用于分类器性能的评价 20,21。流失预测问题实质就是一个二元分类问题,因此可以借助ROC曲线来评价预测预测模型的预测效果。ROC曲线定义如下:假设有关于流失和非流失两个类的混淆矩阵如表1所示。表1 一个关于客户流失预测问题的混淆矩阵实际状态预测结果合计流失非流失流失A(真正)B(假负)A+B非流失C(假正)D(真负)C+D合计A+CB+DA+B+C+D由上表可以计算如下参数:,灵敏度即流失客户被预测为流失客户的比率。,特异度即非流失客户被预测为非流失客户的比率。ROC曲
15、线是以真正率为纵坐标,假正率为横坐标绘制的曲线。ROC曲线越靠近左上角,则模型预测的准确性就越高,可用曲线下方的面积(Area Under Curve,即AUC)度量预测效果,AUC的值一般在1.0和0.5之间,面积值越接近1.0的表示预测效果越好。一般:AUC在0.50.7时有较低准确性,AUC在0.70.9时有一定准确性,AUC在0.9以上时有较高准确性。3.2 单个模型用于客户流失预测在建模之前我们将原始数据分区为训练数据集和测试数据集,分别占比60%和40%。采用Clementine12.0中的Neural Net、C5.0、Logistic和SVM四种模型用于分区后的原始数据建模。其
16、中,C5.0模型选择use boosting和cross-validate,其他为默认选项;Neural Net模型选择默认选项,即用quick算法;Logistic模型选择binomial算法,其他为默认选项;SVM选择默认选项。用SPSS15.0中的ROC构造方法对训练数据集和测试数据集的预测结果绘制ROC曲线并计算曲线下方面积(AUC)如表2所示。由表2可以看出,直接将四种基本模型用于原始数据的预测结果中,Neural Net的预测效果相对较好,但总体来说预测效果不理想。表2 单个模型用于原始数据预测结果的AUC值模型训练集测试集Neural Net0.814 0.811C5.00.79
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- VBBA 方法 用于 电信 客户 流失 预测
限制150内