基于分布式混合数据挖掘的电信客户流失分析.pdf
《基于分布式混合数据挖掘的电信客户流失分析.pdf》由会员分享,可在线阅读,更多相关《基于分布式混合数据挖掘的电信客户流失分析.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、收稿日期:2010-02-08;修回日期:2010-06-20基金项目:国家自然科学基金(60973139,60903181,60773041);江苏省自然科学基金(BK2008451);省级现代服务业发展专项资金(2010002);江苏省高校自然科学基础研究项目(09KJB520009);国家和江苏省博士后基金(0801019C,20090451240,20090451241);江苏高校科技创新计划项目(CX09B-153Z,CX08B-086Z);江苏省六大高峰人才项目(2008118);江苏省计算机信息处理技术重点实验室基金(2010)作者简介:李爱群(1969-),女,浙江海宁人,讲师
2、,研究方向为计算机系统设计、计算机网络和智能计算等;王汝传,教授,博士生导师,研究方向为计算机软件、计算机网络和网格、对等计算、信息安全、无线传感器网络、移动代理和虚拟现实技术等。基于分布式混合数据挖掘的电信客户流失分析李爱群1,2,乔 晗1,王汝传1,2,邓 松1(11 南京邮电大学 计算机学院,江苏 南京 210003;21 南京邮电大学 计算机研究所,江苏 南京 210003)摘 要:CORBA 技术庞大而复杂,且技术和标准的更新相对较慢。电信运营企业应用系统是客户流失分析的主要数据来源,而传统的客户流失分析由于该系统数据的集中式存储继而采用集中式挖掘,对海量数据的挖掘效率低下。为进一步
3、提高挖掘效率,提出网格下基于分布式混合数据挖掘的电信客户流失分析(Customer Churn Analysis upon Distributed HybridData Mining in Grid,CCA-DHDM),并借助GridSphere 门户,在该平台上实现了BP 神经网络算法和K-Means 聚类算法。仿真实验表明,与单机环境相比,随着网格节点数增加,算法的平均耗时明显下降 65%到75%,同时算法的效率得以较明显地提高。关键词:客户流失分析;网格计算;BP神经网络;K-Means 聚类算法中图分类号:TP39 文献标识码:A 文章编号:1673-629X(2010)10-0043
4、-04Telecommunication Carriers Customer Churn AnalysisBased on Distributed Hybrid Data MiningLI A-i qun1,2,QIAO Han1,WANG Ru-chuan1,2,DENG Song1(1.College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.Institute of Computer,Nanjing University of Posts and Teleco
5、mmunications,Nanjing 210003,China)Abstract:CORBA is a large and complex technology,and the updating of technique and standard is relatively slow.Telecom enterpriseapplication systems are the main source of data for customer churn analysis,the traditional customers churn analysis uses a centralizedmi
6、ning due to centralized data storage,and the mining efficiency for mass data is low.Present CCA-DHDM(Customer Churn Analysisupon Distributed Hybrid Data Mining in Grid),and achieve the BP neural network algorithm and K-Means clustering algorithm in thisplatform by means of GridSphere Portal.The simu
7、lation shows that,compared with stand-alone environment,the average time-con-suming of algorithm is decreased obviously 65 percent to 75 percent with the grid nodes increasing,and the efficiency of the algorithm isimproved clearly.Key words:customer churn analysis;grid computing;BP neural network;K-
8、M eans clustering algorithm0 引 言当前,国内电信运营企业应用系统具有多操作系统、多数据库、数据量大、网络环境异构以及业务应用不同等特点。而这些系统又是电信客户流失分析1,2的数据来源,因此具有天然的分布性。传统的方法采用集中式进行处理,把所有地理分散的数据集中传输到指定的服务器上,然后对其进行客户流失分析,这样由于传输的数据量过于庞大,一方面造成一定的存储压力,另一方面会造成很大的通信开销,而且对海量数据进行集中式挖掘,挖掘的效率低下,因此需要新技术来实现高性能的分布式电信客户流失分析。传统的分布式 电信客户流 失分析较 多地采用CORBA 中间件3技术。CORB
9、A 技术具有良好的互操作性和开放性。但 CORBA 技术庞大而复杂,且技术和标准的更新相对较慢,而网格计算4,5由于其强大的分布式计算能力 6,7、较强的扩展性 8以及易实现第 20 卷 第 10期2010 年 10 月 计 算 机 技 术 与 发 展COMPU TER TECHNOLOGY AND DEVELOPM ENT Vol.20 No.10Oct.2010的优势9已成为现在分布式计算平台的首选 10。随着网格这种分布式技术的不断发展,利用网格平台可以很好地处理电信客户流失分析11,12,为此文中提出了网格下基于分布式混合数据挖掘的客户流失分析 系统(Customer Churn An
10、alysis upon DistributedHybrid Data Mining in Grid,CCA-DHDM),试验证明,通过构建网格平台来对地理位置分散的各种数据进行分布式挖掘处理,一方面大大降低了存储压力,另一方面提高了挖掘的效率和准确率。文中所做的贡献主要为:(1)为了更好地对电信客户数据进行分类,提出基于 BP 神经网络的客户数据分类算法(Classification ofCustomer Data on BP);(2)提出基于 K-Means 的客户流失原因聚类算法(Clustering of Customer Churn Reason on K-Means),通过该聚类算法
11、把流失客户的原因进行分析,从而为决策者提供相应的策略;(3)进行比较实验,依实验数据予以性能分析。1 基于网格服务的电信客户流失分析1.1 系统框架本系统的大体框架分为服务端和客户端。服务端有整个客户流失分析各功能所需要的服务:BP 神经网络分类服务和 K 均值聚类分析服务,客户端在需要调用服务时,向服务端发出请求。经过对数据的预处理后,基于网格平台之上,分多个节点对数据予以 BP 神经网络分类,并得出结果。之后,针对 BP 神经网络分类结果中流失数据再予以 K 均值聚类分析。完成 K均值聚类分析,对最终结果予以汇聚。最后将处理出来的结果反馈给客户端。具体结构图如图 1 所示。图 1 基于分布
12、式混合数据挖掘的电信客户流失系统框架图1.2 具体实现算法 1:BP 神经网络算法p 服务端1.Receive(InputCd,OutputCd,StEfficient,Bpecho,BpPrecision,BPGSAd,i,Sample i);/从客户端接收BP 算法的参数、具体的 BP 算法服务地址以及待分类的样本数据块名等各种参数;2.Initial();/初始化 BP 网络的结构;3.int AllNum=Statistics(Sample);/统计待分类样本数据的个数;3.while(echo Bpecho)4.计算隐层、输出层的纯输入和输出;5.计算输入层到隐层以及隐层到输出层的误
13、差;6.BP 网络结构的更新;7.ClassifiedNum+;/统计被正确分类的样本个数;8.double BpPrecision i=ClassifiedNum/Al-lNum;/统计局部分类精度。p 客户端Input:BP 算法服务地址 BPGSAd;待分类的样本数据 Sample i;输入层节点数(数据文件属性个数)In-putCd,输出层节点数(分类个数)OutputCd,学习效率StEfficient;算法迭代次数 Bpecho;算法精度 BpPrec-ision;Output:分类精度 ClassfiPrecision;隐层节点数 HideCd 直接由输入层节点数 2+输出层节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分布式 混合 数据 挖掘 电信 客户 流失 分析
限制150内