2022年数据挖掘在电信客户管理中的应用汇编 .pdf
-
资源ID:28355099
资源大小:145.60KB
全文页数:5页
- 资源格式: PDF
下载积分:4.3金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
2022年数据挖掘在电信客户管理中的应用汇编 .pdf
数据挖掘在电信客户管理中的应用王永辉摘 要随着信息时代的来临,企业要面对越来越庞大的数据,当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策。数据挖掘技术试图从海量数据中找出有用的知识,并被广泛应用于互联网、金融、零售、电信等领域的客户分析中,帮助企业深入细分客户,提升客户体验, 增加企业收入。目前,我国电信运营商正面临着激烈的市场竞争,对细分客户的需求也日益强烈,对数据挖掘技术的跟踪与应用的需求十分迫切。本文深入探讨数据挖掘方法论、 技术方法及其在电信客户分析中的应用,指出应用中要注意的问题,为对电信客户进行分析提供了技术支撑。关键词 数据挖掘电信 客户管理引言互联网、电信、 金融、 零售等企业都积累了大量客户数据,这些数据是企业的重要资产和财富。通过深入分析,可以从中获取大量有用的信息。数据挖掘是处理此类海量数据,从中挖掘有用信息的常用技术,应用广泛。如,沃尔玛超市拥有世界上最大的数据仓库系统,利用数据挖掘工具分析客户购买行为;国内外电信运营商都已逐渐在客户分析中采用了数据挖掘技术, 以提升客户洞察能力,提高企业竞争力。在激烈的竞争环境下,我国电信运营商也越来越重视客户分析工作,以解决客户发展成本高、流失率高、个性化服务需求高、客户满意度低等问题。 本文将探讨在电信客户数据分析过程中引入数据挖掘技术,提升电信客户分析的效率和质量。1 数据挖掘方法论数据挖掘 (Data Mining)是从大量数据中提取或挖掘知识的过程。数据挖掘是一个新兴的多学科交叉领域,起源于 20世纪 80年代, 在决策支持中扮演着重要的角色。随着数据库技术的发展,越来越多的数据被收集起来,形成了“数据丰富,知识贫乏”的状况。因此,如何从海量数据中挖掘有用的知识,变得非常重要,数据挖掘技术就是在这种背景下诞生的。从数据挖掘的概念看,其特点主要体现在两点:一是处理大数据集的能力;二是“探索”或“挖掘”过程, 数据挖掘强调从海量数据中获取知识的过程,通过探索的方式,利用各种方法从大量数据中挖掘可能有用的数据,并形成模型;因此,数据挖掘更侧重于方法论,而非具体的算法。 1996年SIG组织提出的数据挖掘标准流程CRISP-DM ,是一种被广泛应用的跨行业的处理流程,如图1所示。 SAS 也提出了一种数据挖掘方法论SEMMA,并应用于 SAS 系统中。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - CRISP-DM 流程分为六个阶段,详细说明见表1:步骤描述业务理解通过反复沟通准确理解业务问题,将其转换成数据挖掘问题,并拟定初步构想数据理解收集、理解、过滤所需的数据,并进行数据质量评估数据预处理数据清理、转换、归并等,便于数据挖掘技术使用建模尝试采用各种方法建立分析模型,解决提出的业务问题评估对建立的模型进行评估部署最终报告生成或模型部署表1 CRISP-DM 步骤说明从图 1中可以看出,数据挖掘过程是一个循环往复、不断优化的闭环流程。其中,“业务理解”与“数据理解”之间、“数据准备”与“建模”之间都存在着反复过程,正体现出了“挖掘”、“探索”的特点。首先,数据挖掘过程应是业务主导而非技术主导,深入理解业务问题和数据内涵对数据挖掘项目的成功非常重要。这个过程需要业务人员和分析人员共同参与, 深入沟通, 明确分析的目标、 理解业务数据、 确定数据需求、 评估数据质量。 其次,分析时常采用探索的方式,尝试多种数据挖掘技术来进行建模。在此过程中, 可能出现数据不足的问题, 这就需要继续丰富数据,也可能出现模型效果不理想的情况,就需要尝试其它方法来重新建模。 我们将数据挖掘技术应用于电信客户分析时,应充分重视业务理解、数据理解和数据准备过程,并关注分析结果的业务解释。2 数据挖掘技术方法作为一个交叉学科, 数据挖掘是由多种不同的学科发展而来,主要包括统计、 机器学习、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 数据库等。 不同的来源也带来了不同的观点,其采用的方法也有很大区别。最主要的观点包括以下四个方面见表2:观点说明数据库观点从数据库的角度定义数据挖掘,强调方法的效率,即,如何高效地从海量数据中抽取知识,主要有多维数据分析或OLAP 方法,面向属性的归纳方法统计学观点侧重算法的正确性,假设的真实性, 统计结果的获得需要有大数据量的保证,主要有 回归分析、判别分析、聚类分析、探索性分析等神经网络观点侧重自学习、自组织,较好的学习、容错和优良的非线性逼近能力,主要方法 BP 算法、自组织神经网络机器学习观点强调算法的有效性,主要方法有归纳学习方法(决策树、规则归纳)、基于范例学习、遗传算法表2 数据挖掘观点拥有不同专业背景的人员对数据挖掘有着不同的理解,所使用的技术方法也与自身专业相关, 这就给数据挖掘带来了丰富的算法。从某种角度说, 凡是可以用户从数据中挖掘知识的技术方法, 都可以纳入数据挖掘范畴中。总体上, 数据挖掘中采用的方法可以划分为以下几类:2.1 数据泛化 (data generalization) 数据泛化是对数据进行抽象与汇总的过程。可以利用业务知识或采用属性归纳等方法生成属性的概念层次树,并利用这种层级关系对数据进行泛化。汇总是一种常用的数据泛化方法。另外, OLAP 分析 3 是数据泛化的一个具体应用,用于发现隐藏在不同数据粒度层级上的知识。2.2 聚类 (clustering) 聚类是按照某种相似性将数据分组的过程,通常被称为无指导的(unsupervised)学习。聚类算法非常丰富,可以划分为基于分割、分层、网格和模型等的方法。在数据挖掘中使用的聚类算法侧重于对大数据集、高维特征数据的处理能力。2.3 关联分析 (association analysis) 关联分析主要用于发现大数据集中数据项之间的关联关系、相关关系等, 可采用关联规则挖掘、相关分析、主成分分析,频繁项目集等方法。其中用于查找频繁项目集的Apriori算法可以认为是数据挖掘技术中的原创性算法。2.4 分类 (classification) 分类是将数据映射到事先定义好的群组或类,通常被称为有指导的(supervised)学习,主要包括统计方法(如贝叶斯分类、 近邻法 ) 、 机器学习 ( 如决策树、规则归纳 ) 、 神经网络等。2.5 回归 (regression) 回归是将数据映射到某一实值预测变量。回归与分类有些相似,区别在于, 分类将数据映射到离散的类别中,而回归则建立连续值函数模型。回归分析主要包括线性回归、非线性回归方法等,常用于预测。2.6 序列模式 (sequential pattern) 序列模式挖掘是挖掘有序序列或时间序列中的频繁序列模式,主要包括频繁子序列、周期模式等。 类似于关联分析,通过序列模式挖掘可以获取有用的关联规则,如客户购买某产品一段时间以后,很可能会购买该产品的附件。2.7 异常点分析 (outlier analysis) 异常点或孤立点分析通过检测数据中的异常数据,发现异常模式。 异常点分析可以采用名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 5 页 - - - - - - - - - 统计检测、距离度量、基于背离度的方法,常用于欺诈检测。如,通过检测用户近期的行为与历史行为的不一致,发现客户欺诈问题。以上每类方法中都有很多的算法可供使用,在进行客户分析时可以选择其中一种或多种方法进行尝试、进行对比并选择较优的算法。3 电信客户数据分析应用电信企业的客户数据量非常庞大,一方面电信客户数量多,另一方面客户消费行为产生了大量的记录。 从庞大的数据中抽取有用的知识是一件困难的事情,在使用数据挖掘技术进行客户分析时要注重其方法论。一般情况下,利用数据挖掘进行客户分析的过程是一个提出假设并验证的过程。因此,对业务和数据的深入理解可以帮助分析人员提出更为恰当和有效的提出假设, 选用恰当的方法去验证,从而更快更好地得到有用的知识。对于同一个业务问题, 由于业务分析人员对业务的理解、分析结果的假设以及表示形式的设定不同,可能采取完全不同的分析方法,得到完全不同的结果,这也正是数据挖掘技术的特点之一。本文将电信客户划分为未入网客户、非稳定期客户、 稳定其期客户三个阶段,并给出每个阶段电信客户分析的核心任务、典型分析课题及主要分析方法。此处仅列出主要的数据挖掘方法,实际上并不限于这些方法,见表3。生命周期核心任务分析课题分析方法未入网客户客户拓展竞争对手大客户聚类 /分类,关联分析客户家庭成员关系关联分析未入网网站关系分析序列式挖掘,关联分析新入网用户分析聚类 /分类,探索数据分析非稳定期客户客户关系维系客户信息变化侦测异常点分析、关联分析客户异动分析异常点分析、关联分析客户流失分析、预警、原因异常点分析、关联分析,序列模式挖掘、聚类 / 分类客户价值分析关联分析、回归分析稳定期客户客户价值提升客户爱好偏好分析数据泛化,关联分析客户购买倾向分析聚类 /分类,序列模式分析交叉销售分析关联分析,序列模式分析敏感客户分析关联分析网站访问行为分析聚类 /分类,序列模式分析客户忠诚度提升客户忠诚度评估聚类 /分类,回归欺诈分析关联分析,异常点分析,聚类、分类表3 电信客户分析典型课题及主要分析方法下面对表 3中的几个典型客户分析课题进行探讨,包括客户家庭成员分析、交叉销售分析、客户流失分析、欺诈分析等。3.1 客户家庭成员关系分析客户在入网时通常没有登记家庭成员关系,可以通过关联分析等方法生成关联规则来进行猜测。具体可以通过对客户基本信息(包括姓名、性别、年龄、家庭地址、家庭电话等属性) 及消费行为信息( 如经常联系的号码、夜间通话基站等) 进行分析,生成各属性与家庭成员关系的关联规则,用于自动判别家庭成员关系。例如(CID1与CID2登记地址相同 ) (CID1与CID2同姓 ) (CID1比CID2年龄大 20-30岁 ) ( CID1与CID2为父子或父女关系) ,并使用支名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 5 页 - - - - - - - - - 持度 (support)和置信度 (confidence)来判断规则的可靠性。假设条件为 A,结果为 B(父子或父女关系 ), 则支持度和置信度分别为P(AB)和P(B|A) , 只有超过一定阈值才认为是有效规则。家庭成员关系作为将来维系挽留与个性化营销的参考,这对于全业务电信运营商更为重要。3.2 交叉销售 (cross-selling) 如果已知足够多的客户同时订购了产品A和B,那么当我们发现一个客户订购了产品A 而未订购产品 B时,可以向其推荐产品B,称为产品的交叉销售。在分析时通常采用Apriori及其改进算法来查找频繁项目集,通过支持度和置信度阈值来判断是否作为有效规则。以增值业务为例, 与盲目营销相比,交叉销售可以在很大程度上降低营销成本,提高成功率,并减少客户不满。3.3 客户流失分析(churn) 客户流失分析主要包括流失预警和原因分析。电信客户流失可以分为主动流失和被动流失( 欠费销号等 ) ,而客户主动流失分析是企业最为关注的。对于离网预警/ 征兆及离网原因分析,可以采用关联分析、序列模式挖掘、异常点分析、聚类/ 分类、回归等方法,得到客户离网预警模型并分析离网原因。如关联分析主要用于探查与“离网” 密切相关的属性,序列模式挖掘用于发现离网前的频繁子序列,作为离网征兆或原因,异常点分析通过客户离网前的异常行为(异常点 ) 来进行预警。预警模型可以使用关联规则、决策树、 判别函数等表示。客户流失分析本质上就是挖掘相关属性与离网之间的关系。3.4 欺诈检测通过客户异常行为,检测潜在的客户/ 代理商欺诈行为,减少企业收入损失。可以采用聚类 / 分类、关联分析、异常点分析等方法检测用户欺诈行为。如,采用决策树、聚类、异常点检测、神经元网络等技术。聚类/ 分类、异常点分析主要研究欺诈客户与其他客户群在属性空间分布的差异,发现潜在的欺诈客户,或者通过分析客户当前行为与历史行为的差异来发现欺诈行为。如可以选择适当的属性,通过聚类/ 分类或异常点分析找到欺诈客户,或采用基于距离、 信息增益或的评价函数来生成决策树,或通过关联分析找到与欺诈相关的属性并得到关联规则,以检测客户欺诈行为。4 总结本文对数据挖掘方法论、技术方法及其在电信客户分析中的应用进行了探讨。数据挖掘从海量数据中挖掘潜在的知识,吸收多种学科的优势,汇集了丰富的算法,适用于电信客户分析, 并在我国电信客户分析得到了一定程度的应用。在今后的发展中,数据挖掘技术会越来越广泛地应用于电信客户分析,帮助企业洞察客户,提供个性化服务。参考文献【1】Cross Industry Stdndard Process for DataMiningEB/OL.2009-05-20 http:/www.crisp-dm.org【2】 SAS http:/【3】Apriori 算法、遗传算法、关联分析等分析方法http:/ :概念与技术 (原书第 2版) 机械工业出版社译者:范明孟小峰【7】数据挖掘 概念、模型、方法和算法清华大学出版社译者:闪四清陈茵程雁名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 5 页 - - - - - - - - -