采用聚类分析的数据挖掘技术进行电信市场客户分群(11页).doc
《采用聚类分析的数据挖掘技术进行电信市场客户分群(11页).doc》由会员分享,可在线阅读,更多相关《采用聚类分析的数据挖掘技术进行电信市场客户分群(11页).doc(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-采用聚类分析的数据挖掘技术进行电信市场客户分群-第 11 页作者:苏宁军 引言随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受,并渴望通过从数据中挖掘价值来减少营销成本、提高营销效益。近几年迅速崛起的数据挖掘技术成为实现这些目标的必要手段。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。电信各运营支撑系统所积累的海量历史数据是企业的一笔宝贵财富,谁能正确地挖掘与
2、分析隐含在数据中的知识,谁就能更好地向用户提供产品与服务,从而在竞争中脱颖而出。数据挖掘提供了从数据到价值的解决方案:“数据 + 工具+方法+目标+行动=价值”。数据挖掘目前已有一系列应用:分类分析、聚类分析、预测分析、偏差分析、关联分析和时序模式等,这些应用涉及到的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。由SPSS、NCR和Daimler-Benzd在1996年提出的CRISP-DM方法论是国际上数据挖掘行业流行的标准,其成功之处在于源于实践,是实际数据挖掘项目的智慧和经验的结晶。CRISP-DM定义了数据挖掘项目的标准化流程,如图1所
3、示。图1CRISP-DM方法论准确的细分市场和差异化的营销策略是目前电信企业市场营销所必须面对的难题。所谓市场细分是指营销者根据顾客之间需求的差异性,把一个整体市场划分为若干个消费者群的市场分类过程。由于顾客对电信产品需求的多样性、变动性以及电信企业资源的有限性,电信企业在进行市场营销过程中,必须进行市场分析,选择目标市场,做出市场定位,并结合目标市场的特点和结构制定有针对性的市场营销策略。客户分群是了解客户进行市场细分和目标市场营销的前提。数据挖掘的分类和聚类的方法都可应用于客户分群。下面我们将对用聚类方法进行客户分群的实现模式进行详细阐述,为电信目标市场营销的客户分群提供完整的解决方案,并
4、以实际案例验证其可行性。基于聚类分析的客户分群聚类(clustering)是指把一组个体按照相似性归成若干类别,即“物以类聚”,其目的是使得属于同一类别的个体之间的相似度尽可能大,而不同类别的个体之间的相似度尽可能小。相似度是根据描述对象的属性来测算的,距离是经常采用的度量方式。聚类和分类有着很大的区别:分类时,我们总是事先知道哪些属性是重要的,运营商总是将重要的、有影响力的属性作为分类的依据;而聚类时,运营商事先根本不知道哪些属性起作用,任务之一就是要找到那些起关键作用的属性。聚类分析能够帮助我们发现特征迥异的不同客户群,和对客户分群起关健作用的指标变量,并辅助运营商对各客户群的特征进行深刻
5、洞察。1客户分群的商业理解依据CRISP-DM流程首先要进行客户分群的“商业理解”,这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。我们必须明确项目的商业目标,这个目标应该是适于用基于聚类分析的客户分群方法去达到的。比如某电信运营商定义的客户分群的商业目标是“对某市数十万公众客户,从价值和行为的分析维度进行客户分群,以了解不同客户群的消费行为特征,为发展新业务、流失客户保有、他网用户争夺的针对性营销策略的制订提供分析依据,并实现企业保存量、激增量的战略目标”。电信客户从营销属性分为三类:公众客户、商业客户和大客户,其中公众客户消
6、费行为有较大的随机性,客户分布难有规律可寻,比较适于聚类分析。我们可以将此商业目标转化为数据挖掘的可行性方案:从价值和行为维度,考察客户业务拥有与使用、消费行为变化、他网业务渗透等方面属性,采用聚类分析的数据挖掘技术对研究的目标客户 (公众客户、入网时长、地域属性、产品拥有类型等方面限定)进行客户分群,对各客户群进行特征刻画和属性分析,为针对性营销确定目标客户群,并根据客户群属性和营销目标量体裁衣制订恰当的营销方案。由于客户的特性是不断变化的,数据挖掘的分析结果具有一定时效性,因此数据挖掘必须以项目来实施,在目标、进度和资源安排上明确要求。2.2 客户分群的数据理解“巧妇难为无米之炊”,数据是
7、挖掘的基础,在确定目标和方案后需要进行“数据理解”,以确定要支持我们的分析目标需要哪些方面的数据,数据基础是否已经具备,数据质量是否能满足要求,如果不能得到肯定的答复,我们建议推迟项目实施直至条件成熟,因为“进去的是垃圾出来的仍是垃圾”,错误的分析结果可能会给我们带来重大的损失。比如在上述案例中,我们分析了各业务系统及企业数据仓库中客户信息、客户消费及购买使用行为三个方面最近六个月的历史数据。电信企业拥有业务受理开通的CRM系统,进行计费、帐务及欠费处理的计费系统,卡类业务的智能网系统,客户服务的10000号系统,营销服务的渠道系统,还有结算系统、宽带、窄带及小灵通系统等等,这些业务系统储蓄了
8、企业运营的海量客户数据。有些电信企业还建立了数据仓库系统,对这些数据进行了清洗、整合和集中,建立了企业统一数据视图,并确保了数据来源的广泛性、完整性和准确性,为数据挖掘创造了更好的条件。我们从企业数据仓库中确定了以下数据的来源: 客户基本资料 用户基本资料 帐单信息 本地通话信息 长话通话信息 卡通话信息 结算信息 窄带使用信息 宽带使用信息 客服交互行为 缴费信息 欠费信息 服务使用信息除了数据源分析,数据理解阶段的另一些重要任务是进行数据探索和检验数据质量。我们可以借助一些可视化工具或统计分析进行数据探索,以明确数据的分布状况和重要的属性及其关系。比如通过值分析对数据进行基本的探查,包括空
9、值、唯一值、空字符串、零值、正值、负值的统计;统计分析计算各数值型变量的最小值、最大值、均值、标准差、众数等,有利于发现一些异常值,便于更好地理解数据;频次分析、直方图分析有助于更准确地了解数据的分布,从中发现有价值的点,其中频次分析主要面向离散型变量,而直方图分析主要面向连续型变量。数据探索有助于提炼数据描述和质量报告,还能发现数据异常,并为进一步的数据转换和数据准备打基础,甚至可能直接指向数据挖掘的目标。数据探索的同时可以全面检验数据质量,对数据的完整性、正确性、一致性有更细致的认识。除了统计分析,抽样核查比较也是数据检验常用的方法,在进行数据质量核查时,需要有对数据意义和取值范围敏感的业
10、务人员参与。2.3 客户分群的数据准备“数据准备”包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图2所示。图2. 数据准备流程选择数据 决定用来分析的数据。选择标准包括与数据挖掘目标的相关性,数据质量和工具技术的限制,如对数据容量或数据类型的限制。数据选择包括数据表格中属性(列)和记录(行)的选择。我们可以分主题在企业数据仓库中选择我们需要的各类数据,并进行按月汇总,生成月粒度数据基础表。基础表中每个用户每个帐务月的信息汇总成一条记录。如在我们的案例中基础表涵盖了以下数据:用户及客户的基本信息
11、 包括客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等价值信息包括话音、宽窄带业务的月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用,还包括了缴欠费信息行为信息包括时长、次数、跳次、发话不同号码数、时长集中度(拨打时长最多的三个号码拨打时长在总时长中占比)、次数集中度基础表中数据属性粒度要求尽量细,以便于在后期灵活构建数据。我们将以上价值和行为变量从专业(区内、区间、本地移动、本地异商固网、传统国内长途、传统国际长途、传统港澳台长途、传统异地行动、IP国内长途、IP国际长途、IP港澳台长途、IP异
12、地行动)和时段(白天:7:00-18:0、晚上:18:00-7:00、特殊时段:0:00-7:00)两个维度进行了划分。清洗数据 将数据质量提高到所选分析技术和分析目标要求的水平。这包括选择需要进行数据清洗的子集,插入适当的默认值或者通过更加复杂的技术如建模来估计缺失值,比如某月份的数据缺失我们可以用前后月份数据的平均值来填充,我们将拥有产品较多(可能不是公众客户)及公免的客户数据剔除。此阶段需要对基础表的数据进一步探索和检验。构建数据 该任务包括构建数据的准备操作,如进行变量设计生成派生属性、生成完整的新记录或者已存属性的转换值(将字符型字段转化为数值型字段)。在基础表基础上通过抽取、合并、
13、衍生得到分主题汇集的价值变量和行为变量形成的中间表,中间表中每个用户6个月的信息汇总成一条记录。抽取指直接从基础表中选择变量进行汇总;合并指将基础表中多个字段合并成一个字段汇总,如将区内通话时长和区间通话时长合并成本地通话时长;衍生指根据各种逻辑关系派生出新的变量,如均值变量、占比变量、趋势变量、波动变量等。在进行变量设计时建议技术人员和业务人员密切配合讨论,根据业务需要、挖掘目标及数据源的实际状况确定数据选择,确定基础变量和数据源的映射关系,确定衍生变量的数据转换逻辑。中间表变量命名的规范化有助于用户理解、记忆和应用,便利于将来数据挖掘的应用分析。变量命名采用对变量属性进行描述的分段的英文缩
14、写(首字母大字)用下划线连接来实现,字段按属性意义从大到小的范围排列,从而在对变量进行排序时可以把同一类型的变量聚集在一起,便于分析,如“价值/行为(v/b)_业务专业(Inner/Inter/Tol)_地域(Dms/Int/Gat)_拨打方式(Trd/IP)_ 值类型(Amt/Fee/Dur/Cnt/Dstn)_衍生值类型(Trd/Rat)”。中间表可以按模块化原则来设计实现,可随着应用和业务发展的需要不断进行扩充。整合数据 对各中间表的数据进行联合,生成最终的分析数据集也称宽表。我们以客户标识为主键,串联起客户相关的所有信息数据,建立起统一客户视图。在整合数据时,我们要回顾商业理解阶段对数
15、据挖掘目标的定义,以使我们的分析数据集能满足需求。有些电信企业由于历史数据以用户为中心,难以建立起统一客户数据视图;这时可使数据挖掘的目标限定于对某类用户进行分析;或以分析某类用户为主,通过企业数据库中用户之关的关系数据,去关联其它产品信息辅助分析。在完成数据整合后,我们需要再次对数据质量进行核查。格式数据 格式化转换是指根据建模的要求,对数据表现形式进行变换,如用K均值算法做聚类分析时,需要先将数据进行标准化处理,对数据进行Z变换,以消除量纲不同可能引起的数据差异。2.4 客户分群的模型建立在生成最终分析的数据集后,就可以建立模型进行聚类分析了。“模型建立”阶段主要是选择和应用各种建模技术,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 采用 聚类分析 数据 挖掘 技术 进行 电信市场 客户 分群 11
限制150内