40数据挖掘应用工具与实例.ppt
《40数据挖掘应用工具与实例.ppt》由会员分享,可在线阅读,更多相关《40数据挖掘应用工具与实例.ppt(126页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容1. 概述概述2. 数据仓库与数据仓库与OLAP技术技术3. 数据挖掘技术数据挖掘技术4. 数据挖掘在电信领域的应用数据挖掘在电信领域的应用5. 数据挖掘工具数据挖掘工具6. 数据挖掘实例数据挖掘实例4数据挖掘在电信领域的应用数据挖掘在电信领域的应用4.1 CRM与 ERP4.2 数据挖掘在电信领域的应用 4.1 CRM与与ERP CRM CRM(Customer Relationship Management,客户关系管理),作为一种旨在改善企业与客户之间关系的新型管理机制。 CRM系统以数据仓库技术为基础,数据挖掘技术为核心。 4.1 CRM与与ERP ERP ERP(En
2、terprise Resource Planning,即企业资源规划),是前几年国内外兴起的一种企业运作管理软件,它的侧重点是对企业内部的业务流程以及企业的资源进行管理。 解决的是企业内部各环节的协调问题,如财务、生产、采购和仓储等部门间的协调关系。4.1 CRM与与ERP ERP与CRM两者的关系 同样作为现代企业的管理软件,ERP与CRM在企业运营过程中,处于不同的位置,担任不同的角色。一个面向后台,一个面向前台。一个保证企业生产出更高质量的产品,而另一个帮助企业理顺与客户的关系,向客户提供最好的服务。这是企业在激烈的市场竞争保证胜利的不可或缺的两个环节。 4.1 CRM与与ERP 通过E
3、RP与CRM系统的紧密集成,把企业供应商和服务商等都联成一个有机的整体,真正形成一个以客户为核心进行运作的虚拟企业,并最大限度地满足客户需要和最大限度地降低企业成本。销售CRMERP客户服务市场技术支持信息共享财务生产储运采购客户产品图 CRM与ERP有机结合的企业运作模式CRM的应用 数据挖掘在CRM中的市场营销,业务分析,客户服务等方面都有广泛的应。 例如:发展客户 、提升客户价值、挽留客户等。CRM的应用 发展客户 每一个企业都希望能更快地发展新的客户,更多的客户意味着更大的市场占有率和更好的规模效益。数据挖掘技术可以帮助更准确地发现有价值的潜在客户,从而可以显著地降低发展新客户的成本,
4、提高市场拓展的投入产出比(ROI)。 CRM的应用 例如,假设一个电信业务提供商利用邮寄宣传材料开拓市场,一份宣传材料的成本是¥1.00。如果漫无目的地随机分发10000份,将有150人成为该公司用户,而其中能给公司带来利润的仅有100人。也就是说投入¥10000,得到了100个有价值的客户。现在采用数据挖掘技术,根据以前随机分发的数据或者新取样500人分发获取数据而后建立模型,根据该模型,发现前面的10000人中只有5000人值得投资,对此5000人邮寄宣传材料后有95人成为客户,其中90人可带来利润。结果是投入¥5500,获得了90个有价值的客户,显著地提高了投入产出比。CRM的应用 挽留
5、客户 据一般经验估计,留住一个老客户地成本是发展一个新客户成本的35倍。留住有价值的客户保持利润的有力手段。而在电信行业,客户的频繁换网现象(churn)十分严重,留住客户比其它行业更加困难。数据挖掘在此问题上也有较好的应用。 CRM的应用 要挽留客户首先要找出可能离网的客户,因此数据挖掘解决该问题的第一步即是建立离网客户预测模型。该模型可以利用已离网客户的历史资料(包括个人信息、消费行为等)来获得。第二步当然还得判断该客户是否值得挽留,这也用到预测模型,因为有些客户虽然目前是有微弱价值的但是最终毫无价值,有些客户则可能恰恰相反。CRM的应用 提升客户价值 提升现有客户的价值是提高利润的重要手
6、段。在电信行业,客户价值提升包括交叉销售、增值销售和基本业务价值提升。数据挖掘是发现交叉销售/增值销售机会和分析基本业务价值提升可能性的重要手段。 CRM的应用 发现交叉销售/增值销售机会涉及到两个模型。第一个模型用来确定哪些用户可以进行推销,哪些用户则不希望被打扰。如果多次对第二类用户进行推销,则可能失去该用户。第二个模型则用来发现对特定的用户推销哪些产品。显然,即使不考虑推销成本,多次向客户推销他并不想要的产品肯定会降低他对该企业的满意度。关联规则可能是第二个模型的重要组成部分。CRM的应用 基本业务价值提升要考虑的重要问题是预测用户在企业采取某种措施后其利润的变化情况。例如假设某个电信运
7、营商采取某特定用户群亲友电话费减半的优惠策略来刺激消费,则必须要求这些用户的消费额增加或者能增加市场占有率公司才可能获得效益。4.2 电信领域的应用电信领域的应用4.2.1 客户行为与潜在客户分析 4.2.2 用户信用度分析 4.2.3 黑名单、红名单 4.2.4 优惠策略 4.2.5 甄别欺诈 4.2.6 趋势预测4.2 电信领域的应用电信领域的应用 目的 利用成熟的数据挖掘工具或算法,对用户帐务数据、行为数据、基本信息数据,以及各营业点的销售记录等进行分析挖掘,找出各种数据之间的潜在关系,为企业经营者制定销售策略提供科学依据。 数据源 用户帐务数据库、用户行为数据库(话单数据)、用户基本信
8、息库等。 4.2.1 用户行为分析用户行为分析 对于企业的某一类或几类产品/业务来说,大致可将其用户分为四类:(1)潜在用户 目前还不是公司任何一项产品/业务的用户,但有使用该产品/业务的潜在趋势,这是市场竞争初期的重要营销对象。(2)增量用户 是公司某项产品或业务的使用者,并且有增加使用量的趋势。 4.2.1 用户行为分析用户行为分析(3)交叉增量用户 是企业某一产品/业务的使用者,并且有使用本公司另一类产品/业务的可能性。(4)挽留客户 目前是公司的某一类或几类产品/业务的使用者,但有终止使用或转向别的产品/业务提供者转移的可能性。 4.2.1 用户行为分析用户行为分析 用户行为分析的基本
9、思想 将用户的行为分为若干类别,对具有某一类行为特征的用户,分析其基本信息,以期找出用户行为和客户基本特征两者之间的若干潜在关系。 客户行为信息数据库抽样抽样样本数据聚类分析类别模型评分1234556统计分析类别利润等级信息7按利润的等级排序规则78实现步骤实现步骤 第一步 采用聚类算法对用户行为进行分类,根据得到的类别模型与客户行为信息库对个客户行为进行评分,结果写回客用户行为信息库。 衡量用户行为的主要特征指标包括: 客户ID 时段 工作日性质-工作日和非工作日 消费金额 业务类型(重要指长话,市话等通话业务), 目的(重要指本地,长途,我网他网等信息) 实现步骤实现步骤 第二步 统计分析
10、各类别的行为特性,首先按照各行为类别的利润贡献大小对各类别进行排序。 例如:类别利润计算公式 类别平均利润=(各行为消费金额)/类别行为个数 实现步骤实现步骤 类别行为特性按不同主题有多种考察重点,如某一种业务或业务组合在各类别行为中出现的百分比,各行为的时间段分布情况等;这里得到两类类别统计信息表:按类别组织和按各种主题(如业务类型,业务量)组织。 4.2.1 用户行为分析用户行为分析主要包括两方面的分析: 群体分析 利用聚类或分类算法,将企业客户根据某种规则分为若干群体。 行为分析(又称倾向建模) 根据客户以前的消费行为,分析某几类有显著特征的行为模式,并据此对客户未来的行为进行预测。 4
11、.2.1 用户行为分析用户行为分析 上述两种建模技术均可以被用来提高企业营销目标对象的准确性并提高相应的收益。为达到这个目的,目前有很多的分析工具被应用,如: 交叉报表工具 基于机器学习的数据挖掘工具工具。如 Minset、Integent Miner等 基于统计学的分析工具,如SAS、SPSS; 神经网络 4.2.2 用户信用度分析用户信用度分析 用户信用度等级描述 详细描述用户信用度等级的具体含义。 信用等级分布表示 客户的利润、客户的基本信息和行为分类如时间段、业务类型等的分布表示。类似于客户行为分析。 信用度的相关分析 分析影响用户信用度的因素之间的概率依赖关系、强度及其可信度。这一方
12、面用于预测客户信用度的发展趋势,当发生变化时,对其信用等级进行相应的调整。4.2.2 用户信用度分析用户信用度分析 利用上述分析结果,给出从一个信用度等级到另一个信用度等级变化可能性大的客户。可能决策者主要关心从高等级到低等级(最低等级)和从低等级到最高等级可能性大的用户群。4.2.2 用户信用度分析用户信用度分析 根据影响用户信用度的主要因素,对用户的帐务数据进行分类,建立分类模型,并对用户进行评分,给出用户的信用度级别(类别)。 影响用户信用度的主要因素包括:(1)交费的及时度(2)用户的社会性质(3)用户的通话业务量(4)用户申请的业务数量(5)用户申请的业务种类和用户的投诉情况4.2.
13、2 用户信用度分析用户信用度分析 用户信用度分析的实现 系统初装时,没有用户的信用度级别信息,这时采用聚类算法,按照用户的帐务行为信息将其分为若干类。在此基础上,依照每类各指标的统计数据和一定的等级评定规则,将各类的信用度赋于高低级别; 在系统运转过程中,用户(指本系统用户)可能会对用户已有信用度级别提出异议,或加以修改,这样,对做了相应级别修正后的用户数据,采用有监督的分类学习,就会得到更为准确的分类模型,而且这个模型也是不断在更新的。相应的,随着用户信用行为特征的变化,其信用级别也会不断变动。 4.2.2 用户信用度分析用户信用度分析 信用度类别分类依据的用户帐务信息数据包括: 开户平均时
14、长 欠费次数 金额(如本月欠费,则为欠费金额,此值为负,如本月不欠费,则为通话费用,此值非负) 欠费时长 帐务人社会性质 历史帐务信息数据库抽样抽样样本数据聚类分析类别模型1等级定义修正的类别模型1等级评分等级评定规则12345统计类别统计信息677899信用度模型更新模块1011步骤步骤1 用户信用度初始化用户信用度初始化数据抽样数据抽样 抽样的原则 样本尽量具有代表性,且数据量能保证学习耗时不是太多。 例如,可采用一个随机数产生器随机产生要抽取的样本。 数据抽样数据抽样历史帐务数据库抽取帐务记录ID抽样随及数发生器供学习用样本数据初始化后的帐务历史数据库信用度人为设定抽样训练样本数据有监督
15、分类学习分类模型1234用户基本信息库上月帐务数据信用度历史记录用户信用度更新模块15步骤步骤2 信用度模型更新信用度模型更新步骤步骤3 用户信用度级别更新用户信用度级别更新当月帐务数据库分类模型评分用户基本信息库信用度历史记录库营销接口仓库接口步骤步骤4 新开用户信用度设定新开用户信用度设定 用户的信用度级别设定是由用户的帐务信息决定的,而新开用户没有任何帐务记录,故根据已有的信用度模型没法设置其信用度。考虑到有不同帐务行为的用户有不同的基本信息,即某种信用等级的用户具有相似的基本信息,我们可以分析新开户的基本信息,与各个信用等级的用户基本信息做比较,以确定他属于哪个信用级别,分为以下两步:
16、(1)分类模型确定 (2)新开户信用等级评定 步骤步骤4 新开用户信用度设定新开用户信用度设定抽样训练样本数据有监督分类学习分类模型用户基本信息数据等级评分营销接口仓库借口4.2.3 黑名单、红名单黑名单、红名单 黑名单与红名单管理是在信用度管理的基础上,按照一定的规则,将信用度较高或较低的某些用户列入红名单或黑名单。 根据信用度的评定规则可知,红名单中用户交费及时,消费量大,是电信部门保证利润的最重要客源,也是最应该保持的一部分客户;而黑名单上的用户则是对电信部门利润增长贡献较小或最有可能有欺诈行为倾向的用户。 黑名单与红名单是优惠策略管理和反欺诈管理的重要依据,并且也是电信部门较为关心的重
17、要信息。 4.2.4 优惠策略分析优惠策略分析 优惠策略(包括营销优惠策略和话费优惠策略)主要完成:(1)定义优惠规则和优惠方式;(2)用户优惠规则参数化处理;(3)对已有优惠策略的性能分析;(4)优惠套餐的设置;(5)各种优惠和业务、以及其他信息分布关系的展示功能。 4.2.4 优惠策略分析优惠策略分析优惠规则分为:优惠规则分为: 时段优惠时段优惠 用户可享受国家规定的时段优惠外,系统还应提供有各个公司制定的适用于本地的时段优惠措施 总量优惠总量优惠 对用户的业务量达到一定的程度后,给予不同的优惠措施。4.2.4 优惠策略分析优惠策略分析 次数优惠次数优惠 对用户的通话次数达到一定的数量后,
18、给予不同的优惠措施。 伙伴电话优惠伙伴电话优惠 对用户的通话性质进行区分,对于呼叫某类或某部电话的用户,给予不同的优惠措施。 4.2.4 优惠策略分析优惠策略分析优惠方式包括:优惠方式包括: 基于客户性质类别的优惠 基于呼叫地区类别的优惠 基于营业地区类别的优惠 基于信用等级的优惠 综合的优惠套餐等4.2.4 优惠策略分析优惠策略分析优惠方式分析优惠方式分析 对于各种优惠方式(包括优惠套餐),给出其受益客户的类别、信用度类别分布、欺诈情况和投诉类别分布等。例如,优惠策略的行为类别分布及其柱状图和饼状图等。 新优惠套餐设置分析。给出新的优惠套餐的设置与客户群的分析及利润分析。(优惠套餐的设置参数
19、必须在以前的优惠策略中出现过),分析优惠套餐使用者的其他各项属性的概率,从而给出这种优惠(资费)的客户群体。同时可以查找最优化的优惠设置。4.2.4 优惠策略分析优惠策略分析 优惠策略或优惠套餐潜在客户分析。 优惠策略的性能分析。通过分析优惠策略和业务量和收入之间的关系,给出优惠策略的性能。 4.2.5 甄别欺诈甄别欺诈 当前恶意欠费客户给电信运营商造成了巨大的利润损失,如何减少欺诈行为带来的损失是每一家电信企业所必须面对的问题。在识别欺诈客户,降低经营风险方面数据挖掘已经不少有了成功的应用案例。 4.2.5 甄别欺诈甄别欺诈 识别欺诈客户的主要途径: 第一是区分用户的信用度,通过建立用户信用
20、打分模型把用户分成不同的信用度等级,给不同的等级确定不同的月高额限制,超出限额的认为是潜在恶意欠费客户。 第二是建立恶意欠费客户的消费识别模型,如果某一客户的消费模式吻合欺诈消费模式,则认为是潜在恶意欠费客户。 4.2.5 甄别欺诈甄别欺诈 甄别欺诈策略分析类似优惠分析,建立在信用度管理的基础之上。 分析防欺诈策略的相关变量:高额话费额度、欠费停机额度和用户具有不同的欠费停机额度等。 指定防欺诈策略 分析信用度、客户的满意程度、高额花费警告额度和停机额度之间的关系。根据分析结果调整用户的基本信息。 分析信用度、客户的满意程度和用户催缴周期、催缴频度之间的关系。 4.2.6 预测预测 预测主要指
21、业务预测,是针对电信量发展的短期预测。它建立在对大量数据(业务资料数据、社会基础资料数据、市场调查资料、其他运营者资料数据)统计分析的基础上,通过模型运算、统计分析等数据处理手段,完成对电信业务的业务发展、用户需求数量、用户分布、市场占有率等几方面的预测分析。4.2.6 预测预测 从上面介绍的数据挖掘在电信领域的各种应用可以看出,信用度分析及客户行为分析是其他各种应用的基础。数据挖掘的认识误区数据挖掘的认识误区u 挖掘出的结果都是正确正确的 数据挖掘得出的结果一般都是经验性的,它并不是一条经过严格数学证明的定理(事实上数据挖掘得出的规则绝大多数不可证明)。例如数据挖掘号称能通过历史数据的分析来
22、预测客户的行为,而事实上客户自己可能都不明确自己下一步要作什么。挖掘算法并不保证结果的完全正确,挖掘出的结果只具有概率上的意义,只具有参考价值。 数据挖掘的认识误区数据挖掘的认识误区u 挖掘获得的模型可普遍适用普遍适用 数据挖掘仅仅根据它所处理的数据得出结果,结果的适用范围受限于数据的选择。我们不能保证一个在美国运行得非常成功的银行信用卡客户信用评级模型在中国也同样可信;当然我们也不能保证一个零售业的客户利润分析模型同时适用于电信行业。 数据挖掘的认识误区数据挖掘的认识误区u 数据挖掘可以完全自动化完全自动化 当然数据挖掘可以做到完全的自动化,但是,挖掘结果对商业目标的价值不是挖掘算法所能判断
23、的,用户需要在他们能理解的背景环境中,观察挖掘输出的结果并与之交互。很多时候一个挖掘目标的完成需要多次叠代的挖掘过程才能完成。在一定的意义上,一个半自动的数据挖掘环境可能是更好的。 数据挖掘的认识误区数据挖掘的认识误区 数据挖掘是一个工具,而不是魔杖。它不会坐在数据库上一直监视着数据库,然后当发现有意义的模型时给管理者发一封电子邮件。它仍然需要了解用户的业务,理解用户的数据,弄清分析方法。数据挖掘只是帮助专业人士更深入、更容易的分析数据。而无法告知某个模型对企业的实际价值。而且数据挖掘中得到的模型必须在现实生活中进行验证。 主要内容主要内容1. 概述概述2. 数据仓库与数据仓库与OLAP技术技
24、术3. 数据挖掘技术数据挖掘技术4. 数据挖掘在电信领域的应用数据挖掘在电信领域的应用5. 数据挖掘工具数据挖掘工具6. 数据挖掘实例数据挖掘实例5 数据挖掘工具数据挖掘工具5.1 概述5.2 几种数据挖掘工具比较5.3 典型工具介绍 5.3.1 DBMiner 5.3.2 Admocs 5.3.3 PredictiveCRM 5.3.4 SAS/EM(Enterprise Miner) 5.3.5 Weka5.1 概述概述目前,世界上比较有影响的典型数据挖掘系统包括: Enterprise Miner( SAS公司) Intelligent Miner( IBM公司) SetMiner( S
25、GI公司) Clementine( SPSS公司) Warehouse Studio( Sybase公司) See5( RuleQuest Research公司) CoverStory EXPLORA Knowledge Discovery Workbench DBMiner Quest等5.1 概述概述 http:/ 该网站提供了许多数据挖掘系统和工具的性能测试报告。5.1 概述概述 IBM Intelligent Miner A wide range of data mining algorithms Scalable mining algorithms Toolkits: neural
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 40 数据 挖掘 应用 工具 实例
限制150内