《客户关系管理》第6章:CRM与数据挖掘.ppt
《《客户关系管理》第6章:CRM与数据挖掘.ppt》由会员分享,可在线阅读,更多相关《《客户关系管理》第6章:CRM与数据挖掘.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、客户关系管理第6章:CRM与数据挖掘 Four short words sum up what has lifted most successful Four short words sum up what has lifted most successful individuals above the crowd: a little bit more. individuals above the crowd: a little bit more. -author -author -date-date第6章 CRM与数据挖掘6.1 数据挖掘概述6.1.1 数据挖掘的产生6.1.2 数据挖掘的定
2、义6.1.3 数据挖掘的技术6.1.4 数据挖掘的功能6.1.5 数据挖掘的流程6.1.6 数据挖掘的发展方向6.2 CRM中数据挖掘应用6.2.1 从客户生命周期角度数据挖掘技术的应用6.2.2 从行业角度分析数据挖掘技术的应用6.3 CRM数据挖掘应用实例数据挖掘概述6.1.1 数据挖掘的产生6.1.2 数据挖掘的定义6.1.3 数据挖掘的技术6.1.4 数据挖掘的功能6.1.5 数据挖掘的流程6.1.6 数据挖掘的发展方向6.1.1 数据挖掘的产生 数据爆炸但知识贫乏 支持数据挖掘技术的基础 数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据爆炸
3、但知识贫乏数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期数据爆炸但知识贫乏 更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处
4、理技术 - 数理统计 - 人工智能 - 机器学习支持数据挖掘技术的基础数据挖掘的演化 机器学习 数据库中的知识发现 数据挖掘6.1.2 数据挖掘的定义 SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义 技术角度的含义 商业角度的含义 与传统方法的区别数据挖掘的技术上的定义 数据挖掘(Data Mining)就是从大量的、不完全
5、的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 数据挖掘的商业角度的定义 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下
6、去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征. 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 6.1.3 数据挖掘技术 数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元
7、分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的
8、家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树建立 决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。 然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。 还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有
9、可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。决策树图决策树应用 决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。聚类分析 聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意
10、义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。聚类分析 簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。 聚类分析把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;聚类分析应用 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿
11、成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的评判 一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模
12、拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。 遗传算法 遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 遗传算法 GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,
13、其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。 支持向量机 支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。 通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以
14、最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。贝叶斯预测 贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权
15、重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。 规则推导 规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。规则推导可视化技术 用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:
16、能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。其他技术 近邻算法,将数据集合中每一个记录进行分类的方法。 统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。 模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。6.1.4 数据挖掘的功能 自动预测趋势和行为 关联分析 对象分类 聚类分析 概念描述 偏差检测 数据挖掘功能预测 数据挖掘
17、自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 数据挖掘功能关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这
18、样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能分类 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某
19、种内涵描述,从而避免了传统技术的某些片面性。 数据挖掘功能概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 数据挖掘功能偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 偏差检测
20、对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。 6.1.5 数据挖掘的流程 数据挖掘的流程 确定业务对象 数据准备 数据挖掘 结果分析和知识同化数据挖掘的流程-确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。 数据挖掘的流程-数据准备 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 数据的
21、预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。 数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 数据挖掘的流程-数据挖掘 对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。 数据挖掘的流程-分析和同化 结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据
22、挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.数据挖掘过程工作量 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技
23、术,并从数据库或数据仓库中收集数据。 6.5.6 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining;加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 客户关系管理 客户关系 管理 CRM 数据 挖掘
限制150内