数据挖掘与客户关系.ppt
《数据挖掘与客户关系.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与客户关系.ppt(125页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘与客户关系数据挖掘与客户关系管理管理吉林师范大学管理学院吉林师范大学管理学院案例 卓越亚马逊的推荐系统吉林师范大学管理学院吉林师范大学管理学院学习目标通过本章的学习,将能够:理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用吉林师范大学管理学院吉林师范大学管理学院CRM与数据挖掘10.1 数据挖掘概述10.2 数据挖掘的任务、技术和实施过程10.3 数据挖掘在CRM中应用10.4 CRM数据挖掘应用实例10.5 数据挖掘软件在CRM中的应用示例吉林师范大学管理学院吉林师范大学管理学院10.1
2、 数据挖掘概述10.1.1 数据挖掘的产生10.1.2 数据挖掘的定义10.1.3 数据挖掘的技术10.1.4 数据挖掘的功能10.1.5 数据挖掘的流程10.1.6 数据挖掘的发展方向吉林师范大学管理学院吉林师范大学管理学院10.1.1 数据挖掘的产生数据爆炸但知识贫乏 支持数据挖掘技术的基础数据挖掘逐渐演变的过程 吉林师范大学管理学院吉林师范大学管理学院数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据爆炸但知识贫乏吉林师范大学管理学院吉林师范大学管理学院数据挖掘的出现数据挖掘的出现数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定
3、合适的决策!数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期数据爆炸但知识贫乏吉林师范大学管理学院吉林师范大学管理学院 更大,更便宜的存储器 -磁盘密度以Moores law增长 -存储器价格飞快下降更快,更便宜的信息处理器 -分析更多的数据 -适应更多复杂的模型 -引起更多查询技术 -激起更强的可视化技术 数据挖掘处理技术 -数理统计 -人工智能 -机器学
4、习支持数据挖掘技术的基础吉林师范大学管理学院吉林师范大学管理学院数据挖掘的演化 机器学习 数据库中的知识发现 数据挖掘吉林师范大学管理学院吉林师范大学管理学院10.1.2 数据挖掘的定义SAS研究所(19910):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据7天连锁酒店天连锁酒店中发现有意义的新关系、模式和趋势的过程”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。吉林师范大学管理学院吉林师范大学管理学院数据挖掘的定义技术角度的含义商业角度的含义与传统
5、方法的区别吉林师范大学管理学院吉林师范大学管理学院数据挖掘的技术上的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。吉林师范大学管理学院吉林师范大学管理学院数据挖掘的商业角度的定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一
6、步将其模型化的先进有效的方法。吉林师范大学管理学院吉林师范大学管理学院客户接触客户接触 客户信息客户信息客户数据库客户数据库统计分析与数据挖掘统计分析与数据挖掘客户知识发现客户知识发现客户管理客户管理知识发现:从数据中深入抽取隐含的、未知的和有知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息潜在用途的信息从商业数据到商业智能吉林师范大学管理学院吉林师范大学管理学院数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是
7、指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 吉林师范大学管理学院吉林师范大学管理学院10.1.3 数据挖掘的功能 自动预测趋势和行为 关联分析对象分类 聚类分析概念描述 偏差检测 吉林师范大学管理学院吉林师范大学管理学院数据挖掘功能预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来
8、寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。吉林师范大学管理学院吉林师范大学管理学院数据挖掘功能关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系
9、。例如:今天银行调整利率,明天股市的变化。吉林师范大学管理学院吉林师范大学管理学院数据挖掘功能分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。吉林师范大学管理学院吉林师范大学管理学院数据挖掘功能聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。吉
10、林师范大学管理学院吉林师范大学管理学院数据挖掘功能概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的7天连锁酒店天连锁酒店区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。吉林师范大学管理学院吉林师范大学管理学院数据挖掘功能偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法
11、是,寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。吉林师范大学管理学院吉林师范大学管理学院10.1.4 数据挖掘应用应用领域:银行、电信、保险、交通、零售等商业领域能解决的典型商业问题包括:数据库营销(Database Marketing)客户群体划分(Customer Segmentation&Classification)背景分析(Profile Analysis)交叉销售(Cross-selling)客户流失性分析(
12、Churn Analysis)客户信用记分(Credit Scoring)欺诈发现(Fraud Detection)吉林师范大学管理学院吉林师范大学管理学院算算法法层层商商业业逻逻辑辑层层行行业业应应用用层层商业应用商业模型挖掘算法相关行业数据挖掘的应用吉林师范大学管理学院吉林师范大学管理学院Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUs
13、age?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用吉林师范大学管理学院吉林师范大学管理学院10.1.5 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;
14、寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining;加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据
15、准备的一些工具和软件。交互式发现和知识的维护更新。吉林师范大学管理学院吉林师范大学管理学院10.2 数据挖掘的任务、技术、方法和实施过程10.2.1 数据挖掘任务数据总结分类发现聚类分析关联规则发现吉林师范大学管理学院吉林师范大学管理学院10.2.2 数据挖掘技术数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策
16、树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。吉林师范大学管理学院吉林师范大学管理学院数据挖掘技术的分类数据挖掘技术的分类回顾分析:注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多预先定义好的类别 如:信用卡公司将客户记录分为好、中、
17、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术吉林师范大学管理学院吉林师范大学管理学院数据挖掘技术的分类数据挖掘技术的分类聚类:根据某些属性将数据库分割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析数据挖掘的一般目
18、的就是数据挖掘的一般目的就是检测、解释和预测检测、解释和预测数据中定性的和或定量的模式数据中定性的和或定量的模式数据挖掘技术吉林师范大学管理学院吉林师范大学管理学院数据挖掘方法学数据挖掘方法学模式模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。模式是数据驱动的,一般只反映数据本身模型模型 对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式 模式可视化数据挖掘技术吉林师范大学管理学院吉林师范大学管理学院数据挖
19、掘方法学数据挖掘方法学取样取样 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术吉林师范大学管理学院吉林师范大学管理学院人工神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网
20、络常用于两类问题:分类和回归。吉林师范大学管理学院吉林师范大学管理学院决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。吉林师范大学管理学院吉林师范大学管理学院决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提
21、高整体响应率,并极有希望同时增加销售。吉林师范大学管理学院吉林师范大学管理学院决策树建立决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有10%有响应。然后根据记录字段的不同取值建立树的分支,如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。吉林师范大学管理学院吉林
22、师范大学管理学院决策树图吉林师范大学管理学院吉林师范大学管理学院决策树应用决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。吉林师范大学管理学院吉林师范大学管理学院聚类分析聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。吉林师范大学管理学院
23、吉林师范大学管理学院聚类分析应用市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;吉林师范大学管理学院吉林师范大学管理学院聚类分析的评判一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的
24、好坏还取决与该方法是能发现某些还是所有的隐含模式;吉林师范大学管理学院吉林师范大学管理学院遗传算法遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。吉林师范大学管理学院吉林师范大学管理学院遗传算法GA的算法首先在解空间中取一群点,作
25、为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。吉林师范大学管理学院吉林师范大学管理学院规则推导规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 客户关系
限制150内