数据挖掘与客户关系管理素材.pptx
《数据挖掘与客户关系管理素材.pptx》由会员分享,可在线阅读,更多相关《数据挖掘与客户关系管理素材.pptx(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、案例案例 卓越亚马逊的推荐系统卓越亚马逊的推荐系统第1页/共62页学习目标学习目标通过本章的学习,将能够:理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用第2页/共62页数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据挖掘背景第3页/共62页数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在
2、哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOSn人口统计人口统计n生命周期生命周期第4页/共62页数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘(Data MiningData Mining)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘第
3、5页/共62页数据挖掘的特点数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征:l先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识l有效信息是指符合实际情况且具有一定的代表性l可实用是指可以指导企业的营销决策第6页/共62页数据挖掘的特点数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识 数据挖掘所得到的信息应具有先未知、有效和可实用三个特征数据源必须是大量的、真实的、有噪声的发现的是用户感兴趣的知识 发现的知识要可接受、可理解、可运用
4、 并不要求发现放之四海皆准的知识,仅支持特定的发现问题 第7页/共62页客户接触 客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息从商业数据到商业智能第8页/共62页各行业电子商务网站算算法法层层商商业业逻逻辑辑层层行行业业应应用用层层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘网站结构优化网页推荐商品推荐。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。银行电信零售保险制药生物信息科学研究。相关行业数据挖掘的应用第9页/共62
5、页Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络 Neural NetworksNeural Networks聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析 Asso
6、ciationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用第10页/共62页数据挖掘技术的分类回顾分析:注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多预先定义好的类别 如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术第11页/共62页数据挖掘技术的分类聚类:根据某些属性将数据库分
7、割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析数据挖掘的一般目的就是数据挖掘的一般目的就是检测、解释和预测检测、解释和预测数据中定性的和或定量的模式数据中定性的和或定量的模式数据挖掘技术第12页/共62页数据挖掘方法学模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明
8、显不同于随机情况下的可期望发生率。模式是数据驱动的,一般只反映数据本身模型 对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式 模式可视化数据挖掘技术第13页/共62页数据挖掘方法学取样 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技
9、术第14页/共62页经典方法统计 统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。数据挖掘方法第15页/共62页经典方法最近邻 通过检测与预测对象最接近的对象的状况对预测对象进行预测 原理:某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近;相互之间“接近”的对象会有相似的取值 根据其中一个对象的取值,预测其最近邻对象的预测值 商业 应用:文献检索市场篮子分析 应用 评价:最近邻的数量最近邻的距离决定最
10、近邻预测的可信度数据挖掘方法第16页/共62页现代方法基础理论有指导的学习(Supervised Learning)归纳 概念 分类标准与模型 分类有指导的学习的目的:建立分类模型用模型确定新数据实例的类别训练数据(Training Data)与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法第17页/共62页 有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽
11、炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?第18页/共62页有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYe
12、sNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法第19页/共62页 有指导的学习(Supervised Learning)淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例(检验集
13、)数据挖掘方法第20页/共62页无指导的学习(Unsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万1245联合NoOnline3.6M20-29高尔夫23.9万2110个人YesBroke22.3M30-39钓鱼45.9万1001个人YesOnline5.0M40-49高尔夫67.9万ABC投资公司客户表数据挖掘方法第21页/共62页无指导的学习(Unsupervised Lear
14、ning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数 据 挖 掘 问 题属 性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指导有指导的学习的学习无指导无指导的学习的学习数据挖掘方法第22页/共62页现代方法决策树(Decision Tree)决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点、分支、叶子根节点分支叶子Debt$40K节点 决策树的分支过程就是对数据进行分类的过程,利用几个
15、变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法第23页/共62页决策树的算法步骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类:如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据
16、实例集合,返回步骤 2数据挖掘方法第24页/共62页决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法第25页/共62页患者代码嗓子痛发烧淋巴
17、肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 敏感症敏感症咽炎No Yes 头 痛淋巴肿感冒发 烧淋巴肿No Yes 咽炎No Yes 数据挖掘方法决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小第26页/共62页信用卡促销数据库收入收入段段寿
18、险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23万万34万万
19、45万万56万万训练集分类的正确性为111573数据挖掘方法第27页/共62页决策树(Decision Tree):例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类信用卡保险信用卡保险6Yes6No3Yes 0NoNoYes训练集分类的正确性为91560数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万
20、万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19第28页/共62页决策树(Decision Tree):例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序,对照输出属性进行数据分割,选择数据分割点年年 龄龄9Yes3No0Yes 3No4343以年龄43结合寿险促销Yes,训练集分类的正确性为121580172729353839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 客户关系 管理 素材
限制150内