数据挖掘概述00553.ppt
《数据挖掘概述00553.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概述00553.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、服务即产品服务即产品 品质是生命品质是生命 数据挖掘概述数据挖掘概述贾晓谦贾晓谦贾晓谦贾晓谦2003.8.202003.8.20内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A概念定义vv什么是数据挖掘?什么是数据挖掘?什么是数据挖掘?什么是数据挖掘?简单的说,就是从大量数据中自动提取知识信息。简单的说
2、,就是从大量数据中自动提取知识信息。简单的说,就是从大量数据中自动提取知识信息。简单的说,就是从大量数据中自动提取知识信息。vv两个要点:两个要点:两个要点:两个要点:自动的自动的自动的自动的 知识信息,模式或规则知识信息,模式或规则知识信息,模式或规则知识信息,模式或规则vv暗示了将使用统计学方法暗示了将使用统计学方法暗示了将使用统计学方法暗示了将使用统计学方法vv数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘不是vv数据挖掘不是数
3、据挖掘不是数据挖掘不是数据挖掘不是 Data warehousingData warehousing SQL/Ad Hoc Queries/ReportingSQL/Ad Hoc Queries/Reporting Online Analytical Processing(OLAP)Online Analytical Processing(OLAP)Data VisualizationData Visualizationvv数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工什么激发了数据挖掘vv此三项技术促进了数据挖掘理论与实践的大发展此三
4、项技术促进了数据挖掘理论与实践的大发展此三项技术促进了数据挖掘理论与实践的大发展此三项技术促进了数据挖掘理论与实践的大发展数据的积累vv数据丰富、信息贫乏数据丰富、信息贫乏数据丰富、信息贫乏数据丰富、信息贫乏 ReportsReports、OLAPOLAP分析呈现的是分析呈现的是分析呈现的是分析呈现的是“轻度加工轻度加工轻度加工轻度加工”后的信息后的信息后的信息后的信息 迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法 需要一种强有力的数据深度分析工具的呼声日渐高涨需要一种强有力的数据深度分析工具的呼声日渐高涨需要一种强有力的数据深度分析
5、工具的呼声日渐高涨需要一种强有力的数据深度分析工具的呼声日渐高涨报表太报表太多!晕多!晕了!了!能能自动自动发现模发现模式吗?式吗?vv年龄在年龄在年龄在年龄在25302530之间之间之间之间,男性男性男性男性ITIT工程师买工程师买工程师买工程师买XXXXXX保险的可能性为保险的可能性为保险的可能性为保险的可能性为35%35%计算能力的增强vv硬件资源硬件资源硬件资源硬件资源 过去过去过去过去3030年,计算机硬件稳步发展年,计算机硬件稳步发展年,计算机硬件稳步发展年,计算机硬件稳步发展 处理器达到了振奋人心的速度处理器达到了振奋人心的速度处理器达到了振奋人心的速度处理器达到了振奋人心的速度
6、 大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能vv软件资源软件资源软件资源软件资源 特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务统计分析算法的应用技术分类数据挖掘数据挖掘描述描述类类预测预测类类回归回归分析分析关联规则关联规则决策树决策树聚类聚类时间序列时间序列神经网络神经网络分类分类应用领域vv金融行业金融行
7、业金融行业金融行业 贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析 目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类 险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险vv电信行业电信行业电信行业电信行业 流失客户分析流失客户分析流失客户分析流失客户分析 盗用模式分析和异常模式识别盗用模式分析和
8、异常模式识别盗用模式分析和异常模式识别盗用模式分析和异常模式识别 通话量时间序列分析通话量时间序列分析通话量时间序列分析通话量时间序列分析vv零售业零售业零售业零售业 产品相关性分析产品相关性分析产品相关性分析产品相关性分析 客户忠诚度分析客户忠诚度分析客户忠诚度分析客户忠诚度分析vv生物医学生物医学生物医学生物医学 DNADNA序列间相似搜索和比较序列间相似搜索和比较序列间相似搜索和比较序列间相似搜索和比较内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典
9、型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A数据挖掘方法论vvCRISP DMCRISP DM Cross-Industry Standard Process For Data Mining Cross-Industry Standard Process For Data Mining 当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一 由由SPSS、NCR、Daimler-Benz制定制定制定制定 数据挖掘方法论
10、 商业理解商业理解商业理解商业理解 数据理解数据理解数据理解数据理解 数据准备数据准备数据准备数据准备 建立模型建立模型建立模型建立模型 总体评估总体评估总体评估总体评估 模型发布模型发布模型发布模型发布商业理解vv 商业理解商业理解商业理解商业理解 确定业务目标确定业务目标确定业务目标确定业务目标 资源评估资源评估资源评估资源评估 确定数据挖掘目标确定数据挖掘目标确定数据挖掘目标确定数据挖掘目标 制定数据挖掘项目计划制定数据挖掘项目计划制定数据挖掘项目计划制定数据挖掘项目计划数据理解vv 数据理解数据理解数据理解数据理解 收集初始数据收集初始数据收集初始数据收集初始数据 描述数据描述数据描述
11、数据描述数据 分析数据分析数据分析数据分析数据 检查数据质量检查数据质量检查数据质量检查数据质量数据准备vv 数据准备数据准备数据准备数据准备 选择数据选择数据选择数据选择数据 清洗数据清洗数据清洗数据清洗数据 构建数据结构构建数据结构构建数据结构构建数据结构 集成数据集成数据集成数据集成数据 规范化数据规范化数据规范化数据规范化数据建立模型vv 建立模型建立模型建立模型建立模型 选择模型技术选择模型技术选择模型技术选择模型技术 设计实验设计实验设计实验设计实验 建立模型建立模型建立模型建立模型 访问模型访问模型访问模型访问模型模型评估vv 模型评估模型评估模型评估模型评估 评估数据挖掘结果评
12、估数据挖掘结果评估数据挖掘结果评估数据挖掘结果 处理过程回顾处理过程回顾处理过程回顾处理过程回顾 制订下一步的计划,如何改进制订下一步的计划,如何改进制订下一步的计划,如何改进制订下一步的计划,如何改进模型发布vv 模型发布模型发布模型发布模型发布 制订发布计划制订发布计划制订发布计划制订发布计划 制订监控和维护策略制订监控和维护策略制订监控和维护策略制订监控和维护策略 产生最终报告产生最终报告产生最终报告产生最终报告 项目回顾项目回顾项目回顾项目回顾内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施
13、过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A应用举例 决策树vv案例描述:案例描述:案例描述:案例描述:某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡 持有不同卡的客户应该得到不同的服务持有不同卡的客户应该得到不同的服务持有不同卡的客户应该得到不同的服务持有不同卡的客户应该
14、得到不同的服务 金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征 一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现vv研究方法:研究方法:研究方法:研究方法:以决策树作为挖掘工具来寻找持卡客户的人群特征以决策树作为挖掘工具来寻找持卡客户的人群特征以决策树作
15、为挖掘工具来寻找持卡客户的人群特征以决策树作为挖掘工具来寻找持卡客户的人群特征 选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据 选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体 应用举例 决策树金卡客户金卡客户金卡客户金卡客户收入在收入在收入在收入在1515万万万万美金以上的客美金以上的客美金以上的客美金以上的客户成为金卡客户的可户成为金卡客户的可户成为金卡客户的可户成为金卡客户的可能性为能性为能性为能
16、性为4 45.09%5.09%远大于全部事件的远大于全部事件的远大于全部事件的远大于全部事件的11.5%11.5%应用举例 决策树收入在收入在收入在收入在1515万万万万美金以上的、美金以上的、美金以上的、美金以上的、已婚已婚已婚已婚客户成为金卡客客户成为金卡客客户成为金卡客客户成为金卡客户的可能性为户的可能性为户的可能性为户的可能性为8181.05%.05%应用举例 决策树收入大于$15万元/年是否$3万收入2铜卡(81.86%)2 下页下页应用举例 决策树形成树形成树2 2、计算培训数据列上、计算培训数据列上、计算培训数据列上、计算培训数据列上的的的的信息增益信息增益信息增益信息增益年收入
17、年收入年收入年收入=0.246=0.246 婚姻状况婚姻状况婚姻状况婚姻状况=0.151=0.151 家庭子女数家庭子女数家庭子女数家庭子女数=0.048=0.048性别性别性别性别=0.029=0.0291 1、计算成员卡分、计算成员卡分、计算成员卡分、计算成员卡分类所需的类所需的类所需的类所需的数学数学数学数学期望期望期望期望=0.94=0.943 3、年收入上的、年收入上的、年收入上的、年收入上的信息增益信息增益信息增益信息增益最大,所以作为根最大,所以作为根最大,所以作为根最大,所以作为根节点,依次类推节点,依次类推节点,依次类推节点,依次类推应用举例 决策树应用举例 聚类vv案例描述
18、:案例描述:案例描述:案例描述:某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放 同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客
19、户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同 内容的杂志。内容的杂志。内容的杂志。内容的杂志。vv研究方法:研究方法:研究方法:研究方法:以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会
20、员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培 训数据;训数据;训数据;训数据;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;预先设置的聚类数为预先设置的聚类数为预先设置的聚类数为预先设置的聚类数为3 3,既打算把所有会员客户分成,既打算把所有会员客户分成,既打算把所有会员客户分成,既打算把所有会员客户分成3 3类。类。类。类。应用举例 聚类选择第一类客选择第一类客选择第一类客选择第一类客户户户户(46.8%46.8%)第一类客户主要由中等收入第一类客户主要由中等收入第一类客户主要由中等
21、收入第一类客户主要由中等收入客户构成,而且都是单身客户构成,而且都是单身客户构成,而且都是单身客户构成,而且都是单身无子女,每年在本店平均无子女,每年在本店平均无子女,每年在本店平均无子女,每年在本店平均消费消费消费消费72.4272.42美元美元美元美元选择第二类客选择第二类客选择第二类客选择第二类客户户户户(31.5%)(31.5%)第二类客户主要由中等收入第二类客户主要由中等收入第二类客户主要由中等收入第二类客户主要由中等收入客户构成,大多持有铜卡客户构成,大多持有铜卡客户构成,大多持有铜卡客户构成,大多持有铜卡每年在本店平均消费每年在本店平均消费每年在本店平均消费每年在本店平均消费28
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概述 00553
限制150内