(5.7.1)--第5章BI核心技术之数据挖掘技术.pdf
《(5.7.1)--第5章BI核心技术之数据挖掘技术.pdf》由会员分享,可在线阅读,更多相关《(5.7.1)--第5章BI核心技术之数据挖掘技术.pdf(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5单元 BI核心技术之数据挖掘技术本章导学5.45.35.25.1数据挖掘的工具数据挖掘技术的主要方法数据挖掘建模的标准数据挖掘技术概述数据挖掘技术概述CONTENTS数据挖掘的定义1数据挖掘的对象和功能2数据挖掘在商务智能中的应用3数据挖掘的定义数据挖掘的定义大数据时代,信息的快速增长带来的问题:大数据时代,信息的快速增长带来的问题:(1)(1)信息信息过量过量,难以消化;,难以消化;(2)(2)信息信息真假,真假,难以辨识;难以辨识;(3)(3)信息信息安全,安全,难以保证;难以保证;(4)(4)信息信息形式形式不一致,难以统一处理。不一致,难以统一处理。数据爆炸知识匮乏数据挖掘是就是从
2、大量的、不完全的、有噪声的、模糊数据挖掘是就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘数据库技术机器学习人工智能知识工程统计学高性能计算信息检索数据挖掘是按照企业既定业务目标,对商业数据库中的数据挖掘是按照企业既定业务目标,对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。从中提取辅助商业决策的关键性信息
3、。数据挖掘的对象和功能数据挖掘的对象和功能星型模型的应用(The Application of Star Schema)数据挖掘的对象数据挖掘可以应用于任何类型的数据关系型数据库数据仓库文本数据多媒体数据数据流互联网数据 运营数据:销售、成本、库存、财会等 客户数据:如购买记录、联系方式等 行业数据:行业销售、行业预测、宏观经济数据等 描述数据的数据:如数据定义、关联等描述分析聚类分析关联分析偏差分析预测分析分类分析回归分析聚类分析 找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中 聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销关联分析 发现特征之间的相互依赖关系,
4、通常是从给定的数据集中发现频繁出现的模式知识 关联分析广泛用于市场营销策略制定、事务分析等领域偏差分析 发现与众不同的数据 信用卡欺骗检测、网络入侵检测、贷款审核、医药研究分类分析 通过分析数据集中的数据的特征,为每个类别做出准确的描述或建立分类模型或挖掘分类规则,然后利用它们对其它数据集中的记录进行分类 应用于用户行为分析、风险分析、生物科学等回归分析 确定两种或两种以上特征间相互依赖的定量关系的一种分析方法 应用于未来趋势分析等数据挖掘在商务智能中的应用增加收入降低成本(1)注意客户正在做什么?(2)记住公司及其客户曾经做过什么?(3)挖掘客户与公司交易过程中留下的信息。(4)根据获得的知
5、识指导商业活动使顾客更加受益。A客户对公司的忠诚度怎样?哪些客户可能流失?哪种销售方式最适合A客户?新研发的产品应该以何种定位面世?什么因素决定A客户能否对B产品做出回应?A客户需要的下一种产品或者服务是什么?下一个分支机构应该设置在哪里?沃尔玛(walmart)公司将其5000家商店的销售点详细数据整合到一起,通过数据挖掘系统,沃尔玛能十分准确地预测每个商店、每种产品的销售情况,从而极大地降低了库存费用并从促销活动中获得巨大收益。(2)AutoT是世界上最大的汽车销售平台,通过运用SAS软件对用户在网站上的点击信息进行分析,找出用户的访问模式,判断用户对不同产品的喜欢程度,以此设特定服务,取
6、得了成功。(3)Bass Export是世界最大的啤酒进出口商之一,每个星期传送23000份定单,通过使用IBM的Intelligent Miner了解每个客户的习惯,来匹配客户的需求。数据挖掘技术在客户关系管理的价值体现在以下三个阶段:获得有价值的潜在客户、提高客户的价值、保持有效益的客户。个性化服务是根据用户的设定来实现,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐相关信息,以满足用户的需求。交叉销售,借助客户关系管理,发现已有客户的多种需求,并通过满足其需求而实现销售多种相关的服务或产品的营销方式。客户信用风险分析对企业的财务安全非常重要,利用数据挖掘中的关联分析、离群点检测
7、等技术对企业经营管理数据进行分析,预测可能发生风险的地点与原因 供应链管理是一种集成系统的管理思想和方法 通过对供应链中从供应商到最终消费者的物流、信息流、资金流进行计划、协调和控制等管理活动,使得供应链上各企业成为一个协调发展的有机体。数据挖掘建模标准CONTENTSCRISP-DM的四个层次1CRISP-DM的六个阶段2CRISP-DM的四个层次的四个层次 CRISP-DM(Cross-Industry Standard Process for Data Mining)是“数据挖掘的跨行业标准过程”在2000年推出了CRISP-DM 1.0模型,把数据挖掘过程中必要的步骤都加以标准化CRS
8、IP-DM具备广泛的适用性和实用性CRSIP-DM不限技术工具不限业务领域不限行业分类标准化的通用方法论关注商业目标关注数据获取和管理关注模型质量和迭代商业目标驱动,重视数据和算法阶段一般任务具体任务过程实例CRISP-DM的六个阶段的六个阶段数据挖掘的主要方法CONTENTS关联分析1聚类分析2分类分析3回归分析4关联分析关联分析在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。关联规则是寻找在同一个事件中出现的不同项的相关性。关联
9、分析supp X=|TIDItems1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐牛奶,尿片 啤酒=(牛奶,尿片,啤酒)T=25=0.4=(牛奶,尿片,啤酒)(牛奶,尿片)=23=0.67 项集:一个或多个数据项的集合 如:牛奶,面包,尿布 支持数:项集出现的频数 如:(牛奶,面包,尿布)=2 支持度:项集在所有事务中出现的比例 如:s(牛奶,面包,尿布)=0.4 频繁项集:大于过等于最小支持度的项集 关联规则:形如AB的蕴含表达式,A和B是不相交的项集 如牛奶,尿布啤酒 规则强度的度量 支持度s:事务中同时包含项集A和B的比例 置
10、信度c:出现B的事务中同时包含A的比例A B support,confidence规则形式最小支持度minsup:它表示了一组物品集在统计意义上的需满足的最低程度。最小置信度minconf:它反应了关联规则的最低可靠度buys(x,“diapers”)buys(x,“beers”)50%,60%major(x,“CS”)takes(x,“DB”)grade(x,“A”)75%,100%算法1算法2数据集规则用 户最小支持度最小置信度关联规则挖掘的基本模型关联规则挖掘的基本模型supp X=|conf A=B=|发现频繁项集产生强规则算法策略Apriori算法的原理:1.通过限制候选产生发现频繁
11、项集2.由频繁项集产生关联规则Apriori算法的重要性质:性质1:频繁项集的子集必为频繁项集。如果B,C是频繁的,那么B,C也一定是频繁的 性质2:非频繁项集的超集一定是非频繁的。如果A,B是非频繁的,那么A,B,C,A,B,C,D也一定是频繁的Apriori算法的步骤:1.通过限制候选产生发现频繁项集扫描数据集,得到所有出现过的数据,作为候选1项集挖掘频繁k项集:扫描计算候选k项集的支持度,剪枝去掉候选k项集中支持度低于最小支持度的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。否则,基于频繁k项集,链接生成候选k+1项集利用步骤2,迭代得到k
12、=k+1项集结果TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5数据库 Ditemset sup.1223334153itemset sup.12233353扫描 DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52L2C2扫描 DC3L3itemset2 3 5扫描 Ditemset sup2 3 52Apriori算法的步骤:2.由频繁项集产生关联规则对于每个频繁项集I,产生I的所有非空子集对于I的每个非空子集s,如果
13、support(l)/support(s)min_conf,则输出规则其中,min_conf是最小置信度阈值规则规则置信度置信度2-3,566.7%3-2,566.7%5-2,366.7%2,3-512,5-366.7%3,5-21TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5min_conf=70%聚类分析 谁是银行信用卡的优质客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类 这样银行可以 制定更吸引的服务,留住客户!一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!客户画像、客户的重要性级别认定、行业划分、产
14、品类型 聚类分析:把给定的数据对象集合分成不同的簇;簇:一组相似数据对象的集合 聚类是一种无监督分类法:没有预先指定的类别;典型的应用 可以了解数据的分布状态;也可以作为其它算法的一个数据预处理步骤;收入(元)年龄婚姻状况子女数目教育程度4500035已婚3高中6000024已婚1高中8700021未婚0高中9000025未婚2大学12000025已婚1大学15300060已婚0研究生18900032已婚2研究生第一组客户高中毕业且有小孩第二组客户高中毕业没有小孩第三组客户大学毕业且有小孩第四组客户收入较高、大学毕业以上、没有小孩第五组客户收入较高,大学毕业以上、有小孩数据预处理计算数据点之间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 5.7 BI 核心技术 数据 挖掘 技术
限制150内