第6章现代数据挖掘技术与发展-《数据仓库原理设计与应用》课件.ppt
《第6章现代数据挖掘技术与发展-《数据仓库原理设计与应用》课件.ppt》由会员分享,可在线阅读,更多相关《第6章现代数据挖掘技术与发展-《数据仓库原理设计与应用》课件.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6 6章章现代数据挖掘技术与发展现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展现代数据挖掘技术与发展6.1知识挖掘系统的体系结构知识挖掘系统的体系结构6.2现代挖掘技术及应用现代挖掘技术及应用6.3知识发现
2、工具与应用知识发现工具与应用6.4数据挖掘技术的发展数据挖掘技术的发展练练 习习 6.16.1知识挖掘系统的体系结构知识挖掘系统的体系结构 6.1.1知识发现的定义知识发现的定义 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.2 知
3、识发现系统的结构知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。数据仓库知识库数 据库 接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构6.26.2现代挖掘技术及应用现代挖掘技术及应用 6.2.1 规则型现代挖掘技术及应用规则型现代挖掘技术及应用 1.关联规则的基本概念关联规则的基本概念buys(x,“computer”)=buys(x,“finacial_management_software”)age(“30.40”
4、)income(“42000.50000”)=buys(x,“high_resolution_TV”)布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“30.40”)=buys(x,“IBMcomputer”)(6.3)age(“30.40”)=buys(x,“computer”)(6.4)2.关联规则的应用目标关联规则的应用目标置信度或正确率可以定义为:置信度或正确率可以定义为:(6.5)(6.5)覆盖率可以定义为覆盖率可以定义为 “兴趣度兴趣度”为目标的关联规则为目标的关联规则3.关联规则的算法关联规则的算法AprioriApriori算法算法 1 1找找出出所所有
5、有支支持持度度大大于于最最小小支支持持度度的的项项集集,这这些些项项集集称称为为频频集集,包包含含k k个个项项的的频频集集称称为为k-k-项集。项集。2 2使用第使用第1 1步找到的频集产生所期望的规则。步找到的频集产生所期望的规则。AprioriApriori算法的第算法的第1 1步采用了递归方法,算法表示为步采用了递归方法,算法表示为L L1 1=large 1-itemsets;/=large 1-itemsets;/产生频繁产生频繁1 1项集项集L L1 1for(k=2;Lfor(k=2;Lk-1k-1;k+)do/;k+)do/循环产生频繁循环产生频繁2 2项集项集L L2 2直
6、到某个直到某个r r使使L Lr r为空为空beginbegin C Ck k=apriori-gen(L=apriori-gen(Lk-1k-1);/);/产生产生k-k-项集的候选集项集的候选集 for all transactions t for all transactions tD doD do begin beginC Ct t=subset(C=subset(Ck k,t);/,t);/事务事务t t中包含的候选集中包含的候选集for all candidates cfor all candidates cC Ct t do do c.count+;c.count+;end en
7、dL Lk k=c=cC Ck k|c.count|c.countminsupminsupendendAnswer=UAnswer=Uk kL Lk k数据库DC1L1事务标识项集项集支持度项集支持度A11,3,4扫描数据库D1212A22,3,523比较支持度23A31,2,3,53333A42,5415353由L1产生C2C2L2项集项集支持度项集支持度1,2扫描数据库D1,211,221,31,32比较支持度2,321,51,512,532,32,323,522,52,533,53,52项集扫描数据库D项集支持度2,3,52,3,52由L2产生C3L34.关联规则的应用关联规则的应用前件
8、和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡前件后件正确率覆盖率百吉饼奶油干酪80%5%百吉饼橙汁40%3%百吉饼咖啡40%2%百吉饼鸡蛋25%2%面包牛奶35%30%黄油牛奶65%20%鸡蛋牛奶35%15%奶酪牛奶40%8%规划覆盖率正确率低正确率高覆盖率高规划很少是正确的,但可以使用规划多数情况下是正确的,而且可以经常使用覆盖率低规划很少是正确的,一般不被使用规划多数情况下是正确的,但很少被使用6.2.2 神经网络型现代挖掘技术神经网络型现代挖掘技术 2.基于神经网络的数据挖掘基于神经网络的数据挖掘(1 1)基于自组织神经网络的数据挖掘技术)基于自组织神经网络的数据挖掘技术一一种种
9、无无教教师师学学习习过过程程 、可可以以提提取取一一组组数数据据中中的的重重要要特特征征或或某某种内在知种内在知识识 (2 2)模糊神经网络类型数据挖掘技术)模糊神经网络类型数据挖掘技术模模糊糊BPBP网网络络、模模糊糊KohonenKohonen聚聚类类网网络络、模模糊糊推推理理网网络络、模模糊糊ARTART模型等模型等 模模糊糊BPBP网网络络中中,样样本本的的希希望望输输出出值值改改为为样样本本相相对对各各类类的的希希望望隶隶属度属度 输输出出表表达达方方面面实实现现了了模模糊糊化化,而而且且将将样样本本的的隶隶属属度度引引入入了了权权系系数的修正数的修正规则规则中,使中,使权权系数的修
10、正系数的修正规则规则也也实现实现了模糊化。了模糊化。6.2.2 神经网络型现代挖掘技术神经网络型现代挖掘技术 4.神经网络的应用神经网络的应用47岁收入6500元节点借贷拖欠?连接0.470.650.39Weight=0.7Weight=0.1年龄收入0.47(0.7)+0.65(0.1)0.396.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 1.遗传算法的基本原理遗传算法的基本原理达达尔尔文文的的“适适者者生生存存”理理论论、继继承承的的信信息息由由基基因因携携带带 、多多个个基基因因组组成成了了染染色色体体 、基基因因座座、等等位位基基因因 、基基因因型型和和表表现现型型 染色体
11、对应的是一系列符号序列,通常用染色体对应的是一系列符号序列,通常用0 0、1 1的位串表示的位串表示进进行行生生物物的的遗遗传传进进化化。在在这这一一过过程程中中包包括括三三种种演演化化操操作作:在在父父代代基基因因群群中中的的双双亲亲选选择择操操作作、两两个个父父代代双双亲亲产产生生子子代代基基因因的交叉操作和在子代基因群体中的变异操作。的交叉操作和在子代基因群体中的变异操作。两两种种数数据据转转换换:从从表表现现型型到到基基因因型型的的转转换换,另另一一种种是是从从基基因因型型到表现型的转换到表现型的转换遗传算法实质上是一种繁衍、检测和评价的迭代算法遗传算法实质上是一种繁衍、检测和评价的迭
12、代算法 最最大大优优点点是是问问题题的的最最优优解解与与初初始始条条件件无无关关,而而且且搜搜索索最最优优解解的的能力极强能力极强 6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 编码并生成祖先群体计算当前基因群体中所有个体的适合度是否满足最优解条件?选择群体中适应值高的个体进行复制交叉操作变异操作终止6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 3.遗传算法的应用遗传算法的应用用四个染色体来定义客户类型:用四个染色体来定义客户类型:基因基因1 1:客户的年龄下限:客户的年龄下限基因基因2 2:客户的年龄上限:客户的年龄上限基因基因3 3:客户的收入水平:客户的收入水平基
13、基因因4 4:客客户户的的人人口口状状况况(人人口口状状况况可可以以分分成成:少少(1 1至至2 2人人)、一一般般(3 3至至4 4人)和多(人)和多(5 5人以上)三种状况)人以上)三种状况)客户ID年龄累计购买金额收入家庭人口性别10985461843中等4女18595490中等2男47382613628低5男749123618463高6女95623298463高3男8552632274中等2男58753521846低2女64957480中等3女769572721634高5男6583945842低1女6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 所所有有的的生生物物个个体体按
14、按顺顺序序排排放放在在一一张张二二维维表表格格上上,使使每每个个生生物物体体的上、下、左、右都与其它生物体相邻接。的上、下、左、右都与其它生物体相邻接。(1 1)竞争复制)竞争复制(2 2)杂交繁殖)杂交繁殖(3 3)异变处理)异变处理年龄下限年龄上限高收入中等收入低收入人口少人口一般人口多客户群13864是是否否是是客户群22650是否是是否是客户群32040否是是是否否6.2.4 粗糙集型现代挖掘技术粗糙集型现代挖掘技术1粗糙集技术粗糙集技术2.粗糙集的应用粗糙集的应用表表中中的的970230970230、980304980304、990211990211客客户户的的“赞赞扬扬竞竞争争对对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库原理设计与应用 现代 数据 挖掘 技术 发展 数据仓库 原理 设计 应用 课件
限制150内