分布式数据挖掘 精选PPT.ppt
《分布式数据挖掘 精选PPT.ppt》由会员分享,可在线阅读,更多相关《分布式数据挖掘 精选PPT.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分布式数据挖掘 第1页,此课件共19页哦提纲简介数据挖掘分布式数据挖掘研究现状同构与异构分布式数据挖掘算法应用实例进一步的工作第2页,此课件共19页哦简介数据挖掘什么是数据挖掘?数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程终可理解的模式的非平凡过程。(From U.Fayyad et al.s definition at KDD96)巨量的:对于少量数据的分析不需要使用数据挖掘。有效的:所获得的模式必须是正确的。新颖的:对于已知知识的投资收益不大。潜在有用的:所得的模式应能提供相关的决策支持。最终可理解的:所
2、得的模式是提交给决策制定者的。数据挖掘的研究领域数据挖掘是一门涉及机器学习、统计学、数据库、可视化技术、高性能计算等诸多方面的交叉学科。第3页,此课件共19页哦数据挖掘数据挖掘的应用范围描述性规则发现(Characterization)对比性规则发现(Discrimination)关联规则发现(Association)分类分析(Classification)预测(回归)分析(Prediction)聚类分析(Clustering)异常分析(Outlier analysis)第4页,此课件共19页哦简介分布式数据挖掘产生背景各相关学科的飞速发展,各种网络尤其是Internet的广泛使用。实际应用要
3、求数据挖掘系统具有更好的可扩展性。实例研究某种疾病在某地的发病情况与气候的关系(疾病控制数据库环境数据库)金融组织间通过合作防止信用卡欺诈(数据共享)大型跨国公司营销策略的制定(销售点分散,数据仓库构造十分耗时)分布式数据挖掘正是在这一背景下产生的,它是数据挖掘技术与分布式计算的有机结合,主要用于分布式环境下的数据模式发现。第5页,此课件共19页哦分布式数据挖掘分布式数据挖掘的优点出于对安全性、容错性、商业竞争以及法律约束等多方面因素的考虑,在许多情况下,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。在传统的数据挖掘系统
4、中,如果能将数据合理地划分为若干个小模块,并由数据挖掘系统并行地处理,最后再将各个局部处理结果合成最终的输出模式,则可节省大量的时间和空间开销。面临的问题算法方面数据预处理,实现各种数据挖掘算法。结合系统所处的分布式计算环境。系统方面能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分布式平台上实现。结点间负载平衡、减少同步与通讯开销、异构数据集成等。第6页,此课件共19页哦分布式数据挖掘系统分类根据结点间数据分布情况同构:结点间数据的属性空间相同异构:结点间数据具有不同的属性空间按照数据模式的生成方式 集中式:先把数据集中于中心点,再生成全局数据模式(模型精度较高,但只适合于数据
5、量较小的情况)。局部式:先在各结点处生成局部数据模式,然后再将局部数据模式集中到中心结点生成全局数据模式(模型精度较低,但效率较高)。数据重分布式:首先将所有数据在各个结点间重新分布,然后再按照与局部式系统相同的方法生成数据模式。按系统功能、通讯与合作方式等情况划分第7页,此课件共19页哦研究现状结点的同构与异构性元学习(Meta-learning)CDM(Collective data mining)分布式数据挖掘算法分布式决策树生成分布式关联规则发现应用系统实例第8页,此课件共19页哦结点的同构与异构性元学习同构结点间的数据挖掘在同构分布式数据挖掘系统中,各个结点存储的数据都具有相同的属性
6、空间。为了实现同构结点的数据挖掘,研究者们先后提出了元学习(meta-learning)、合作学习(coactive learning)等方法,其中元学习方法最具代表性。元学习的概念是由Prodromidis等人于2000年首先提出的,该方法采用集成学习(ensemble learning)的方式来生成最终的全局预测模型(即元分类器)。该方法的基本思想是从已经获得的知识中再进行学习,从而得到最终的数据模式。第9页,此课件共19页哦元学习元学习的具体过程图1 元学习的具体过程第10页,此课件共19页哦元学习基分类器输出的集成方式投票(Voting):绝对(相对)多数投票,加权投票。决策(Arbi
7、tration):指定特殊的“决策者”,当各基分类器的输出无法达成一致时,采用“决策者”的输出。结合(Combining):使用相关的先验与领域知识指导各输出的集成。元学习的优点在基学习阶段,各个结点可以自主地选择合适的学习算法来生成局部的基分类器。与此同时,各结点间不存在任何通讯与同步开销,因此系统效率较高。在元学习阶段,由于系统可灵活采用各种集成策略,因此最终生成的元分类器具有较高的预测精度。第11页,此课件共19页哦结点的同构与异构性CDM异构结点间的数据挖掘在异构分布式数据挖掘系统中,各个结点存储的数据具有不同的属性空间,一般而言,异构分布式数据挖掘系统所要处理的数据集称为垂直分划数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式数据挖掘 精选PPT 分布式 数据 挖掘 精选 PPT
限制150内