数据挖掘软件发展分析(1).pptx
《数据挖掘软件发展分析(1).pptx》由会员分享,可在线阅读,更多相关《数据挖掘软件发展分析(1).pptx(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主讲人朱扬勇1一、数据挖掘概念-定义数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与KDD2一、数据挖掘概念-原由国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史因此政府提出“信息化”和“发展软件产业”3一、数据挖掘概念-原由数据挖掘数据库越来越大有价值的知识可怕的数据4一、数据挖掘概念-原由数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据 数据 知识 知识决策 决策n 模式n 趋势n 事实n 关系n 模型n 关联规则n 序列n 目标市
2、场n 资金分配n 贸易选择n 在哪儿做广告n 销售的地理位置n 金融n 经济n 政府n POS.n 人口统计n 生命周期5一、数据挖掘概念-发展 1989 1989 IJCAI IJCAI会议:会议:数据库中的知识发现讨论专题 数据库中的知识发现讨论专题 Knowledge Discovery in Databases(G.Piatetsky-Shapiro Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)and W.Frawley,1991)1991-1994 KDD 1991-1994 KDD讨
3、论专题 讨论专题 Advances in Knowledge Discovery and Data Mining(U.Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)Uthurusamy,1996)1995-1998 KDD 1995-1998 KDD国际会议 国际会议(KDD95-98)KDD95-98)Journal of Data Mining
4、 and Knowledge Discovery(1997)Journal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2002 1998 ACM SIGKDD,SIGKDD1999-2002 会议 会议,以及 以及SIGKDD SIGKDD Explorations Explorations 数据挖掘方面更多的国际会议 数据挖掘方面更多的国际会议 PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,PAKDD,PKDD,SIAM-Data Mining,(I
5、EEE)ICDM,DaWaK,SPIE-DM,etc.SPIE-DM,etc.6一、数据挖掘概念-技术 技术分类预言(预言(PredicationPredication):):用历史预测未来用历史预测未来描述(描述(DescriptionDescription):):了解数据中潜在的规律了解数据中潜在的规律 数据挖掘技术关联分析关联分析序列模式序列模式分类(分类(预预言言)聚集聚集异常检测异常检测7二、数据挖掘软件的发展代特征 数据挖掘算法 集成 分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法 独立的系统 单个机器 向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次
6、不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成 多个算法 数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合 多个算法 数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型 Robert Grossman,National Center for Data Mining University of Illinois at Chicago 的观点8二、数据挖掘软件的发展第一代数据挖掘软件9二、数据挖掘软件的发展第
7、一代数据挖掘软件第一代数据挖掘软件 CBA CBA新加坡国立大学。新加坡国立大学。基于关联规则的分类算法,能从关系数据或 基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测 者交易数据中挖掘关联规则,使用关联规则进行分类和预测10二、数据挖掘软件的发展第二代数据挖掘软件 特点 特点 与数据库管理系统(与数据库管理系统(DBMS DBMS)集成 集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 的可扩展性 能够挖掘大数据集、以及更复杂的数据集 能够挖掘大数据集、以及更复杂的数据集 通
8、过支持数据挖掘模式(通过支持数据挖掘模式(data mining schema data mining schema)和数据挖掘 和数据挖掘查询语言增加系统的灵活性 查询语言增加系统的灵活性 典型的系统如 典型的系统如DBMiner DBMiner,能通过 能通过DMQL DMQL挖掘语言进行挖掘操作 挖掘语言进行挖掘操作 缺陷 缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代 只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发 数据挖掘系统的开发11二、数据挖掘软件的发展第二代数据挖掘软件 DBMiner12二、数据挖掘软件的发展第二代软件 SAS Enterp
9、rise Miner13二、数据挖掘软件的发展第三代数据挖掘软件 特点 特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的 收,从而与操作型系统中的预言模型相联合提供决策支持的功能 功能 能够挖掘网络环境下(能够挖掘网络环境下(Internet/Extranet Internet/Ext
10、ranet)的分布式和高度 的分布式和高度异质的数据,并且能够有效地和操作型系统集成 异质的数据,并且能够有效地和操作型系统集成 缺陷 缺陷 不能支持移动环境 不能支持移动环境14二、数据挖掘软件的发展第三代软件 SPSS Clementine以PMML的格式提供与预言模型系统的接口15二、数据挖掘软件的发展第四代数据挖掘软件 特点 特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ub
11、iquitous ubiquitous)计算设备产生的各种类型的数据 计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,PKDD2001 PKDD2001上 上Kargupta Kargupta发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,Kargupta Kargupta是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(University of University of Maryland Baltimore County Maryland Baltimore County)正在研制的 正在研制的
12、CAREER CAREER数据 数据挖掘项目的负责人,该项目研究期限是 挖掘项目的负责人,该项目研究期限是2001 2001年 年4 4月到 月到2006 2006年 年4 4月,目的是开发挖掘分布式和异质数据(月,目的是开发挖掘分布式和异质数据(Ubiquitous Ubiquitous设 设备)的第四代数据挖掘系统。备)的第四代数据挖掘系统。16二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作
13、型环境第三、四代系统强调预言模型的使用和在操作型环境的部署的部署 第二代系统提供数据管理系统和数据挖掘系统之间的第二代系统提供数据管理系统和数据挖掘系统之间的有效接口有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如掘系统
14、,比如 IBM Intelligent Score ServiceIBM Intelligent Score Service。第第四代数据挖掘原型或商业系统尚未见报导四代数据挖掘原型或商业系统尚未见报导 17二、数据挖掘软件的发展数据挖掘软件发展的三个阶段 独立的数据挖掘软件 横向的数据挖掘工具集 纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观点18二、数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点 特点 独立的数据挖掘软件对应第一代系统,出现在数据挖 独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖 掘技术发展
15、早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相 这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如 当的了解,还要负责大量的数据预处理工作。比如C4.5 C4.5决策树 决策树,平行坐标可视化(平行坐标可视化(parallel-coordinate parallel-coordinate visualization visualization)。)。19二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展原因 发展原因 随着数据挖掘应用的发展,人们逐渐认识到数据挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 软件 发展 分析
限制150内