数据挖掘软件发展分析.ppt
《数据挖掘软件发展分析.ppt》由会员分享,可在线阅读,更多相关《数据挖掘软件发展分析.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主讲人朱扬勇一、数据挖掘概念一、数据挖掘概念-定义定义数据挖掘数据挖掘-从大量数据中寻找其规律的技术,从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与统计学数据挖掘与人工智能数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与数据库技术数据挖掘与数据挖掘与KDD2一、数据挖掘概念一、数据挖掘概念-原由原由国民经济和社会的信息化国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史社会信息化后,社会的历史是数据的历史因此政府提出因此政
2、府提出“信息化信息化”和和“发展软件产业发展软件产业”3一、数据挖掘概念一、数据挖掘概念-原由原由数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据4一、数据挖掘概念一、数据挖掘概念-原由原由数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命
3、周期5一、数据挖掘概念一、数据挖掘概念-发展发展1989 IJCAI会议:会议:数据库中的知识发现讨论专题数据库中的知识发现讨论专题Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)1991-1994 KDD讨论专题讨论专题Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)1995-1998 KDD国际会议国际会议(KDD95-98)Jou
4、rnal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2002 会议会议,以及以及SIGKDD Explorations数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.6一、数据挖掘概念一、数据挖掘概念-技术技术技术分类技术分类预言(预言(Predication):):用历史预测未来用历史预测未来描述(描述(Description):):了解数据中潜在的规律了解数据中潜在的规律数据
5、挖掘技术数据挖掘技术关联分析关联分析序列模式序列模式分类(分类(预言言)聚集聚集异常检测异常检测7二、数据挖掘软件的发展二、数据挖掘软件的发展代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的
6、部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 Robert Grossman,National Cen
7、ter for Data Mining University of Illinois at Chicago 的观点的观点8二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件特点特点支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法 挖掘向量数据(挖掘向量数据(vector-valued datavector-valued data)数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理 典型的系统如典型的系统如SalfordSalford Systems Systems公司早期的公司早期的CARTCART系统系统(www.salford-www.salford-)缺
8、陷缺陷如果数据足够大,并且频繁的变化,这就需要利用数如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。能满足需求。9二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件第一代数据挖掘软件 CBA新加坡国立大学。新加坡国立大学。基于关联规则的分类算法,能从关系数据或基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测者交易数据中挖掘关联规则,使用关联规则进行分类和预测10二、数据挖掘软件的发展二、数据挖掘软件的发展第二代数据挖掘软件特点特点与数据库管
9、理系统(与数据库管理系统(DBMSDBMS)集成集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性的可扩展性 能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(通过支持数据挖掘模式(data mining schemadata mining schema)和数据挖掘和数据挖掘查询语言增加系统的灵活性查询语言增加系统的灵活性 典型的系统如典型的系统如DBMinerDBMiner,能通过能通过DMQLDMQL挖掘语言进行挖掘操作挖掘语言进行挖掘操作缺陷缺陷只注重模型的生成,如何和预言
10、模型系统集成导致了第三代只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发数据挖掘系统的开发11二、数据挖掘软件的发展二、数据挖掘软件的发展第三代数据挖掘软件特点特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的收,从而与操作型系统中的预言模型相联合提供决策支持的功能功能 能
11、够挖掘网络环境下(能够挖掘网络环境下(Internet/ExtranetInternet/Extranet)的分布式和高度的分布式和高度异质的数据,并且能够有效地和操作型系统集成异质的数据,并且能够有效地和操作型系统集成 缺陷缺陷不能支持移动环境不能支持移动环境12二、数据挖掘软件的发展二、数据挖掘软件的发展第四代数据挖掘软件特点特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquit
12、ousubiquitous)计算设备产生的各种类型的数据计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上上Kargupta发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的正在研制的CAREER数据数据挖掘项目的负责人,该项目研究期限是挖掘项目的负责人,该项目研究期限是2001年年4月到月到2006年年4月,目的是开发挖掘分布式和异
13、质数据(月,目的是开发挖掘分布式和异质数据(Ubiquitous设设备)的第四代数据挖掘系统。备)的第四代数据挖掘系统。13二、数据挖掘软件的发展二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境第三、四代系统强调预言模型的使用和在操作型环境的部署的部署 第二代系统提供数据管理系统和数据挖掘系统之间的第二代系统提供数据管理系统和数据挖掘系统之间的有效接口有效接口 第三代系统另外还提供数据挖掘系
14、统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如掘系统,比如 IBM Intelligent Score ServiceIBM Intelligent Score Service。第第四代数据挖掘原型或商业系统尚未见报导四代数据挖掘原型或商业系统尚未见报导 1
15、4二、数据挖掘软件的发展二、数据挖掘软件的发展数据挖掘软件发展的三个阶段数据挖掘软件发展的三个阶段独立的数据挖掘软件独立的数据挖掘软件横向的数据挖掘工具集横向的数据挖掘工具集纵向的数据挖掘解决方案纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观点的观点15二、数据挖掘软件的发展二、数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点特点独立的数据挖掘软件对应第一代系统,出现在数据挖独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。掘算法,就形成一个软件。
16、这类软件要求用户对具体的算法和数据挖掘技术有相这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如当的了解,还要负责大量的数据预处理工作。比如C4.5C4.5决策树决策树,平行坐标可视化(平行坐标可视化(parallel-coordinate parallel-coordinate visualizationvisualization)。)。16二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展原因发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结
17、合:软件需要和以下三个方面紧密结合:1 1)数据库和数据)数据库和数据仓库;仓库;2 2)多种类型的数据挖掘算法;)多种类型的数据挖掘算法;3 3)数据清洗、)数据清洗、转换等预处理工作。转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。结合是自然的发展。现实领域的问题是多种多样的,一种或少数数据挖掘现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、挖掘的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 软件 发展 分析
限制150内