数据挖掘软件发展分析幻灯片.ppt
《数据挖掘软件发展分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据挖掘软件发展分析幻灯片.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘软件发展分析第1页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-定义定义数据挖掘数据挖掘-从大量数据中寻找其规律的技术,从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与统计学数据挖掘与人工智能数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与数据库技术数据挖掘与数据挖掘与KDD第2页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由国民经济和社会的信息化国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转
2、社会信息化后,社会的历史是数据的历史社会信息化后,社会的历史是数据的历史因此政府提出因此政府提出“信息化信息化”和和“发展软件产业发展软件产业”第3页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据第4页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目
3、标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期第5页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-发展发展 1989 IJCAI1989 IJCAI会议:会议:会议:会议:数据库中的知识发现讨论专题数据库中的知识发现讨论专题数据库中的知识发现讨论专题数据库中的知识发现讨论专题 Knowledge Discovery in Databases(G.Piatetsky-Shapiro and Knowledge Discovery in Datab
4、ases(G.Piatetsky-Shapiro and W.Frawley,1991)W.Frawley,1991)1991-1994 KDD1991-1994 KDD讨论专题讨论专题讨论专题讨论专题 Advances in Knowledge Discovery and Data Mining(U.Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthur
5、usamy,1996)1996)1995-1998 KDD1995-1998 KDD国际会议国际会议国际会议国际会议(KDD95-98)(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)Journal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2002 1998 ACM SIGKDD,SIGKDD1999-2002 会议会议会议会议,以及以及以及以及SIGKDD ExplorationsSIGKDD Exploration
6、s 数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议 PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.DM,etc.第6页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-技术技术技术分类技术分类 预言(预言(预言(预言(PredicationPredication):用历史预测未来):用历史预测未来):用历史预测未来):用历史预测未来 描述(描述(描述(
7、描述(DescriptionDescription):):):):了解数据中潜在的规律了解数据中潜在的规律了解数据中潜在的规律了解数据中潜在的规律数据挖掘技术数据挖掘技术 关联分析关联分析关联分析关联分析 序列模式序列模式序列模式序列模式 分类(分类(分类(分类(预言预言预言预言)聚集聚集聚集聚集 异常检测异常检测异常检测异常检测第7页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系
8、统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第
9、四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 Robert Grossman,National Center for Data Mining University of Illinois at Chicago 的观点的观点第8页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件 特点特点特点特点支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法支持一个或少数几个数据
10、挖掘算法支持一个或少数几个数据挖掘算法 挖掘向量数据(挖掘向量数据(挖掘向量数据(挖掘向量数据(vector-valued datavector-valued datavector-valued datavector-valued data)数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理 典型的系统如典型的系统如典型的系统如典型的系统如Salford SystemsSalford SystemsSalford SystemsSalford Systems公司早期的公司早期的公司早期的公司早期的CARTCARTCARTCA
11、RT系统系统系统系统(www.salford-)(www.salford-)(www.salford-)(www.salford-)缺陷缺陷缺陷缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。第9页,共36页,编辑于2022年,
12、星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件第一代数据挖掘软件 CBACBA新加坡国立大学。新加坡国立大学。新加坡国立大学。新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测第10页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖
13、掘软件的发展第二代数据挖掘软件 特点特点特点特点与数据库管理系统(与数据库管理系统(与数据库管理系统(与数据库管理系统(DBMSDBMSDBMSDBMS)集成)集成)集成)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性可扩展性可扩展性可扩展性 能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(通过
14、支持数据挖掘模式(通过支持数据挖掘模式(通过支持数据挖掘模式(data mining schemadata mining schemadata mining schemadata mining schema)和数据挖掘查询)和数据挖掘查询)和数据挖掘查询)和数据挖掘查询语言增加系统的灵活性语言增加系统的灵活性语言增加系统的灵活性语言增加系统的灵活性 典型的系统如典型的系统如典型的系统如典型的系统如DBMinerDBMinerDBMinerDBMiner,能通过,能通过,能通过,能通过DMQLDMQLDMQLDMQL挖掘语言进行挖掘操作挖掘语言进行挖掘操作挖掘语言进行挖掘操作挖掘语言进行挖掘操作
15、 缺陷缺陷缺陷缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发统的开发统的开发统的开发第11页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第三代数据挖掘软件 特点特点特点特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的
16、模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型
17、系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(Internet/ExtranetInternet/ExtranetInternet/ExtranetInternet/Extranet)的分布式和高度异质的数的分布式和高度异质的数的分布式和高度异质的数的分布式和高度异质的数据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成 缺陷缺陷缺陷缺陷不能支持移动环境不能支持移动环境不能支持移动环境不能支持移动环境第12页,共36页,编辑于2022
18、年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第四代数据挖掘软件 特点特点特点特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。一个研究领域。一个研究领域。一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiqui
19、tousubiquitousubiquitousubiquitous)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,PKDD2001PKDD2001上上上上KarguptaKargupta发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,KarguptaKa
20、rgupta是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(University of University of Maryland Baltimore CountyMaryland Baltimore County)正在研制的)正在研制的)正在研制的)正在研制的CAREERCAREER数据挖数据挖数据挖数据挖掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是20012001年年年年4 4月到月到月到月到20062006年年年年4 4月,月,月,月,目的是开发挖
21、掘分布式和异质数据(目的是开发挖掘分布式和异质数据(目的是开发挖掘分布式和异质数据(目的是开发挖掘分布式和异质数据(UbiquitousUbiquitous设备)的第四设备)的第四设备)的第四设备)的第四代数据挖掘系统。代数据挖掘系统。代数据挖掘系统。代数据挖掘系统。第13页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口
22、,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的部署部署部署部署 第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有效接口效接口效接口效接口 第三代系统另外还提供数据挖掘系统和预言模型系统
23、第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口之间的有效的接口之间的有效的接口之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商
24、开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如系统,比如系统,比如系统,比如 IBM Intelligent Score Service IBM Intelligent Score Service IBM Intelligent Score Service IBM Intelligent Score Service。第四代。第四代。第四代。第四代数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系
25、统尚未见报导 第14页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展数据挖掘软件发展的三个阶段数据挖掘软件发展的三个阶段独立的数据挖掘软件独立的数据挖掘软件横向的数据挖掘工具集横向的数据挖掘工具集纵向的数据挖掘解决方案纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观的观点点第15页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点特点特点特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展独立的数据挖掘软
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 软件 发展 分析 幻灯片
限制150内