数据挖掘软件发展分析幻灯片.ppt
数据挖掘软件发展分析第1页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-定义定义数据挖掘数据挖掘-从大量数据中寻找其规律的技术,从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与统计学数据挖掘与人工智能数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与数据库技术数据挖掘与数据挖掘与KDD第2页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由国民经济和社会的信息化国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史社会信息化后,社会的历史是数据的历史因此政府提出因此政府提出“信息化信息化”和和“发展软件产业发展软件产业”第3页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据第4页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-原由原由数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期第5页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-发展发展 1989 IJCAI1989 IJCAI会议:会议:会议:会议:数据库中的知识发现讨论专题数据库中的知识发现讨论专题数据库中的知识发现讨论专题数据库中的知识发现讨论专题 Knowledge Discovery in Databases(G.Piatetsky-Shapiro and Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)W.Frawley,1991)1991-1994 KDD1991-1994 KDD讨论专题讨论专题讨论专题讨论专题 Advances in Knowledge Discovery and Data Mining(U.Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)1996)1995-1998 KDD1995-1998 KDD国际会议国际会议国际会议国际会议(KDD95-98)(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)Journal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2002 1998 ACM SIGKDD,SIGKDD1999-2002 会议会议会议会议,以及以及以及以及SIGKDD ExplorationsSIGKDD Explorations 数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议数据挖掘方面更多的国际会议 PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.DM,etc.第6页,共36页,编辑于2022年,星期六一、数据挖掘概念一、数据挖掘概念-技术技术技术分类技术分类 预言(预言(预言(预言(PredicationPredication):用历史预测未来):用历史预测未来):用历史预测未来):用历史预测未来 描述(描述(描述(描述(DescriptionDescription):):):):了解数据中潜在的规律了解数据中潜在的规律了解数据中潜在的规律了解数据中潜在的规律数据挖掘技术数据挖掘技术 关联分析关联分析关联分析关联分析 序列模式序列模式序列模式序列模式 分类(分类(分类(分类(预言预言预言预言)聚集聚集聚集聚集 异常检测异常检测异常检测异常检测第7页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 Robert Grossman,National Center for Data Mining University of Illinois at Chicago 的观点的观点第8页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件 特点特点特点特点支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法 挖掘向量数据(挖掘向量数据(挖掘向量数据(挖掘向量数据(vector-valued datavector-valued datavector-valued datavector-valued data)数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理 典型的系统如典型的系统如典型的系统如典型的系统如Salford SystemsSalford SystemsSalford SystemsSalford Systems公司早期的公司早期的公司早期的公司早期的CARTCARTCARTCART系统系统系统系统(www.salford-)(www.salford-)(www.salford-)(www.salford-)缺陷缺陷缺陷缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。数据仓库技术进行管理,第一代系统显然不能满足需求。第9页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件第一代数据挖掘软件 CBACBA新加坡国立大学。新加坡国立大学。新加坡国立大学。新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测易数据中挖掘关联规则,使用关联规则进行分类和预测第10页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第二代数据挖掘软件 特点特点特点特点与数据库管理系统(与数据库管理系统(与数据库管理系统(与数据库管理系统(DBMSDBMSDBMSDBMS)集成)集成)集成)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性可扩展性可扩展性可扩展性 能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(通过支持数据挖掘模式(通过支持数据挖掘模式(通过支持数据挖掘模式(data mining schemadata mining schemadata mining schemadata mining schema)和数据挖掘查询)和数据挖掘查询)和数据挖掘查询)和数据挖掘查询语言增加系统的灵活性语言增加系统的灵活性语言增加系统的灵活性语言增加系统的灵活性 典型的系统如典型的系统如典型的系统如典型的系统如DBMinerDBMinerDBMinerDBMiner,能通过,能通过,能通过,能通过DMQLDMQLDMQLDMQL挖掘语言进行挖掘操作挖掘语言进行挖掘操作挖掘语言进行挖掘操作挖掘语言进行挖掘操作 缺陷缺陷缺陷缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发统的开发统的开发统的开发第11页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第三代数据挖掘软件 特点特点特点特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(Internet/ExtranetInternet/ExtranetInternet/ExtranetInternet/Extranet)的分布式和高度异质的数的分布式和高度异质的数的分布式和高度异质的数的分布式和高度异质的数据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成据,并且能够有效地和操作型系统集成 缺陷缺陷缺陷缺陷不能支持移动环境不能支持移动环境不能支持移动环境不能支持移动环境第12页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第四代数据挖掘软件 特点特点特点特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。一个研究领域。一个研究领域。一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitousubiquitousubiquitousubiquitous)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,第四代数据挖掘原型或商业系统尚未见报导,PKDD2001PKDD2001上上上上KarguptaKargupta发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,发表了一篇在移动环境下挖掘决策树的论文,KarguptaKargupta是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(是马里兰巴尔的摩州立大学(University of University of Maryland Baltimore CountyMaryland Baltimore County)正在研制的)正在研制的)正在研制的)正在研制的CAREERCAREER数据挖数据挖数据挖数据挖掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是掘项目的负责人,该项目研究期限是20012001年年年年4 4月到月到月到月到20062006年年年年4 4月,月,月,月,目的是开发挖掘分布式和异质数据(目的是开发挖掘分布式和异质数据(目的是开发挖掘分布式和异质数据(目的是开发挖掘分布式和异质数据(UbiquitousUbiquitous设备)的第四设备)的第四设备)的第四设备)的第四代数据挖掘系统。代数据挖掘系统。代数据挖掘系统。代数据挖掘系统。第13页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的第三、四代系统强调预言模型的使用和在操作型环境的部署部署部署部署 第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有第二代系统提供数据管理系统和数据挖掘系统之间的有效接口效接口效接口效接口 第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口之间的有效的接口之间的有效的接口之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如系统,比如系统,比如系统,比如 IBM Intelligent Score Service IBM Intelligent Score Service IBM Intelligent Score Service IBM Intelligent Score Service。第四代。第四代。第四代。第四代数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系统尚未见报导数据挖掘原型或商业系统尚未见报导 第14页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展数据挖掘软件发展的三个阶段数据挖掘软件发展的三个阶段独立的数据挖掘软件独立的数据挖掘软件横向的数据挖掘工具集横向的数据挖掘工具集纵向的数据挖掘解决方案纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观的观点点第15页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点特点特点特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。件。件。件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如还要负责大量的数据预处理工作。比如还要负责大量的数据预处理工作。比如还要负责大量的数据预处理工作。比如C4.5C4.5C4.5C4.5决策树,平行坐决策树,平行坐决策树,平行坐决策树,平行坐标可视化(标可视化(标可视化(标可视化(parallel-coordinate visualizationparallel-coordinate visualizationparallel-coordinate visualizationparallel-coordinate visualization)。)。)。)。第16页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展原因发展原因发展原因发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:以下三个方面紧密结合:以下三个方面紧密结合:以下三个方面紧密结合:1 1 1 1)数据库和数据仓库;)数据库和数据仓库;)数据库和数据仓库;)数据库和数据仓库;2 2 2 2)多种类型的)多种类型的)多种类型的)多种类型的数据挖掘算法;数据挖掘算法;数据挖掘算法;数据挖掘算法;3 3 3 3)数据清洗、转换等预处理工作。)数据清洗、转换等预处理工作。)数据清洗、转换等预处理工作。)数据清洗、转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技术随着数据量的增加,需要利用数据库或者数据仓库技术随着数据量的增加,需要利用数据库或者数据仓库技术随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合进行管理,所以数据挖掘系统与数据库和数据仓库结合进行管理,所以数据挖掘系统与数据库和数据仓库结合进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。是自然的发展。是自然的发展。是自然的发展。现实领域的问题是多种多样的,一种或少数数据挖掘算现实领域的问题是多种多样的,一种或少数数据挖掘算现实领域的问题是多种多样的,一种或少数数据挖掘算现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决法难以解决法难以解决法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型数据预处理的配合,才能得出有价值的模型数据预处理的配合,才能得出有价值的模型数据预处理的配合,才能得出有价值的模型 第17页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展过程发展过程发展过程发展过程随着这些需求的出现,随着这些需求的出现,随着这些需求的出现,随着这些需求的出现,1995199519951995年左右软件开发商开始提供称年左右软件开发商开始提供称年左右软件开发商开始提供称年左右软件开发商开始提供称之为之为之为之为“工具集工具集工具集工具集”的数据挖掘软件的数据挖掘软件的数据挖掘软件的数据挖掘软件 特点特点特点特点此此此此类类类类工具集的特点是提供多种数据挖掘算法工具集的特点是提供多种数据挖掘算法工具集的特点是提供多种数据挖掘算法工具集的特点是提供多种数据挖掘算法 包括数据的包括数据的包括数据的包括数据的转换转换转换转换和可和可和可和可视视视视化化化化 由于此由于此由于此由于此类类类类工具并非面向特定的工具并非面向特定的工具并非面向特定的工具并非面向特定的应应应应用,是通用的算法集合,用,是通用的算法集合,用,是通用的算法集合,用,是通用的算法集合,可以称之可以称之可以称之可以称之为为为为横向的数据挖掘工具(横向的数据挖掘工具(横向的数据挖掘工具(横向的数据挖掘工具(Horizontal Data Horizontal Data Horizontal Data Horizontal Data Mining ToolsMining ToolsMining ToolsMining Tools)由于此由于此由于此由于此类类类类工具并非面向特定的工具并非面向特定的工具并非面向特定的工具并非面向特定的应应应应用,是通用的算法集合,用,是通用的算法集合,用,是通用的算法集合,用,是通用的算法集合,所以所以所以所以称之称之称之称之为为为为横向的数据挖掘工具横向的数据挖掘工具横向的数据挖掘工具横向的数据挖掘工具典型的横向工具有典型的横向工具有典型的横向工具有典型的横向工具有IBM Intelligent MinerIBM Intelligent MinerIBM Intelligent MinerIBM Intelligent Miner、SPSSSPSSSPSSSPSS的的的的ClementineClementineClementineClementine、SASSASSASSAS的的的的Enterprise MinerEnterprise MinerEnterprise MinerEnterprise Miner、SGISGISGISGI的的的的MineSetMineSetMineSetMineSet、Oracle DarwinOracle DarwinOracle DarwinOracle Darwin等等等等 第18页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)IBM Intelligent MinerSPSS的的ClementineSAS的的Enterprise MinerSGI的的MineSetOracle Darwin第19页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)发展原因发展原因发展原因发展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型解,难以得出好的模型解,难以得出好的模型解,难以得出好的模型 从从从从1999199919991999年开始,大量的数据挖掘工具研制者开始提供纵向的数据年开始,大量的数据挖掘工具研制者开始提供纵向的数据年开始,大量的数据挖掘工具研制者开始提供纵向的数据年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(挖掘解决方案(挖掘解决方案(挖掘解决方案(Vertical SolutionVertical SolutionVertical SolutionVertical Solution),即针对特定的应用提),即针对特定的应用提),即针对特定的应用提),即针对特定的应用提供完整的数据挖掘方案供完整的数据挖掘方案供完整的数据挖掘方案供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为对于纵向的解决方案,数据挖掘技术的应用多数还是为对于纵向的解决方案,数据挖掘技术的应用多数还是为对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中了解决某些特定的难题,而嵌入在应用系统中了解决某些特定的难题,而嵌入在应用系统中了解决某些特定的难题,而嵌入在应用系统中第20页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)在证券系统中嵌入神经网络预测功能在证券系统中嵌入神经网络预测功能在证券系统中嵌入神经网络预测功能在证券系统中嵌入神经网络预测功能在欺诈检测系统中嵌入欺诈行为的分类在欺诈检测系统中嵌入欺诈行为的分类在欺诈检测系统中嵌入欺诈行为的分类在欺诈检测系统中嵌入欺诈行为的分类/识别模型识别模型识别模型识别模型在在在在客客客客户户户户关关关关系系系系管管管管理理理理系系系系统统统统中中中中嵌嵌嵌嵌入入入入客客客客户户户户成成成成簇簇簇簇/分分分分类类类类功功功功能能能能或或或或客客客客户户户户行行行行为为为为分分分分析析析析功能功能功能功能在在在在机机机机器器器器维维维维护护护护系系系系统统统统中中中中嵌嵌嵌嵌入入入入监监监监/检检检检测测测测或或或或识识识识别别别别难难难难以以以以定定定定性性性性的的的的设设设设备备备备故故故故障功能障功能障功能障功能在数据库营销中嵌入选择最可能购买产品的客户功能在数据库营销中嵌入选择最可能购买产品的客户功能在数据库营销中嵌入选择最可能购买产品的客户功能在数据库营销中嵌入选择最可能购买产品的客户功能在机场管理系统中嵌入旅客人数预测、货运优化功能在机场管理系统中嵌入旅客人数预测、货运优化功能在机场管理系统中嵌入旅客人数预测、货运优化功能在机场管理系统中嵌入旅客人数预测、货运优化功能在基因分析系统中嵌入在基因分析系统中嵌入在基因分析系统中嵌入在基因分析系统中嵌入DNADNADNADNA识别功能识别功能识别功能识别功能在制造在制造在制造在制造/生产系统中嵌入质量控制功能等生产系统中嵌入质量控制功能等生产系统中嵌入质量控制功能等生产系统中嵌入质量控制功能等第21页,共36页,编辑于2022年,星期六二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)KD1(主要用于零售业)主要用于零售业)Options&Choice(主要用于保险业主要用于保险业)HNC(欺诈行为侦测)欺诈行为侦测)Unica Model 1(主要用于市场营销主要用于市场营销)第22页,共36页,编辑于2022年,星期六三、数据挖掘软件的现状三、数据挖掘软件的现状情况概览情况概览 20022002年年年年9 9月,月,月,月,AmazonAmazon上关于数据挖掘的书有上关于数据挖掘的书有上关于数据挖掘的书有上关于数据挖掘的书有251251本本本本()目前有数百个数据挖掘软件产品目前有数百个数据挖掘软件产品目前有数百个数据挖掘软件产品目前有数百个数据挖掘软件产品()数据挖掘应用相对广泛数据挖掘应用相对广泛数据挖掘应用相对广泛数据挖掘应用相对广泛 第23页,共36页,编辑于2022年,星期六三、数据挖掘软件的现状(三、数据挖掘软件的现状(国内情况国内情况)大部分处于科研阶段大部分处于科研阶段大部分处于科研阶段大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究各大学和科研机构从事数据挖掘算法的研究各大学和科研机构从事数据挖掘算法的研究各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有)国内著作的数据挖掘方面的书较少(翻译的有)国内著作的数据挖掘方面的书较少(翻译的有)国内著作的数据挖掘方面的书较少(翻译的有)数据挖掘讨论组(数据挖掘讨论组(数据挖掘讨论组(数据挖掘讨论组()有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent MinerIBM Intelligent Miner SAS Enterprise MinerSAS Enterprise Miner 自主知识产权的数据挖掘软件自主知识产权的数据挖掘软件自主知识产权的数据挖掘软件自主知识产权的数据挖掘软件 复旦德门(复旦德门(复旦德门(复旦德门()等)等)等)等第24页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用 银行银行银行银行美国银行家协会美国银行家协会美国银行家协会美国银行家协会(ABA)ABA)预测数据仓库和数据挖掘技术在美国预测数据仓库和数据挖掘技术在美国预测数据仓库和数据挖掘技术在美国预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是商业银行的应用增长率是商业银行的应用增长率是商业银行的应用增长率是14.914.9。分析客户使用分销渠道的情况和分销渠道的容量分析客户使用分销渠道的情况和分销渠道的容量分析客户使用分销渠道的情况和分销渠道的容量分析客户使用分销渠道的情况和分销渠道的容量 ;建立利;建立利;建立利;建立利润评测模型;客户关系优化;风险控制等润评测模型;客户关系优化;风险控制等润评测模型;客户关系优化;风险控制等润评测模型;客户关系优化;风险控制等 电子商务电子商务电子商务电子商务 网上商品推荐;个性化网页;自适应网站网上商品推荐;个性化网页;自适应网站网上商品推荐;个性化网页;自适应网站网上商品推荐;个性化网页;自适应网站 生物制药、基因研究生物制药、基因研究生物制药、基因研究生物制药、基因研究 DNADNA序列查询和匹配;序列查询和匹配;序列查询和匹配;序列查询和匹配;识别基因序列的共发生性识别基因序列的共发生性识别基因序列的共发生性识别基因序列的共发生性 电信电信电信电信 欺诈甄别;客户流失欺诈甄别;客户流失欺诈甄别;客户流失欺诈甄别;客户流失 保险、零售。保险、零售。保险、零售。保险、零售。第25页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用数据数据挖掘挖掘客户分析析基分因其他其他保险客户保险客户证券客户证券客户银行客户银行客户电信客户电信客户零售客户零售客户信用卡信用卡储蓄卡储蓄卡存折存折按揭按揭借贷借贷人类基因植物基因动物基因特殊群体基因基因序列基因序列基因表达谱基因表达谱基因功能基因功能基因制药基因制药 .数据挖掘中国内地市场规模未来五年内将达百亿第26页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用为什么没有广泛使用?数据挖掘正在快速的发展数据挖掘正在快速的发展数据挖掘正在快速的发展数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方技术的研究和开发已经走在很前沿的地方技术的研究和开发已经走在很前沿的地方技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多 但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?是一种增值服务(是一种增值服务(是一种增值服务(是一种增值服务(Not bread-and-butterNot bread-and-butter)不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问 是一门年轻的技术,需要和实际结合,解决现实问题是一门年轻的技术,需要和实际结合,解决现实问题是一门年轻的技术,需要和实际结合,解决现实问题是一门年轻的技术,需要和实际结合,解决现实问题第27页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用国内应用存在的问题 数据积累不充分、不全面数据积累不充分、不全面数据积累不充分、不全面数据积累不充分、不全面业务模型构建困难业务模型构建困难缺少有经验的实施者缺少有经验的实施者第28页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用-业务建摸业务建摸Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售第29页,共36页,编辑于2022年,星期六四、数据挖掘应用四、数据挖掘应用-业务建摸业务建摸聚集(聚集(Cluster)聚集是把整个数据库分成不同的群组。它的目的是要群与聚集是把整个数据库分成不同的群组。它的目的是要群与聚集是把整个数据库分成不同的群组。它的目的是要群与聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。群之间差别很明显,而同一个群之间的数据尽量相似。群之间差别很明显,而同一个群之间的数据尽量相似。群之间差别很明显,而同一个群