2022年数据挖掘工具介绍 .pdf
《2022年数据挖掘工具介绍 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘工具介绍 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘工具的市场一般分为三个组成部分:a、通用型工具;b、综合 DSS OLAP 数据挖掘工具;c、快速发展的面向特定应用的工具。通用型工具 占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司 Almaden 研究中心开发的QUEST 系统,SGI 公司开发的 MineSet 系统,加拿大 Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica
2、 PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和 Business Objects等。面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的 OptionChoic
3、es和针对欺诈行为探查开发的HNC 软件。下面简单介绍几种常用的数据挖掘工具:1.QUESTQUEST 是 IBM 公司 Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:1、提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。2、各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。3、算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。4、为各种发现功能设计了相应的并行算法。2.MineSetMineSet 是由 S
4、GI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:(1)MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了 6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualiz
5、e、Record Viewer、Statistics Visualize、Cluster Visualizer,其中 Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。(2)提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。(3)支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。(4)多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据
6、类型,构造表达式由已有数据项生成新的数据项,对数据采样等。(5)操作简单。(6)支持国际字符。(7)可以直接发布到Web。3.DBMinerDBMiner 是加拿大 Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:(1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。(2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。(3)提出了一种交互式的类SQL
7、 语言 数据开采查询语言DMQL。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4 页 -(4)能与关系数据库平滑集成。(5)实现了基于客户/服务器体系结构的Unix 和 PC(Windows/NT)版本的系统。4、IBM Intelligent MinerIBM 公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM 的 Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处:包含了最广泛的资料探勘技术及算法,可容纳相当大的资料量
8、的能力且有强大的计算能力;事实上,这套产品在IBM SP 的大量平行硬件系统上执行效率最好,这套产品也可以在IBM 或非 IBM 平台上执行丰富的 APIs可用来发展自定的资料探勘应用软件;所有资料探勘引擎和资料操作函式可以透过C+函式库来存取Intelligent Miner支持 classification、prediction、association rules generation、clustering、sequential pattern detection和 time series analysis算法,Intelligent Miner藉由利用精密的资料可视化技术及强大的Java
9、-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持 DB2 关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM 将它定位在企业资料探勘解决方案的先锋。5、SAS Enterprise MinerSAS Enterprise Miner在资料探勘工具市场是非常杰出的工具,它运用了SAS 统计模块的力量和影响力,且它增加了一系列的资料探勘算法,S
10、AS 使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归SASEnterpriseMiner适用于初学者及专业使用者,它的 GUI 接口是以资料流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS 应用软件结论SAS 利用它在统计分析软件上
11、的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS 新增的组件比增加一套新的工作来得好多了),对 SAS 来说,它在资料探勘市场上终究还是领导者整体而言,这个工具适用于企业在资料探勘的发展及整个CRM 的决策支持应用.6、Oracle DarwinDarwin常被认为是最早资料探勘工具之一,可见它的知名度,最近,Oracle 从 Thinking Machines公司取得 Darwin来加强它的产品系列?S 别是 CRM 方面,资料探勘可以扮演一个重要的角色,以下将讨论
12、由Thinking Machines公司发展和行销的 Darwin之特色(Oracle也许决定改变任何组件及工具架构)Darwin资料探勘工具组是一个复杂的产品,包含了三个资料探勘工具:neural networks、decision tree、和 K-nearest neighbor,Darwin neural network tool(Darwin-Net)提供广泛的 model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用 CART 算法,且可以用于以明确和连续变量来分类问题解决,K-nearest neighbor
13、工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summary statistics、confusion matrices、lift tablesDarwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助 Oracle成为可以包含到一个大型的全球企业的数据库及应
14、用产品的首要厂商主要使用的算法为neural network、decision tree、和 K-nearest neighborneural network-training algorithms包含 back propagation,steepest descent,modified Newton等方法 decision tree使用 CART algorithms可选择所需的子树数目自动的修改决策树K-nearest neighbor algorithm是 memory-based reasoning(MBR)技术,它可依训练组中K 最接近的匹配记录来预测相依变量值结论Darwin的优点
15、是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行.7、Clementine(SPSS)名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 4 页 -Clementine是 SPSS 所发行的一种资料探勘工具,此工具结合了多种图形使用者接口的分析技术,包含neural networks、association rules、及 rule-induction
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘工具介绍 2022 数据 挖掘 工具 介绍
限制150内