基于数据仓库的多策略通用数据采掘工具MSMiner.ppt





《基于数据仓库的多策略通用数据采掘工具MSMiner.ppt》由会员分享,可在线阅读,更多相关《基于数据仓库的多策略通用数据采掘工具MSMiner.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2019/10/21,史忠植 高级人工智能,1,高级人工智能,第十四章 知识发现(二) 史忠植 中国科学院计算技术研究所,2019/10/21,史忠植 高级人工智能,2,主要内容,研究背景Weka MSMiner体系结构元数据数据仓库平台数据采掘集成工具,2019/10/21,史忠植 高级人工智能,3,典型的知识发现系统,SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner Solution公司的Clementine加拿大Simon Fraser Univ.的DBMiner中科院计算技术研究所的MSMiner等,2019/10/21,史忠植 高级
2、人工智能,4,知识发现工具SAS,SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。,2019/10/21,史忠植 高级人工智能,5,知识发现工具SAS,SAS Enterprise Miner提供抽样-探索-转换-建模-评估(SEMMA)的处理流程。数据挖掘算法有: 聚类分析,SOM/KOHONEN神经网络分类算法 关联模式/序列模式分析 多元回归模型 决策树模型(C45
3、, CHAID, CART) 神经网络模型(MLP, RBF) SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。,2019/10/21,史忠植 高级人工智能,6,知识发现工具Intelligent Miner,IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。,2019/10/21,史忠植 高级人工智能,7,知识发现工具Clementine,Solution公司的C
4、lementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。,2019/10/21,史忠植 高级人工智能,8,数据挖掘工具: 公用系统,MLC+MatlabWeka,10/21/2019,University of Waikato,9,作者: Ian H. Witte
5、n / Eibe Frank副标题: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems)页数: 525出版社: Morgan Kaufmann出版年: 2005-06-08,Weka,关于WEKA的简介,WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine )的
6、,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。非常有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。,10/21/2019,University of Waikato,10,10/21/2019,University of Waikato,11,WEKA: the bird(译:秧鸡),Copyright: Martin Kramer (mkramerwxs.
7、nl),关于WEKA的简介,WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。而开发者则可使用Java语言,利用WEKA的架构上开发出更多的数据挖掘算法。用户如果想自己实现数据挖掘算法的话,可以查看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。,10/21/2019,University of Waikato,12,WEKA开发历史的介绍,WEKA自1993年由位于 New Zealand的 the University of
8、 Waikato 进行开发,最初的软件基于C语言实现。1997年,开发小组用JAVA语言重新编写了该软件,并且对相关的数据挖掘算法进行了大量的改进。2005年8月,在第11届ACM SIGKDD国际会议上,the University of Waikato 的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一.,10/21/2019,University of Waikato,13,10/21/2019,University of Waikato,14,WEKA: versions,Ther
9、e are several versions of WEKA:WEKA 3.4: “book version” compatible with description in data mining bookWEKA 3.6: “GUI version” adds graphical user interfacesWEKA 3.7: “development version” with lots of improvementsThis talk is based on the snapshot of WEKA 3.3,WEKA:Format of the Data,使用这个系统前,首先需要将用户
10、的数据转变成为WEKA所需要的数据格式(ARFF格式)。大多数ARFF数据文件是一个包括所有事例的列表,还有每个事例的属性值,这些属性值用逗号分开。当事例存在EXCEL或数据库中的时候,只需要将他们提出,转成数据间用逗号分割的形式,然后加上数据集的名字relation,属性信息attribute,值data,然后再将该文件保存成ARFF格式即可。需要注意的是WEKA中的分类方案缺省假定ARFF文件中的最后一个属性是分类属性。,10/21/2019,University of Waikato,15,10/21/2019,University of Waikato,16,relation hear
11、t-disease-simplifiedattribute age numericattribute sex female, maleattribute chest_pain_type typ_angina, asympt, non_anginal, atyp_anginaattribute cholesterol numericattribute exercise_induced_angina no, yesattribute class present, not_presentdata63,male,typ_angina,233,no,not_present67,male,asympt,2
12、86,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present.,WEKA only deals with “flat” files,Flat file inARFF format,10/21/2019,University of Waikato,17,relation heart-disease-simplifiedattribute age numericattribute sex female, maleattribute chest_pain_type typ_angina, asym
13、pt, non_anginal, atyp_anginaattribute cholesterol numericattribute exercise_induced_angina no, yesattribute class present, not_presentdata63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present.,WEKA only deals with “fla
14、t” files,numeric attribute,nominal attribute,10/21/2019,University of Waikato,18,10/21/2019,University of Waikato,19,10/21/2019,University of Waikato,20,10/21/2019,University of Waikato,21,Explorer: pre-processing the data,Data can be imported from a file in various formats: ARFF, CSV, C4.5, binaryD
15、ata can also be read from a URL or from an SQL database (using JDBC)Pre-processing tools in WEKA are called “filters”WEKA contains filters for:Discretization, normalization, resampling, attribute selection, transforming and combining attributes, ,10/21/2019,University of Waikato,22,10/21/2019,Univer
16、sity of Waikato,23,10/21/2019,University of Waikato,24,10/21/2019,University of Waikato,25,10/21/2019,University of Waikato,26,10/21/2019,University of Waikato,27,10/21/2019,University of Waikato,28,2019/10/21,史忠植 高级人工智能,29,知识发现工具MSMiner,中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据仓库 策略 通用 数据 采掘 工具 msminer

限制150内