数据挖掘软件与工具.ppt
数据挖掘软件与工具 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。2022/12/3知识管理与数据分析实验室知识管理与数据分析实验室2一、数据挖掘软件一、数据挖掘软件重要研究方向重要研究方向3二、数据挖掘软件的发展二、数据挖掘软件的发展代代次次特征特征DM算算法法支支持持集成性集成性分布计算分布计算数据模型数据模型可视化功能可视化功能1作为一个独立的应用和移动数据/各种计算设备的数据联合 独立的系统单个机器 向量数据无2和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据 基本图表3和预测模型系统集成 多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据较复杂多维图形及动画4和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型 交互式可视化挖掘流程设计和结果展示功能数据挖掘功能数据挖掘估计Estimation分类Classification预测Prediction关联规则Association Rules描述与可视化Description and Visualization聚类Cluster数据挖掘模型的分类数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Prediction)相关分析(Dependency analysis)5数据挖掘技术的分类6数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树)7收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准数据挖掘的典型结果电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)8输 入流失概率(0.87)输 出男293000元/月套餐A130元/月数据挖掘的典型结果零售问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图)9数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)10数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)11Business Understanding商业理解过程理解商业目标熟悉业务流程统一业务术语成本/收益分析当前系统评估主要用户使用者结果的输出形式挖掘任务的结果和现有系统的集成任务分解挖掘目标分解为子任务将商业目标转化为数据挖掘任务约束条件确认资源数据保护制度等制定项目计划1商业目标的确认数据挖掘目标的确定数据挖掘成功的标准Data Understanding数据理解过程数据源情况数据处理范围数据源访问情况数据描述数据质量描述基本统计值/汇总值数据探索数据分布相关性分析缺失值处理空值处理奇异值处理2收集数据数据描述数据探索数据质量检查Data Preparation数据准备过程数据整合多个数据表的数据联合数据的汇总和聚合数据选择记录的选择和排除数据集合构成:测试集,检验集数据转换函数转换标准化处理离散化处理数据清洗数据缺失值处理数据派生新变量的生成3数据合并和清洗数据选择数据转换Modeling数据建模过程选择合适的建模技术数据预处理的情况依赖于数据挖掘问题类型和输出形式构建模型训练环境训练样本的构建模型建立选择初始化参数设置模型估计考虑过训练的情况误差分布的调查模型参数修正及其原因4依据目标选择模型构建模型训练环境模型建立和评估Evaluation模型评估过程模型评估根据专家的知识和经验进行人工评估从商业角度来评价结果的有效性定义参照对象计算升益曲线(Lift Curve)期望的投资回报率(ROI)对整个数据挖掘过程进行回顾决定下一步骤模型发布的时机发布框架结构进一步改进模型5依据测试集模型评估不同模型的检验标准技术标准和商业准则Deployment模型发布过程数据挖掘结果的发布方式模型的结果输出到数据库形成简单的报表结果转化为可解释的业务规则在线实时地模型评分过程数据的输入输出与原有业务系统的集成实时数据的来源和结果反馈模型运用的模式实时处理批处理自动化问题(周期)6结果的发布方式数据挖掘结果的运用数字到业务知识转化Clementine的软件构成Clementine Client;Clementine Server;Clementine Batch;SPSS Data Access Pack;Clementine Solution Publisher(Optional)。18Clementine的两种运行方式单机版运行单机版运行以下情况必须使用单机版运行:以下情况必须使用单机版运行:数据存储在本机,且不能在网络上数据存储在本机,且不能在网络上共享;共享;机器不联网;机器不联网;无无Clementine Server可供使用。可供使用。以下情况可以使用单机版运行:以下情况可以使用单机版运行:要处理的数据量很小(比如:小于要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到)并且数据存储在单机或可到达局域网处;达局域网处;单机内存、硬盘相对要处理的数据单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要量来说足够大,并且速度也满足要求。求。19C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处;单机速度慢,Clementine Server运行的机器配置高。Clementine的系统结构20Clementine的三层结构:1、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。Clementine Client和Clementine Server通过SDL(Stream Description Language)之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。Clementine运行的两种方式图形界面方式图形界面方式适用操作系统适用操作系统Windows系列系列特点:特点:图形化界面图形化界面与客户直接交互与客户直接交互适合交互式分析过程适合交互式分析过程21命令行方式使用操作系统Windows系列Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:1.运行耗时较长的建模过程2.希望在后台运行一些耗时较长的数据准备3.过程希望按照一定的时间定期运行(比如每周、每月等)4.希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中Clementine的界面和设计思路可视化界面可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理四个区域分别是建模区、结点区、模型描述区、项目管理区区通过连接结点构成数据流建立模型通过连接结点构成数据流建立模型ClementineClementine通过通过7 7类结点的连接完成数据挖掘工作,它们类结点的连接完成数据挖掘工作,它们是:是:Source(源结点):Database、Var.Files等Record Ops(记录处理结点):Select、Sample等Field Ops(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):Neural Net、C5.0等Output(输出结点):Table、Matrix等22七大类节点按功能分为七大类节点数据源节点记录处理节点变量处理节点图形节点模型节点输出节点导出节点图形基本版产生图形种类记录和变量的处理对于记录的处理对于变量的处理DEMO数据探索数据清洗丰富的数据挖掘模型聚类算法模型关联分析模型决策树模型其它模型回归模型Oracle DMIBM DB2 Intelligent MinerSQL SERVER 2005 Analysis Services 使用演示2022/12/3知识管理与数据分析实验室知识管理与数据分析实验室28Thank You!