数据挖掘概述 (2)精品文稿.ppt
《数据挖掘概述 (2)精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概述 (2)精品文稿.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘概述第1页,本讲稿共43页数据挖掘的由来数据挖掘的由来u网络之后的下一个技术热点 u数据爆炸但知识贫乏u支持数据挖掘技术的基础u从商业数据到商业信息的进化 第2页,本讲稿共43页网络之后的下一个技术热点o网络时代面临的信息问题:n信息过量,难以消化;n信息真假难以辨识;n信息安全难以保证;n信息形式不一致,难以统一处理。o“要学会抛弃信息”第3页,本讲稿共43页数据爆炸但知识贫乏n数据库的容量已达上万亿水平(T)1,000,000,000,000个字节n全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。n许多组织机构的IT系统中都收集了大量的数据第4页,本讲稿共43页支持数据
2、挖掘技术的基础p激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由:p超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;p强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构;p海量数据搜索,对巨大量数据的快速访问;p数据挖掘算法。第5页,本讲稿共43页从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Info
3、rmix、IBMOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息第6页,本讲稿共43页数据挖掘数据挖掘(Da
4、ta Mining)的定义的定义o数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。技术角技术角度的定义度的定义o数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。商业角度的定义商业角度的定义o数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。第7页,本讲稿共43页数据挖掘与其他科学的关系数据挖掘与其他科学的关系Data MiningDatabase TechnologyStatisticsOtherDisc
5、iplinesInformationScienceMachineLearningVisualization第8页,本讲稿共43页实施数据挖掘的目的实施数据挖掘的目的n不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。n所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。第9页,本讲稿共43页n数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;n传统的数据分析方法基于假设驱动的:一般都是先
6、给出一个假设然后通过数据验证n数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘与传统数据分析方法区别数据挖掘与传统数据分析方法区别第10页,本讲稿共43页数据挖掘和数据仓库o第11页,本讲稿共43页数据挖掘和OLAP o完全不同的工具,基于的技术也大相径庭oOLAP基于用户假设。nwhat happened查询和报表工具是告诉你数据库中都有什么nwhat next OLAP更进一步告诉你下一步会怎么样nwhat if如果我采取这样
7、的措施又会怎么样o数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。o数据挖掘和OLAP有一定的互补性。第12页,本讲稿共43页基本概念基本概念o数据数据:是指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信息。一般而言,这些数据都是准确无误的。o信息信息:是事物运动的状态和状态变化的方式。o知识知识n人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。n知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。第13页,本讲稿共4
8、3页主要功能主要功能1.概念概念/类别描述类别描述(Concept/Class Description)概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度;第14页,本讲稿共43页主要功能主要功能 例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入500
9、0元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。第15页,本讲稿共43页主要功能主要功能2.关联分析关联分析(Association Analysis)从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。第16页,本讲稿共43页主要功能主要功能3.分类与估值分类与估值(Classification and Estimation)分类指通过分析一个类别已知的数据
10、集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。第17页,本讲稿共43页主要功能主要功能4.聚类分析聚类分析(Clustering Analysis)聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。第18页,本讲稿共43页主要功
11、能主要功能5.时间序列分析时间序列分析(Time-Series Analysis)时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。第19页,本讲稿共43页主要功能主要功能6.其它功能其它功能 包括:偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等。随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。第20页,本讲稿共43页数据挖掘模型数据挖掘模型nCRISP-DM(Cross Indus
12、try Standard Process for Data Mining)模型,最先在1996年被提出,当前的白皮书版本是1.0。n目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。第21页,本讲稿共43页业务理解(业务理解(Business UnderstandingBusiness Understanding)阶段)阶段o确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;o项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;o确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业
13、务目标是不一样的,前者指技术上的,例如生成一棵决策树等;o提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。第22页,本讲稿共43页数据理解(数据理解(Data UnderstandingData Understanding)阶)阶段段p收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。第23页,本讲稿共43页数据准备(数据准
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘概述 2精品文稿 数据 挖掘 概述 精品 文稿
限制150内