数据挖掘及其算法概览.ppt
《数据挖掘及其算法概览.ppt》由会员分享,可在线阅读,更多相关《数据挖掘及其算法概览.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、哈尔滨工程大学计算机科学与技术学院哈尔滨工程大学计算机科学与技术学院软件与理论研究所软件与理论研究所数据库与知识工程研究室数据库与知识工程研究室王念滨王念滨 教授教授 博导博导 Checking SettingsEntry/OpenShutter(0.5);MeasureLight();DetermineExposureTime(Checking Checking Checking Checking CheCkinChecking g Checking SettingsEntry/OpenShutter(0.5);MeasureLight();DetermineExposureTime(Che
2、cking Checking Checking Checking CheCkinChecking g Checking Checking Checking SettingsEntry/OpenShutter(0.5);MeasureLight();新一代数据库系统新一代数据库系统数据库新一代数据库系统课程安排主动数据库分布式数据库知识库数据仓库数据集成数据挖掘张建沛 王念滨 基础基础学习学习课课 程程 体体 系系数据挖掘概论数据仓库数据集成模式匹配关联规则决策树聚类分析基于事例的学习数据准备数据挖掘深层网络数据集成第第 1 1 章章 数据挖掘及其算法概览数据挖掘及其算法概览第1章 数据挖掘及其
3、算法概览主要内容主要内容数据库知识发现基本概念数据库知识发现基本概念数据挖掘算法概览数据挖掘算法概览典型数据挖掘算法典型数据挖掘算法数据集成概览数据集成概览第1章 数据挖掘及其算法概览主要内容主要内容数据库知识发现基本概念数据库知识发现基本概念数据挖掘算法概览数据挖掘算法概览典型数据挖掘算法典型数据挖掘算法数据集成概览数据集成概览第1章 数据挖掘及其算法概览数据挖掘概述数据挖掘概述 数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘和知识发现源于人工智能的学习,并在20世纪80年代有了长足的进展。目前,数据挖掘技术已经在市场分析、政府管理、医疗卫生、科学探索、金融及制造业得到应用
4、并取得了一定的实效。数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览 数据挖掘的目标是支持利用数据进行合理的决策。数据挖掘可以与数据仓库结合起来帮助实现某些类型的决策。数据库知识发现基本概念数据库知识发现基本概念数据挖掘目标数据挖掘目标第1章 数据挖掘及其算法概览 四个方面的原因促进了数据挖掘技术产生、发展应用。数据挖掘技术是信息技术发展到一定程度的必然结果 A.大容量数据库的出现。B.先进计算机技术应用。C.现代化经营管理的需要。D.对数据挖掘精、深能力的要求。数据挖掘产生的背景数据挖掘产生的背景数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览
5、数据库知识发现基本概念数据库知识发现基本概念数据挖掘产生的背景数据挖掘产生的背景时间(年)19561965197119781981198519952003容量(MB)5301006001200500010000180000沃尔玛 每天交易记录2千万条,客户数据库记录11T.1998年.黑龙江省地方税务局 每月纳税高峰期(7/8/9),纳税记录平均每天新增 1百万条.2009年数据库记录容量1.5T.数据量不断增长先进计算机技术应用第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘产生的背景数据挖掘产生的背景对海量数据集成和处理技术的发展(并行、分布式数据库系统);
6、数据仓库技术的不断成熟;网络及数据搜索技术的牵引。人工智能技术的发展现代化经营管理的需要第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘产生的背景数据挖掘产生的背景1、根据销售数据库,发现某类商品用户消费特征 (尿布与牛奶的故事)。2、根据纳税人财务数据和纳税数据,通过建立模型,发现偷税漏税情况3、根据信用卡消费情况,建立监测模型,发现信用卡欺诈情况;4、根据病人病情分析,建立医疗模型;纳税人基础信息纳税人基础信息纳税人应税信息纳税人应税信息纳税人其它信息纳税人其它信息外部数据源外部数据源分组分组规则规则按按照照规规则则分分组组行为规律分析行为规律分析组间交叉分
7、析组间交叉分析纳税人应税地点、方式纳税人应税地点、方式纳税人应税品种纳税人应税品种纳税人所属地区、行业纳税人所属地区、行业欠税发生频率欠税发生频率欠税高峰期欠税高峰期基础近似,分组不同原因基础近似,分组不同原因纳税人分组变化的条件及可能性纳税人分组变化的条件及可能性不同分组的主要差别不同分组的主要差别统统计计分分析析归归纳纳演演绎绎确定稽查检查对象确定稽查检查对象制定鼓励政策制定鼓励政策信用等级评定信用等级评定纳税人辅导纳税人辅导税务机关税务机关税收计划税收计划基于数据仓库的纳税人信息辅助分析软件基于数据仓库的纳税人信息辅助分析软件财务报表对比财务报表对比辅助分析系统辅助分析系统税务机关税务机
8、关历史数据仓库历史数据仓库聚类、决策树等聚类、决策树等第1章 数据挖掘及其算法概览 大量的数据是当今信息社会的特征。是社会的宝贵财富。然而面对海量的数据,我们往往无法适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。导致了“我们淹没在数据的海洋中,但却缺少知识”的现象。80年代中后期,人们开始考虑运用知识发现技术从这些数据中挖掘出对我们有用的知识。大量的数据背后隐藏了很多具有决策意义的信息,通过对海量数据的分析,发现数据之间的潜在联系,为人们提供自动决策支持。数据库知识发现基本概念数据库知识发现基本概念数据挖掘产生的背景数据挖掘产生的背景对数据挖掘精、深能力的要求应用
9、和需求是技术发展的动力 A.大容量数据库的出现。B.先进计算机技术应用。C.现代化经营管理的需要。D.对数据挖掘精、深能力的要求。我们拥有丰富的资源,但却缺乏有用的信息解决方法 数据仓库与OLAP 数据挖掘、知识发现数据挖掘产生的背景数据挖掘产生的背景第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览数据挖掘的演变进程数据挖掘的演变进程数据库知识发现基本概念数据库知识发现基本概念演变阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)数据访问(20世纪80年代)数据仓库决策支持(20世纪90年代数据挖掘(正在流行)“过去五年中整个有
10、关联锁超市总收入是多少?”“联锁超市第一分部去年三月的销售额是多少?”“联锁超市第一分部去年三月的销售额是多少?第二分部据此可得出什么结论?”“下个月第二分部的销售会怎么样?为什么?”计算机、磁带和磁盘关系数据库(RDBMS),结构化查询语言(SQL),ODBCOLAP、多维数据库和数据仓库高级算法、多处理器计算机和海量数据库IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初创公司提供历史性的静态的数据在记录级提供历史性动态数
11、据在各种层次上提供回溯的动态数据提供预测性信息工具特点分析重点分析目的数据集大小启动方式技术状况传统数据分析工具(DSS/EIS)回顾型的、验证型的已经发生了什么从最近的销售文件中列出最大客户数据维、维中属性数、维中数据均是少量的企业管理人员、系统分析员、管理顾问启动与控制成熟数据挖掘工具预测型的、发现型的预测未来的情况、解释发生的原因锁定未来的可能客户,以减少未来的销售成本数据维、维中属性数、维中数据均是庞大的数据与系统启动,少量的人员指导统计分析工具已经成熟,其他工具正在发展中第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘工具与传统数据分析工具的比较数据库
12、知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览参考文献 以上的统计数据来源于文献 Written By Walter Alberto Aldana MIT 2000 网上可以找到。第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘技术定义 从技术角度看,数据挖掘就是应用一系列技术从(大型数据库或数据仓库的)数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,所提取的知识表示为概念、规则、规律和模式等形式。从商业角度看,数据挖掘是新型的商业分析处理技术。它是从大型数据库或数据仓库中发现并提取隐藏在其中信息的一种新技术,
13、帮助决策者寻找数据间潜在的关联,发现被忽略的因素。第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘的三股研究力量数据挖掘的三股研究力量1 1、从数据库(应用需求)的角度来研究数据挖掘问题、从数据库(应用需求)的角度来研究数据挖掘问题 参考文献参考文献 Data Mining:An overview from Database Perspective Data Mining:An overview from Database Perspective IEEE Transactions on Knowledge and Data Engineering IEEE T
14、ransactions on Knowledge and Data Engineering 1996,8(6):866-883 1996,8(6):866-883 2 2、从统计学(应用需求)的角度来研究数据挖掘问题、从统计学(应用需求)的角度来研究数据挖掘问题 参考文献参考文献 Statistical Themes and Lessons for Data Mining Statistical Themes and Lessons for Data Mining Data Mining and Knowledge Discovery,1996 Data Mining and Knowledg
15、e Discovery,1996 3 3、从机器学习的角度来研究数据挖掘问题、从机器学习的角度来研究数据挖掘问题 第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘领域国外著名期刊和会议数据挖掘领域国外著名期刊和会议 1、IEEE Transactions on Knowledge and Data Engineering2、Data Mining and Knowledge Discovery3、Knowledge and Information Systems4、Intelligent Data Analysis5、Information Systems6、J
16、ournal of Intelligent Information System期刊期刊 会议会议 1、ACM SIGKDD2、ICDM3、PKDD,PAKDD4、ACMSIGMON/PODS,VLDB,CIKM,ICDE,ICML(数据库领域)5、AAAI 第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念参考书籍参考书籍数据挖掘:概念和技术数据挖掘:概念和技术 范明范明 孟小峰孟小峰 译译数据挖掘原理数据挖掘原理 张银奎译张银奎译 数据挖掘导论数据挖掘导论 范明范明 范宏建范宏建 译译第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据数据(挖
17、掘挖掘)的发展历程的发展历程 1960S 1960S及以前及以前 文件系统文件系统 1970S 1970S 层次及网状数据库层次及网状数据库 1980S 1980S前期前期 关系数据库关系数据库 1980S 1980S后期后期 关系数据库逐渐成熟,并成为商业市场主要产品关系数据库逐渐成熟,并成为商业市场主要产品 1990S 1990S 数据仓库、数据挖掘、网络数据库数据仓库、数据挖掘、网络数据库 2000S 2000S 数据集成、流数据库、数据集成、流数据库、XMLXML数据库、数据空间、数据挖掘应用数据库、数据空间、数据挖掘应用第1章 数据挖掘及其算法概览数据、信息与知识数据、信息与知识数据
18、(数据(DATADATA):):描述事物的符号记录称为描述事物的符号记录称为“数据数据”。包含两层含义:存储在某一介质上的可加以鉴定的符号资料;包含两层含义:存储在某一介质上的可加以鉴定的符号资料;数据内容是事物特征的反映或者描述。数据内容是事物特征的反映或者描述。信息(信息(INFORMATIONINFORMATION):):是对数据的解释。数据经过处理并经是对数据的解释。数据经过处理并经 过解释才有意义,才成为信息。过解释才有意义,才成为信息。知识(KnowledgeKnowledge):知识是通过实践、研究、联系或调查获得知识是通过实践、研究、联系或调查获得 的关于事物的事实和状态的知识
19、的关于事物的事实和状态的知识数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览。85119张七0651012395118李五0613310289218王二0620112390117王一06601223平均分性别年龄姓名学号表1 06级学生入学考试情况表学生的分数-数据成绩最好的学生的分数-信息成绩最好的学生的特点-知识数据、信息与知识数据、信息与知识数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念数据挖掘与数据库知识发现数据挖掘是数据库知识发现的过程之一。知识发现:从数据集中抽取和精化新的模式的过程。知识
20、发现的范围非常广泛,可以是经济、工业、农业、军事等的数据,数据的形态包括数字、符号、图形、图像、声音等。数据组织方式各不相同,可以使结构化的、半结构化的、非结构化的。知识发现的结果可以表示成多种形式,包括规则、法则、规律、方程等。由于关系数据库具有统一的组织结构、一体化的查询语言、关系之间及属性之间具有平等性等优点,因此基于数据库(特别是关系数据库)的知识发现(KDD:Knowledge Discovery in Database)是知识发现研究的主体和热点。第1章 数据挖掘及其算法概览KDD的定义 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可以理解的模式的非平凡过程。数据集是一组事
21、实F(如关系数据库中的记录);模式是一个用语言L来表示的一个表达式E,它可以用来描述数据集F的某个子集FE,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。非平凡(nontrivial)是指KDD过程不是线性的,具有智能性和自动性,并且往往是一个反复的过程。有效性是指发现的模式对于新的数据仍保持一定的可信度。新颖性是指发现的模式应该不同于以往的知识或模式。潜在有用性是指发现的知识将来有实际效用。数据库知识发现基本概念数据库知识发现基本概念第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念知识发现的过程知识发现的过程数据源数据源。数据目标数据预处理
22、后的数据信息知识数据准备数据挖掘结果表达及解释数据集成数据选择预处理数据挖掘表达及解释第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念知识发现的过程-数据准备数据准备:数据选取、数据预处理和数据转换。数据选取的目标是确定发现任务的操作对象,即目标数据,它是根据用户需求从原始数据库中抽取的一组数据;数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如将连续值数据转换为离散值数据);数据转换的主要目标是消减数据维数或降维。即从初始特征中找出真正有用的特征并减少数据挖掘时要考虑的特征或者变量的个数。第1章 数据挖掘及其算法概览数据库知识发现基本概念
23、数据库知识发现基本概念知识发现的过程-数据准备数据选取 数据挖掘通常不需要所有的数据。有些数据对象和数据属性对建立模型获得模式是没有影响的,这些数据的加入会大大影响挖掘效率,甚至可能导致数据挖掘结果的偏差。对数据库表的选择,有两种方式,纵向选择-列属性选择;横向选择-元组或记录选择。数据选择是对发现任务和数据本身的内容的理解的基础上。寻找依赖于发现目标的表达数据的有用特征,以减少数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。通过数据选取使数据的规律性和潜在特征更加明显。数据选取在实际应用中非常重要,但DM领域对其也就并不深入,往往认为数据挖掘时,数据已经准备好了。第1章 数据
24、挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念知识发现的过程知识发现的过程-数据准备数据准备数据预处理 也称数据清理或者数据清洗。在数据中消除错误和不一致,并解决对象识别问题的过程。主要包括空值处理、噪声数据处理、及不一致数据处理等。也就是说通过数据预处理去除噪声或无关数据,并处理数据中缺失的数据项或域。例如,关于“高薪”、“低收入”等概念在不同的数据集合中有不同的定义,需要进行统一。需要对数据值进行标准化,例如,人员出身地在不同的集合中表示不同,例如一个集合中为哈市,一个集合中为哈尔滨市。解决异名同义问题,以及同名异义等问题。数据清理是一个困难、繁琐的问题。DM领域对此研究并不
25、多,在数据集成领域研究比较丰富。第1章 数据挖掘及其算法概览数据库知识发现基本概念数据库知识发现基本概念知识发现的过程知识发现的过程-数据准备数据准备数据集成 数据挖掘需要对数据进行集成。将多个数据源中的数据合并存放在统一的数据存储中。数据集成主要涉及三个方面的问题:模式集成:从多个异构的数据库、文件、遗留系统中提取并集成数据,解决语义二义性,统一不同的数据格式,消除冗余,重复等问题。模式集成涉及实体识别。目前该领域研究比较热,但问题多难以形成统一的解决方法。目前研究包括元数据、元知识(Meta data,Meta knowledge)及本体(Ontology)等方法。数据值冲突检测及处理:表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 及其 算法 概览
限制150内