数据挖掘与知识发现(讲稿1---概述)37405.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘与知识发现(讲稿1---概述)37405.docx》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现(讲稿1---概述)37405.docx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、装订线数据挖掘与知识发现讲稿 主讲:刘以安前期基础课程:数据库、人工智能参考书:知知识发现,清清华大学出出版社,史史忠植编,22004第1章 概述随着信息社社会和知识识经济时代代的来临,信信息正以前前所未有的的速度膨胀胀。面对浩浩如烟海的的信息资源源,人类的的自然智能能越来越显显得难于驾驾驭。如何何用人造的的智能去模模仿和扩展展人类的自自然智能,实实现信息的的智能化处处理,是信信息社会和和知识经济济所面临的的一个重大大课题。人工智能作作为一门研研究机器(计计算机)智智能的学科科,其目的的是要用人人工的方法法和技术,研研制智能机机器或智能能系统,来来模仿、延延伸和拓展展人的智能能。因此,人人工智
2、能是是人类迈向向信息、迎迎接知识经经济挑战所所必须具备备的一项核核心技术。难难怪有人把把人工智能能同原子能能技术、空空间技术一一起称为220世纪的的三大尖端端科技成就就。但人工工智能系统统较率低,不不能应用于于实际。随着计算机机、Intterneet的普及及,以及数数据库(DDB)技术术的迅速发发展和数据据库管理系系统(DBBMS)的的广泛应用用,导致许许多领域积积累了海量量数据(如如,从普通通的超市业业务数据、信信用卡记录录数据、电电话呼叫清清单、政府府统计数据据到不太普普通的天体体图像、分分子数据库库和医疗记记录等)。现现有的DBB技术大多多可高效地地实现数据据查询、统统计和维护等管理理功
3、能,但但却无法发发现数据中中存在的关关联和规则则,无法根根据现有的的数据预测测未来的发发展趋势。数据库中中存在着大大量数据,却却缺乏从这这些数据中中自动、高高效地获取取知识的手手段,出现现了“数据丰富富,知识贫贫乏”的现象。此外,在在数据操纵纵方面:信信息的提取取及其相关关处理技术术却远远落落后。为此此,针对庞庞大的数据据库及其中中的海量数数据信息源源,仅依靠靠传统的数数据检索机机制和统计计分析方法法已远不能能满足需要要。需求是发展展之母,数数据管理系系统(DBBMS)和和人工智能能中机器学学习两种技技术的发展展和结合,促促成了在数数据库中发发现知识这这一新技术术的诞生,即基于数数据库知识识发
4、现(KKnowlledgee Disscoveery iin Daatabaase,KKDD)及及其核心技技术-数据挖掘掘产生并迅迅速发展起起来。它的的出现为自自动和智能地把海海量数据转转化成有用用的信息和和知识提供供了手段。1.1 知知识知识不仅是是人工智能能领域中研研究的重要要对象,而且且也是知识识工程与知知识发现处处理的重要要对象。什什么是知识识?(到目目前为止,知知识还没有有统一的严严格的形式式化定义)知识是人们们在改造客客观世界的的实践中积积累起来的的认识和经经验,是一切智智能行为的的基础。广义地说说,知识是是人们通过过学习、发发现或感悟悟到的对世世界的认识识总和,是是人类认识识的结
5、晶。狭义地说,知识是一种有组织的经验、价值观、相关信息和洞察力的组合。与知识相相关联的两两个概念是是数据和信息所谓数据是是指人们为为了描述客客观世界中中的具体事事物而引入入的一些数数字、字符符、文字等等符号或符符号的组合合。如,“建国500岁”中的“建国”、“50岁”都是数据据。所谓信息是是指不同的的有用数据据组成的一一种结构。如如“建国80岁”,就是一一条信息。数据、信信息和知识识间的关系系是:l 数据是信息息的载体和和表示;l 信息是数据据在特定场场合下的含含义,或者者说信息是是数据的语语义。如“建国80岁”。但相同同的数据在在不同的场场合会有不不同的含义义。l 信息仅是对对客观事物物的一
6、般性性描述,它它还不是知知识。只有有经过对其其进行加工工、整理、解解释、挑选选和改造,形形成对客观观世界规律律性认识后后才能称为为知识。可可见,知识识是对信息息进行智能能性加工所所形成的对对客观世界界规律性的的认识。(如,水,在在标准大气气压下,加加热到1000度就会会沸腾)实现对信息息的加工过过程,实际际上也是一一种把信息息关联在一一起的过程程。因此,也也可把有关关信息关联联在一起所所形成的信信息结构称称为知识。从这种意意义上讲,“信息”与“关联”是构成知识的两个要素。信息之间关关联的形式式很多,其其中最常用用的一种形形式为: 如如果 则 (IFF THHEN)如,“如果果他学过人人工智能课
7、课程,则他他应该知道道什么叫知知识”。1.2 什什么是知识识工程?知识工程的的概念出现现于19777年的人人工智能联联合会议上上,由费根根鲍姆教授提提出的,至至今也没有有严格的定定义,但人们普普遍认为,知识工程程是以知识识为处理对对象,借用工程程化的思想想,应用人工工智能的原原理、方法法和技术去设计、构构造和维护护知识型系系统的一门门学科,是人工智智能的一个个应用分支支。知识工程的的目的是在在研究知识识的基础上上,开发智能系系统。所以,知识识工程的核核心则是专专家系统。由此知,知识的获获取、知识识的表示、知知识的运用用便构成知知识工程的的三大要素素。知识工程的的研究内容容,主要包括括:基础理论
8、论研究、实实用技术的的开发、知知识型系统统工具研究究和智能机机等相关课课题的研究究。其中,基础础理论研究究包括:知识的本本质、知识识的表示、推推理、获取取和学习方方法等;实用技术主主要研究解解决建立知知识系统过过程中遇到到的问题,包括:实用知识识表示方法法、实用知知识获取技技术、实用用知识推理理方法、知知识库结构构系统、知知识系统体体系结构、知知识库管理理技术、知知识型系统统的调试与与评估技术术、实用解解释技术、实实用接口技技术等;知识型系统统工具研究究,主要是是为了给系系统的开发发提供良好好的环境工工具,以提高系系统研制的的质量和缩缩短系统研研制周期等等。 知识工程系系统的特点n 知识工程系
9、系统能解决决专家水平平的问题;n 系统能快速速的进行假假设和搜索索解答;n 系统能做出出具有专家家水平的解解答;n 系统具有大大量的基础础知识和通通用的问题题求解能力力;n 系统应能选选择问题的的恰当表示示方式,其中的知知识型系统统是一个符符号系统;n 系统具有自自动推理的的能力,能从结构构步骤分析析、解决、推推理问题等等,这些都表表现出具有有人工智能能及其系统统的特点。因此,同样可以说说,知识工程程是人工智智能的一个个重要应用用分支 知识工程与与人工智能能的关系传统人工智智能不能进进入实用阶阶段,主要要原因有n 人工智能系系统的知识识库中只含含有少量的的规则和事事实;n 人工智能系系统的效率
10、率极低。而知识工程程是人工智智能在知识识信息处理理方面的发发展,它研研究如何由由计算机表表示知识,进进行问题的的自动求解解。知识工工程的研究究使人工智智能的研究究从理论转向了了应用,从基基于推理的模型型转向基于于知识的模型型,是新一一代计算机机的重要理理论基础。它它的根本目目的是在研研究知识的的基础上,开开发人工智智能系统,补补充和扩大大大脑的功功能,开创创人-机共共同思考的的时代。 知识工程与与专家系统统的关系专家系统是是知识工程程的核心。知识工程程的发展首首先决定于于专家系统统的发展,专家系统统的发展必必将推动人人工智能的的应用。专家系统的的开发有三三个基本的的要素:领域专家家、知识工工程
11、师、大大量实例。在建立专专家系统时时,首先由知知识工程师师把领域专专家的专门门知识总结结出来,以适当的的形式存入入计算机,建立起知知识库(KKB),根根据这些专专门知识,系统可以以进行推理理,做出判断断和决策,能够解决决一些只有有人类专家家才能解决决的困难问问题,专家系统统主要是指指软件系统统。通常一个最最基本的专专家系统应应由:知识识库、数据据库、推理理机、解释释机构、知知识获取机机构和用户户界面6个个部分组成成。图1 专专家系统的的基本结构构其主要功能能描述如下下: (11)知识库库(Knoowleddge BBase)知识库是指指以某种存存储结构存存储领域专专家的知识识,包括事事实和可行
12、行的操作与与规则等。为为了建立专专家库,需需对领域问问题的专家家知识,用用相应的知知识表示方方法将其表表示出来,然然后再进行行形式化,并并经编码放放入知识库库中。所以,专家家库的建立立,首先要要解决知识识获取与知知识表示的的问题。知知识获取是是指知识工工程师如何何从领域专专家那里获获得将要纳纳入知识库库的知识。知知识表示要要解决的问问题是如何何使用计算算机能够理理解的形式式来表示和和存储知识识的问题。通常,知识识库中的知知识分为两两大类型:一类是领领域中的事事实,称为为事实性知知识,这是是一种广泛泛公用的知知识,也即即写在书本本上的知识识及常识;另一类是是启发性知知识,它是是领域专家家在长期工
13、工作实践中中积累起来来的经验总总结。(2)数据据库也称全局数数据库或综综合数据库库。是用于于存储与求求解问题有有关的初始始数据(如如,事实、数数据、初始始状态(证证据)和和推理过程程中得到的的中间数据据。如,在医疗疗专家系统统中,数据据库中存放放的仅是当当前患者的的情况,如如姓名、年年龄、症状状等及推理理过程中得得到的一些些中间结果果、病情等等;在气象专家家系统中,数数据库中存存放的是当当前气象要要素,如云云量、温度度、气压以以及推理得得到的中间间结果等。由此看出,专专家系统数数据库只是是一个存储储很少的用用于暂存中中间信息的的工作存储储器(也称称内涵数据据库),而而不是通常常概念上的的用于存
14、放放大量信息息的数据库库(也称外外延数据库库)。(3)推理理机推理机是一一组用来控控制、协调调整个专家家系统的程程序。它根根据全局数数据库的当当前内容,从从知识库中中选择可匹匹配的规则则,并通过过执行规则则来修改数数据库中的的内容,再再通过不断断地推理导导出问题的的结论。推推理机中包包含如何从从知识库中中选择规则则的策略和和当有多个个可用规则则时如何消消解规则冲冲突的策略略。(4)解释释机构用于向用户户解释专家家系统的行行为,包括括解释“系统是怎怎样得出这这一结论的的”、“系统为什什么要提出出这样的问问题来询问问用户”等用户需需要解释的的问题。(5)知识识获取机构构知识获取是是专家系统统的一种
15、辅辅助功能,它它可为修改改知识库中中的原有知知识和扩充充新知识提提供相应手手段。知识获取机机构的基本本任务是把把知识加入入到知识库库中,并负负责维持知知识的一致致性及完整整性,建立立起性能良良好的知识识库。通常,不同同的专家系系统,知识识获取功能能和实现方方法差别较较大。如, 有的系统首首先由知识识工程师向向领域专家家获取知识识,然后通通过相应的的知识编辑辑软件把知知识送到知知识库中; 有的系统自自身就具有有部分学习习功能,由由系统直接接与领域专专家对话获获取知识; 有的系统具具有较强的的学习功能能,可在系系统运行过过程中通过过归纳、总总结,得出出新的知识识。总之,不管管采用方式式,知识获获取
16、都是目目前专家系系统研究中中的一个重重要问题。所以,知识识工程的概概念从19777年提出至至今,现已成为一一门新兴的的边缘学科科。它是人人工智能,数数据库技术术,数理逻逻辑,认知知科学,心心理学等学学科交叉发发展的结果果。1.3知识识发现KDD(KKnowlledgee Disscoveery iin Daatabaase)一一词是于11989年年8月在美美国底特律律市召开的的第一届KKDD国际际学术会议议上正式形形成的。研研究的问题题主要有: 定性知识和和定量知识识的发现; 知识发现方方法; 知识发现的的应用等。KDD的含含义,由FFayyaad定义为为:从数据据集中识别别出有效的的、新颖的
17、的、潜在有有用的,以以及最终可可理解的模模式的非平平凡过程。涉及几个概概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用用性”和“最终可理理解性”。数据集:数数据库记录录的集合FF;模式:即知知识,它给给出了数据据特性或数数据之间的的关系,是是对数据所所包含的信信息更抽象象的描述。按按功能可以以分为预测测型模式和和描述型模模式。在实实际应用中中,可以细细分为关联联模式、分分类模式、聚聚类模式和和序列模式式等。过程:通常常在KDDD中指多阶阶段的处理理,涉及数数据准备、模模式搜索、知知识评价以以及反复的的修改求精精;该过程程要求是非非平凡的,意意思是要有有一定程度度的智能性
18、性、自动性性;有效性:是是指发现的的模式对于于新的数据据仍保持一一定的可信信度;新颖性:要要求发现的的模式应该该是新的;潜在有用性性:是指发发现的知识识将来有实实际效用,如如,用于决决策支持系系统里可提提高经济效效益;最终可理解解性:要求求发现的模模式能被用用户理解,目目前它主要要体现在简简洁性上。其中,“有有效性”、“新颖性”、“潜在有用用性”和“最终可理理解性”综合在一一起称为兴兴趣性。KDD的研研究内容是是:如何自动动地去处理理数据库中中大量的原原始数据,从从中挖掘搜搜索出具有有规则、富富有意义的的模式。它的发现现过程主要要有三个步步骤: 数据准备,又又包括数据据选取(DData sel
19、eectioon)、数数据预处理理(Datta prreproocesssing)和和数据变换换(Datta trransfformaationn)三个子子步骤; 数据挖掘(DData Miniing)阶阶段; 结果解释和和评价。即:KDDD=数据准准备+DMM+解释评评价。图1 KKDD过程程由上图知,知知识发现的的过程可粗粗略的理解解为三部曲曲:数据准准备(Daata pprepaaratiion)、数数据挖掘(Dataa minning)以及结果果的解释评评估(innterpprepaaratiion aand eevaluuatioon)。 数据准准备又可分分为:数据据选取、数数据预处
20、理理和数据变变换三个子子步骤。l 数据选取的的目的是确确定发现任任务的操作作对象,即即目标数据据。它是根根据用户的的需求从原原始数据库库中抽取的的一组数据据。l 数据预处理理一般包括括消除噪声声、推导计计算缺值数数据、消除除重复记录录、完成数数据类型转转换(如,把把连续值数数据转换为为离散型数数据,以便便符号归纳纳;或把离离散型数据据转换为连连续值型数数据,以便便神经网络络归纳)等等;l 数据变换的的主要目的的是消减数数据的维数数或降维,即即从初始特特征中找出出真正有用用的特征,以以减少数据据开采时要要考虑的特特征或变量量个数。 数据挖挖掘阶段:)确定开开采的任务务或目的,如如数据总结结、分类
21、、聚聚类、关联联规则发现现或序列模模式发现等等;)确定使使用的开采采算法。选择实现算算法有两个个考虑因素素:(1) 不同的数据据有不同的的特点,因因此需要用用与之相关关的算法来来挖掘;(2) 用户或实际际运行系统统的要求,有有的用户可可能希望获获取描述型型的、容易易理解的知知识(如,采采用规则表表示的挖掘掘方法显然然好于神经经网络之类类的方法),而而有的用户户只希望获获取预测准准确度尽可可能高的预预测型知识识。选择了了挖掘算法法后,就可可以实施数数据挖掘操操作,获取取有用的模模式。 结果解解释和评价价,对数据据挖掘发现现出来的模模式,应经经用户或机机器评价后后才能成为为知识。因因为 )挖掘出出
22、来的模式式可能存在在冗余或无无关的模式式,此时需需将其剔除除; )挖掘出出来的模式式可能不满满足用户要要求,这时时应退回到到发现阶段段之前,如如重选数据据、采取新新的变换方方法和新的的开采算法法等 )KDDD最终是要要面向人类用户户,因此,应应对挖掘发发现的模式式进行可视视化(如散散点图、直直方图等),或或把结果转转换为用户户易懂的另另一种表示示,如把分分类决策树树转换为“ifthenn”规则。由此过程可可得:1、数据挖挖掘仅仅是是整个知识识发现过程程中的一个个步骤。挖挖掘质量的的好坏有两两个影响要要素:(1) 是所采用的的数据挖掘掘技术的有有效性;(2) 是采用的数数据质量和和数量(数数据量
23、的大大小)。如如果选择了了错误的数数据或不适适当的属性性,或对数数据进行了了不适当的的转换,则则挖掘的结结果不会成成功。2、整个挖挖掘过程是是一个不断断反馈的过过程。比如如,用户在在挖掘途中中发现选择择的数据不不太满意,或或使用的挖挖掘技术产产生不了期期望的结果果。这时,用用户需要重重复先前的的过程,甚甚至从头重重新开始。3、可视化化技术在数数据挖掘的的各个阶段段都起着重重要的作用用。特别是是在数据准准备阶段,用用户可能要要使用散点点图、直方方图等统计计可视化技技术来显示示有关数据据,以期对对数据有一一个初步的的了解,从从而为更好好地选取数数据打下基基础;在挖挖掘阶段,用用户则要使使用与领域域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 知识 发现 讲稿 概述 37405
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内