数据挖掘与知识发现(讲稿1---概述)37892.docx
-
资源ID:63701294
资源大小:130.46KB
全文页数:34页
- 资源格式: DOCX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
数据挖掘与知识发现(讲稿1---概述)37892.docx
装订线数据挖掘与知识发现讲稿 主讲:刘以安前期基础课程:数据库、人工智能参考书:知识发现,清华大学出版社,史忠植编,2004第1章 概述随着信息社社会和知知识经济济时代的的来临,信信息正以以前所未未有的速速度膨胀胀。面对对浩如烟烟海的信信息资源源,人类类的自然然智能越越来越显显得难于于驾驭。如何用人造的智能去模仿和扩展人类的自然智能,实现信息的智能化处理,是信息社会和知识经济所面临的一个重大课题。人工智能作作为一门门研究机机器(计计算机)智智能的学学科,其其目的是是要用人人工的方方法和技技术,研研制智能能机器或或智能系系统,来来模仿、延延伸和拓拓展人的的智能。因此,人工智能是人类迈向信息、迎接知识经济挑战所必须具备的一项核心技术。难怪有人把人工智能同原子能技术、空间技术一起称为20世纪的三大尖端科技成就。但人工智能系统较率低,不能应用于实际。随着计算机机、Innterrnett的普及及,以及及数据库库(DBB)技术术的迅速速发展和和数据库库管理系系统(DDBMSS)的广广泛应用用,导致致许多领领域积累累了海量量数据(如如,从普普通的超超市业务务数据、信信用卡记记录数据据、电话话呼叫清清单、政政府统计计数据到到不太普普通的天天体图像像、分子子数据库库和医疗疗记录等等)。现现有的DDB技术术大多可可高效地地实现数数据查询询、统计计和维护等管管理功能能,但却却无法发发现数据据中存在在的关联联和规则则,无法法根据现现有的数数据预测测未来的的发展趋趋势。数据库库中存在在着大量量数据,却却缺乏从从这些数数据中自自动、高高效地获获取知识识的手段段,出现现了“数据丰丰富,知知识贫乏乏”的现象象。此外,在在数据操操纵方面面:信息息的提取取及其相相关处理理技术却却远远落落后。为为此,针针对庞大大的数据据库及其其中的海海量数据据信息源源,仅依依靠传统统的数据据检索机机制和统统计分析析方法已已远不能能满足需需要。需求是发展展之母,数据管理系统(DBMS)和人工智能中机器学习两种技术的发展和结合,促成了在数据库中发现知识这一新技术的诞生,即基于数据库知识发现(Knowledge Discovery in Database,KDD)及其核心技术-数据挖掘产生并迅速发展起来。它的出现为自动和智能地把海量数据转化成有用的信息和知识提供了手段。1.1 知知识知识不仅是是人工智智能领域域中研究究的重要要对象,而而且也是是知识工工程与知知识发现现处理的的重要对象象。什么么是知识识?(到到目前为为止,知知识还没没有统一一的严格格的形式式化定义义)知识是人们们在改造造客观世世界的实实践中积积累起来来的认识识和经验验,是一切切智能行行为的基基础。广义地地说,知知识是人人们通过过学习、发发现或感感悟到的的对世界界的认识识总和,是是人类认认识的结结晶。狭狭义地说说,知识识是一种种有组织织的经验验、价值值观、相相关信息息和洞察察力的组组合。与知识相相关联的的两个概概念是数数据和信息所谓数据是是指人们们为了描描述客观观世界中中的具体体事物而而引入的的一些数数字、字字符、文文字等符符号或符符号的组组合。如如,“建国550岁”中的“建国”、“50岁岁”都是数数据。所谓信息是是指不同同的有用用数据组组成的一一种结构构。如“建国80岁”,就是是一条信信息。数据、信信息和知知识间的的关系是是:l 数据是信息息的载体体和表示示;l 信息是数据据在特定定场合下下的含义义,或者者说信息息是数据据的语义义。如“建国80岁”。但相相同的数数据在不不同的场场合会有有不同的的含义。l 信息仅是对对客观事事物的一一般性描描述,它它还不是是知识。只只有经过过对其进进行加工工、整理理、解释释、挑选选和改造造,形成成对客观观世界规规律性认认识后才才能称为为知识。可可见,知知识是对对信息进进行智能能性加工工所形成成的对客客观世界界规律性性的认识识。(如,水,在在标准大大气压下下,加热热到1000度就就会沸腾腾)实现对信息息的加工工过程,实实际上也也是一种种把信息息关联在在一起的的过程。因因此,也也可把有有关信息息关联在在一起所所形成的的信息结结构称为为知识。从从这种意意义上讲讲,“信息”与“关联”是构成成知识的的两个要要素。信息之间关关联的形形式很多多,其中中最常用用的一种种形式为为: 如果 则 (IFF TTHENN)如,“如果果他学过过人工智智能课程程,则他他应该知知道什么么叫知识识”。1.2 什什么是知知识工程程?知识工程的的概念出出现于119777年的人人工智能能联合会会议上,由由费根鲍鲍姆教授授提出的的,至今今也没有有严格的的定义,但人们们普遍认认为,知识工工程是以以知识为为处理对对象,借用工工程化的的思想,应应用人工工智能的的原理、方方法和技术去设计、构构造和维维护知识识型系统统的一门门学科,是人工工智能的的一个应应用分支支。知识工程的的目的是是在研究究知识的的基础上上,开发智能能系统。所以,知知识工程程的核心心则是专专家系统统。由此知知,知识的的获取、知知识的表表示、知知识的运运用便构构成知识识工程的的三大要要素。知识工程的的研究内内容,主主要包括括:基础理理论研究究、实用用技术的的开发、知知识型系系统工具具研究和和智能机机等相关关课题的的研究。其中,基础础理论研研究包括括:知识的的本质、知知识的表表示、推推理、获获取和学学习方法法等;实用技术主主要研究究解决建建立知识识系统过过程中遇遇到的问问题,包括:实用知知识表示示方法、实实用知识识获取技技术、实实用知识识推理方方法、知知识库结结构系统统、知识识系统体体系结构构、知识识库管理理技术、知知识型系系统的调调试与评评估技术术、实用用解释技技术、实实用接口口技术等等;知识型系统统工具研研究,主主要是为为了给系系统的开开发提供供良好的的环境工工具,以提高高系统研研制的质质量和缩缩短系统统研制周周期等。 知识工程系系统的特点n 知识工程系系统能解解决专家家水平的的问题;n 系统能快速速的进行行假设和和搜索解解答;n 系统能做出出具有专专家水平平的解答答;n 系统具有大大量的基基础知识识和通用用的问题题求解能能力;n 系统应能选选择问题题的恰当当表示方方式,其中的的知识型型系统是是一个符符号系统统;n 系统具有自自动推理理的能力力,能从结结构步骤骤分析、解解决、推推理问题题等,这些都都表现出出具有人人工智能能及其系系统的特特点。因此,同样可以以说,知识工工程是人人工智能能的一个个重要应应用分支支 知识工程与与人工智智能的关关系传统人工智智能不能能进入实实用阶段段,主要要原因有有n 人工智能系系统的知知识库中中只含有有少量的的规则和和事实;n 人工智能系系统的效效率极低低。而知识工程程是人工工智能在在知识信信息处理理方面的的发展,它它研究如如何由计计算机表表示知识识,进行行问题的的自动求求解。知知识工程程的研究究使人工工智能的的研究从从理论转向向了应用用,从基基于推理理的模型型转向基基于知识识的模型型,是新新一代计计算机的的重要理理论基础础。它的的根本目目的是在在研究知知识的基基础上,开开发人工工智能系系统,补补充和扩扩大大脑脑的功能能,开创创人-机机共同思思考的时时代。 知识工程与与专家系系统的关关系专家系统是是知识工工程的核核心。知识工工程的发发展首先先决定于于专家系系统的发发展,专家系系统的发发展必将将推动人人工智能能的应用用。专家系统的的开发有有三个基基本的要要素:领域专专家、知知识工程程师、大大量实例例。在建立立专家系系统时,首先由由知识工工程师把把领域专专家的专专门知识识总结出出来,以适当当的形式式存入计计算机,建立起起知识库库(KBB),根根据这些些专门知知识,系统可可以进行行推理,做出判判断和决决策,能够解解决一些些只有人人类专家家才能解解决的困困难问题题,专家系系统主要要是指软软件系统统。通常一个最最基本的的专家系系统应由由:知识识库、数数据库、推推理机、解解释机构构、知识识获取机机构和用用户界面面6个部部分组成成。图1 专专家系统统的基本本结构其主要功能能描述如如下: (11)知识识库(KKnowwleddge Basse)知识库是指指以某种种存储结结构存储储领域专专家的知知识,包包括事实实和可行行的操作作与规则则等。为为了建立立专家库库,需对对领域问问题的专专家知识识,用相相应的知知识表示示方法将将其表示示出来,然然后再进进行形式式化,并并经编码码放入知知识库中中。所以,专家家库的建建立,首首先要解解决知识识获取与与知识表表示的问问题。知知识获取取是指知知识工程程师如何何从领域域专家那那里获得得将要纳纳入知识识库的知知识。知知识表示示要解决决的问题题是如何何使用计计算机能能够理解解的形式式来表示示和存储储知识的的问题。通常,知识识库中的的知识分分为两大大类型:一类是是领域中中的事实实,称为为事实性性知识,这这是一种种广泛公公用的知知识,也也即写在在书本上上的知识识及常识识;另一一类是启启发性知知识,它它是领域域专家在在长期工工作实践践中积累累起来的的经验总总结。(2)数据据库也称全局数数据库或或综合数数据库。是是用于存存储与求求解问题题有关的的初始数数据(如如,事实实、数据据、初始始状态(证证据)和和推理过过程中得得到的中中间数据据。如,在医疗疗专家系系统中,数数据库中中存放的的仅是当当前患者者的情况况,如姓姓名、年年龄、症症状等及及推理过过程中得得到的一一些中间间结果、病病情等;在气象专家家系统中中,数据据库中存存放的是是当前气气象要素素,如云云量、温温度、气气压以及及推理得得到的中中间结果果等。由此看出,专专家系统统数据库库只是一一个存储储很少的的用于暂暂存中间间信息的的工作存存储器(也也称内涵涵数据库库),而而不是通通常概念念上的用用于存放放大量信信息的数数据库(也也称外延延数据库库)。(3)推理理机推理机是一一组用来来控制、协协调整个个专家系系统的程程序。它它根据全全局数据据库的当当前内容容,从知知识库中中选择可可匹配的的规则,并并通过执执行规则则来修改改数据库库中的内内容,再再通过不不断地推推理导出出问题的的结论。推推理机中中包含如如何从知知识库中中选择规规则的策策略和当当有多个个可用规规则时如如何消解解规则冲冲突的策策略。(4)解释释机构用于向用户户解释专专家系统统的行为为,包括括解释“系统是是怎样得得出这一一结论的的”、“系统为为什么要要提出这这样的问问题来询询问用户户”等用户户需要解解释的问问题。(5)知识识获取机机构知识获取是是专家系系统的一一种辅助助功能,它它可为修修改知识识库中的的原有知知识和扩扩充新知知识提供供相应手手段。知识获取机机构的基基本任务务是把知知识加入入到知识识库中,并并负责维维持知识识的一致致性及完完整性,建建立起性性能良好好的知识识库。通常,不同同的专家家系统,知知识获取取功能和和实现方方法差别别较大。如如, 有的系统首首先由知知识工程程师向领领域专家家获取知知识,然然后通过过相应的的知识编编辑软件件把知识识送到知知识库中中; 有的系统自自身就具具有部分分学习功功能,由由系统直直接与领领域专家家对话获获取知识识; 有的系统具具有较强强的学习习功能,可可在系统统运行过过程中通通过归纳纳、总结结,得出出新的知知识。总之,不管管采用方方式,知知识获取取都是目目前专家家系统研研究中的的一个重重要问题题。所以,知识识工程的的概念从从19777年提提出至今今,现已成为为一门新新兴的边边缘学科科。它是是人工智智能,数数据库技技术,数数理逻辑辑,认知知科学,心心理学等等学科交交叉发展展的结果果。1.3知识识发现KDD(KKnowwleddge Disscovveryy inn Daatabbasee)一词词是于119899年8月月在美国国底特律律市召开开的第一一届KDDD国际际学术会会议上正正式形成成的。研研究的问问题主要要有: 定性知识和和定量知知识的发发现; 知识发现方方法; 知识发现的的应用等等。KDD的含含义,由由Fayyyadd定义为为:从数数据集中中识别出出有效的的、新颖颖的、潜潜在有用用的,以以及最终终可理解解的模式式的非平平凡过程程。涉及几个概概念:“数据集集”、“模式”、“过程”、“有效性性”、“新颖性性”、“潜在有有用性”和“最终可可理解性性”。数据集:数数据库记记录的集集合F;模式:即知知识,它它给出了了数据特特性或数数据之间间的关系系,是对对数据所所包含的的信息更更抽象的的描述。按按功能可可以分为为预测型型模式和和描述型型模式。在在实际应应用中,可可以细分分为关联联模式、分分类模式式、聚类类模式和和序列模模式等。过程:通常常在KDDD中指指多阶段段的处理理,涉及及数据准准备、模模式搜索索、知识识评价以以及反复复的修改改求精;该过程程要求是是非平凡凡的,意意思是要要有一定定程度的的智能性性、自动动性;有效性:是是指发现现的模式式对于新新的数据据仍保持持一定的的可信度度;新颖性:要要求发现现的模式式应该是是新的;潜在有用性性:是指指发现的的知识将将来有实实际效用用,如,用用于决策策支持系系统里可可提高经经济效益益;最终可理解解性:要要求发现现的模式式能被用用户理解解,目前前它主要要体现在在简洁性性上。其中,“有有效性”、“新颖性性”、“潜在有有用性”和“最终可可理解性性”综合在在一起称称为兴趣趣性。KDD的研研究内容容是:如何自自动地去去处理数数据库中中大量的的原始数数据,从从中挖掘掘搜索出出具有规规则、富富有意义义的模式式。它的发发现过程程主要有有三个步步骤: 数据准备,又又包括数数据选取取(Daata sellecttionn)、数数据预处处理(DDataa prreprroceessiing)和和数据变变换(DDataa trranssforrmattionn)三个个子步骤骤; 数据挖掘(DDataa Miininng)阶阶段; 结果解释和和评价。即:KDDD=数据据准备+DM+解释评评价。图1 KKDD过过程由上图知,知知识发现现的过程程可粗略略的理解解为三部部曲:数数据准备备(Daata preeparratiion)、数数据挖掘掘(Daata minningg)以及及结果的的解释评评估(iinteerprrepaarattionn annd eevalluattionn)。 数据准准备又可可分为:数据选选取、数数据预处处理和数数据变换换三个子子步骤。l 数据选取的的目的是是确定发发现任务务的操作作对象,即即目标数数据。它它是根据据用户的的需求从从原始数数据库中中抽取的的一组数数据。l 数据预处理理一般包包括消除除噪声、推推导计算算缺值数数据、消消除重复复记录、完完成数据据类型转转换(如如,把连连续值数数据转换换为离散散型数据据,以便便符号归归纳;或或把离散散型数据据转换为为连续值值型数据据,以便便神经网网络归纳纳)等;l 数据变换的的主要目目的是消消减数据据的维数数或降维维,即从从初始特特征中找找出真正正有用的的特征,以以减少数数据开采采时要考考虑的特特征或变变量个数数。 数据挖挖掘阶段段:)确定开开采的任任务或目目的,如如数据总总结、分分类、聚聚类、关关联规则则发现或或序列模模式发现现等;)确定使使用的开开采算法法。选择实现算算法有两两个考虑虑因素:(1) 不同的数据据有不同同的特点点,因此此需要用用与之相相关的算算法来挖挖掘;(2) 用户或实际际运行系系统的要要求,有有的用户户可能希希望获取取描述型型的、容容易理解解的知识识(如,采采用规则则表示的的挖掘方方法显然然好于神神经网络络之类的的方法),而而有的用用户只希希望获取取预测准准确度尽尽可能高高的预测测型知识识。选择择了挖掘掘算法后后,就可可以实施施数据挖挖掘操作作,获取取有用的的模式。 结果解解释和评评价,对对数据挖挖掘发现现出来的的模式,应应经用户户或机器器评价后后才能成成为知识识。因为为 )挖掘掘出来的的模式可可能存在在冗余或或无关的的模式,此此时需将将其剔除除; )挖掘掘出来的的模式可可能不满满足用户户要求,这这时应退退回到发发现阶段段之前,如如重选数数据、采采取新的的变换方方法和新新的开采采算法等等 )KDDD最终终是要面面向人类用用户,因因此,应应对挖掘掘发现的的模式进进行可视视化(如如散点图图、直方方图等),或或把结果果转换为为用户易易懂的另另一种表表示,如如把分类类决策树树转换为为“iftheen”规则。由此过程可可得:1、数据挖挖掘仅仅仅是整个个知识发发现过程程中的一一个步骤骤。挖掘掘质量的的好坏有有两个影影响要素素:(1) 是所采用的的数据挖挖掘技术术的有效效性;(2) 是采用的数数据质量量和数量量(数据据量的大大小)。如如果选择择了错误误的数据据或不适适当的属属性,或或对数据据进行了了不适当当的转换换,则挖挖掘的结结果不会会成功。2、整个挖挖掘过程程是一个个不断反反馈的过过程。比比如,用用户在挖挖掘途中中发现选选择的数数据不太太满意,或或使用的的挖掘技技术产生生不了期期望的结结果。这这时,用用户需要要重复先先前的过过程,甚甚至从头头重新开开始。3、可视化化技术在在数据挖挖掘的各各个阶段段都起着着重要的的作用。特特别是在在数据准准备阶段段,用户户可能要要使用散散点图、直直方图等等统计可可视化技技术来显显示有关关数据,以以期对数数据有一一个初步步的了解解,从而而为更好好地选取取数据打打下基础础;在挖挖掘阶段段,用户户则要使使用与领领域问题题有关的的可视化化工具;在表示示结果阶阶段,则则可能要要用到可可视化技技术以使使得发现现的知识识更易于于理解。问题:数据据挖掘的的可视化化主要包包括哪些些研究内内容? 目前流流行的可可视化技技术主要要有哪几几种? 答: 数据据挖掘的的可视化化主要研研究包括括(1) 数据的可视视化: 将数据据的不同同粒度或或不同的的抽象级级别用多多种可视视化方式式进行描描述.对被挖挖掘的原原始数据据的可视视化有助助于确定定合适的的模型进进行数据据挖掘处处理;(2) 数据结果的的可视化化: 将数数据挖掘掘后得到到的知识识和结果果用可视视化形式式表示出出来.知识表表达、解解释和评评价的可可视化有有助于理理解所获获得的知知识并检检验知识识的真伪伪和实用用性;(3) 数据挖掘过过程的可可视化:用可视视化形式式描述各各种挖掘掘过程,用用户通过过可视化化方式可可以了解解挖掘数数据的来来源、数数据的抽抽取过程程、具体体的挖掘掘计算和和推理过过程等。 目前前流行的的可视化化技术主主要有:(1) 面向像素技技术:其其基本思思想是将将每个数数据值映映射到一一个有色色的像素素上并将将属于某某个属性性的数据据值表示示在一个个独立的的窗口中中;(2) 几何投影技技术:其其目标是是在多维维数据集集中找到到“有意义义”的投影影,是一一种平行行坐标轴轴可视化化技术。该该技术通通过使用用相互平平行而且且等距的的坐标轴轴将多维维空间映映射成两两维显示示。(3) 基于图标技技术:是是将一个个多级数数据项映映射成一一个图标标,是一一种条状状图技术术。在该该技术中中,用两两维来进进行坐标标显示,而而剩下的的维则被被映射成成条状图图标的角角度或条条状图标标的长度度;(4) 层次技术:是对多多维空间间进行细细分,然然后以一一种层次次的形式式表示这这些子空空间。由于KDDD是一门门受到来来自各种种不同领领域的研研究者关关注的交交叉学科科(如涉涉及:统统计学、机机器学习习、数据据库技术术、模式式识别、人人工智能能和可视视化等),因因此导致致了很多多不同的的术语名名称。除除KDDD外,主主要还有有:“数据挖挖掘”、知识识抽取(kknowwleddge exttracctioon)、信信息发现现、智能能数据分分析、探探索式数数据分析析、信息息收获、数数据考古古学(ddataa arrchaaeollogyy)、数数据捕捞捞(daata dreedgiing)等等等。其其中,最最常用的的术语是是“知识发发现”和“数据挖挖掘”。1995年年在加拿拿大召开开了第一一届知识识发现和和数据挖挖掘(DDataa Miing, DMM)国际际学术会会议。由由于把数数据库中中的“数据”形象地地比喻成成矿床,把KDD比作从数据矿山中找到蕴藏的知识金块。从此“数据挖掘”一词很快流传开来。又由于数据据挖掘是是KDDD过程中中的关键键步骤,所所以目前前多数人人不加区区分地使使用知识识发现和和数据挖挖掘这两两个术语语。相对来讲,数数据挖掘掘主要流流行于统统计界、数数据分析析、数据据库和管管理信息息系统界界;而知识发现现主要流流行于人人工智能能和机器器学习界界。1.4 知知识发现现的对象象知识发现的的对象是是数据集集。数据据集类型型有:关关系数据据库、面面向对象象数据库库、空间间数据库库、时态态数据库库、文本本数据库库源、多多媒体数数据库、异异质数据据库以及及万维网网(Weeb)数数据库等等。其中中,关系系数据库库是典型型的结构构化数据据。目前前,随着着技术的的发展,数数据挖掘掘对象已已逐步扩扩大到半半结构化化或非结结构化数数据,如如Webb数据、图像和和视频数数据以及及文本数数据等。1、关系数数据库对关系数据据库,数数据挖掘掘方法主主要是研研究数据据库中属属性之间间的关系系,挖掘掘出多个个属性取取值之间间的规则则。由于于关系数数据库的的特点,促促使了数数据挖掘掘方法的的改善。关系数据库库的特点点如下: 数据动动态性数据的动态态变化是是数据库库的一个个主要特特点。由由于数据据的存取取和修改改,使数数据的内内容经常常发生变变化,这这就要求求数据挖挖掘方法法能适应应这种变变化。渐渐增式数数据挖掘掘方法就就是针对对数据变变化,使使挖掘的的规则(知识)能满足足变化后后的数据据库内容容。 数据不不完整性性数据不完整整性主要要反映在在数据库库中记录录的域值值丢失或或不存在在(空值值)。这这种不完完整数据据给数据据挖掘带带来了困困难。为为此,必必须对数数据进行行预处理理,填补补该数据据域的可可能值。数据噪声声由于数据录录入等原原因,造造成错误误的数据据,即数数据噪声声。含噪噪声的数数据挖掘掘会影响响抽取模模式的准准确性,并并增加了了数据挖挖掘的困困难度。 数据冗冗余性这表现在同同一信息息在多处处重复出出现。函函数依赖赖是一个个通常的的冗余形形式。冗冗余信息息可能造造成错误误的数据据挖掘,至至少有些些挖掘的的知识是是用户不不感兴趣趣的。为为了避免免这种情情况发生生,数据据挖掘时时,需要要知道数数据库中中有哪些些固有的的依赖关关系。 数据稀稀疏性表现在实例例空间中中数据稀稀疏,数数据稀疏疏会使数数据挖掘掘丢失有有用的模模式。 海量数数据数据库中的的数据在在不断增增长,已已出现很很多海量量数据库库。数据据挖掘方方法需要要逐步适适应这种种海量数数据挖掘掘,如建建立有效效的索引引机制和和快速查查询方法法等。2、文本数数据库文本是以文文字串形形式表示示的数据据文件。文本分析包括:关键词或特征提取;相似检索;文本聚类和文本分类等。文本中的特特征如人人名、地地名、组组织名等等是某些些文本中中的重要要信息,特特征提取取对掌握握该文本本的内容容很重要要。 关键词词或特征征提取一篇文本中中,标题题是该文文本的高高度概括括。标题题中的关关键词是是标题的的核心内内容。关关键词的的提取对对于掌握握该文本本的内容容至关重重要。文本中的特特征如人人名、地地名、组组织名等等是某些些文本中中的重要要信息,特特征提取取对掌握握该文本本的内容容很重要要。 相似检检索对文本中关关键词的的相似检检索是了了解文本本内容的的一种重重要方法法。如,“专家系统”与“人工智能”两个关键词是有一定联系的,研究专家系统的文本,一定属于人工智能的研究领域。 文本聚聚类对于文本标标题中关关键词(主主题词)的的相似匹匹配是对对文本聚聚类的一一种简单单方法。定定义关键键词的相相似度,将将便于文文本的简简单聚类类,类中中文本满满足关键键词的相相似度,类类间文本本的关键键词超过过相似度度。 文本分分类将文本分类类到各文文本类中中,一般般需要采采用一个个算法,这这些算法法包括分分类器算算法、近近邻算法法等,这这需要按按文本中中的关键键词或特特征的相相似度来来区分。3、图像与与视频数数据库图像与视频频数据库库是典型型的多媒媒体数据据库。数数据以点点阵信息息及帧形形式存储储,数据据量很大大。图像像与视频频的数据据挖掘包包括:图图像与视视频特征征提取;基于内内容的相相似检索索;视频频镜头的的编辑与与组织等等。 图像与与视频特特征提取取图像与视频频特征有有颜色、纹纹理和形形状等。这这些特征征提取是是用基于于内容的的相似检检索。如如,海水水是蓝色色、海滩滩是黄色色、房屋屋的形状状及颜色色等,都都需要从从大量图图像和视视频数据据中提取取。 基于内内容的相相似检索索根据图像、视视频特征征的分布布、比例例等进行行基于内内容的相相似检索索,可以以将图像像和视频频数据进进行聚类类以及分分类,也也能完成成对新图图像或视视频的识识别。如如,对遥遥感图像像或视频频的识别别,这种种应用非非常广泛泛,例如如,森林林火灾的的发现与与报警,河河流水灾灾的预报报等。 视频镜镜头的编编辑与组组织镜头代表一一段连续续动作(视视频数据据流)。典典型的镜镜头编辑辑如足球球的射门门、某段段新闻节节目等,都都需要在在冗长的的视频数数据流中中进行自自动裁取取。经过编辑的的镜头,按按某种需需要重新新组织,将将形成特特定需求求的新视视频节目目。如足足球射门门集锦,某某个新闻闻事件的的连续报报道等。4、Webb数据库库随着Intternnet的的发展和和普及,网网站数目目的迅速速增长及及上网人人数的剧剧烈增多多,使网网络数据据量呈指指数增长长,Weeb数据据挖掘已已成为新新课题。Web数据挖掘具有如下特点: 异构数数据集成成和挖掘掘Web上每每一站点点是一个个数据源源,各数数据源都都是异构构的,形形成了一一个巨大大的异构构的数据据库环境境。将这这些站点点的异构构数据进进行集成成,给用用户提供供一个统统一的视视图,才才能在WWeb上上进行数数据挖掘掘。 半结构构化数据据模型抽抽取Web上的的数据非非常复杂杂,没有有特定的的模型描描述。虽虽然每个个站点上上的数据据是结构构化的,但但各自的的设计对对整个网网络而言言是一个个非完全全结构化化的数据据,称为为半结构构化数据据。对半结构化化数据模模型的查查询和集集成,需需要寻找找一种半半结构化化模型抽抽取技术术来自动动抽取各各站点的的数据。如,XMLL是一种种半结构构化的数数据模型型,容易易实现WWeb中中的信息息共享与与交换。总之,Weeb数据据挖掘正正在逐步步形成热热点。1.5 知知识发现现的分类类知识发现涉涉及多个个学科,主主要包括括数据库库、统计计学和机机器学习习等三大大主要技技术。数据库技术术经过220世纪纪80年年代的大大发展,除除关系数数据库外外,又陆陆续出现现面向对对象数据据库、多多媒体数数据库、分分布式数数据库以以及Weeb数据据库等。数据库的应用从一般查询到模糊查询和智能查询,数据库计算已趋向并行计算。从以上数据库中挖掘知识正在兴起并已得到迅速发展。统计学是一一门古老老学科,现现已逐渐渐走向社社会。成成为社会会调查、了了解民意意以及制制定决策策的重要要手段。机器学习是是人工智智能的重重要分支支。它是是在专家家系统获获取知识识出现瓶瓶颈后发发展起来来的。机机器学习习的大部部分方法法和技术术已演变变为数据据挖掘方方法和技技术。知识发现可可按数据据库类型型、知识识发现对对象、知知识发现现任务、知知识发现现方法与与技术,以以及应用用等几个个方面进进行分类类。(1)按数数据库类类型分类类知识发现主主要是在在关系数数据库中中挖掘知知识。随随着数据据库类型型的不断断增加,逐逐步出现现了不同同数据库库的知识识发现。现现有:关关系数据据的知识识发现、模模糊数据据的知识识发现、历历史数据据的知识识发现和和空间数数据的知知识发现现等多种种不同数数据库的的知识发发现类型型。(2)按知知识发现现的对象象分类知识发现除除了对数数据库这这个主要要的对象象进行知知识发现现外,还还有文本本数据知知识发现现、多媒媒体数据据知识发发现和WWeb网网数据知知识发现现等。由由于对象象不同,知知识发现现的方法法相差很很大,文文本、多多媒体、WWeb网网数据均均是非结结构化数数据,知知识发现现的难度度将很大大。(3)按知知识发现现的任务务分类知识发现的的任务主主要有:关联分分析、时时序模式式、聚类类、分类类、偏差差检测以以及预测测六项。故故按知识识发现的的任务分分类有:关联规规则知识识发现、序序列知识识发现、聚聚类知识识发现、分分类知识识发现、偏偏差分析析知识发发现以及及预测知知识发现现等类型型。(4)按知知识发现现方法和和技术分分类归纳学习类类、仿生生物技术术类、公公式发现现类、统统计分析析类、模模糊数学学类、可可视化技技术类等等等。1.6 知知识发现现的方法法可粗分为:统计方方法、机机器学习习方法、神神经网络络方法、数数据库方方法和可可视化方方法。统计方法可可细分为为:回归归分析、判判别分析析、聚类类分析、探探索性分分析等;机器学习可可细分为为:归纳纳学习方方法、基基于范例例学习、遗遗传算法法等;神经网络可可细分为为:前向向神经网网络、自自组织神神经网络络等;数据库方法法主要是是:多维维数据分分析或OOLAPP方法,另另外还有有面向属属性的归归纳方法法。对可视化方方法主要要是把数数据、信信息和知知识转化化为可视视的表示示形式的的过程。1.7 知知识发现现的任务务数据挖掘与与知识发发现是一一个以数数据库、人人工智能能、数理理统计、可可视化四四大支柱柱技术为为基础,多多学科交交叉、渗渗透、融融合形成成的新的的交叉学学科。数据挖掘的的任务是是从大量量的数据据中发现现模式。根根据数据据挖掘的的任务可可分为多多种类型型,其中中比较典典型的有有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性性挖掘 Web数据据挖掘预测模型型(Prrediictiive Moddeliing):所谓预预测即从从数据库库或数据据仓库中中已知的的数据推推测未知知的数据据或对象象集中某某些属性性的值分分布。建立预测模模型的常常用方法法: 回归分析 线性模型 关联规则 决策树预测测 遗传算法 神经网络关联(AAssoociaatioon)分分析:关关联规则则描述了了一组数数据项之之间的密密切度或或关系。关关联分析析用于发发现项目目集之间间的关联联。在关关联规则则挖掘算算法中,通通常给出出了置信信度和支支持度两两个概念念,对于于置信度度和支持持度均大大于给定定阈值的的规则称称为强规规则,而而关联分分析主要要就是对对强规则则的挖掘掘。关联规则挖挖掘近几几年研究究较多。现现在,关关联规则则的挖掘掘已经从从单一概概念层次次关联规规则的发发现发展展到多概概念层次次的关联联规则的的发现,并并把研究究的重点点放在提提高算法法的效率率和规模模可收缩缩性上。它它广泛地地运用于于帮助市市场导向向、商品品目录设设计客户户关系管管理)(CRM)和其他各种商业决策过程中。关联分析算算法:AAPRIIORII算法、DDHP算算法、DDIC算算法、PPARTTITIION算算法及它它们的各各种改进进算法等等。另外外,对于于大规模模、分布布在不同同站点上上的数据据库或数数据仓库库,关联联规则的的挖掘可可以使用用并行算算法,如如:Coount分布布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。分类(CClasssifficaatioon)分分析:所所谓分类类是根据据数据的的特征为为每个类类别建立立一个模模型,根根据数据据的属性性将数据据分配到到不同的的组中。在实际应用用过程中中,分类类规则可可以分析析分组中中数据的的各种属属性,并并找出数数据的属属性模型型,从而而确定哪哪些数据据属于哪哪些组。这这样就可可以利用用该模型型来分析析已有数数据,并并预测新新数据将将属于哪哪一个组组。类的的描述可可以是显显式的,如如用一组组特征概概念描述述;也可可以是隐隐式的,如如用一个个数学公公式或数数学模型型描述。分分类分析析已经成成功地用用于顾客客分类、疾疾病分类类、商业业建模和和信用卡卡分析等等。分类分析的的常用方方法: 约略(Rooughh)集 决策树 神经网络 统计分析法法目前,分类类方法和和研究成成果很多多,判别别方法的的好坏,可可从下面面3个方方面进行行:(1)预测测准确度度(对非非样本数数据的判判别准确确度); (2)计计算复杂杂度; (3)模模式简洁洁度(在在同样效效果情况况下,希希望决策策树小或或规则少少)。注:在数据据库中,往往往存在在噪声数数据,缺缺损值和和疏密不不均匀等等问题,他他们对分分类算法法获取的的知识将将产生坏坏的影响响。聚类(CClussterringg)分析析:所谓谓聚类是是指一组组彼此间间非常“相似”的数据据对象的的集合。相相似的程程度可以以通过距距离函数数来表示示,由用用户或专专家指定定。聚类分析是是按照某某种相近近程度度度量方法法将数据据分成互互不相同同的一些些分组。每每一个分分组中的的数据相相近,不不同分组组之间的的数据相相差较大大。好的的聚类方方法可以以产生高高质量的的聚类,保保证每一一聚类内内部的相相似性很很高,而而各聚类类之间的的相似性性很低。聚聚类分析析的核心心是将某某些定性性的相近近程度测测量方法法转换成成定量测测试方法法。采用用聚类分分析,系系统可以以根据部部分数据据发现规规律,找找出对全全体数据据的描述述。聚类分析的的常用方方法: 随机搜索聚聚类法 特征聚类 CF树序列(SSequuencce)分分析:序序列分析析主要用用于分析析数据仓仓库中的的某类与与时间相相关的数数据,搜搜索类似似的序列列或子序序列,并并挖掘时时序模式式、周期期性、趋趋势和偏偏离等。例如,它可可以导出出类似“若AT&&T股票票连续上上涨两天天且DEEC股票票不下跌跌,则第第三天IIBM股股票上涨涨的可能能性为775%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。偏差检测测(Deeviaatioon DDeteectiion):用于检检测