《《数据挖掘与知识发现》教学课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘与知识发现》教学课件.ppt(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章:多媒体数据挖掘n 9.1 简介n 9.2 多媒体数据库n 9.3 挖掘多媒体数据库n 本章小结2003-11-1 1 高等教育出版社第九章:多媒体数据挖掘n 9.1 简介n 9.2 多媒体数据库n 9.3 挖掘多媒体数据库n 本章小结2003-11-1 2 高等教育出版社多媒体数据库系统n 多媒体数据库系统由多媒体数据库管理系统和多媒体数据库构成。n 多媒体数据库用于存储和管理多媒体数据,多媒体数据库管理系统(MM-DBMS)负责对多媒体数据库进行管理。n 多媒体数据包括结构化的数据、半结构化的数据和非结构化的数据,如音频数据、视频数据、文本数据和图像数据等。n MM-DBMS不但提供
2、包括查询处理、更新处理、事务管理、存储管理、元数据管理、安全性以及完整性在内的典型数据库管理系统功能,而且要满足异构数据的特殊需要。2003-11-1 3 高等教育出版社多媒体数据挖掘n 多媒体数据挖掘(Multimedia Mining)就是通过综合分析多媒体数据的内容和语义,从大量多媒体数据中发现隐含的、有效的、有价值的、可理解的模式,得出事件的发展趋向和关联关系,为用户提供问题求解层次上的决策支持能力。2003-11-1 4 高等教育出版社第九章:多媒体数据挖掘n 9.1 简介n 9.2 多媒体数据库n 9.3 挖掘多媒体数据库n 本章小结2003-11-1 6 高等教育出版社MM-DB
3、MS体系结构 n 在MM-DBMS的设计和开发中有多种体系结构。比较公认的结构有两种:n 一种是用DBMS管理元数据,用多媒体文件系统管理多媒体数据。n 第二种体系结构采用紧密耦合方法。由DBMS同时管理多媒体数据库和元数据。紧密耦合结构的优点是可以把所有的DBMS功能应用于多媒体数据库管理。2003-11-1 7 高等教育出版社松散耦合方法 2003-11-1 8 高等教育出版社其它多媒体数据库系统的体系结构 n DBMS+扩展层 DBMS和扩展层集成2003-11-1 10 高等教育出版社其它多媒体数据库系统的体系结构n 分布式多媒体DBMS 2003-11-1 11 高等教育出版社MM-
4、DBMS的功能 n MM-DBMS必须支持基本的DBMS功能。这些功能包括数据操作(查询、更新处理)、事务管理、元数据管理、存储管理、维护数据安全性及完整性。n MM-DBMS还必须解决多媒体数据的质量服务(QoS)处理、实时处理、同步问题、用户接口管理等。2003-11-1 13 高等教育出版社事务管理 n MM-DBMS中的事务管理是很重要的问题,因为在多数情况下,动画是和多媒体对象相关联的。n 和数据描述及数据操作不同,MM-DBMS中的事务管理仍是一个较新的领域。在维持事务性质和保证数据一致性和完整性上,事务管理主要使用并发控制和恢复机制。2003-11-1 15 高等教育出版社元数据
5、管理 n 与DBMS一样,MM-DBMS中也存在元数据问题。对音频、视频数据的描述可能需要大量的元数据。就视频数据而言,可能需要维护多种帧的信息,这些信息通常保存在元数据中。n 元数据在模式(Pattern)匹配中起着关键作用。为对多媒体数据进行数据分析,必须了解用户想要查找的内容。n Internet技术的发现使元数据管理变得更加复杂,也使得MM-DBMS中的元数据管理更富有挑战性。2003-11-1 16 高等教育出版社数据的完整性和安全性n 数据完整性包括支持数据质量、完整性约束处理、并发控制、多用户数据更新、数据恢复以及数据输出的准确性等内容。目前,实施完整性约束还有很多困难。n 安全
6、机制包括支持存取权限和授权等功能。2003-11-1 18 高等教育出版社第九章:多媒体数据挖掘n 9.1 简介n 9.2 多媒体数据库n 9.3 挖掘多媒体数据库n 本章小结2003-11-1 19 高等教育出版社多媒体数据库挖掘n 文本挖掘 n 图像挖掘 n 视频挖掘 n 音频挖掘 n 复合类型数据的挖掘 2003-11-1 20 高等教育出版社文本挖掘 n 在大多数情况下,文本数据是非结构化的,有些情况下它是半结构化的。n 信息检索系统和文本处理系统有了长足发展。n 文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系,它从大型文本数据库中提取尚未被人们认识到的模式或关联。n
7、挖掘文本数据库的方法有两类:基于关键字的关联分析和文档分类分析。2003-11-1 21 高等教育出版社基于关键字的关联分析 n 首先收集经常一起使用的关键词或词汇,然后找出其关联或相互关系。与文本数据库中大多数数据分析和搜索引擎中的方法一样,关联分析首先要对文本数据进行分析、词根处理、去除停用词、去除一部分对文章语意分析无意义的词,然后调用关联挖掘算法。在文档数据库中,把每个文档作为一个事务,文档中的关键词组可视为事务中的一组事务项。这样文档数据库中关键字关联挖掘的问题就变成了事务数据库中项集的关联挖掘问题。2003-11-1 22 高等教育出版社图像挖掘n 图像内容包括地图、地质结构、生物
8、结构等。n 图像处理涉及的研究领域有:检测模式的异常分析、基于内容图像检索和模式匹配等。n 图像处理主要是检测异常模式和图像检索;图像挖掘是发现所有异常的模式。因此,图像挖掘可以理解为从大型图像数据库中寻找不同图像之间的关联关系。n 注意检测异常模式并不是图像挖掘的结果,而仅仅是开始。图像挖掘需要研究现有数据挖掘技术能否应用在图像的分类、聚类和关联规则上。2003-11-1 24 高等教育出版社视频挖掘 n 视频可以看作是移动的图像或动画。视频数据中包含丰富的内容线索。除图像具有的视觉特性和空间特性外,视频数据还具有时间特性、视频对象特性、运动特性等。n 挖掘视频数据比挖掘图像数据更困难、更复
9、杂。n 可以认为视频挖掘就是从大型数据库中发现视频事件的关联和隐含模式,即通过综合分析视频数据的视听特性、时间结构、事件关系和语义信息,发现隐含的、有价值的、可理解的视频模式,得出视频表示事件的趋向和关联关系,提高视频信息管理的智能程度。n 也有人采用捕捉视频格式中文本信息的方法,试图在文本中而不是在视频数据中发现事件之间的关联关系。2003-11-1 25 高等教育出版社音频挖掘n 数据挖掘对象很少涉及语音数据。n 一方面是由于语音数据复杂,包含很多信息。比如基频信息、时长信息、幅度信息、位置信息以及重音信息等。n 另一方面,语音数据挖掘的研究需要语音合成工作的技术积累。n 现有的音频挖掘系统基本上都是先把音频数据转换成文本数据,然后对文本数据进行挖掘。2003-11-1 26 高等教育出版社先整合后挖掘 2003-11-1 28 高等教育出版社先挖掘后整合 2003-11-1 29 高等教育出版社本章小结n 给出了多媒体数据库管理系统的定义,介绍了一些多媒体系统。n 讨论了多媒体数据库系统的体系结构、数据模型和功能。n 介绍了多媒体数据挖掘的思想,包括4种媒体:文本、图像、视频和音频。最后,简要讨论了复合数据类型多媒体数据挖掘的问题。2003-11-1 31 高等教育出版社
限制150内