《信息存储与检索第4章.ppt》由会员分享,可在线阅读,更多相关《信息存储与检索第4章.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 多媒体信息存储与检索多媒体信息存储与检索 本章目录本章目录第一节第一节 引言引言第二节第二节 多媒体技术概述多媒体技术概述第三节第三节 多媒体数据模型多媒体数据模型第四节第四节 多媒体数据压缩技术多媒体数据压缩技术第五节第五节 基于内容的多媒体检索技术基于内容的多媒体检索技术信息存储与检索第一节第一节 引言引言v随着信息时代的到来,信息多元化程度加深,人们不再满足于单一的文本交流。多媒体技术的出现,使得信息的表达方式更生动、更容易被人们所理解,因此迅速成为信息存在的主要方式。信息存储与检索第一节第一节 引言引言v传统的信息检索系统只处理文本和非结构化的数据,信息是以离散的形式(如
2、字符、数字等)存储在关系数据库中,并以结构化查询语言(SQL)或超链接来进行查询检索;而多媒体数据则是连续的、形式多样的、海量的信息,并且多媒体数据(如图像、视频)在不同的人眼中可能有不同的理解,要把所有不同的解释都用关键字(文本或数字)来表示显然是不可能的。另外,关键字不能有效地表示视频数据的时序特征,也不支持语义关系,因此需要开发出一种新的检索技术来检索多媒体数据。为了适应这一需求,人们提出了基于内容的多媒体信息检索思想。信息存储与检索4.2.1 多媒体的概念多媒体的概念(一)媒体的含义v“媒体”一词的含义很多,但在计算机领域中主要有两层含义:一是指信息的物理载体,如磁盘、磁带、光盘等;另
3、一是指信息的表现或传播形式,如声音、文字、图像、动画等。根据国际电信联盟(ITU:International Telecommunication Union)电信标准部推出的ITU-TI.374建议的定义,可以将媒体划分为如下五类:(1)感觉媒体(2)表示媒体(3)表现媒体(4)存储媒体(5)传输媒体 信息存储与检索4.2.1 多媒体的概念多媒体的概念(二)多媒体的含义v在人们的日常谈论中,多媒体的“媒体”常常泛指“感觉媒体”,但多媒体技术所处理的“媒体”主要是指“表示媒体”,而“多”则表示信息表示媒体的多样化。v现在的多媒体技术往往与计算机联系在一起,是指利用计算机技术把各种信息媒体综合一体
4、化,使它们建立起逻辑联系,并进行加工处理的技术。所谓加工处理主要是指对这些媒体的录入、对信息进行压缩和解压缩、存储、显示、传输等。因此,多媒体不是“混媒体”。尽管包含的媒体元素很多,但并非机械地将他们拼凑在一起。信息存储与检索4.2.2 多媒体技术的关键特征多媒体技术的关键特征 v多媒体技术主要体现出综合处理多种媒体信息的特点,包括信息载体的:(1)多样性(2)集成性(3)交互性(4)实时性(5)互补性 这5个特性缺一不可。其中,多样性、实时性和互补性是基础,集成性是手段、方式或形式,交互性是核心或灵魂。信息存储与检索4.2.3 多媒体技术的主要研究内容多媒体技术的主要研究内容 v多媒体技术的
5、研究内容包括:多媒体数据处理技术,如多媒体数据模型、多媒体数据压缩、多媒体数据存储与检索技术等;多媒体数据传输技术,如多媒体网络技术、多媒体视频点播技术等;多媒体专用设备技术,如多媒体专用芯片技术、多媒体专用输入/输出技术等。本章内容将只对多媒体数据处理技术作出阐述。信息存储与检索 4.3.1 多媒体数据模型概述多媒体数据模型概述(一)多媒体数据模型的概念v数据模型是数据库系统中的术语,用来表示实体以及实体间的联系。数据库的数据模型由三部分组成:数据库的数据结构、数据库操作集合和完整性规则集合。其中,最重要的部分是反映能够数据库逻辑结构的数据结构,因为数据模型的作用就是能清晰地表示数据库的逻辑
6、结构,以便使用户更有效地存取数据。最著名的数据模型有层次模型、网状模型和关系模型。信息存储与检索 4.3.1 多媒体数据模型概述多媒体数据模型概述(二)多媒体数据模型的体系结构 一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。内容多媒体应用多媒体信息元多媒体数据元表现上层脚本同步中层合成同步底层系统同步联系握手图图4-1 多媒体数据模型的体系结构多媒体数据模型的体系结构资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社信息存储与检索 4.3.1
7、多媒体数据模型概述多媒体数据模型概述(三)多媒体数据模型的种类 多媒体数据模型的分类没有定则。基于不同结构不同层次,可以将其分为超媒体模型、时基媒体模型、基于媒体内容模型、文献模型和信息元模型等。基于模型的性质,又可以将其分为表现模型和同步模型。基于不同的建模方法,则可将其分为NF2数据模型、面向对象数据模型和对象-关系模型等。信息存储与检索 4.3.2 图像的数据模型图像的数据模型语义1语义2语义3语义n语义表现层图像逻辑表示图像对象逻辑表示逻辑表现层物理表现层图图4-2 图像数据模型的层次化表现图像数据模型的层次化表现资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社信息存储
8、与检索 4.3.3 音频的数据模型音频的数据模型v音频信息也可以采用文本处理的方法,选择主题词、关键词对音频内容加以人工标引,揭示音频的主题内容及特征,例如对于一首歌曲,歌词就是它的内容描述。但这些仍属于传统文本处理的范畴,它与基于音频内容的特征处理完全不同。所谓基于音频内容的特征处理方法,就是针对音频信息的物理样本、基本属性等进行分析处理,通过数学与统计学方法来获得音频信息物理、听觉、语义等不同层次(或级别)上的特征,并揭示特征之间的相互关系。v下面就介绍几个通过短时处理技术得到的比较常用而且重要的特征:(一)音调(二)响度(三)过零率(四)亮度(五)带宽信息存储与检索 4.3.4 视频的数
9、据模型视频的数据模型v视频就是一组连续的静态图像按照时间的顺序连续更换形成的动画、影像等。简单地说,视频数据是连续的图像序列。在对视频进行分类和检索之前,必须了解视频的数据结构。视频数据可用故事单元、场景、镜头、帧来描述。对于视频文件来说,我们也可以利用与处理图像和音频相同的方法,进行视频外部特征信息的文本著录,以实现简单的初级检索。然而,与图像、音频一样,只有对基于视频内容本身进行处理才能获得更有效的检索。信息存储与检索 4.3.4 视频的数据模型视频的数据模型视频故事单元1故事单元2故事单元n场景1场景2场景m镜头1帧镜头2帧镜头3帧图图4-3 4-3 视频的分层结构描述视频的分层结构描述
10、资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社信息存储与检索4.4.1 数据压缩技术概述数据压缩技术概述(一)多媒体数据压缩的必要性和可能性 一般说来,多媒体数据中存在的数据冗余类型主要有以下几种:(1)空间冗余(2)时间冗余(3)结构冗余(4)视觉冗余(5)听觉冗余(6)知识冗余信息存储与检索4.4.1 数据压缩技术概述数据压缩技术概述(二)多媒体数据压缩的基本要求 对多媒体数据进行压缩处理需要两个过程。一是编码过程,即将原始数据经过编码进行压缩,以便于存储和传输;另一是解码过程,对编码后的数据进行解码,还原为可以使用的数据。对数据进行压缩处理一般具有以下基本要求:(1)可
11、还原(2)压缩比高(3)重现质量好(4)计算成本低(5)实时性好信息存储与检索4.4.1 数据压缩技术概述数据压缩技术概述(三)多媒体数据压缩方法的分类(1)按照压缩方法是否产生失真分类 根据解码后数据与原始数据是否完全一致进行分类,压缩方法可被分为有失真编码和无失真编码两(2)按照压缩方法的原理分类 根据编码原理进行分类,大致有预测编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其他编码方法基本上都是有失真的编码。信息存储与检索4.4.2 图像压缩的标准图像压缩的标准(一)JPEG2000压缩标准简介 国际标准化组织(ISO)和国际电工协会(
12、IEC)联合成立了一个联合图像专家组(Joint Photographic Experts Group,简称JPEG),经过5年艰苦而细致的工作,与1991年3月提出了ISO CDIO918号建议草案多灰度静止图像的数字压缩编码,该草案经批准成为ISO10918标准,即通常所说的JPEG标准。JPEG标准是一个适用于彩色和单色多灰度的静止数字图像的压缩技术标准。信息存储与检索4.4.2 图像压缩的标准图像压缩的标准(二)JPEG2000的基本结构源图像数据正变换量化熵编码压缩图像数据(a)编码器源图像数据逆变换量化熵解码压缩图像数据(b)解码器存储或传输图图4-4 JPEG2000 4-4 J
13、PEG2000 的基本结构的基本结构资料来源:林福宗,2002多媒体技术基础北京:清华大学出版社信息存储与检索4.4.2 图像压缩的标准图像压缩的标准(三)JPEG2000的特点(1)压缩比高(2)支持无损压缩(3)支持渐进式传输(4)可自定义“感兴趣区域”(5)可以描述多种色彩模式(6)图像处理简单信息存储与检索4.4.3 音频压缩的标准音频压缩的标准(一)音频压缩编码的基本方法(二)电话质量的语音压缩标准(三)调幅广播质量的音频压缩标准(四)高保真立体声音频压缩标准信息存储与检索4.4.4 视频压缩的标准视频压缩的标准 v视频压缩的一个重要标准是MPEG,即运动图像专家组(Moving P
14、icture Expert Group)。该专家组成立于1988年,在国际标准化组织(ISO)和是国际电工委员会(IEC)的管辖之下。该组织现已公布的MPEG标准如下:信息存储与检索4.4.4 视频压缩的标准视频压缩的标准 vMPEG-1(ISO/IEC1117),1993年8月公布,其全称为“适于约1.5Mb/s以下数字存储媒体的运动图像及伴音的编码”所谓数字存储媒体(DSM)是指常见的数字存储设备,如CD-ROM、DAT、硬盘、可写光盘等。该标准也适于远程通信,如综合业务数字网、局域网等。MPEG-1标准包括MPEG系统(ISO/IEC11172-1)、MPEG视频(ISO/IEC1117
15、2-2)、MPEG音频(ISO/IEC11172-3)和测试验证(ISO/IEC11172-4)四大部分内容。信息存储与检索4.4.4 视频压缩的标准视频压缩的标准 vMPEG-2(ISO/IEC13818),1994年11月公布,其全称为“运动图像及其伴音通用编码”。适用于多媒体计算机、多媒体数据库、多媒体通信、常规电视数字化、高清晰度电视(HDTV)及交互式电视(ITV)等领域。MPEG-2标准包括MPEG系统、MPEG视频、MPEG音频和一致性四大部分内容,它克服并解决了MPEG-1标准不能满足的日益增长的多媒体技术、数字电视技术、多媒体分辨率和传输率等方面的技术要求的缺陷。信息存储与检
16、索4.4.4 视频压缩的标准视频压缩的标准 vMPEG-4(ISO/IEC14496),1999年1月公布版本1(V1.0),同年12月公布版本2(V2.0)。该标准的初衷主要是面向电视会议、可视电话等超低码率的压缩编码需求,在制定过程中,MPEG组织深深感受到人们对媒体信息,特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。MPEG-4与MPEG-1、MPEG-2等有很大差异,它为多媒体数据压缩编码提供了更为广阔的平台,它定义的是一种格式、一种框架,而非具体算法,它希望建立一种更自由的通信与开发环境。于是MPEG-4的新目标为:支持多种多媒体的应用,特别是多媒体信息基于内容的访问
17、和检索,可根据不同的应用需求,现场配置解码器。编码系统也是开放的,可随时加入新的有效的算法模块。该标准适用于多媒体Internet、视频会议和视频电话、交互式视频游戏、多媒体邮件、基于网络的数据服务、光盘等交互式存储媒体、远程紧急事件系统、远程视频监控及无线多媒体通信等。信息存储与检索4.4.4 视频压缩的标准视频压缩的标准 vMPEG-7,于2000年11月公布,其全称为“多媒体内容描述接口”。它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容一起,支持对用户感兴趣的图形、图像、3D模型、视频、音频等信息以及它们的组合的快速有效查询,满足实时、非实时以及推-拉应用的需
18、求。MPEG-7只规定信息内容描述格式,而不规定如何从原始的多媒体资料中抽取内容描述的方法。MPEG-7的应用领域有数字图书馆、多媒体目录服务、图像分析、音乐词典、教育、多媒体编辑、多媒体业务引导等。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理(一)基于文本的多媒体信息检索的局限性 目前,常用的多媒体信息检索方法是基于文本的多媒体信息检索方法(Text-Based Retrieval,简称TBR)。该方法是针对多媒体的物理及内容特征,抽取出关键词进行著录或标引,建立类似于文本文献信息检索系统的索引数据库。这样,多媒体信息检索实际上就转化成为对多媒体信息进行
19、描述的关键词检索。常用的抽取关键词的字段有文件名或目录名、多媒体标题、多媒体周围文本信息或解说文字等。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理 基于文本的多媒体信息检索方法的主要优点是技术简单,标引和检索方便。它的实质就是文本检索,只是检索结果和输出形式不同而已,因此它的应用与实施方式简单,实现成本也比较低。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理 然而,这种检索方式的应用是有局限性的。首先,它不能真正反映信息的内容。这种检索采用文本来表达多媒体的内容,检索对象的不一致决定了在这种信息传递过程中必定会有大量信息
20、的丢失,这样就不可能完全反映信息的内容;其次,多媒体信息是一种抽象程度很大、随意性很强的信息,缺乏一般意义上的规范性,同样的信息不同的人会有不同的理解,这样便会使得在用文字描述多媒体信息时,不可能做出一个非常准确而完整的描述。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理(二)基于内容的多媒体信息检索的特点及应用 所谓基于内容检索(Content-Based Retrieval,简称CBR),就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。从技术上将,基于内容的多媒体信息检索具有如
21、下特点:(1)直接从媒体内容中提取特征线索。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理(2)基于内容的检索是一种近似匹配,与传统信息检索的精确匹配方法有明显不同。(3)特征提取和索引建立可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。(4)整个过程是一个逐步筛选和不断求精的过程。信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理(三)基于内容的多媒体信息检索系统的体系结构 媒体数据1 媒体特征媒体数据2 媒体特征 媒体数据n 媒体特征多媒体数据库用户检索接口多媒体数据特征提取插入模块知识辅助模块查询模块图图
22、4-74-7基于内容的多媒体信息检索系统的体系结构基于内容的多媒体信息检索系统的体系结构资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社信息存储与检索4.5.1 基于内容的多媒体信息检索原理基于内容的多媒体信息检索原理(四)基于内容的多媒体信息检索的流程和指标否是用户查询需求说明示例描述计算特征并进行相似性匹配返回一组检索结果返回一组检索结果是否满意?结束修改检索说明从检索结果中选择一个示例,进行特征修正图图4-8 4-8 基于内容的多媒体信息检索流程基于内容的多媒体信息检索流程资料来源:苏新宁2004信息检索理论与技术北京:科学技术文献出版社信息存储与检索4.5.2 基于内容
23、的图像检索基于内容的图像检索(一)基于内容的图像检索的类型(1)颜色检索(2)形状检索(3)纹理检索(4)草图检索(5)对象检索(二)研究性基于内容的图像检索系统简介(三)商业性基于内容的图像检索系统简介信息存储与检索4.5.3 基于内容的音频检索基于内容的音频检索(一)基于内容的音频检索的类型 基于内容的音频检索是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。根据音频信息的特征,音频可以分语音、音乐和其他声响,因此,基于内容的音频检索也可以相应地划分为基于语音的检索、基于音乐的检索和基于一般音频的检索三类。(二)研究性基于内容的音频检索系统简介信息存储与检索4.5.4 基于内容的视频检索基于内容的视频检索(一)基于内容的视频检索的类型 基于内容的视频检索既能向用户提供基于颜色、纹理、形状及运动特征等视觉信息的检索又能提供基于高级语义信息的检索,具有在镜头、场景、情节等不同层次上进行检索的功能,能满足用户基于例子和特征描述的检索要求。(1)基于关键帧的检索(2)基于运动特征的检索(3)基于视频语义特征的检索(二)基于内容的视频检索系统简介信息存储与检索
限制150内