多媒体内容分析与检索技术.ppt
《多媒体内容分析与检索技术.ppt》由会员分享,可在线阅读,更多相关《多媒体内容分析与检索技术.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体分析与检索技术 Multimedia Analysis and Retrieval Technology,注:本讲内容参考了北京大学数字媒体研究所数字媒体技术基础课件,数字媒体技术基础第五讲(8课时),课程内容及安排,第一部分:数字媒体导论 第二部分:数字媒体基础 数字彩色图像基础 图像/视频处理基础 第三部分:数字媒体关键技术 多媒体压缩编码技术 多媒体分析与检索技术 多媒体通信技术 数字版权管理技术,2/80,教学目标,通过本章的学习,掌握“多媒体分析与检索”这一多媒体领域最活跃研究方向的基本研究问题和方法,及其最新进展。 ACM Multimedia ACM ICMR ICME M
2、MM ICIMCS ICCV CVPR ICIP ICPR,3/80,教学内容,多媒体检索概论(2) 基于内容的图像分析与检索(CBIR)(2) 视频分析与检索(3) 音频分析与检索(1),4/80,一、多媒体检索概论,5/80,Internet Videos, Images, Audio, Flash, Aminations,Local Videos, Images,如何从如此海量的多媒体数据中定位到你所感兴趣的信息?,How to effectively organize, manage, browse, retrieve?,Image/Video indexing should be a
3、nalogous to text document indexing,Multimedia Analysis and Retrieval,6/80,引言,“多媒体搜索引擎” 可以搜索多媒体文档的搜索引擎 多媒体文档: 可包含多种模态,如文本、图像、视频、音频等 广义的:可以搜索非文字信息的搜索引擎 “视/听觉”信息,7/80,多媒体文档的特点,多媒体文档包含丰富的非文字信息,8/80,多媒体文档的特点,关键字对应的非文字信息可能过于宽泛,9/80,麦浪滚滚,多媒体检索概念,提供多媒体的查询输入 可以方便地输入多媒体和文字查询 对多媒体文档进行多媒体索引 特征索引:文本特征(字、词、短语)、视觉
4、特征(颜色直方图、Gabor纹理、形状特征、)、音频特征(音高、音调.) 语义索引:元数据、概念、事件 提供多媒体的结果显示 直观地展示多媒体和文字信息 直观地展示深层信息 跨文档综合(多媒体和文字信息) 方便浏览大量文档,10/80,如何检索?,11/80,检索方法1:基于文本(QBT),关键问题:如何获得关键字标注? 方法1:手工标注 工作量巨大-不可行! 即使对同一幅图像,不同的人有不同的描述 方法2:自动标注 各种机器学习的算法 性能不佳:只能提取少数概念,准确率也低(30%),12/80,检索方法1:基于文本(QBT),关键问题:如何获得关键字标注? 方法3:元数据分析-URL、链接
5、文字、标题、关联页面,Meta-data 元数据,东北虎:5 老虎:3 动物:2 中国:1 俄罗斯:1 长白山:1 。,13/80,检索方法1:基于文本(QBT),关键问题:如何获得关键字标注? 方法3:元数据分析-URL、链接文字、标题、关联页面 问题:元数据不一定与多媒体文档内容相关,没有元数据或不完整!,元数据与图像内容不相关!,14/80,检索方法1:基于文本(QBT),关键问题:如何获得关键字标注? 方法4:网络标注(Social tagging/Folksonomy) 向普通用户提供上载和分享平台 鼓励所有用户对上载的文档进行评论和标注 这些评论和标注是直接针对文档作出的,15/8
6、0,16/80,QBT的难题,需求难以用文字精确描述 非文字需求 用户不愿意输入很多文字 用户需求不是特别具体 大多数人的想象力是不够丰富的 系统提供的结果会极大地影响用户的需求 需要浏览更多的文档才能发现需要的结果 最重要:图像/视频/音频往往难以用文字准确描述 一图胜千言 各种文字标注方法普遍准确率不高,18/80,视觉信息描述的复杂性,19,检索方法2:基于内容/样例,基于内容的图像/视频检索 Content-based image/video retrieval (CBIR/CBVR) Query-by-Example (QBE) 什么是“内容”(Content)? 图像和视频的视觉特
7、性 如何描述?(数学模型) 如何匹配?(相似度计算方法) 如何索引?(快速找到相似文档) 如何提交查询?,20/80,基于内容的图像/视频检索,“内容”的数学模型 文本文档:向量模型 多媒体文档:特征 提取表示视觉的多个物理量组成描述文档内容的特征 视觉特征:颜色、纹理、形状、运动 音频特征:音频、音质、音调.,21/80,Color Camera motion Motion activity Mosaic,Color Motion trajectory Parametric motion Spatio-temporal shape,Color Shape Position Texture,S
8、poken content Spectral characterization Music: timbre, melody, pitch,视音频特征示例,22,基于内容的图像检索,Query by content: Color,texture Eigen vectors of matrix) Turing function based (similar to Fourier descriptor) convex/concave polygons Wavelet transforms leverages multiresolution Chamfer matching for comparing
9、 2 shapes (linear dimension rather than area) 3-D object representations using similar invariant features Well-known edge detection algorithms,48/80,特征举例:颜色特征,Colour histograms (CH) Global CH generated directly from RGB space, with 125 (5x5x5) bins.,49/80,Bosch, IVC, 2006,50/80,特征举例:边特征,Edge histogr
10、am (EHD) Captures the spatial distribution of the edge in six statues: 0, 45, 90, 135, non direction and no edge. Global EHD of an image: Concatenating 16 sub EHDs into a 96 bins Local EHD of a segment Grouping the edge histogram of the image-blocks fallen into the segment,51/80,特征举例:点特征,Detect patc
11、hes Mikojaczyk and Schmid 02 Sivic et al. 03,Compute SIFT descriptor Lowe99,52,全局 vs. 局部特征,54/80,区域分割,计算机视觉领域的公开难题,55/80,相似度度量,Dotta, et al., Image retrieval:Ideas, influences, and trends of the new age, ACM Computing Survey, 2008,56/80,相似度度量,Dotta, et al., Image retrieval:Ideas, influences, and tre
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 内容 分析 检索 技术
限制150内