智能检索技术在媒体资产管理系统中的研究与实现.pdf
-
资源ID:71060993
资源大小:4.02MB
全文页数:62页
- 资源格式: PDF
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
智能检索技术在媒体资产管理系统中的研究与实现.pdf
山东轻工业学院硕士学位论文智能检索技术在媒体资产管理系统中的研究与实现姓名:孙利涛申请学位级别:硕士专业:计算机应用技术指导教师:顾卫东20080505山东轻T 业学院硕士学位论文摘要随着数字存储技术和多媒体技术的发展,对海量的音视频资料进行存储、管理、检索和再利用成了摆在人们面前一个严峻的课题。媒体资产管理系统中的智能化检索技术克服了传统文本检索的缺陷,成为当前的一个研究热点。本文从媒体资产管理系统对智能化检索的要求出发,系统的研究了数字图像底层特征提取、视频镜头切割、关键帧提取、视频场景合成(视频镜头聚类)以及基于模糊集的模糊聚类分析等方面的内容。对子视频镜头切割,本文采用了基予全局的直方匿的方法。在视频镜头分割的基础上,需要对镜头抽取关键帧来表征视频镜头。常见的关键帧的选取算法,有的选取的关键帧的数目固定,不能完全反映视频镜头内容的变化;有的则存在关键帧选取过多的缺点。本文利用信息论中熵的含义,设计了一种基于图像灰度熵的关键帧提取算法,试验证明浚算法能够克服传统的基于内容分析的关键帧提取算法中存在的关键帧提取过多的缺点,同时又能根据镜头内容的变化保留合适数目的关键帧。关键帧仅仅反映了一个镜头的内容。单个的视频镜头往往不簏完备的反映视频的语义信息,因此需要在视频镜头的基础上合成更高层次的视频单元,从而建立以场景为单位的语义表示级视频结构。本文研究了常见的聚类算法,|司时利用模糊数学为理论工具,设计了种基于模糊聚类的视频语义分析算法,该算法能够提供不同精度的聚类输出。关键词:媒体资产管理;智能检索;视频镜头分割;关键帧;模糊聚类A B S T R A C TA B S T R A C TW i t ht h ed e v e l o p m e n to fd i g i t a ls t o r a g et e c h n o l o g ya n dm u l t i m e d i at e c h n o l o g y,t h ed a t as t o r a g e,m a n a g e m e n t,r e t r i e v a la n dr e u s ea b o u taf l o o do fa u d i oa n dv i d e oh a sb e c o m eas e r i o u si s s u e T h ei n t e l l i g e n tr e t r i e v a lt e c h n o l o g yo fM e d i aA s s e tM a n a g e m e n ts y s t e mo v e r c o m et h es h o r t c o m i n g so ft r a d i t i o n a lt e x tr e t r i e v a l,a n db e c o m ear e s e a r c hf o c u s I nt h i sp a p e r,t h em e d i ac a p i t a lo fi n t e l l i g e n tr e t r i e v a ls y s t e mr e q u i r e m e n t so ft h es y s t e mo nt h eg r o u n df l o o ro ft h ed i g i t a li m a g ef e a t u r ee x t r a c t i o n,v i d e oc a m e r ac u t t i n g,ak e yf r a m ee x t r a c t i o na n dv i d e os c e n e so f(v i d e oc a m e r ac l u s t e r i n g),a n db a s e do nf u z z ys e t so ff u z z yc l u s t e r i n ga n a l y s i s C u t t i n gt h ev i d e oc a m e r a,t h ep a p e ri sb a s e do nt h eo v e r a l lh i s t o g r a mm e t h o d I nv i d e os h o td e t e c t i o no nt h eb a s i so fv i d e ok e yf r a m ee x t r a c t i o nt h r o u g ht h el e n sc h a r a c t e r i z e dv i d e oc a m e r a C o m m o nk e yf r a m es e l e c t i o na l g o r i t h m,a n ds o m es e l e c t e dk e yf r a m et h en u m b e ro ff i x e dv i d e oc a m e r ac a nn o tf u l l yr e f l e c tt h ec h a n g e si nt h ec o n t e n t,w h i l et h e r ea r es o m ek e yf l a m es e l e c t i o nt o om a n ys h o r t c o m i n g s B yu s i n gi n f o r m a t i o nt h e o r y,t h em e a n i n go ft h ee n t r o p y,d e s i g n,w h i c hi sb a s e do ng r a y。s c a l ei m a g ee n t r o p yk e yf r a m ee x t r a c t i o na l g o r i t h ma n dT e s ts h o w st h a tt h ea l g o r i t h mw i l lb ea b l et oo v e r c o m et h et r a d i t i o n a lc o n t e n t b a s e da n a l y s i so ft h ek e yf l a m ee x t r a c t i o na l g o r i t h mi nt h ek e yf l a m ee x t r a c t i o nt o om a n ys h o r t c o m i n g s,w h i l et h ec o n t e n t so ft h el e n si na c c o r d a n c ew i t ht h ea p p r o p r i a t en u m b e ro fc h a n g e st or e t a i nk e yf l a m e K e yf l a m er e f l e c t so n l yt h ec o n t e n t so fas c e n e As i n g l ev i d e oc a m e r ao f t e nd on o tr e f l e c tt h ec o m p l e t ev i d e os e m a n t i ci n f o r m a t i o n,t h e r e f o r e,r e q u i r e st h el e n so nt h eb a s i so fah i g h e rl e v e lo fv i d e ou n i tt oe s t a b l i s hau n i tf o rt h es c e n es a i dt h es e m a n t i cl e v e lv i d e os t r u c t u r e T h i sp a p e rs t u d i e st h ec o m m o nc l u s t e r i n ga l g o r i t h m,a n du s i n gf u z z ym a t ht h e o r yt o o l s,ad e s i g nb a s e do nf u z z yc l u s t e r i n gv i d e os e m a n t i ca n a l y s i sa l g o r i t h m s T h ea l g o r i t h mc a np r o v i d ed i f f e r e n tc l u s t e r i n ga c c u r a c yo ft h eo u t p u t K e y w o r d s:M e d i aA s s e tM a n a g e m e n t,I n t e l l i g e n tI n f o r m a t i o nR e t r i e v a l,V i d e oS h o tD e t e c t i o n,K e yF r a m e,F u z z yC l u s t e r i n gI I学位论文独创性声明本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文中引用他人的成果,均已做出明确标注鼓得到许可。论文内容未包含法律意义上已属于他人的任何形式的研究成果,也不包含本人己用于其他学位申请的论文或成果,与我一闻工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文知识产权权属声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属山东轻工业学院。由东轻工监学院享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,本人离校后发表或使用学位论文或与该论文直接褶关的学术论文或成果时,署名单位仍然为山东轻工业学院。论文侔者签名:銎二丕l 缉隰丝巫年五月丝日导师签名:山东轻工业学院硕十学位论文第1 章绪论1 1 引言随着数字化时代的到来和多媒体技术的发展,电视螽和音像资料馆积累了海量的音视频素材,尤其是那些时代久远具有历史价值的素材,更是成为电视台等所有者宝贵的财富。如何对这些海量的音视频资料进行存储、管理、检索和再利用就变成了一个棘手的问题。传统的方法是将记录有内容的录像带羹占上标签,存放于带库架子上。等需要时,再根据标签上的内容进行相应的查找。媒体资产管理(M e d i aA s s e tM a n a g e m e n t)系统H 五引,正是针对这一麓题提高的一整套解决方案,是套完整的数字媒体资产存储、管理、发布的解决方案。(1)构建媒体资产管理系统所要解决的现实问题瞄前大多数电视台的节目资料基本还是以模拟形式保留在磁带上,因此遇到很多闯题。资料保存寿命受到制约。原因l:由模拟录像带本身的缺陷造成。模拟录像带由于不可避免磁粉脱落,其寿命与使用的次数成反比。越是重要的节目,保存时闻反而越短。由于使用中对录像带的损坏程度是无法量他的,所以无法精确的估计录像带的真正寿命。原因2:由录像带播放设备的更新换代造成。目前许多电视台在设备升级换代的同时,还不得不保留一些老式录像机读取老式磁带上的信息。资料检索困难。在现有节目存储系统查找素材主要分两步,一是要首先找到存储相关节舀的录像带,然艏再从录像带中找到相应的信息。为了制作一个新的节豳,通常需要从几十盘录像带中截耿片段。找到了所需要的录像带,只是完成了检索工作量的2 0,然焉就需要顺序查找每盘录像带的节冒片段,通常一个小时的录像带上有用的节目只有几十秒。由于有用的节网片段可能在录像带的任何位置,为了找到这个片段所需要的平均时闻在理论上应该是录像带总长度的一半,但实际上用户经常需要反复查找、比较之后才能找到有用的片段,所以实际上找到这片段所需要的时间经常是录像带总长度的一点五至两倍。资料共攀不方便。目前电视台现实音视频信息的共享途径主要有两种:使用最多的是借用录像带,这是最不可取的一种方式,因为每个用户在一段时间内需要独占地使用他们新借阅的录像带,褥且录像带每借阕一次,寿命都会缩短。另外种方式是复制录像带,这种方式的优点是可以多个人同时使用,而且可以延长录像节冒的寿命,这还是隧前不同的电视台之闽交流录像节躁的主要方式。(2)电视台媒体资产管理的特点电视台的主要业务是节目生产,因此音视频信息是电视媒体信息的最主要部第l 章绪论分,当然还包括文稿、解说词、图片、拍摄脚本、编目信息等。保存价值高。音视频信息是用来记录重大事件和人物的最重要的手段。我国的各级电视台在其各自发展历史中,都积累了一定数量的珍贵素材。音视频资料拍摄制作编辑设备复杂,生产成本远大于文字资料。另外许多十分珍贵的历史镜头和声音均无法重新制作,重复利用要求较高。这些历史资料随着时间的推移,应用次数越多,应用所产生的价值增量越大,重复利用价值越高,甚至可能超过电视台固定资产的价值。电视台的现有音像节目主要通过再利用体现其价值。数据存储量大。数字化后的音视频数据存储量=节目时长术压缩码率,其中压缩码率主要由质量要求和编码格式决定。例如:2 0 0 0 小时的节目素材,采用M P E G 压缩码率定为2 5 M b S,总存储量约为2 0 T B。全国大中型电视台都已积存了万级以上小时的素材资料。另外由于数据量大从而给传输、存储、检索带来极大的压力。从技术实现角度考虑这是音视频媒体数据区别于其他类型数据的最主要特点。数据关系复杂。每一个电视节目其相关信息都涉及到视频、音频、图文、检索等信息,各种数据之间构成了很复杂的关系。(3)媒体资产管理系统的核一t 3 功能及工作流程媒体资产管理系统的核心功能:(i)通过采集和对素材源进行数字化,创建不同格式、不同应用码率的数字素材。(i i)通过自动化的分析比较系统(手动辅助),提取素材中的关键帧信息。(i i i)通过中央数据库系统,管理提取出来的关键帧、重要的元数据和描述关键字信息。(i v)通过分类编目系统,对素材进行分层次的分类编目工作,层次化的工作至少要保证该素材在以后需要时可以方便准确的被检索出来。(V)通过浏览检索端,以搜索引擎的方式方便、准确的查找到所需要的素材。(v i)通过浏览检索端,浏览所找到的素材,标志入出点,准备重复使用符合要求的素材。(v i i)导出选择好的素材,通过在线精编辑工作站点或者离线软编辑工作站点进行制作。(V i i i)通过存储系统和分级存储管理,存储媒体资产。媒体资产管理系统的工作流程:产生阶段一应用阶段一结束阶段媒体资产管理系统是针对媒体资产整个生命周期进行管理形成闭环,尽可能延长应用期的时间,以发挥媒体资产的价值。2山东轻工业学院硕十学位论文电视台媒体资产管理系统是从“频道管理到“内容管理 的变革。这种业务实现手段的提升和业务管理思想的变革,为电视台带来的结果是以内容为商务核心的运营模式。媒体资产管理的实质是:只须创建资产内容一次,然屠就可以以不同的形式,在不同的环境下进行管理,使内容被重用和再销售的机会大大增加。在信息为王的时代,当这种资源被充分发掘时,必将成为广播电台、电视台图书资料音像馆的一笔非常庞大的理想资产。1 2 传统检索方法在媒体资产管理系统中的应用1 2 1 传统检索方法简介传统的检索方法即:基于文本的检索(T B R)。通常,媒体资产管理系统在检索节因、素材、片段、场景、镜头时都是采用基于文本检索(T e s t B a s e d R e t r i e v a l)的方式,也就是针对节目、素材、片段、场景、镜头等视频资料运用数据库技术,并结合广播电视音像资料编目规范进行人工标注。查询时,根据查询关键词去精确地匹配人工标注。其检索过程如图l。l 所示:图1 1 传统媒资管理系统的检索流程1 2 2 传统检索方法豹局限性传统的检索方法有其自身难可以克服的局限性【4】,在查询相关的视频信息时仅仅使用了文字或标签,面没有使用底层或中层与感知相关的信息。但是用文字描述与感知相关的信息是很难的,文字标签难以表达蕴藏在多媒体数据中丰富的内容,在查询图像、视频时常会出现错误。其次,文字描述是种特定的抽象,如果描述的标准改变,则标签也得重新制作么能适合新查询的要求,即:特定的标签只适合特定的查询要求。辩次,目前这些文字标签是靠观察者选出来加上去的,因此受主观因素影响很大,不同的观察者或同一观察者在不同条件下对同一幅图像可能给出不同的描第1 章绪论述,因此不够客观,没有统一标准。最后,采用这种方式,标注工作量巨大,不适用于大规模的数据集合。1 3 智能检索技术在媒体资产管理系统中的应用1 3 1 媒体资产管理系统中智能检索技术的定义近年来,智能化检索技术开始用于多媒体信息的检索【5,6】。所谓智能化检索技术,是根据媒体对象的内容语义及上下文联系的特征进行检索,如图像的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音调、响度、音色等,简言之,就是根据媒体对象内容的各种特征进行直接检索,找到具有指定特征或含有特定内容的音视频资料。它区别于传统的基于文本的检索手段,融合了图像理解、模式识别、计算机视觉处理等技术,具有如下特点:(1)不需要额外的人工添加大量的文本注释信息,而且可以克服T B R 中的主观性和不完备性,它直接从视频内容中提取信息线索,比如提取视频数据关键帧的形状、颜色、纹理等特征,而后对特征进行匹配。(2)与基于文本的T B R 常规检索去精确地匹配关键词有明显不同,基于内容的智能化检索是一种近似匹配,通过采用近似性匹配逐步求精,以不断逼近查询目标。(3)特征提取和索引建立可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。(4)检索结果通常是按匹配程度以从大N d,的顺序返回给用户的结果集。对原始视频信息中提取的特征进行定义和描述,从而能对数据进行分类和检索,是实现智能化检索技术的关键。在媒体资产管理的智能化检索系统中,一方面,编目人员可以在离线状态下通过一定的方法对数据库内容进行注解,另一方面系统也可自动地对数据库图像或视频进行分析,提取特征,从而提供出在线应用时所需的多位索引。用户不仅可以借助文字查询方法,也可以借助视觉浏览和视觉范例查询方法利用搜索引擎进入索引进行检索,返回的结果仍可以用可视化的手段显示给用户,使用户能借助相关反馈开始新一轮查询。其工作流程如图1 2 所示;4山东轻工业学院硕士学位论文图1 2 媒资管理系统孛智麓化检索麓流程1 3 2 国内外冬系统的应用现状媒体资产管理系统中的智能检索技术是一项新起的技术,目前基于内容的智能检索系统正逐步进入实用阶段,国际国内上相应的公司已开始对其进行研究并开发出相应的系统,比较成型的有:(1)I B M 公司的Q B I CQ B I C(Q u e r yB yI m a g eC o n t e n t)是由美国l B M 公司著名的A l m a d e n 实验室开发的。它是因前应用最多的图像检索系统,如旧金山现代艺术博物馆以及法国的文化部的机构等。Q B I C 提供了三种属性检索功能:颜色属性、纹理属性和形状属性,检索效率非常离。颜色属性的检索包括颜色百分比检索和颜色分布检索。利用颜色的酉分比检索,用户可以检索到具有相似颜色或者比例的图像,而利用颜色分布检索,可以进一步检索到不仅颜色相似而且颜色分布也相似的图像。纹理检索是对图像中线条的粗糙性、对比性、方向性三者的综合考虑。形状属性检索包括对象形状检索和轮廓检索。Q B I C 除了上面的基于态容的检索外,还辅以文本检索手段。例如为 瑟金由现代艺术博物馆的每件作品给以标准信息描述:作者、标题、曰期等等。许多作品还有内容的鸯然描述。(2)V I R A G E 公司的V I R 图像引擎V I R A G E 公司的V I R(V i s u a lI n f o r m a t i o nR e t r i e v a l)图像引擎提供了网项可视图像属性弓l 擎检索(颜色、成分、纹理和形状)。每种属髓被赋予0 1 0 的权值。通过颜色检索是最简单明了的,该软件对选出的基础图像的色调、色彩以及饱和度进行分析,然蔗在图像库中查找与这些颜色属性最接近的图像。成分(C o m p o s i t i o n)特性指相关颜色区域的近似程度。用户可以设置一个或者多个属性权值来优化检索。要达到最往平衡度要经过5第1 章绪论多次反复试验,但检索过程是相当快的。在结果显示矩阵中可以选择查看3、6、9、1 2、1 5 或者1 8 幅简图。通过对四个属性值的调整,显示出不同的检索结果。简图是根据相似度降序排列。点击简图标题将得到该图的详细说明,包括V i r a g e 计算出的相似度。(3)T V-F I 系统T V-F I(T i n g h u aV i d e oF i n dI t)是由清华大学开发的一套视频节目管理系统。该系统提供如下几个功能:视频数据入库、基于内容的浏览、检索等。T V-F I 提供多种视频数据访问模式,例如基于关键字的查询、基于示例的查询、按视频结构浏览等等。(4)C O K E 系统新加坡国立大学开发的一个基于内容的检索系统。其显著技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。1 4 本文的主要研究工作媒体资产管理系统中的智能检索技术涉及多方面的技术:多媒体技术、数字图像处理技术、数据库技术等等。本文从媒资管理系统对智能化检索的要求出发,系统的研究了数字图像底层特征提取、视频镜头切割、关键帧提取、视频场景合成(视频镜头聚类)以及基于模糊集的模糊聚类分析技术等。对于视频镜头切割,本文采用了基于全局的直方图的方法。在镜头切割的基础上,提出了一种基于图像灰度熵的关键帧提取算法。该算法在传统的基于内容分析的关键帧提取算法的基础上,利用图像熵的概念,克服了传统的基于内容分析的关键帧提取算法存在的关键帧数目提取过多的缺点。在完成关键帧提取后,通过聚类技术将单个的没有意义的镜头关键帧合成为具有语义信息的视频场景。本文通过对现有的聚类算法的研究,以模糊数学为工具,提出了一种基于模糊集的视频语义分析算法。1 5 本文组织结构论文共分六章,具体章节安排如下:第1 章绪论。该章系统的介绍了本文研究背景,分析了媒资管理系统中对智能化检索技术的要求,同时介绍了现有的智能化的媒资管理系统。第2 章视频结构分析。该章给出了数字视频的定义,同时详细介绍了常用的M P E G 视频结构,包括M P E G 视频帧类型、帧编码原理等。第3 章视频镜头检测及关键帧的抽取。本章介绍了常见的视频镜头检测的切割算法以及镜头关键帧的提取算法,同时在前人的基础上提出了一种基于图像熵6山农轻工业学院硕一卜学位论文的关键帧提取算法。第4 章视频镜头聚类与视频分析。本章详细介绍了现有的聚类算法以及模糊数学的相关知识,同时利用模糊数学中的模糊聚类分析技术,提您了一种基于模糊聚类的视频语义分析算法。第5 章系统设计与实现。本章根据媒体资产管理系统对检索煦务的要求,对系统进行了实现,并详细介绍了各个模块的功能。第6 章总结与展望。该章对论文的工作做了系统的总结,同时指出了迸一步研究的方向。7第2 章视频结构分析第2 章视频结构分析2 1 视频定义视频 7,8,9,1 0,I I,1 2】(v i d e o)是一个来自于广播电视行业的术语,原来主要指模拟的、快速更新(利用人的视觉停留效应产生动感)的画面,与静止图像不同视频是活动的图像。当以一定的速率将一幅幅画面投射到屏幕上时,由于人眼的视觉暂留效应,我们的视觉就会产生动态画面的感觉,这就是电影和电视的由来。对于人眼来说,若每秒播放2 4 格(电影的播放速率)、2 5 帧(P A L 制式电视的播放速率)或3 0 帧(N T S C 制式电视的播放速率)就会产生平滑和连续的画面效果。简单的说,视频就是一系列活动的图像。现在所说的视频是指能够被计算机识别和处理的数字视频。正如像素是一幅数字图像的最小单元一样,一幅幅图像组成了视频,图像是视频的最小和最基本的单元,每幅图像称为一帧(f l a m e)。视频是一类重要的视觉信息源,它不仅包含静止图像所包含的内容,还包含场景中目标运动的信息和客观世界随时间变化的信息。由于视频数据与其它数据在形式、结构、内涵等方面都不同,所以视频数据有许多特点。与静止图像相比,视频的结构更为复杂,数据量也更大,对于基于视频内容的智能检索的要求也更高。2 2 数字视频压缩2 2 1 视频结构描述对于视频的结构化划分,所采用的标准不统一,所使用的名称也不尽相同,但是总的来说,视频数据的划分是采用分层结构,结构粒度从上到下逐渐减小。顶层是粒度最粗的视频,即一段视频流。最底层是粒度最细的帧,即单个的组成视频的一幅图像。镜头是一组时间上连续的帧序列,它代表一个场景中在时间上和空间上连续的动作,对应着摄像机一次记录起停操作,也称剪裁或者拍摄。场景(s c e n e)是一组语义上相关联及在时间上相邻的镜头的集合。也有人从语义理解的角度出发,将场景或者若干场景的组合称为情节或者故事单元(s e q u e n c e):也有人提出在语义场景层和物理镜头层之间加入组层,作为连接两者的纽带,比如时间上临近的镜头,或视觉上相似的镜头,由不同的组层组合成语义联系的场景。视频数据的结构化层次表示如图2 1 所示。8山东轻T 业学院硕士学位论文图2 1 视蕨数据的结构他缮次表示2 2。2 视频压缝的方式未经压缩的视频文件,其数据量是臣大的。以一幅7 2 0*5 7 6 分辨率的图像为倒,假定图像的像素比特为2 4 b i t S 像素,每秒传送2 5 帧图像,那么需要传送的数据率达3 1 1 0 4 M B S,即2 4 8 8 3 2 M b i t S,而存储1 分钟这样的数据则需要1 8 6 6 2 4 M B的存盘空间,现有的网络和存储设备都是无法承受的。为此,在不太明显影响画面质量的情况下,需要对视频文件进行雁缩雏引。图像压缩实际上就是尽可能的减少原始图像数据的信息冗余,这些冗余主要包括编码冗余、像素冗余和心理感知冗余等。编码冗余,指在对图像进行编码过程中,没有考虑像素灰度值的分布,对所有像素采用相同长度的码字编码。采用变长码编码V L C(V a r i a b l eL e n g t hC o d i n g)技术(如哈夫曼编码)可以去除这样的冗余信息。编码的基本思路是:统计图像中各个灰度值的出现概率,对于出现概率大的灰度值采用短字长的码,对于出现概率小的灰度值采用长字长的码,以达到缩短平均码长、压缩编码数据的目的。像素冗余,指图像数据中各像素在空间上高度相关性,存在大量的冗余信息,挖掘这类冗余信息的方法是将像素间的关联信息转换为可反应这种关联关系的形式,如离敖余弦变换D C T(D i s c r e t eC o s i n eT r a n s f o r m)。心理感知冗余,指人们的视觉对所有可视信息的感知程度并非完全一样,比如对D C T 变换结果中直流成分和低频交流成分的感知强,诱对高频交流成分的感知弱,因此,可以消除这样的冗余以求进一步提高压缩程度。(1)峻闻压缩9第2 章视频结构分析帧间压缩又称时间压缩。视频帧可以看作为图像集在时间序列上的有序组合,视频图像除了图像本身特有的冗余信息以外,还包括图像间的冗余信息,即相邻的视频图像往往具有相同或相似的空间和视觉特征分布,因此后一帧图像在很大程度上可以通过前面的图像数据进行预测和还原,从而达到视频数据高度压缩的目的。反之,经压缩编码后的视频数据,其压缩信息既反应了视频图像本身的冗余信息,也反应了视频图像间的冗余信息,这样的压缩信息非常有助于视频图像的特征分析。(2)帧内压缩对视频图像序列进行了帧间压缩之后,数据量还是巨大,这就需要用帧内压缩技术来对每一帧图像进行压缩。帧内压缩又称空间压缩,是对图像帧中的数据进行压缩,所以帧内压缩时只考虑本帧的数据而不考虑相邻帧问的冗余关系,各帧之间没有相互关联,所以压缩后的视频数据仍要以帧为单位进行编辑。帧内压缩一般很难达到高的压缩比。帧内压缩采用是有损压缩,通过牺牲画面的质量来达到降低视频数据大小的目的。(3)运动补偿对视频压缩而言,移动视频图像要比重新编码一个图像帧容易的多,很多时候往往采用运动补偿技术来降低数据编码量。实现运动补偿时,首先将视频帧划分成一个个的小方块(每个方块的大小从4*4 到1 6 1 6 不等)。编码解码器比较相邻的图像块,判断它是否发生移动。当编码解码器探测的结果是匹配的或者是近似匹配的,它将重复使用前一帧的数据,而不是重新进行编码。该方法可以显著降低编码量,但是计算复杂,运算量大,因为每个小块都要同其他的相邻小块进行比较,这就增加了运算开销。2 3M P E G 视频数据格式定义2 3 1M P E G 简介国际标准化组织I S O(I n t e r n a t i o n a lS t a n d a r d sO r g a n i z a t i o n)和国际电工委员会I E C(I n t e r n a t i o n a lE l e c t r o n i cC o m m i t t e e)于1 9 8 8 年联合成立了动态图像专家组M P E G(M o v i n gP i c t u r eG r o u p)专门从事运动图像(M P E G 视频)及其伴音(M P E G音频)编码的标准化工作。M P E G 是运动图像压缩算法的国际标准,现已被几乎所有的P C 机平台共同支持。M P E G 是一个成员众多的标准集合【1 4,1 5,1 6,1 7 ,包括:(1)运动图像及其伴音编码国际标准M P E G 1M P E G-1 标准制定于1 9 9 2 年,是为1 5 M b i t S 以下传输率的数字存储媒体设计的运动图像及其伴音标准,主要用于在C D R O M 存储彩色的同步运动视频图像。l O山东轻工业学院硕十学位论文同时,它还被用于数字电话网络上的视频传输,如非对称数字用户线(A D S L)、视频点播(V O D)等。M P E G l 的数据流由系统流、视频流和伴音流三个部分组成。系统流实现图像和伴音的同步:视频流描述视频图像的压缩信息;伴音流描述伴音的压缩信息。入们熟知的M P 3 郎为该标准部分,由于其良好的音质特性,M P 3 已经独立于M P E G 1 的视频部分而得到广泛的应用。M P E G-1 的视频部分规定了视频数据的合法码流输入格式,指定了编码数据流的表示语法和编码方法。该标准采用了三种基本压缩技术:视频图像帧与帧问在时域上的运动补偿M C(M o t i o nC o m p e n s a t i o n);帧内空域上基于块的离散余弦变换D C T;变长码编码V L C(当前采用的是哈夫曼编码)。M P E G 1 中没有定义产生编码数据流所需的详细算法,也没有对运动估算算法和压缩模式选择统一的准则。另外褐流解码时所需的解码参数也包含在码流自身中,这些特点为编码器设计提供了大量灵活性。臻)高质量运动图像编码国际标准M P E G 一2M P E G 1 的制定主要针对音视频数据的存储,没有顾及数据的传输需要,其码流数据对信道的容错性能不是很好。M P E G-2(I S O f l E C1 3 8 18)标准制定于1 9 9 6年,是针对3-8 0 M b p s 的视频数据传输制定的运动图像及其伴音编码国际标准。由于M P E G 2 可以在一个较广的范围内改变压缩比,以适应不同画面质量、存储内容和带宽的需求,因此M P E G 一2 除了具备M P E G。l 的所有编码特点以外,还具有其本身的优越性,体现在:M P E G 2 数据可以在高噪声的媒体中存储或在容易丢失数据包的傣道中传送。M P E O 2 可以在一个较广的范围内改变压缩比,以适应不同域面质量。M P E G 2 除了支持接收类似于M P E G 1 中图像逐行扫描的输入(也称为帧图),也支持接收隔行扫描的输入(也称为场图)。为了适应网络传输的需要,M P E G 2 支持蹰种方式的可扩展视频编码:时域可扩展编码,空间域可扩展编码,S N R 可扩展编码和数据分割。(3)面向音褫对象的编码标准M P E G 4M P E G 1 2 的视频部分都是基于运动补偿和块编码的视频数据压缩标准,M P E G 2 在某种程度上可以认为是M P E G 1 的增强版,与其完全兼容。1 9 9 9 年l O月正式公布的M P E G 4 标准与M P E G 1 2 的设计理念很大程度的不同,它们完全不兼容。M P E G 4(I S o I E C1 4 4 9 6)引入了一个关键概念:音视对象A V(A u d i oV i d e oO b j e c t s)。A V 对象的提出是为了使新标准支持基于内容的编码,A V 对象的编码是M P E G 一4 的核心编码技术。在M P E G 4 中所见的视频音频已经不再是过去M P E G 1 2 中的图像帧或音频帧概念,丽是听觉、褫觉、或视听内容的表示单元。第2 章视频结构分析M P E G 4 中最基本的单元是A V 对象,它可以是自然的或合成的声音、图像,原始A V 对象又可以进一步组成复合A V 对象,整个M P E G 4 就是围绕如何高效编码A V 对象、如何有效组织、传输A V 对象而制定的。A V 对象的提出,使多媒体通信具有高度的交互能力和很高的编码效率。(4)多媒体内容描述接口M P E G 7继M P E G 4 之后,视频压缩标准要解决的问题是对日益庞大的图像、声音信息的有效管理和快速查询,针对这样的需求,M P E G 组织提出了解决方案M P E G 7,并于2 0 0 1 年9 月发布了该标准。M P E G 一7 是对多媒体内容(重点为音视频A V 信息)描述和管理的标准化内容描述接口,用以实现多媒体信息的索引、选择、过滤、检索等。M P E G 7 既非用于特征提取的标准,也非类似于M P E G 一1 2 4 的多媒体压缩标准,而是各种音视频信息的内容描述。M P E G 一7 建立了各种类型多媒体信息的标准描述方法,这种描述与内容关联在一起,支持使用者对感兴趣的材料的快速、高效检索,包括静止画面、图形、声音、运动视频以及这些元素合成的多媒体信息,还包括上述数据类型中的特例如图像中人的面部表情、人物特点等。(5)多媒体框架M P E G 一2 12 0 0 0 年6 月正式批准制定。正式名称为多媒体框架(M u l t i m e d i aF r a m e w o r k)。M P E G 2 1 的任务是创建一个开放的多媒体传输和消费框架,使用者可以是任何个人、组织、团体或公司。在其中,使用者拥有自己的权力,包括用户出版发行内容的保护、使用权和隐私权等。M P E G 21 建立在其他标准基础之上,集成了M P E G 系列的其他标准。该标准使用户对多媒体的处理更加方便和有效,最终为多媒体信息的用户在全球范围内提供透明而有效的多媒体通信应用环境。M P E G 2 1 和现有的标准统一起来,消费者将可以自由使用多媒体内容而不会被不兼容的格式、编解码器、媒体数据类型等等诸如此类的干扰。M P E G 2 1 目前正与其它相关标准论坛合作寻求尽可能多地使用现有的标准,使其达到综合应用的目的。2 3 2M P E G 视频结构描述M P E G(只限M P E G 1、M P E G 一2)视频流是一个逐级分层结构。表2 1 列出了M P E G 2 视频比特流的体系层。1 2山东轻工业学院顾十学位论文表2 1M P E G-2 视频比特流的体系