欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    视频数据的基本压缩编码技术与MPEG系列标准.doc

    • 资源ID:3572053       资源大小:87KB        全文页数:10页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    视频数据的基本压缩编码技术与MPEG系列标准.doc

    视频数据的基本压缩编码技术与MPEG系列标准1 Huffman编码、算术编码、行程编码的原理、算法及适用范围。1.1 Huffman编码HUFFMAN编码又称哈夫曼编码,是一种可变长编码方式,是由美国数学家David Huffman创立的,是二叉树的一种特殊转化形式。编码的原理是:将使用次数多的代码转换成长度较短的代码,而使用次数少的可以使用较长的编码,并且保持编码的唯一可解性。Huffman算法的最根本的原则是:累计的(字符的统计数字*字符的编码长度)为最小,也就是权值(字符的统计数字*字符的编码长度)的和最小。由于Huffman编码需要扫描两次,第一次是统计数字,第二次是编码写文件,大大影响了速度,因此有人发明了enhanced Huffman aglorithm。这种算法只扫描一遍文件,动态产生Huffman树,即每读n个字节就重新编码一次Huffman树,以达到提高速度的目的。在解码的过程中使用动态还原技术。Huffman编码是Huffman树的一个应用。Huffman编码应用广泛,如JPEG中就应用了Huffman编码。 1.2 算术编码算术编码是图像压缩的主要算法之一。 是一种无损数据压缩方法,也是一种熵编码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入的消息分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一个数,一个满足(0.0 n < 1.0)的小数n。在给定符号集和符号概率的情况下,算术编码可以给出接近最优的编码结果。使用算术编码的压缩算法通常先要对输入符号的概率进行估计,然后再编码。这个估计越准,编码结果就越接近最优的结果。算术编码是用符号的概率和它的编码间隔两俩个基本参数来描述的(见下文教程)。算术编码可以是静态的或是自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改。 在编码期间估算信源符号概率的过程叫建模。需要开发动态算术编码的原因,是因为事先知道精确的信源符号概率是很难的,而且是不切实际的。动态建模是确定编码器压缩效率的关键。算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。在算术编码中,消 息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码 间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这 些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。1.3 行程编码仅存储一个像素值以及具有相同颜色的像素数目的图象数据编码方式称为行程编码,或称游程编码,常用RLE(Run-Length Encoding)表示。该压缩编码技术相当直观和经济,运算也相当简单,因此解压缩速度很快。RLE压缩编码尤其适用于计算机生成的图形图像,对减少存储容量很有效果。行程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时,一次记录该代码及相同代码重复的个数,从而实现数据的压缩。在此方式下每两个字节组成一个信息单元。第一个字节给出其后面相连的象素的个数。第二个字节给出这些象素使用的颜色索引表中的索引。例如:信息单元03 04,03表示其后的象素个数是3个,04表示这些象素使用的是颜色索引表中的第五项的值。压缩数据展开后就是04 04 04 .同理04 05 可以展开为05 05 05 05. 信息单元的第一个字节也可以是00,这种情况下信息单元并不表示数据单元,而是表示一些特殊的含义。这些含义通常由信息单元的第二个字节的值来描述。在对图像数据进行编码时,沿一定方向排列的具有相同灰度值的像素可看成是连续符号,用字串代替这些连续符号,可大幅度减少数据量。 行程编码分为定长行程编码和不定长行程编码两种类型。 行程编码是连续精确的编码,在传输过程中,如果其中一位符号发生错误,即可影响整个编码序列,使行程编码无法还原回原始数据。如果一幅图象是由很多块颜色相同的大面积区域组成,那么采用行程编码的压缩效率是惊人的。然而,该算法也导致了一个致命弱点,如果图象中每两个相邻点的颜色都不同,用这种算法不但不能压缩,反而数据量增加一倍。所以现在单纯采用行程编码的压缩算法用得并不多,PCX文件算是其中的一种.2 预测编码的基本原理、DPCM编码原理、最佳线性预测、自适应预测编码、自适应帧间预测等相关内容。2.1预测编码预测编码对有记忆信源的剩余度进行压缩的一种时域编码方法。预测编码是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准确,误差就会很小。在同等精度要求的条件下,就可以用比较少的比特进行编码,达到压缩数据的目的。预测编码中典型的压缩方法有脉冲编码调制(PCM,Pulse Code Modulation)、差分脉冲编码调制(DPCM,Differential Pulse Code Modulation)、自适应差分脉冲编码调制(ADPCM,Adaptive Differential Pulse Code Modulation)等,它们较适合于声音、图像数据的压缩,因为这些数据由采样得到,相邻样值之间的差相差不会很大,可以用较少位来表示。2.2 DPCM编码在PCM系统中,原始的模拟信号经过采样后得到的每一个样值都被量化成为数字信号。为了压缩数据,可以不对每一样值都进行量化,而是预测下一样值,并量化实际值与预测值之间的差值,这就是DPCM(Differential Pulse Code Modulation,差分脉冲编码调制)。1952年贝尔(Bell)实验室的C. C. Cutler取得了差分脉冲编码调制系统的专利,奠定了真正实用的预测编码系统的基础。 DPCM系统工作时,发送端先发送一个起始值x0,接着就只发送预测误差值ek = xk xk,而预测值xk可记为 xk = f(x1,x2, x N,k), k > N (04-01-1) 式中k > N表示x1,x2, x N的时序在xk之前,为所谓因果型(Causal)预测,否则为非因果型预测。 接收端把接收到的量化后的预测误差ek 与本地算出的xk相加,即得恢复信号xk。如果没有传输误差,则接收端重建信号xk与发送端原始信号xk之间的误差为: xk - x k = x k - ( xk + ek ) = ( xk - xk ) - ek = ek - ek = qk (04-01-2) 这正是发送端量化器产生的量化误差,即整个预测编码系统的失真完全由量化器产生。因此,当xk已经是数字信号时,如果去掉量化器,使ek = ek,则qk = 0,即xk = xk 。这表明,这类不带量化器的DPCM系统也可用于无损编码。但如果量化误差qk 0,则xk xk,为有损编码。 如果预测方程式(04-01-2)的右方是各个xi的线性函数,即 N x k = ai(k) x i k > N (04-01-3) i=1 即得常用的线性预测,又称线性预测编码(LPC,Linear Predictive Coding)。LPC在语音处理中得到广泛应用,并在此基础上发展了许多算法,典型的有:多脉冲线性预测编码(MPLPC),规则脉冲激励编码(RPE),码激励线性预测(CELP),代数激励线性预测(ACELP),矢量和激励线性预测(VSELP),QCELP(Qualcomm CELP,变速率CELP),低延时码激励线性预测(LD-CELP),共轭结构代数激励线性预测(CS-ACELP),混合激励线性预测(MELP),间隔同步更新码激励线性预测(PSI-CELP),松弛码激励线性预测(RCELP),残差激励线性预测(RELP),规则脉冲激励长时预测(RPE-LTP)等。 在DPCM中,“1位量化”的特殊情况称为增量调制(调制)。为了能够正确恢复被压缩的信号,不仅在接收端有一个与发送端相同的预测器,而且其输入信号也要相同(都是xk,而不是xk),动作也与发送端的预测器环路(即发送端本地的反量化和解码部分)完全相同。 在图像信号中应用DPCM时,用作预测的像素和被预测的像素可以在同一行,也可以在不同行(同一帧),甚至在不同帧,分别称为一维预测、二维预测和三维预测。声音信号中的预测只是一维预测。 DPCM的优点是算法简单,容易硬件实现,缺点是对信道噪声很敏感,会产生误差扩散。即某一位码出错,对图像一维预测来说,将使该像素以后的同一行各个像素都产生误差;而对二维预测,该码引起的误差还将扩散到以下的各行。这样,将使图像质量大大下降。同时,DPCM的压缩率也比较低。随着变换编码的广泛应用,DPCM的作用已很有限。2.3最佳线性预测如果对一个随机效应(如个体育种值)的预测具有线性(预测量是样本观察值的线性函数)、无偏(预测量的数学期望等于随机效应本身的数学期望)和预测误差方差最小等统计学性质,则称其为最佳线性无偏预测。2.4自适应预测编码预测参数的最佳化依赖信源的特征,要得到最佳预测参数显然是一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性能。为了能使性能较佳,又不致于有太大的工作量,可以采用自适应预测。 为了减少计算工作量,预测参数仍采用固定的,但此时有多组预测参数可供选择,这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数需根据特征来自适应地确定。为了自适应地选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应地变化,以达到准最佳预测。2.5自适应帧间预测帧间预测编码是利用视频图像帧间的相关性,即时间相关性,来达到图像压缩的目的,广泛用于普通电视、会议电视、视频电话、高清晰度电视的压缩编码。 在图像传输技术中,活动图像特别是电视图像是关注的主要对象。活动图像是由时间上以帧周期为间隔的连续图像帧组成的时间图像序列,它在时间上比在空间上具有更大的相关性。大多数电视图像相邻帧间细节变化是很小的,即视频图像帧间具有很强的相关性,利用帧所具有的相关性的特点进行帧间编码,可获得比帧内编码高得多的压缩比。对于静止图像或活动很慢的图像,可以少传一些帧,如隔帧传输,未传输的帧,利用接收端的帧存储器中前一帧的数据作为该帧数据,对视觉没有什么影响。因为人眼对图像中静止或活动慢的部分,要求有较高的空间分辨率,而对时间分辨率的要求可低些。这种方法叫帧重复方法,广泛应用于视频电话、视频会议系统中,其图像帧速率一般为115帧/秒。 采用预测编码的方法消除序列图像在时间上的相关性,即不直接传送当前帧的像素值,而是传送x和其前一帧或后一帧的对应像素x 之间的差值,这称为帧间预测。当图像中存在着运动物体时,简单的预测不能收到好的效果,例如图象的当前帧与前一帧的背景完全一样,只是小球平移了一个位置,如果简单地以第k-1帧像素值作为k帧的预测值,则在实线和虚线所示的圆内的预测误差都不为零。如果已经知道了小球运动的方向和速度,可以从小球在k-1帧的位置推算出它在k帧中的位置来,而背景图像(不考虑被遮挡的部分)仍以前一帧的背景代替,将这种考虑了小球位移的k-1帧图像作为k帧的预测值,就比简单的预测准确得多,从而可以达到更高的数据压缩比。这种预测方法称为具有运动补偿的帧间预测。 具有运动补偿的帧间预测编码是视频压缩的关键技术之一,它包括以下几个步骤:首先,将图像分解成相对静止的背景和若干运动的物体,各个物体可能有不同的位移,但构成每个物体的所有像素的位移相同,通过运动估值得到每个物体的位移矢量;然后,利用位移矢量计算经运动补偿后的预测值;最后对预测误差进行量化、编码、传输,同时将位移矢量和图像分解方式等信息送到接收端。 在具有运动补偿的帧间预测编码系统中,对图像静止区和不同运动区的实时完善分解和运动矢量计算是较为复杂和困难的。在实际实现时经常采用的是像素递归法和块匹配法两种简化的办法。 像素递归法的具体作法是,仍需通过某种较为简单的方法首先将图像分割成运动区和静止区。在静止区内像素的位移为零,不进行递归运算;对运动区内的像素,利用该像素左边或正上方像素的位移矢量D作为本像素的位移矢量,然后用前一帧对应位置上经位移D后的像素值作为当前帧中该像素的预测值。如果预测误差小于某一阈值,则认为该像素可预测,无需传送信息;如果预测误差大于该阈值,编码器则需传送量化后的预测误差、以及该像素的地址,收、发双方各自根据量化后的预测误差更新位移矢量。由此可见,像素递归法是对每一个像素根据预测误差递归地给出一个估计的位移矢量,因而不需要单独传送位移矢量给接收端。 块匹配法是另一种更为简单的运动估值方法。它将图像划分为许多子块,并认为子块内所有像素的位移量是相同的,这意味着将每个子块视为一个“运动物体”。对于某一时间t,图像帧中的某一子块如果在另一时间t-t1的帧中可以找到若干与其十分相似的子块,则称其中最为相似的子块为匹配块,并认为该匹配块是时间t-t1的帧中相应子块位移的结果。位移矢量由两帧中相应子块的坐标决定。 考虑到一定时间间隔内物体可能的运动速度、运动范围和匹配搜索所需的计算量,在匹配搜索时一般仅在一个有限范围内进行。假设在给定时间间隔内最大可能的水平和垂直位移为d h和d v个像素,则搜索范围SR为 其中M、N为子块的水平和垂直像素数。 在块匹配方法中需要解决两个问题:一是确定判别两个子块匹配的准则;二是寻找计算量最少的匹配搜索算法。判断两个子块相似程度的准则可以利用两个块间归一化的二维互相关函数、两子块间亮度的均方差MSE或两子块间亮度差绝对值的均值MAD等。通过对不同判别准则的比较研究表明,各种判别准则对位移矢量的估值精度影响差别不是很大。由于MAD准则的计算不含有乘法和除法运算而成为最常使用的匹配判别准则。MAD准则定义如下: 其中Xk和Xk-1分别表示图像在第k帧和第k-1帧的像素值。当MAD最小时,表示两个子块匹配。 对于匹配搜索算法,最简单和直接的方法就是全搜索方式,即将第k-1帧中的子块在整个搜索区内逐个像素移动,每移动一次计算一次判决函数。总的移动次数为 (2d h + 1)(2d v + 1)。当d h = d v = 6时,总的计算次数为169。显然,全搜索的运算量是相当大的。为了加快搜索过程,人们提出了许多不同的搜索方法,其中应用较广的有二维对数法、三步法、共轭方向法和正交搜索法。这几种方法都基于如下的假设:当偏离最小误差方向时,判决函数是单调上升的,搜索总沿着判决函数值减小的方向进行。上述几种方案所需的搜索步骤和计算点数略有差异,但基本思路是一致的。 通过上面介绍的两种运动矢量估值方法可以看出,像素递归法对每一个像素给出一个估计的位移矢量,因而对较小面积物体的运动估值较为精确。但像素递归法在估值时需要进行叠代运算,从而存在着收敛速度和稳定性问题。块匹配法对同一子块内位移量不同的像素只能给出同一个位移估值,限制了对每一像素的估值精度。但对于面积较大的运动物体而言,采用块匹配法的预测要比采用像素递归法的预测效果好。另外,从软硬件实现角度看,块匹配算法相对简单,在实际活动图像压缩编码系统中得到较为普遍的应用。3 变换编码的基本原理、DCT变换、DWT变换等相关内容。3.1变换编码变换编码不是直接对空域图像信号进行编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换系数进行编码处理。其中关键问题是在时域或空域描述时,数据之间相关性大,数据冗余度大,经过变换在变换域中描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。 在变幻编码中的比特分配中,分区编码是基于最大方差准则;阈值编码是基于最大幅度准则。3.2DCT变换离散余弦变换(DCT)是N.Ahmed等人在1974年提出的正交变换方法。它常被认为是对语音和图像信号进行变换的最佳方法。为了工程上实现的需要,国内外许多学者花费了很大精力去寻找或改进离散余弦变换的快速算法。由于近年来数字信号处理芯片(DSP)的发展,加上专用集成电路设计上的优势,这就牢固地确立离散余弦变换(DCT)在目前图像编码中的重要地位,成为H.261、JPEG、MPEG 等国际上公用的编码标准的重要环节。在视频压缩中,最常用的变换方法是DCT,DCT被认为是性能接近K-L变换的准最佳变换,变换编码的主要特点有: (1)在变换域里视频图像要比空间域里简单。 (2)视频图像的相关性明显下降,信号的能量主要集中在少数几个变换系数上,采用量化和熵编码可有效地压缩其数据。 (3)具有较强的抗干扰能力,传输过程中的误码对图像质量的影响远小于预测编码。通常,对高质量的图像,DMCP要求信道误码率 ,而变换编码仅要求信道误码率 。 DCT等变换有快速算法,能实现实时视频压缩。针对目前采用的帧内编码加运动补偿的视频压缩方法的不足, 我们在Westwater 等人提出三维视频编码的基础上, 将三维变换的结构应用于视频图像压缩, 进一步实现了新的视频图像序列的编码方法。3.3DWT变换离散小波变换(Discrete Wavelet Transform)是指在特定子集上采取缩放和平移的小波变换,是一种兼具时域和频域多分辨率能力的信号分析工具。此变换运用可以缩放平移的小波代替固定的窗进行计算分析,主要应用于信号编码和数据压缩。4 MPEG系列标准的内容、特点和应用简介与比较。4.1MPEG的内容MPEG的全名为Moving Pictures Experts Group/Motin Pictures Experts Group,中文译名是动态图像专家组。MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。 MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。 MPEG-1MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。 MPEG-1层1 数字盒式录音带 MPEG-1层2 DAB,VCD MPEG-1层3 Internet,MP3音乐 MPEG-1 audio layer 1 类型:Audio 制定者:MPEG 所需频宽:384kbps(压缩4倍) 特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层。 优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准) 缺点:频宽要求较高 应用领域:voip 版税方式:Free 备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次: -层1(Layer 1):编码简单,用于数字盒式录音磁带 -层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等 -层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍 MUSICAM(MPEG-1 audio layer 2,即MP2) 类型:Audio 制定者:MPEG 所需频宽:256192kbps(压缩68倍) 特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。 优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准) 缺点: 应用领域:voip 版税方式:Free 备注:同MPEG-1 audio layer 1 MP3(MPEG-1 audio layer 3) 类型:Audio 制定者:MPEG 所需频宽:128112kbps(压缩1012倍) 特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。 优点:压缩比高,适合用于互联网上的传播 缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失 应用领域:voip 版税方式:Free 备注:同MPEG-1 audio layer 1 MPEG-2MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。 MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2按压缩比大小的不同分成五个档次(profile),每一个档次又按图像清晰度的不同分成四种图像格式,或称为级别(level)。五个档次四种级别共有20种组合,但实际应用中有些组合不太可能出现,较常用的是11种组合。这11种组合分别应用在不同的场合,如MPML(主档次与主级别)用在具有演播室质量标准清晰度电视SDTV中,美国HDTV大联盟采用MPHL(主档次及高级别)。 MPEG-2 audio layer 类型:Audio 制定者:MPEG 所需频宽:与MPEG-1层1,层2,层3相同 特性:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。 优点:支持5.1声道和7.1声道的环绕立体声 缺点: 应用领域:voip 版税方式:按个收取 备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。 MPEG-4MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496,它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在48006400bits/s之间,分辨率为176144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。 利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用CD-ROM来保存DVD上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。 MPEG-7MPEG-7(它的由来是1+2+4=7, 因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲,MPEG7并不是一种压缩编码方法,其正规的名字叫做多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用,而是针对被MPEG-7标准化了的图象元素,这些元素将支持尽可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象我们今天查询文本数据库那样。可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。 MPEG21MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念,同年的12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。4.2MPEG的应用远程通信、计算机和电视/电影工业之间的传统界限极为模糊。历史上原本属于某一领域的内容现已渗透到其他两个领域中。视频、声音和通信已进入计算机;交互性进入了电视;视频和交互性则进入了远程通信领域。看起来像一种聚集,实际上并非如此。这三种行业是从不同的技术角度来研究音像应用的。 在当今世界,应对三种主要趋势予以关注: 1、向无线通信发展的趋势; 2、向交互式计算机应用发展的趋势; 3、视听数据的综合应用不断增长的趋势。 对于传统意义上区分的各行业间的交叉,应综合考虑这三种趋势;目前的标准和正在制作的标准没有充分涉及这些新的需求。而MPEG-4的重点就是解决这些需求,即综合三种行业的通用应用,以提供便于交互的音频-视频编码、高压缩比和通用访问能力。为了采用迅速发展的相关技术的优点,MPEG-4标准将保证高度的灵活性和扩展性。 基于内容的交互性包括人与音像画面中有意义的对象相互作用的能力。目前,这种交互作用局限于计算机图形,即人工合成的内容。对于新的交互式音像应用,能够提供与自然的、人工的及自然/人工混合的音像对象的相互作用极为重要。 为了有效使用存储空间和传送带宽,需要有较高的压缩比。对于低比特率的应用,改善压缩效率非常重要。 通用访问能力是指对有用的音像数据的访问可以在存储和传送媒体的很大范围内进行的鉴于移动通信的迅速崛起,通过无线网络进行这种应用的访问尤为重要。 高度的灵活性和可扩展性由句法描述语言来保证,这种句法描述语言称为MPEG-4句法描述语言(MSDL)。MSDL将在下面介绍。 目前的视听标准是为从照相机和麦克风获取的自然内容的编码重现而设计的。由于上述三个领域的相互渗透,人工内容的应用在不断增长。因此,很显然的需求是一种既适合于自然对象又适合于人工对象的模式,它能够用来产生单一的音像序列。 4.3MPEG的应用a.新的或改进的功能 下述8个关键的功能是MPEG-4新的特点,可以认为现存的或其他正在制定的标准不能完全支持MPEG-4,这些功能由编码工具和MSDL的组合来支持。当特定应用需要时,灵活的MSDL允许使用不同的编码工具来提供这些功能的不同组合。 这些功能如表1所述,在表1中根据它们是否涉及基于内容的交互性、压缩比或通用访问能力进行了分组。 b.其他标准的功能 除上述新的或改进的功能外,还有几种其他的重要功能,需要用它来支持已预见到的音频应用。与新的或改进的功能所不同的是,下面所列的功能已由现行的或其他正在制定的标准提供。 1、同步对所表示的音频、视频和其他内容数据进行同步的能力; 2、辅助数据能力为二进制数据比特流分配通道的能力; 3、虚拟通道分配的灵活性动态地重新分配视频、音频或数据通道的能力; 4、低延迟模式(端对端或解码器)对系统、音频和视频编码进行低延迟操作的能力; 5、用户控制支持交互操作中用户控制的能力; 6、传送媒体交互运作在各种媒体上进行运作的能力; 7、与其他音像系统的交互运作与各种类型的终端相互作用的能力; 8、多点能力具有多源或多目的地的能力; 9、安全提供密码、鉴别和密钥管理的能力; 10、内容对各种类型的可视画面和音频内容进行编码的能力(高的和中等质量的音频、宽带、窄带、智能和人工语言及人工音频); 11、格式对各种格式的音频和视频进行编码的能力; 12、质量对解码的音频或视频质量的评估。

    注意事项

    本文(视频数据的基本压缩编码技术与MPEG系列标准.doc)为本站会员(帮****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开