中国音视频编码标准ppt课件.ppt
1中国音视频编码标准AVS2中国出口彩电的美国数字电视标准事件(2.5美元/台)20082008年年20102010年年90009000亿元亿元1500015000亿元亿元视音频产业预测年产值20072007年年20062006年年20022002年年50005000亿元亿元中国为什么要制定标准?数字视音频产业群大而不强 大陆DVD、机顶盒、MP3、电视机产量均居世界首位,年产量超过2亿台;数字视音频产业已经成为我国电子信息产业的主体 但是,相关产业的年平均利润率从2005年的3.4%向负利润滑坡视音频编码是所有视音频产业的共性核心技术,最容易受到攻击 大陆企业视听终端产品企业需支付专利费约40亿/年,十年回溯将达400亿 由于专利费事件,我国已经没有自主品牌的DVD产业 若采用新的国际标准(H.264),则我国运营商每年还将支付约200亿DVD专利事件(2.5美元/台)MP3专利事件(0.75美元/台)出口欧洲的机顶盒MPEG-2专利费事件(2.5美元/台)3标准、专利、专利池4MPEG标准的专利池 1991:MPEG-1 无专利收费问题 1994:MPEG-2 托起DVD、数字电视产业,获得Emmy奖 2.5美元/台终端 1999:MPEG-4 SP (Part 2) 设备0.25美元,按时间交费(例:2美分/小时,每年100多元) 遭到AOL-Times Warner反对 2003:H.264/MPEG-4 AVC (Part 10) 2003.11.17政策出台:按节目收费(每点播一个节目2美分) 遭到EBU(欧广联)反对(2003第96号声明) 2004.05.20政策定案,基本上没有变化5编解码器编解码器制造商制造商按订户收按订户收按节目数收按节目数收网络广播网络广播免费电视免费电视付费节目发行付费节目发行/运营运营不直接收费的运营商不直接收费的运营商AVC/H.264许可概要制造商制造商6MPEG专利池的深层原因 当前国际标准和知识产权的“割裂三段论” 标准制定RAND 专利池收费政策产品/服务 ISO知识产权政策: RAND (合理非歧视原则) 什么价格是合理? 结果:RAND为很多不太必要的专利打开了标准大门 一些专利权人等着从标准渠道谋取暴利或待价而沽 建立专利池越来越难 专利池定价越来越难 工业界不敢采用专利许可政策不清晰的标准7Data Miningon Patentsin MPEG LA Patent PoolNov.0120088AVS视频标准框架 (2004)熵编码反量化反变换运动补偿预测控制数据量化后的变换系数运动数据帧内/帧间编码控制解码器运动估计变换/量化-0环滤波帧内预测99EntropyCodingInv Quant/Inv TransformMotion-CompensationControlDatacoeffsMotionDataIntra/InterCoderControlMotionEstimationTransform/Quant-InputVideoSignalSplit intoMacroblocks16x16 pixels Intra-frame PredictionDe-blockingFilterOutputVideoSignalAVS1-P2 Diagram10AVS视频标准工具集 双向预测 隔行编码 运动矢量预测 子像素插值 多参考帧预测 可变块大小预测 帧内预测 变换和量化 熵编码 环路滤波 缓冲区管理 其它 图像组头 防伪起始码 码流顺序 时间参考索引11AVS变换量化 Transform T Row Transform Y=XTAbabababababababaxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxYYYY444342413433323124232221141312114443424134333231242322211413121143211121211121111121Col Transform Y = TYbabababababababayyyyyyyyyyyyyyyybbbbaaaabbbbaaaayyyyyyyyyyyyyyyyYYYY44434241343332312423222114131211444342413433323124232221141312111221111121121111432112AVS变换矩阵2- 6 9- 10 10- 9 6- 2 4 10- 10 4- 4- 10 10- 4 6- 10 2- 9- 9 2 10- 6 8 8- 8- 8 8 8- 8- 8 9- 2 10 6 6- 10- 2- 9 10 4 4- 10- 10- 4- 4 1010- 9- 6- 2- 2 6 9 108 8 8 8 8 8 8 8 13AVS变换量化 Quantization for first class 8x86x8 quantization/dequantization table is used to do normalization:7,57,47,37,27,17,06,56,46,36,26,16,05,55,45,35,25,15,04,54,44,34,24,14,03,53,43,33,23,13,02,52,42,32,22,12,01,51,41,31,21,11,0 0,50,40,30,20,10,0Q Q Q Q Q Q 7 Q Q Q Q Q Q 6 Q Q Q Q Q Q 5 Q Q Q Q Q Q 4 Q Q Q Q Q Q 3 Q Q Q Q Q Q 2 Q Q Q Q Q Q 1 Q Q Q Q Q Q 0 bc ac ab cc bb aa QP%87,57,47,37,27,17,06,56,46,36,26,16,05,55,45,35,25,15,04,54,44,34,24,14,03,53,43,33,23,13,02,52,42,32,22,12,01,51,41,31,21,11,0 0,50,40,30,20,10,0DQ DQ DQ DQ DQ DQ 7 DQ DQ DQ DQ DQ DQ 6 DQ DQ DQ DQ DQ DQ 5 DQ DQ DQ DQ DQ DQ 4 DQ DQ DQ DQ DQ DQ 3 DQ DQ DQ DQ DQ DQ 2 DQ DQ DQ DQ DQ DQ 1 DQ DQ DQ DQ DQ DQ 0 bc ac ab cc bb aa QP%8Note:Qi,j *DQi,j * Sj2 = 2bits. Qi,j= Qi+1,j*2(1/8)(返回)14AVS创新举例:变换量化-老树新花 技术发展历史 很早以前就用于去除空间冗余的目的 8x8整数变换 JVT发展过程中曾采用8x8的整数正交变换 更早的标准都是基于DCT的 AVS专利策略 采用自主或公开发表的技术 改进实现方式 专利申请 浙大和长信嘉分别有若干项专利申请2- 6 9- 10 10- 9 6- 2 4 10- 10 4- 4- 10 10- 4 6- 10 2- 9- 9 2 10- 6 8 8- 8- 8 8 8- 8- 8 9- 2 10 6 6- 10- 2- 9 10 4 4- 10- 10- 4- 4 1010- 9- 6- 2- 2 6 9 108 8 8 8 8 8 8 8 15AVS帧内预测模式亮度: 5种预测模式色度: 4种预测模式16AVS帧间预测模式 0 0 1 0 1 2 3 16x16 16x8 8x16 8x8 8x8 8x4 4x8 1 0 4x4 MB-Modes 17AVS帧间预测新的滤波方案对半像素使用4拍滤波,代替AVC的6拍滤波半像素插值: (-1/8,5/8,5/8,-1/8)1/4像素插值: (1/16,7/16,7/16,1/16)色度采用1/8双线型插值Aa1bBcdef2h3i4jklmC5D18AVS帧间预测AVS新型的双向预测模式: Symmetric mode只编码一个前向运动矢量, 后向运动矢量根据帧间距离推导得出在两个方向同时搜索得到最优的运动矢量. BMV = -FMV*d2/d1BPPd1d2FMVBMV19AVS帧间预测特殊编码模式 Skip mode:用预测运动矢量,无残差系数Direct mode: B帧中无向量编码模式20双向预测编码 涉及到的主要专利(15项) 最早由JVC和Sony公司注册 专利持有人 Sony, Matsushita, AT&T, JVC, Columbia Univ., Toshiba, Telenor 涉及内容 直接的运动补偿 传送预测残差的运动补偿 传送预测残差与运动矢量的运动补偿 帧或宏块用四种模式进行编码 差分运动矢量,双基预测,PB帧,direct 模式 21双向预测编码 技术发展历史 发展源于视频会议系统中的丢帧或跳帧实现 存在更早的公开技术 直接内插技术(Jain & Jain,1979年) 后向预测技术(Hinman论文,BBC技术报告,1984年) 基于运动补偿的内插、传输预测误差,但不传输运动矢量(Roos,1984年 ) AVS专利策略 AVS可以使用直接编码模式 :有公开技术 AVS可以使用后向预测模式 :有公开技术 AVS摒弃双向预测模式:有专利问题 为补偿编码效率,采用对称预测模式(计算所提案) AVS还采用了其它技术,用于改进编码性能(计算所提案)22AVS创新举例:帧间预测 新型的双向预测模式: 对称模式(Symmetric mode) 只编码一个前向运动矢量, 后向运动矢量根据帧间距离推导得出 在两个方向同时搜索得到最优的运动矢量.BMV = -FMV*d2/d1BPPd1d2FMVBMV23双向预测编码 AVS专利情况 自主技术 + 过期专利 + 公开技术 专利申请4项03157077.1 一种用于视频编码的编码端/解码端双向预测方法 中科院计算所 2003.9.12 直接编码模式下确定参考图像块的方法 中科院计算所申请中 一种参考图像缓冲区管理方法 中科院计算所申请中固定参考帧数编码方式下获取图像参考块的方法 中科院计算所申请中24主要技术对比列表 编码工具编码工具AVSH.264MPEG-2帧内预测帧内预测基于基于8x8块,块,5种亮度种亮度预测模式,预测模式,4种色度种色度预测模式预测模式基于基于4x4块,块,9种亮度种亮度预测模式,预测模式,4种色度预种色度预测模式测模式只在频域内进行只在频域内进行DC系数差分预测系数差分预测多参考帧预测多参考帧预测最多最多2帧帧最多最多16帧帧只有只有1帧帧变块大小运动变块大小运动补偿补偿16x16, 16x8, 8x168x816x16, 16x8, 8x168x8,8x4,4x8,4x416x16, 16x8(场编码场编码)B帧宏块直接帧宏块直接编码模式编码模式时域空域相结合,当时域空域相结合,当时域内后向参考帧中时域内后向参考帧中用于导出运动矢量的用于导出运动矢量的块为帧内编码时,使块为帧内编码时,使用空域相邻块的运动用空域相邻块的运动矢量进行预测矢量进行预测独立的空域或时域预测独立的空域或时域预测模式,若后向参考帧中模式,若后向参考帧中用于导出运动矢量的块用于导出运动矢量的块为帧内编码时只是视其为帧内编码时只是视其运动矢量为运动矢量为0,依然用,依然用于预测于预测无无B帧宏块双向帧宏块双向预测模式预测模式称为对称预测模式,称为对称预测模式,只编码一个前向运动只编码一个前向运动矢量,后向运动矢量矢量,后向运动矢量由前向导出由前向导出编码前后两个运动矢量编码前后两个运动矢量编码前后两个运动编码前后两个运动矢量矢量25主要技术对比列表-续编码工具编码工具AVSH.264MPEG-2像素运动补像素运动补偿偿像素位置采用像素位置采用4拍滤波拍滤波 像素位置采用像素位置采用4拍滤波、拍滤波、线性插值线性插值像素位置采用像素位置采用6拍滤波拍滤波 像素位置线性插值像素位置线性插值仅在半像素位置进行仅在半像素位置进行双线性插值双线性插值变换与量化变换与量化8x8整数变换,编码端进整数变换,编码端进行变换归一化,量化与变行变换归一化,量化与变换归一化相结合,通过乘换归一化相结合,通过乘法、移位实现法、移位实现4x4整数变换,编解码端整数变换,编解码端都需要归一化,量化与变都需要归一化,量化与变换归一化相结合,通过乘换归一化相结合,通过乘法、移位实现法、移位实现8x8浮点浮点DCT变换,变换,除法量化除法量化熵编码熵编码适应性适应性2D VLC,编码块系编码块系数过程中进行多码表切换数过程中进行多码表切换CAVLC:与周围块相关性:与周围块相关性高,实现较复杂高,实现较复杂CABAC:计算较复杂:计算较复杂单一单一VLC表,适应表,适应性差性差环路滤波环路滤波基于基于8x8块边缘进行,简块边缘进行,简单的滤波强度分类,滤波单的滤波强度分类,滤波较少的像素,计算复杂度较少的像素,计算复杂度低低基于基于8x8块边缘进行,滤块边缘进行,滤波强度分类繁多,计算复波强度分类繁多,计算复杂杂无无容错编码容错编码简单的简单的Slice划分机制足以划分机制足以满足广播应用中的错误隐满足广播应用中的错误隐藏、恢复需求藏、恢复需求数据分割、复杂的数据分割、复杂的FMO/ASO等宏块、条带等宏块、条带组织机制、强制组织机制、强制Intra块刷块刷新编码新编码(Intra refresh)、约、约束性帧内预测等束性帧内预测等简单的简单的Slice划分划分26高清视频复杂度:AVS vs. H.264 最小8x8块的变块大小运动补偿,节省30-40%运算量,性能降低2-4%,约为0.1dB 低复杂度1/4像素精度运动补偿,由6拍减为4拍,降低1/3存储器的访问量 B帧采用了一种新型的对称预测模式,由前向运动向量可直接预测后向运动向量 B帧采用了时域/空域直接预测模式相结合的直接预测模式,对直接模式的运动矢量导出过程中进行舍入控制,信噪比提高0.2-0.3dB,或性能提高5%左右 8x8整数变换/量化,比4x4变换的去相关性能力较强,实际编码效率提高在2%(约0.1dB)左右27高清视频复杂度:AVS vs. H.264 基于上下文的适应性熵编码2DVLC,编码效率比CABAC要低10-15%左右,约为0.5dB。但CABAC在硬件实现时特别复杂 低复杂度环路滤波,滤波边数降为1/4,强度也低,降低了计算量 图像级帧场自适应选择,由MBAFF降为PAFF,节省30%计算量,性能降低0.2-0.3dB,或性能降低5%左右 低复杂度帧内预测,基于8x8块进行,只用了5种模式,相对于9种模式,复杂度几乎降低一半 缓冲区管理,H.264有一套特别复杂的缓冲区管理机制,使用5个参考帧来提高编码效率,对此AVS限定至多两个参考帧,在缓冲区管理上十分简单、有效 结论:编码性能基本相当,实现复杂度明显降低 AVS编码复杂度,相当于H.264的30% AVS解码复杂度,相当于H.264的70%28Complexity AnalysisToolsEstimated increasingAVSH.264Multiple reference12Variable block-size MC12Quarter pixel33Entropy coding0.51Deblocking filter0.51Total6929中国标准的优势 技术性能先进 压缩效率与对应的新国际标准相当 是当前使用的国际标准(MPEG-2)的两倍或更高 方案简洁,复杂度低 AVS vs. H.264/MPEG-4 AVC 计算复杂度:解码器复杂度降低到70%,编码器复杂度降低到30% 知识产权清晰 融合了公共知识和新技术(包括专利) 必要专利数量不到相应国际标准的一半 大多数专利由中国会员贡献30AVS国家标准进展200220032004200520062007Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4P1系统(广播与存储)P2视频-基准档P3音频(立体声与多声道)P6 DRM(核心、IPTV、广播)P8&P9系统(网络)P7移动视频P2视频-增强档 P3音频-移动 P6-域/存储31AVS编码器 PowerCoder AE200MC PowerCoder AE100SD/HD CoderStar AE1001 CoderStar AC1001 4Caster C4 SUMAVISION 921032AVS芯片33AVS终端34新一代中国标准信息技术 新型多媒体编码 更快、更高、更强 更快:速度更快的编解码算法 更高:固定超高清、移动高清化、三维视频 更强:压缩效率再提高 更灵活、更开放、更综合 更灵活:芯片解码器可以多年不变,软件可随时升级 更开放:从封闭(如广播电视)到开放(第三方服务的开放集成),从收费软件到开源软件 更综合:音视频和其他媒体无缝融合,成为未来网络服务的重要形式35即将制定的AVS视频编码标准 支持超高分辨率(至少为4k2k)视频的高效编码。 支持三维视频、多视角视频的高效编码。 支持立体声、多声道音频的高效有损及无损编码。 时间表:2011年12月,FCD36AVS2 信息技术 新型多媒体编码 核心:更快、更高、更强(以芯片为载体) 更快:速度更快的编解码算法 更高:固定超高清、移动高清化、三维视频 更强:压缩效率再提高 平台:更灵活、更开放、更综合(以软件为载体) 更灵活:芯片解码器可以多年不变,但软件可随时升级 更开放:从封闭(如广播电视)到开放(第三方服务的开放集成),从收费软件到开源软件 更综合:音视频和其他媒体无缝融合,成为未来网络服务的重要形式37AVS2编码标准的技术需求 支持超高分辨率(至少为4k2k)视频的高效编码。 支持三维视频、多视角视频的高效编码。 支持立体声、多声道音频的高效有损及无损编码。 时间表如下:2011年12月,FCD38AVS2编码标准的技术需求-视频 编码效率:在重建视频主观质量相同的情况下,编码效率比AVS1的最好性能提高一倍以上。 重建视频主观质量:在同等码率情况下,重建视频质量明显高于AVS1。 视频分辨率和帧率:支持典型分辨率的视频,Super HD(8k4k、4k2k) 彩色空间及格式:至少支持YCbCr彩色空间,8 14 bit精度,4:2:0、4:2:2、4:4:4 典型码率:19201080/4:2:0/8bit/24fps 10Mbit/s(透明);4k2k /4:2:0/8bit/24fps 40Mbit/s(透明)。以1s为时间窗计算码率。 随机访问 支持随机访问、码流切换、快进快退。 抗误码性能:对突发性和随机性丢包具备良好的容错性能。对丢包率为5%以内的丢包具有良好的差错恢复能力,视频主观质量无明显下降。39AVS2编码标准的技术需求-音频 采样率:采样率:8 kHz 384 kHz 样本比特数:样本比特数:32 bit、24 bit、20 bit、16 bit、8 bit 编码效率:编码效率:与AVS1-P3相比,编码效率提高50%以上;与AVS1-P10相比,编码效率提高30%以上。 重建音频主观质量:重建音频主观质量:重建音频主观质量与同等级的编码标准相当。 实现复杂度:实现复杂度:实现复杂度与同等级的编码标准相当。 抗误码性能:抗误码性能:对突发性和随机性误码具备良好的容错性能。误码率为10-4以内具有良好的差错恢复能力,音频主观质量无明显下降。40AVS2三维视频应用的技术需求 1. 应用类型应用类型手机电视类应用:低时延,低解码复杂度,具有很好的容错机制,高编码效率。数字电视类应用:较低的时延限制,高编码效率。IP网络类应用:较低的时延限制,高编码效率。2. 视频技术需求指标视频技术需求指标2.1. 编码效率:编码效率:双目视频可以被压缩到相当于一路MPEG-2视频流的码流。2.2. 重建视频主观质量:重建视频主观质量:双目视频码流与MPEG-2单路码流在同等码率的情况下,单目重建视频主观质量应与MPEG-2相当。2.3. 实现复杂度:实现复杂度:双目视频解码复杂度可以略高于单路视频码流的解码。2.4. 档次档次/级别:级别:设置一个或多个档次,一个或多个级别以适应不同的需要。2.5. 视频分辨率和帧率:视频分辨率和帧率:支持典型分辨率的视频:2.6. 彩色空间及格式:彩色空间及格式:支持YCbCr彩色空间,8 bit精度,4:2:0的视频。2.7. 扫描方式:扫描方式:支持逐行扫描和隔行扫描。2.8. 码率范围码率范围(以1s为时间窗计算码率):手机电视类应用码率:2 (64 512kbit/s)数字电视类应用码率:2 (2 20 Mbit/s)2.9. 随机访问随机访问 :双目视频应当具有相同的随机访问能力2.10抗误码性能:抗误码性能:手机电视类应用对丢包率为5%以内丢包应具备良好的容错性能。41AVS2技术路线举例:超分辨率 高频 低频 时空插值n利用多幅低分辨率图像重构高分辨率图像n高频建模技术n时空插值技术42AVS2技术路线举例:模型学习 采用学习技术构造模型,包括边缘、纹理、运动等参数43AVS2技术路线举例:要素图 要素图是要传递的关键内容(“骨架”) 颜色、纹理等(“血肉”)根据码率允许补充Sensing Image Capture Structure SensingSynthesis Texture Original ImageSynthesis ImageTexture EstimationVisual Representation ModelSceneObjectPrimal Sketch TexturePixel44 谢 谢!