连麦互动直播中混屏技术设计.docx
连麦互动直播中混屏技术设计本内容全原创因才疏学浅偶有纰漏望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作转载以及使用请与“联络联络方式音频/识别/合成算法QQ群696554058一混屏原理根据当前混屏或者图像合成的研究成果和对市场上成型的混屏产品的分析采用基于视频帧合成的实时流混屏方案。该方案需用高度并发解码方式对RTPP双线交互的两路视频流进展实时解码成为视频帧序列并通过将两个视频帧中的YUV图像合成生成新视频帧再对新视频帧进展编码按要求输出目的格式的实时视频流。该方案的系统架构如图1所示图1实时混屏系统框图解码模块包括两个解码器一个解码器负责对一个实时视频流进展解码获得数据帧后由预处理模块对视频帧进展以下处理。首先根据目的输出视频的像素比例计算该视频画面在目的画面所占的实际大小对视频帧进展缩放操作在此缩放视频帧可以减少后续处理的数据量而不影响转换后的视频质量。然后检查图像的色彩空间格式假如不是YUV格式统一为YUV格式。最后将处理好的视频帧从队列尾部参加到待处理的视频帧队列中。视频合成模块访问各个编码器输出的待处理的视频帧队列从队列头部取出视频帧进展合并。在合并经过中为保证视频同步以其中一个视频流为基准对其他视频流的数据帧采用插帧或者丢弃保证所有数据帧的时间戳一致。解码模块以及视频合成模块对视频帧队列分别进展处理解码模块输出数据帧插入到队列尾而视频合成模块从视频帧队列头开场处理将解码以及编码的耦合度降到最低解码与编码可以同时进展。编码器对视频合成模块输出的视频帧序列进展编码转换生成混屏后的实时视频流。二实现混屏关键技术1.并发解码实时视频流混屏处理多路实时视频流输入并输出实时视频流。解码处理的数据量大实时性要求高对效劳器的解码才能提出很高要求。高度并发解码充分利用多核CPU计算才能是实现实时视频流混屏的关键。为进步并发度并发解码至少包括两级并发一级是两个实时流解码器的并发解码二级是解码器Frame级别的并发解码。两个解码器分别对不同的视频源进展处理并将分别独立输出数据帧以队列的方式保存供后续模块调用。解码器之间互相独立不存在制约关系可并发处理进步CPU利用率。解码器Frame级别的并发解码器采用线程池方式进展解码。在解码器初始化时根据效劳器CPU核数初始化相应数目的解码线程。解码线程接收输入数据并对数据进展解码。外部程序通过解码器提供的调用入口进入解码器的主线程。2.图像合成将两个视频混屏可通过图像合成的方式将两个实时流的数据帧图像合成新图像将合成后的视频帧作为输入进展编码得到实时视频流输出。两个数据帧的图像合成必须采用统一的图像格式。图像数据在存储中的存储格式主要包括RGB以及YUV。YUV格式所需存储空间比RGB格式存储空间小因此YUV格式主要用于多媒体数据传输。高清实时视频流多采用H.264编码方式其采用的色彩空间是YUV。在合成经过中如发现视频源的图像采用RGB方式那么需要将其转换成YUV才可合成。RGB图像以及YUV图像可互相转换从RGB到YUV的转换公式见公式1。Y0.30R0.59G0.11BU0.493(B-Y)1V0.877(R-Y)另外YUV格式也存在多种不同的采样比。在实际应用中为减少运算量可选择使用视频源中最普遍使用的格式而将其他格式的图像进展转换形成统一格式。将两个YUV图像合成一个YUV图像可根据各个图像排列的位置对图像的三个分量重新进展排列组合成新图像。以Planar格式为例将两个YUV图像合成一个YUV图像可将YUV三个通道各自分开处理对每个通道的分量按照每行分量的位置从左到右排列各行从上到下排列。3.视频同步图像合成组成新的视频需解决两路视频间的同步问题。由于两路高清视频流的来源不一致解码后获得包含图像的数据帧的帧率不一致为确保合成后视频的质量必须将多路视频的输出图像进展同步处理。同步方法如下。选取一个实时视频流的输出数据帧作为基准序列在单位时间内对其他实时视频流解码后获得的数据帧序列通过插帧或者丢弃的方式将视频帧的个数与基准源保持一致以基准序列的时间戳作为合成后数据帧序列的时间戳。为进步视频质量在对数据帧进展插帧或者丢弃时可根据对视频对象做真实运动的估值结果进展处理。4.编码输出将合并后的数据帧序列作为原始数据输入到编码器中。编码器根据目的输出设置的参数生成实时流将实时流推到流媒体效劳器中。客户端只需要访问CDN效劳器即可播放合成后的视频。图像合成只考虑视频处理。5.内存管理数据帧的内存管理机制对数据帧提供创立、销毁、引用、撤销引用、引用迁移等操作并增加数据区的引用计数器。在引用、撤销引用、引用迁移时不重新申请数据区而是建立、修改或者撤销对数据区的引用关系保持数据区指针在数据帧对象中并修改数据区的引用计数器。当数据帧Buffer被创立时计数初始化为1。当该Buffer被数据帧引用时计数1当数据帧撤销引用时计数-1。每数据帧撤销引用时检查计数器数值只有当发现计数器被清零时才释放该数据区。通过采用引用计数器的机制有效防止内存泄露并大大减少重复的内存申请以及数据复制操作进步处理性能。三详细实现流程1、混屏流程线程1以及2一样流程是获得解码完的数据。不做帧内存管理即时混屏。虚线左边为上层右边为下层。2、混屏算法缩放为按比例进展下采样得到。混屏为对内存数据改写。其中LAST_WIDTH为360LAST_HEIGHT为480target_width为LAST_WIDTH/3,target_height为LAST_HEIGHT/3;四音视频同步音视频同步是实时流媒体互动最根本的需求。从技术上来讲解决音视频同步问题的最正确方案就是时间戳首先选择一个参考时钟要求参考时钟上的时间是线性递增的生成数据流时根据参考时钟上的时间给每个数据块都打上时间戳一般包括开场时间以及完毕时间在播放时读取数据块上的时间戳同时参考当前参考时钟上的时间来安排播放假如数据块的开场时间大于当前参考时钟上的时间那么不急于播放该数据块直到参考时钟到达数据块的开场时间假如数据块的开场时间小于当前参考时钟上的时间那么“尽快播放这块数据或索性将这块数据“丢弃以使播放进度追上参考时钟。可见防止音视频不同步现象有两个关键一是在生成数据流时要打上正确的时间戳。假如数据块上打的时间戳本身就有问题那么播放时再怎么调整也于事无补。假设视频流内容是从0s开场的假设10s时有人开场讲话要求配上音频流那么音频流的起始时间应该是10s假如时间戳从0s或者其它时间开场打那么这个混合的音视频流在时间同步上本身就出了问题。打时间戳时视频流以及音频流都是参考参考时钟的时间而数据流之间不会发生参考关系也就是讲视频流以及音频流是通过一个中立的第三方也就是参考时钟来实现同步的。二是在播放时基于时间戳对数据流的控制也就是对数据块早到或者晚到采取不同的处理方法。五总结以上基于视频帧合成的实时流视频混屏的方法两个解码器间互不干扰为高度并发解码提供可能并采用视频帧队列管理的方式使得解码以及编码的耦合降到最低解码与编码可以同时进展。高度并发使效劳器的多核CPU运算才能得到充分利用仅依靠软件解码的方式就能实现两个高清视频的混屏。混屏处理后以实时视频流的方式输出客户端只需接收视频流进展播放即可对客户端的配置要求低。参考文献1黄东君,陈松乔.基于源根组播的多点视频会议系统模型及其实现.电子学报,2005(1). 2刘峰.视频图像编码技术及国际标准.北京邮电大学出版社,2005(7). 3肖永豪,余英林.基于视频对象的自适应去帧/插帧视频处理.华南理工大学学报(自然科学版),2003(8). 4刘晓玲,张涛.基于帧图像合成的实时视频混屏关键技术研究.电信技术,2021(4).