《多媒体复习资料(共26页).docx》由会员分享,可在线阅读,更多相关《多媒体复习资料(共26页).docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第一章 多媒体技术概述一、 媒体1. 含义:媒体(Media)就是指信息的载体,其本质是信息传播的技术和手段。2. 按照媒体的发展,媒体可以分为传统媒体和新媒体:传统媒体:广播、电视、报刊杂志新媒体:基于互联网、PC和移动终端技术的数字媒体技术,包括网站、博客、微博、微信、手机 App等。3. 国际电信联盟(International Telecommunication Union,ITU)对媒体进行了详细的分类:1) 感觉媒体(Perception media):指直接作用于人的感觉器官、从而为人的感知系统所接受的信息形态或媒体形式。举例:文字、声音、图形、图像、动
2、画、视频2) 表示媒体(Presentation media):指感觉媒体在电子设备、计算机、网络等系统内部的存在形式,即编码形态的媒体。举例:计算机系统中的 ASCII 码、国家标准汉字字符集的区位码、字符的点阵码、音频、图像与视频编码。3) 表现媒体(Representation media):指将编码形式的媒体显示成感觉媒体的设备或技术,实际上就是指多媒体系统的输入、输出设备。举例:显示器、投影仪、打印机、绘图仪、有源或无源音箱、键盘、鼠标、摄像机、麦克风。4) 存储媒体(Store media):指用于存放表示媒体(即编码形态的媒体)的设备或技术。举例:内存、寄存器、磁盘、磁带、光盘、
3、USB 盘。5) 传输媒体(Transmission media):指用于传送表示媒体的设备或技术。举例:双绞线、电缆、光纤、空气、电磁波。二、 多媒体1. 含义:多媒体就是指能够同时处理两种以上感觉媒体的计算机系统,其目标是为用户提供更丰富的应用体验。2. 多媒体技术的特征:1) 媒体类型或媒体技术的多样性。一个可以被称为多媒体的应用系统,必须至少集成了两种不同类型的媒体及其相关技术。该特征是多媒体系统的本质特征,也是其魅力所在。2) 媒体内容的同步性(synchronization)。在多媒体应用系统中,多种媒体是融合在一起的,它们是以一种协同的方式工作的。3) 交互性(Interacti
4、ve)。与交互性密切相关的另外两个概念是人机交互(Human-Computer Interaction,HCI)和人机界面(Human-Computer Interface,HCI) 。前者是研究、设计、评价和实现交互式计算系统的科学。人机界面则是人与计算机之间传递、交换信息的媒介和对话接口,是计算机系统的重要组成部分。3. 多媒体应用:1) 大众传媒领域大众传媒(mass media)是指传播速度快、覆盖范围广、影响效果大的媒体,主要包括报纸、广播、电视、电影、互联网等。2) 消费电子领域消费电子(consumer electronics)产品是指用于个人和家庭的与广播、电视有关的各类音频和
5、视频产品,主要包括:电视机、影碟机(VCD、SVCD、DVD)、录像机、摄录机、收音机、收录机、组合音响、激光唱机(CD)、视频游戏设备、智能电视机顶盒等。3) 现代教育技术领域现代教育技术是指建立在信息与网络技术基础之上的教育教学手段构成的系统。4) 多媒体通信领域数字通信是用数字信号作为载体来传输消息,或用数字信号对载波进行数字调制后再传输的通信方式。它可传输电报、数字数据等数字信号,也可传输经过数字化处理的语声和图像等模拟信号。数字通信系统通常由用户设备、编码与解码、调制和解调、加密和解密、传输和交换设备等组成。多媒体通信是指在一次呼叫过程中能同时提供多种媒体信息如声音、图像、图形、数据
6、、文本等的新型通信方式,所以,它是通信技术和多媒体技术相结合的产物。 视频会议是最典型的多媒体通信系统,它由视频会议终端、会议服务器、多点控制单元(MCU)等子系统构成。多媒体技术在视频会议终端中占有重要地位,主要包括音视频数据的采集、编码、解码、传输与呈现等处理。5) 表演与会展6) Web应用Web 应用是指基于浏览器/服务器模型的应用系统,在客户端表现为浏览器页面, 是一种以HTTP协议为核心的网络应用。数量最多的Web应用是各类网站,如门户网站(搜狐、163、新浪等)、搜索网站(百度等)和各种专业网站(音乐、视频、软件、行业等等)。7) 物联网领域物联网是通过各种信息传感设备及系统(如
7、传感器网络、射频识别(Radio Frequency Identification, RFID)、红外感应器、条码与二维码、全球定位系统、激光扫描器等)和其它基于物物通信模式的短距离无线传感网络,按约定的协议,把物体接入互联网所形成的一个巨大的智能网络。8) 军事领域首先,多媒体技术在战场信息采集和传输中具有重要的作用,例如通过图像、视频和音频信息的采集获取战场和相关地域的直观战况和态势, 能够为指挥决策提供有力支持。其次,多媒体技术在军事指挥系统中也扮演重要角色。目前最现代化的军事指挥系统被称为 C4ISR 系统(C4 表示 Command、Control、Communication、Com
8、puter,I 表示 Information,S 代表 Surveillance,R 表示 Reconnaissance) ,以美国的国家军事指挥中心为典型代表。第三,军事训练中应用了大量多媒体技术。为了提高军事训练效果、节省训练成本,各国军事训练系统都不同程度地采用了基于多媒体技术的各种模拟、仿真训练方法。9) 游戏与软件游戏软件通常是指各种游戏规则与声音图像视频相结合的软件产品。目前,在网络上我们经常看到的大型 3D 网络游戏和网页游戏等都是通过用 3DMAX、MAYA、FLASH 等多媒体软件和 JAVA、C+、VB、HTML5 等程序语言相结合而开发出来的,所以叫游戏软件。4. 多媒体
9、技术的体系结构1) 硬件平台层现代多媒体计算平台,从硬件配置上看,主要包括如下几个方面:a) 光盘驱动器:包括可重写光盘驱动器(CD-R)、WORM 光盘驱动器和 CD-ROM 驱动器。b) 音频卡:在音频卡上连接的音频输入输出设备包括话筒、音频播放设备、MIDI 合成器、耳机、扬声器等。数字音频处理的支持是多媒体计算机的重要方面,音频卡具有A/D和D/A音频信号的转换功能,可以合成音乐、混合多种声源,还可以外接MIDI电子音乐设备。c) 图形加速卡:图文并茂的多媒体表现需要分辨率高,而且同屏显示色彩丰富的显示卡的支持,同时还要求具有 Windows 的显示驱动程序,并在 Windows 下的
10、像素运算速度要快。所以现在带有图形用户接口 GUI 加速器的局部总线显示适配器使得Windows的显示速度大大加快。 d) 视频卡:可细分为视频捕捉卡、视频处理卡、视频播放卡以及TV编码器等专用卡,其功能是连接摄像机、VCR 影碟机、TV 等设备,以便获取、处理和表现各种动画和数字化视频媒体。 e) 扫描卡:它是用来连接各种图形扫描仪的,是常用的静态照片、文字、工程图输入设备。 f) 打印机接口:用来连接各种打印机,包括普通打印机、激光打印机、彩色打印机等,打印机现在已经是最常用的多媒体输出设备之一了。 g) 交互控制接口:它是用来连接触摸屏、鼠标、光笔等人机交互设备的,这些设备将大大方便用户
11、对 MPC 的使用。 h) 网络接口:是实现多媒体通信的重要MPC扩充部件。计算机和通信技术相结合的时代已经来临,这就需要专门的多媒体外部设备将数据量庞大的多媒体信息传送出去或接收进来,通过网络接口相接的设备包括视频电话机、传真机、LAN和ISDN 等。2) 操作系统层计算机操作系统是管理计算机软硬件资源,控制其他程序运行,并为用户提供操作界面的系统软件的集合。操作系统中配置的重要多媒体组件如下:a) 编解码器(codec,coder和decoder合成词语):是系统中完成媒体数据压缩、解压缩、格式转换(转码)等操作的软件,在多媒体操作系统中居核心地位。b) 媒体服务器(media serve
12、r):一种通过网络或平台向用户提供各种多媒体业务所需的媒体资源功能的系统软件,通常表现为操作系统中的媒体服务(media service)组件。c) 多媒体编程接口:应用编程接口是指一组数量可观、结构复杂的子程序、函数、变量、常量、类、数据结构,是应用系统设计与实现的软件资源。Windows 操作系统中常见的多媒体编程接口有 DirectX、DirectShow、Media Foundation、SilverLight 等。Andriod 操作系统下,开发人员可以使用 Media APIs,实现移动设备上的 MP3、MP4、高清视频播放等等。3) 应用系统层整个多媒体技术架构的最上层是各类多媒
13、体开发工具和应用系统。最典型的应用系统是各类多媒体著作或编辑工具,如 Photoshop、Authorware、Illustrator、PowerPoint、Premier、3D Max等等。5. 多媒体应用系统设计面临的挑战1) 数据量大2) 实时性要求高3) 同步性要求严格4) 数据来源繁多6. 多媒体技术的核心问题暂无第二章 数字音频基础一、 声音1. 含义:声音是物体振动形成的机械波,称为声波。声波通过介质(例如空气、水等)传播到听觉系统里产生听觉反应。声音本质上是介质的周期振动。2. 基本属性:频率和振幅频率:指振动的快慢,通常用每秒钟的振动次数表示(赫兹)。人耳可以听到的声音频率范
14、围在20到2万赫兹之间。高于这个范围的波动称为超声波(Ultrasonic),而低于这一范围的称为次声波(Subsonic)。我们把人类听觉系统所能听到的声音称为音频(Audio)。振幅:指声波在某个位置上的瞬时强弱。3. 三要素:音高、音质(音色)、音强二、 从模拟到数字1. 模拟音频信号:用连续变化的电压或电流表示的音频信号。2. 数字音频信号:通过采样和量化技术获得的离散性(数字化)音频数据。3. 采样:指以一定的频率(或周期)捕获模拟音频信号,从而得到一系列离散化音频样本的过程。采样频率:单位时间内捕获的样本个数,是采样周期的倒数。采样定理:将频带为 F 的模拟音频信号 f(t)采样为
15、离散化样本序列 f(t0+t)、f(t0+2t)f(t0+nt)后,如果 1/t(即采样频率)大于 2F,即采样频率大于模拟信号频带 F 的两倍, 则可从离散样本序列恢复原来的信号 f(t)。常见的采样频率及其应用场合4. 量化:指用若干比特表示一个样本的过程。量化深度(bit depth):表示一个样本所使用的比特数。采样是时间上的离散化,而量化则是空间上的离散化。 5. 编码:以某种格式最终生成数字音频数据流的过程,所得到的数字音频数据将会被存储、传输或者进行各种处理。模拟音频数字化的三个步骤是采样、量化、编码。三、 声卡1. 结构:2. 功能模块1) DSP:Digital Signal
16、 Processor 数字信号处理负责采样、量化、编码和解码、数模转换2) Synthesizer : 合成器负责将数字音频波形数据或MIDI消息合成为声音。3) ROM or/and RAM : 波表/软波表ROM存放有实际音乐设备的声音样本,用于合成,称之为波表RAM能够被新的样本数据更新,称之为软波表。4) Mixture:混声器负责过滤以降低噪音、混合不同的声音信号、单/双通道转换、音量调节一、二、三、四、 数字音频编码1. 含义:指将模拟音频转换成数字音频并以某种格式存储的技术或过程。2. 种类:1) PCM(Pulse Code Modulation脉冲编码调制)编码:即通过脉冲编
17、码调制方法生成数字音频数据的技术或格式。a) 系统原理系统由三个部分构成:l 防失真滤波器:它是一个低通滤波器,用来滤除音频信号以外的信号。l 波形编码器:主要完成采样任务。l 量化器:负责对样本进行量化, 即对每一个样本赋予一个对应的二进制数据, 从而得到 PCM样本序列,作为系统的输出。其实,量化器输出的 PCM 样本序列还会进一步被编制成格式化的二进制码流,包括帧和通道的构成,这个处理可以视为狭义的编码过程。b) 量化分类l 均匀量化(线性量化):指采用相等的量化间隔(量化阶跃)进行的量化。量化间隔:指将整个量化空间分割成若干离散的有限状态后,相邻的两个离散状态值之间的差值。l 非均匀量
18、化(非线性量化):指量化间隔在量化空间中不是一个常数的量化。一般情况下,量化间隔的大小分布服从一种非线性函数,对小的输入信号采用较小的量化间隔,大的输入信号则采用较大的量化间隔。分类: 律压扩(-Law):所定义的函数关系如下:x: 输入信号的幅值,其大小归一化为-1和+1之间的一个小数, 即-1x1。sgn(x): x 的极性,也就是信号的正负。: 一个常量参数,由最大量化间隔和最小量化间隔之比决定,一般在100500之间取值。值越大,整个对数曲线越往上拱,反之就越靠近45度的线性量化曲线。在具体实现时,一般取255,并把对数曲线变成8条折线以简化计算。 A 律压扩(A-Law):所定义的函
19、数关系如下:x: 为输入信号的幅度,归一化成为-1 x yi) /如果实际样本值大于预测值 xi = 1; /编码输出等于 1 Else xi = 0; /否则,编码输出等于 0 b) 优缺点l 优点数据量得到显著压缩。DM编码总是用一个比特来表示一个样本,即对应一个样本的编码不是1就是0。所以,DM编码被称为一位系统。l 缺点 斜率过载如果输入信号变化太快,那么预测信号将不能保持对输入信号的跟踪,因为当前预测值只能在前一次预测值的基础上加 1 个 (或减 1 个 ),也就是说,由于量化阶跃固定不变,导致预测值跟不上信号的变化。这种现象称为增量调制器的“斜率过载”(slope overload
20、) ,即模拟信号的斜率太大,超过了量化阶跃允许的变化幅度。一般来说,当输入信号的变化速度超过输出信号的最大变化速度时,就会出现斜率过载。 粒状噪声当输入信号变化比较平缓时,增量调制器的编码输出为交错出现的 0 和1,即数字信号并不平缓,而是以量化阶跃的大小起伏变化,这就相当于引入了噪声信号。DM编码器的这种噪声是系统固有的,不可能彻底消除。3) ADPCM(Adaptive Difference Pulse Code Modulation,自适应差分脉冲编码调制):利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术a) 原理第一,使用过去的样本值估算下一个输入样本的预测值
21、,使实际样本值和预测值之间的差值总是最小,并对差值进行编码。第二,利用自适应的思想在时间维度上改变量化阶跃的大小,对小的差值使用小的量化阶跃(),对大的差值则使用大的量化阶跃进行编码。4) SB-ADPCM(Sub Band-ADPCM,子带自适应差分脉冲编调制):是一种融合了子带与自适应差分脉冲编调制技术的新型编码方法。SBC(Sub Band Coding,子带编码):子带编码使用一组带通滤波器(Band-Pass Filter,BPF)把输入音频信号的频带分成若干个连续的子频段,子频段又称为子带。对每个子带中的音频信号采用独立的编码方案编码。在传输编码信号时,系统会采用复用技术,将所有子
22、带的编码整合起来传输。在接收端解码时,首先进行解复用,即把各个子带信号分解出来,然后对每个子带的数据独立解码。当然,最后还原音频信号时,系统会把所有子带的解码信号融合起来,从而还原成原来的音频信号。这里的融合,实际上就是相加,即某一时刻的还原信号样本等于同一时刻所有子带样本之和。3. 数字音频编码国际标准序号标准名称编码算法基本属性1G.711PCM(含线性、 律以及A律PCM编码算法)采样频率为8kHz,每样本8 bits,数据率为64kbps2G.721ADPCM采样频率为8kHz,每样本4 bits,数据率为32kbps3G.722SB-ADPCM采样频率为8kHz,每样本高子带2 bi
23、ts,低子带6位,数据率为64kbps4G.723ADPCM采样频率为8kHz,每样本3或5 bits,数据率为24或40kbps5G.723.1LPC提供 5.3kbps、6.3kbps两种速率的配置第三章 音频数据处理程序设计一、 波形音频文件1. 含义:波形音频文件(WAVE文件)是存储数字音频样本(samples)序列的格式文件,这些样本直接记录了音频的波形,故称波形音频文件。2. 格式标准:RIFF(Resource Interchange File Format),一个 WAVE 文件的最开头四个字节便是“RIFF”。3. 组成:WAVE 文件是由若干个Chunk(可以翻译为块)组
24、成的。按照在文件中的出现位置,它们分别是 RIFF WAVE Chunk、Format Chunk、 Fact Chunk(可选)和 Data Chunk。1) RIFF WAVE Chunksize 是整个wav 文件大小减去ID 和Size所占用的字节数,即 FileLen - 8 = Size。2) Format Chunk3) Fact ChunkFact Chunk 是可选字段,一般当 wav 文件由某些软件转化而成,则包含该 Chunk。4) Data Chunk根据 Format Chunk 中的声道数以及采样 bit 数,wav 数据的 bit 位置可以分成以下 4 种形式:二
25、、 音频播放程序1. 利用 PlaySound 函数播放音频文件1) 基本介绍:PlaySound是Windows系统提供的基本音频播放函数,在 C/C+中使用。PlaySound函数不仅能够播放波形音频文件,而且可以播放系统事件对应的音频。2) 原型:l pszSound:字符串变量,指向播放的波形音频文件,可以为 NULL,这时任何当前播放的音频将停止l hmod:可执行文件的句柄,该可执行文件包含了需要加载的资源。一般情况下, hmod被设置为 NULL。l fdwSound:播放标识,有 15 种取值: SDN_ASYNC:异步播放,即调用 PlaySound 函数后声音开始播放,而调
26、用立即返回,无需等待播放完毕。 SDN_SYNC:同步播放,即调用要在播放完毕后才能返回。 SND_RESOURCE:此时hmod设置为一个可执行文件的句柄。 SND_ALIAS:此时pszSound 不能是文件名,而必须是注册的事件别名。3) 核心代码:switch (wmId) case ID_DISP_SOUND: /控件IDPlaySound(Langry_bird.wav,NULL,SND_ASYNC); /播放音频break; case ID_STOP_SOUND: PlaySound(NULL, NULL,SND_ASYNC); /停止播放break;2. 基于 MF Media
27、 Session 的音频播放1) 基本框架:2) 基础过程:l 调用 MFStartup 函数进行 Media Foundation platform 的初始化; l 调用 MFCreateMediaSession 函数创建一个 Media Session 对象实例; l 利用 Source Resolver 创建媒体源。 l 创建 Topology,并将媒体源节点与 SAR 节点连接起来。实际上,应用程序在这里只需要创建一个Partial Topology(部分拓扑),然后将媒体源与输出节点 SAR 连接,这时,Partial Topology 能够自动在两者之间插入必要的解码器,这体现出
28、Media Foundation的智能性; l 调用 IMFMediaSession:SetTopology 将 Topology 设置到 Media Session; l 使用 IMFMediaEventGenerator 接口从 Media Session 取得事件; l 调用 IMFMediaSession:Start 启动播放。之后,可以调用 IMFMediaSession:Pause、l IMFMediaSession:Stop 暂停、停止播放。 l 退出应用程序时,需调用IMFMediaSession:Close关闭 Media Session。 该方法是异步的,因此,当调用完毕,
29、Media Session发送MESessionClosed 事件,并能够安全处理后面的操作。3. 音频转码程序1) 功能:将 MP3、WMA 以及 AVI、WMV 中的音频数据转换成WAV 文件输出的功能。2) 函数声明:3) 音频数据量的计算T:转码音频片断的持续时间,以秒s为单位f:采样频率,以赫兹Hz为单位q:音频样本的量化深度(是16bits还是24bits),以位bit为单位c:声道数(是单身道还是双声道),1或2d:音频数据量,以字节为单位最大音频数据量:cbMaxSize = MAXDWORD cbHeader。MAXDWORD:Microsoft Visual C+在winn
30、t.h头文件中定义的一个常量#define MAXDWORD 0xffffffffcbHeader:RIFF Wave chunk的大小+FORMAT chunk的大小+data chunk头部大小4) 在转码程序中操作音频数据假设转码程序通过ConfigureAudioStream函数,将转码输出配置为未压缩的PCM格式音频,即采样频率为44.1kHz、量化深度为16bits、双声道的波形音频,那么,缓冲区中的音频数据将按下图所示的方式排列。第四章 无损数据压缩一、 信息熵编码1. 基本概念1) 信息量:对不确定性的度量,从数学上讲,某一事件发生的可能性越小,即概率越小,则该事件提供的信息量
31、越大;反之,一个事件发生的概率越大,则该事件包含的信息量就越小。计算信息量的表达式:设某事件的信息量为 Ii, 该事件发生的概率等于 pi,则2) 信源:构成一类报文的基本符号的集合。这些基本符号又称为码元。3) 码元:码元意指基本编码单元。每一个码元都有出现的概率,因此,每一个码元都有其对应的信息量。4) 信息熵:一个信源的所有码元的平均信息量就称为该信源的信息熵。5) 熵编码:就是指在不丢失任何信息的前提下,基于码元的统计特性,对码元或直接对报文本身进行编码,使得最后存储该报文所需要的平均比特数接近信源的信息熵。2. 种类1) 香农-范诺编码2) 霍夫曼编码3) 算术编码4) 行程编码:指对报文逐行进行统计,通过记录连续排列在一起的相同数据单元的数量、以及该数据单元本身,以压缩存储空间的一种编码算法。行程编码的记录方式有两种: 逐行记录每个游程的终点列号: 逐行记录每个游程的长度(像素数)。设有一个数据块,如下: AAABB ACCCA 则第一种方式下,这个栅格图形可记为: A,3,B,5 A,1,C,4,A,5 第二种记录方式下,可记为: A,3,B,2 A,1,C,3,A,1二、 词典编码专心-专注-专业
限制150内