多媒体技术及其新发展.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多媒体技术及其新发展.ppt》由会员分享,可在线阅读,更多相关《多媒体技术及其新发展.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术及其新发展 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望报告提纲报告提纲什么是多媒体什么是多媒体什么是多媒体什么是多媒体 语音处理技术语音处理技术语音处理技术语音处理技术图像、视频处理技术图像、视频处理技术图像、视频处理技术图像、视频处理技术 多媒体人机交互技术多媒体人机交互技术多媒体人机交互技术多媒体人机交互技术多媒体信息检索多媒体信息检索多媒体信息检索多媒体信息检索多媒体传输(流媒体和多媒体传输(流媒体和多媒体传输(流媒体和多媒体传输(流媒体和P2
2、PP2P)未来的发展未来的发展未来的发展未来的发展1一什么是多媒体一什么是多媒体 2什么是多媒体什么是多媒体1 1人类生活发生的变化人类生活发生的变化人类生活发生的变化人类生活发生的变化什么是多媒体什么是多媒体视听视听视听视听电视、电影:形式、渠道电视、电影:形式、渠道电视、电影:形式、渠道电视、电影:形式、渠道音乐:音乐:音乐:音乐:WalkmanWalkman、CD PlayerCD Player、MP3MP3存储存储存储存储通信手段通信手段通信手段通信手段电话:固定电话、移动电话、网络电话:固定电话、移动电话、网络电话:固定电话、移动电话、网络电话:固定电话、移动电话、网络文字:电报、文
3、字:电报、文字:电报、文字:电报、EmailEmail内容:文字、话音、视频内容:文字、话音、视频内容:文字、话音、视频内容:文字、话音、视频 学习方式学习方式学习方式学习方式图书馆、教室图书馆、教室图书馆、教室图书馆、教室电视教学、远程教学电视教学、远程教学电视教学、远程教学电视教学、远程教学32 2什么改变了我们的生活什么改变了我们的生活什么改变了我们的生活什么改变了我们的生活什么是多媒体什么是多媒体网络网络网络网络33.6K Modem33.6K Modem、ISDNISDN、ADSLADSLATMATM、IPIP有线网络、无线网络有线网络、无线网络有线网络、无线网络有线网络、无线网络计
4、算机计算机计算机计算机无硬盘计算机、无硬盘计算机、无硬盘计算机、无硬盘计算机、386386、486486、586586单核处理器、多核处理器单核处理器、多核处理器单核处理器、多核处理器单核处理器、多核处理器CRTCRT显示器、液晶、等离子体显示器、液晶、等离子体显示器、液晶、等离子体显示器、液晶、等离子体多媒体技术多媒体技术多媒体技术多媒体技术42 2什么是多媒体什么是多媒体什么是多媒体什么是多媒体什么是多媒体什么是多媒体“多媒体多媒体多媒体多媒体”译自译自译自译自20202020世纪世纪世纪世纪80808080年代初产生的英文词年代初产生的英文词年代初产生的英文词年代初产生的英文词“mult
5、imedia”“multimedia”“multimedia”“multimedia”,最早出现于美国麻省理工学院,最早出现于美国麻省理工学院,最早出现于美国麻省理工学院,最早出现于美国麻省理工学院(MIT)(MIT)(MIT)(MIT)递交给国防部的一个项目计划报告中。递交给国防部的一个项目计划报告中。递交给国防部的一个项目计划报告中。递交给国防部的一个项目计划报告中。多媒体多媒体多媒体多媒体是指信息表示媒体的多样化,常见的多媒是指信息表示媒体的多样化,常见的多媒是指信息表示媒体的多样化,常见的多媒是指信息表示媒体的多样化,常见的多媒体有文字、图形、图像、声音、音乐、视频、动体有文字、图形、
6、图像、声音、音乐、视频、动体有文字、图形、图像、声音、音乐、视频、动体有文字、图形、图像、声音、音乐、视频、动画等多种形式。画等多种形式。画等多种形式。画等多种形式。多媒体技术多媒体技术多媒体技术多媒体技术是利用计算机技术把文本、声音、视是利用计算机技术把文本、声音、视是利用计算机技术把文本、声音、视是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理,频、动画、图形和图像等多种媒体进行综合处理,频、动画、图形和图像等多种媒体进行综合处理,频、动画、图形和图像等多种媒体进行综合处理,使多种信息之间建立逻辑连接,集成为一个完整使多种信息之间建立逻辑连接,集成为一个完整使多种
7、信息之间建立逻辑连接,集成为一个完整使多种信息之间建立逻辑连接,集成为一个完整的系统。的系统。的系统。的系统。二语音处理技术二语音处理技术5语音处理技术语音处理技术语音处理技术包括语音识别、说话人的鉴别和确认、语音处理技术包括语音识别、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,其中最具有挑战性和最富有应用前景语音编码等,其中最具有挑战性和最富有应用前景的是语音识别技术。的是语音识别技术。1 1声音的特点声音的特点声音的特点声音的特点 声音是重要的信息表现手段,自然科学家们关于声音的研究清楚声音是重要的信息表现手段
8、,自然科学家们关于声音的研究清楚声音是重要的信息表现手段,自然科学家们关于声音的研究清楚声音是重要的信息表现手段,自然科学家们关于声音的研究清楚地表明:地表明:地表明:地表明:“声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、液体和气体。机械扰动是指媒质的某种性质液体和气体。机械扰动是指媒质的某种性质液体和气体。机械扰动是指媒质的某种性质液体和气体。机械扰动是指媒质的某种性质(譬如压力、质点位移或譬如压力、质点位移或譬如压力、质点位移或譬如压力
9、、质点位移或密度密度密度密度)发生了可以用仪器检测出来或者可被人听到的交替变化。发生了可以用仪器检测出来或者可被人听到的交替变化。发生了可以用仪器检测出来或者可被人听到的交替变化。发生了可以用仪器检测出来或者可被人听到的交替变化。”6语音处理技术语音处理技术2 2声音处理技术声音处理技术声音处理技术声音处理技术音频压缩技术音频压缩技术三维音效技术三维音效技术语音识别技术语音识别技术语音合成技术语音合成技术声音的特点声音的特点声音的特点声音的特点 声音是一种弹性波,声音信号可以分成周期信号与非周期信号两类。声音的质量与声音的频率范围有关。人的听觉器官能感知的频率范围为2020000Hz,能感知的
10、声音幅度范围在0120dB之间,而人的发音器官能够发出的声音频率范围为803,400Hz。语音处理技术语音处理技术1分钟数字音频信号需要的存储空间语音处理技术语音处理技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术 音频文件格式音频文件格式音频文件格式音频文件格式主要用在主要用在PCPC上的以上的以.wav.wav为扩展名的文件格式为扩展名的文件格式主要用在主要用在UnixUnix工作站上的以工作站上的以.au.au为扩展名的文件格式为扩展名的文件格式主要用在苹果机和美国视算科技有限公司的工作站上的主要用在苹果机和美国视算科技有限公司的工作站上的以以.aiff.aiff和和.snd.snd
11、为扩展名的文件格式为扩展名的文件格式目前流行的格式目前流行的格式.rm.rm、.mp3.mp3、.wma.wma 语音压缩标准语音压缩标准语音压缩标准语音压缩标准G.711G.711G.711G.711、G.723.1G.723.1G.723.1G.723.1、GSMGSMGSMGSM、MPEG Audio Layer 3MPEG Audio Layer 3MPEG Audio Layer 3MPEG Audio Layer 3(MP3MP3MP3MP3)语音压缩技术语音压缩技术语音压缩技术语音压缩技术语音处理技术语音处理技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术指的是对
12、原始数字音频信号流(音频压缩技术指的是对原始数字音频信号流(PCMPCM编码)编码)运用适当的数字信号处理技术,在不损失有用信息量,或运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。声和一定的失真。研究发现,直接采用研究发现,直接采用PCMPCM码流进行存储和传输存在非常大码流进行
13、存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行的冗余度。事实上,在无损的条件下对声音至少可进行4:14:1压缩,即只用压缩,即只用2525的数字量保留所有的信息的数字量保留所有的信息语音处理技术语音处理技术MP3MP3音频压缩编码音频压缩编码音频压缩编码音频压缩编码 MP3是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。MP3格式开始于格式开始于二十世纪二十世纪80年代中期,是在德国夫朗和费研究所年代中期,是在德国夫朗和费研究所(Fraunhofer Institute)开始的,研究致力于高质量、低数)开始的,研究致力于高质量、低数据率的声音编码据率的声音编码
14、MP3格式是一个让音乐界产生巨大震动的一个声音格式。格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是的全称是Moving Picture Experts Group,Audio Layer 3,它所使用的技术是在,它所使用的技术是在VCD(MPEG-1)的音频)的音频压缩技术上发展出的第三代,而不是压缩技术上发展出的第三代,而不是MPEG-3。MP3的压缩率则高达的压缩率则高达10:112:1,也就是说一分钟,也就是说一分钟CD音音质的音乐未经压缩需要质的音乐未经压缩需要10MB存储空间,而经过存储空间,而经过MP3压缩压缩编码后只有编码后只有1MB左右,同时其音质基本保持不失真。
15、左右,同时其音质基本保持不失真。语音处理技术语音处理技术三维音效三维音效三维音效三维音效日常生活中,我们用两只耳朵来听东西,从各处音源中获日常生活中,我们用两只耳朵来听东西,从各处音源中获得信息,再通过人脑的计算来定位声音。计算机模拟人脑得信息,再通过人脑的计算来定位声音。计算机模拟人脑的的3D(三维)音效计算,通过数字音源播放出来,让我(三维)音效计算,通过数字音源播放出来,让我们感到自己处身于虚拟的世界。们感到自己处身于虚拟的世界。既然在现实世界中,我们可以用一双耳朵分辨出既然在现实世界中,我们可以用一双耳朵分辨出3D音场,音场,那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只那么仅靠贴
16、近耳朵的两只耳机也能实现近似效果。用两只扬声器也可以吗?扬声器也可以吗?语音处理技术语音处理技术三维音效三维音效三维音效三维音效人耳的基本声音定位原理是人耳的基本声音定位原理是IID(两侧声音强度差别)和(两侧声音强度差别)和ITD(两侧声音时间延迟差别)。(两侧声音时间延迟差别)。耳廓(外耳)的作用是滤波器,根据声音的不同角度,加耳廓(外耳)的作用是滤波器,根据声音的不同角度,加强强/减弱音波能量,过滤之后传给大脑,让我们更准确地减弱音波能量,过滤之后传给大脑,让我们更准确地确定声源的位置。确定声源的位置。许多时候,我们听到的声音并不是直线进入耳朵,而是通许多时候,我们听到的声音并不是直线进
17、入耳朵,而是通过了几次反射才进入大脑。在音波行进的过程中,音波能过了几次反射才进入大脑。在音波行进的过程中,音波能量会减弱,再加上反射造成的消音和延迟作用,声音已经量会减弱,再加上反射造成的消音和延迟作用,声音已经有了变化,这种反射混合起来的效果称为交互混响。有了变化,这种反射混合起来的效果称为交互混响。模拟模拟3D音效需要还原以上定位效果:音效需要还原以上定位效果:IID、ITD、耳廓、耳廓、反射,并分析不同角度声音发生的变化,通过计算机模拟反射,并分析不同角度声音发生的变化,通过计算机模拟合成来建立一种虚拟声音系统合成来建立一种虚拟声音系统-数字化音场。数字化音场。语音处理技术语音处理技术
18、3D3D音效的分类音效的分类音效的分类音效的分类 扩展式立体声扩展式立体声它使用声音延迟技术对传统的立体声进行额外处理,扩宽了音场的位它使用声音延迟技术对传统的立体声进行额外处理,扩宽了音场的位置,使声音延展到音箱以外的空间,让我们感觉的置,使声音延展到音箱以外的空间,让我们感觉的3D3D世界更广阔。世界更广阔。环绕立体声环绕立体声它采用音频压缩技术它采用音频压缩技术(如:杜比如:杜比AC-3)AC-3)把多通道音源编码成一段程序,把多通道音源编码成一段程序,再以一组多扬声器系统来进行解码,实现多区域环绕效果。这也是一再以一组多扬声器系统来进行解码,实现多区域环绕效果。这也是一种被动播放音轨的
19、技术,最适合于电影播放。种被动播放音轨的技术,最适合于电影播放。交互式交互式3D3D音效音效交互式交互式3D3D尽量地复制了人耳在真实世界中听到的声音,并使用一定的尽量地复制了人耳在真实世界中听到的声音,并使用一定的算法来播放出来,让我们感到整个三维空间的所有地方都可能产生声算法来播放出来,让我们感到整个三维空间的所有地方都可能产生声音,并随听者的移动而做出相应改变。它是最接近实际生活的音,并随听者的移动而做出相应改变。它是最接近实际生活的3D3D音效,音效,通常应用于第一人称通常应用于第一人称3D3D游戏。游戏。语音处理技术语音处理技术语音识别语音识别“让计算机能和人类自由交流让计算机能和人
20、类自由交流让计算机能和人类自由交流让计算机能和人类自由交流”一直是人们的梦想,语言一直是人们的梦想,语言一直是人们的梦想,语言一直是人们的梦想,语言是描述人类思维的工具之一,因此将人类语言和计算机联是描述人类思维的工具之一,因此将人类语言和计算机联是描述人类思维的工具之一,因此将人类语言和计算机联是描述人类思维的工具之一,因此将人类语言和计算机联系起来,应当是实现这一梦想的重要一步。系起来,应当是实现这一梦想的重要一步。系起来,应当是实现这一梦想的重要一步。系起来,应当是实现这一梦想的重要一步。语音识别技术是语音处理技术中最具有挑战性和最富有应语音识别技术是语音处理技术中最具有挑战性和最富有应
21、语音识别技术是语音处理技术中最具有挑战性和最富有应语音识别技术是语音处理技术中最具有挑战性和最富有应用前景的技术。用前景的技术。用前景的技术。用前景的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语音识别是一个多学科交叉的领域,它与声学、语音学、语音识别是一个多学科交叉的领域,它与声学、语音学、语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。学科紧密相连。学科紧密相连。学
22、科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只由于语音信号的多样性和复杂性,目前的语音识别系统只由于语音信号的多样性和复杂性,目前的语音识别系统只由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用能在一定的限制条件下获得满意的性能,或者说只能应用能在一定的限制条件下获得满意的性能,或者说只能应用能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于4
23、4 4 4类类类类因素:因素:因素:因素:1.1.1.1.识别词汇表的大小和语音的复杂性;识别词汇表的大小和语音的复杂性;识别词汇表的大小和语音的复杂性;识别词汇表的大小和语音的复杂性;2.2.2.2.语音信语音信语音信语音信号的质量;号的质量;号的质量;号的质量;3.3.3.3.单个说话人还是多说话人;单个说话人还是多说话人;单个说话人还是多说话人;单个说话人还是多说话人;4.4.4.4.硬件。硬件。硬件。硬件。语音处理技术语音处理技术语音识别系统的原理框图语音识别系统的原理框图语音识别系统的原理框图语音识别系统的原理框图 语音处理技术语音处理技术IBMIBM语音识别输入系统语音识别输入系统
24、 ViaVoice Pro 9.1 ViaVoice Pro 9.1该系统可用于声控打字和语音导航。只要对着微机讲话,该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入不用敲键盘即可打汉字,每分钟可输入150150个汉字,是键个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可盘输入的两倍,是普通手写输入的六倍。该系统识别率可达达95%95%以上。以上。IBMIBM潜心研究潜心研究2626年,领导了世界的语音识别技术,其语音年,领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。识别产品在全球销售已达一百万套以上。语音处理技术语音处理
25、技术自然语言理解自然语言理解自然语言理解自然语言理解 自然语言理解自然语言理解(NLU,Natural Language Understanding)就就是研究如何能让计算机理解并生成人们日常所使用的是研究如何能让计算机理解并生成人们日常所使用的(如如汉语、英语汉语、英语)语言,使得计算机懂得自然语言的含义,并语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。进行回答。自然语言处理的核心技术是语言分析技术,即将句子(数自然语言处理的核心技术是语言分析技术,即将句子(数量无限)变换成由词语(数量可控
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 及其 新发展
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内