硕士论文-数字语音编码技术及其在水声通信中的应用.pdf
-
资源ID:46679716
资源大小:3.38MB
全文页数:99页
- 资源格式: PDF
下载积分:30金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
硕士论文-数字语音编码技术及其在水声通信中的应用.pdf
西北工业大学硕士学位论文数字语音编码技术及其在水声通信中的应用姓名:王艳申请学位级别:硕士专业:通信与信息系统指导教师:黄建国20070301摘要目前,数字语音技术已被广泛应用于众多通信领域,但是利用声波进行水声数字语音通信却是近期起步研究的新技术,这主要是由水声信道噪声高、通信带宽窄、载波频率低、传输时延大、多径效应随时间一空间一频率变化等特点所决定的。随着国家安全的需要和海洋经济的发展,水声数字语音通信技术的研究越来越受到人们的重视本论文以实现水声数字语音通信为目的,对数字语音压缩编码技术进行了深入的研究。由于水介质的吸收使得水声信道可利用的工作频率较低,信道带宽较窄,因此通信速率较低。根据这一特点,要在水声信道中实现数字语音通信,就必须对语音信息进行大幅度压缩,降低传输所需要的比特率。因此,本文主要对低速率的语音压缩编码算法进行了深入研究。码激励线性预测技术(C E L P)综合了波形编码和参数编码的优点,在较低的编码速率上可以获得较高质量的合成语音。根据水声通信的特点,本文参照国际重要的C E L P 算法F S 1 0 1 6 标准,提出了一种基于快速自适应码书搜索方法的语音编解码算法,研究结果表明该算法具有良好的抗噪声和抗误码能力,可以满足水声信道复杂、通信频带窄的要求。论文研究的主要内容及取得的成果如下:1 在深入研究码激励线性预测编码算法理论的基础上,提出了基于F S 1 0 1 6标准实现数字语音信号编解码的技术方案,并开发了数字语音信号的编解码仿真系统。通过对大量语音样本的统计分析,结果表明:本文提出的数字语音编解码技术方案可行,且由此实现的编解码系统性能稳定,合成语音具有较高的清晰度和自然度。2 对以上提出的语音编解码方案及由此实现的编解码系统抗误码性能进行了深入研究,结果表明:由该方案所实现的数字语音编解码系统具有良好的抗误码能力,在误码率小于2 5 时,均可实现清晰的语音通信。3 针对传统F S 1 0 1 6 标准语音编码算法复杂度高的特点,提出了一种基于快速自适应码书搜索方法的语音编解码算法。该算法改进了传统的分析一合成模型中合成模块,使得自适应码书搜索时不再需要进行卷积运算。研究结果表明:快速自适应码书搜索算法与传统自适应码书搜索算法相比,不仅较好地保持了原来的语音质量,而且运算量下降了4 0 左右,大大降低了编解码系统的复杂度。4 利用已建立的水声通信系统和湖试试验数据,对基于快速自适应码书搜索方法的语音编解码算法在实际水声信道的通信条件下的性能进行了试验研究,结果表明:该算法具有良好的抗误码性能,在通信距离为5 k m、误码率达2 5 的通信条件下仍然可实现清晰、可靠的语音通信。关键词:水下数字语音通信,数字语音压缩编码,码激励线性预测,快速白适应码书搜索算法,抗误码性能,试验研究nA B S T R A C TD i g i t a ls p e e c ht e c h n o l o g yh a sb e e nw i d e l yu s e di nm a n yf i e l d so f c o m m u n i c a t i o ni nr e c e n ty e a r s b u ti ti sj u s ta lb e g i n n i n gt ou s ea c o u s t i c a lw a v et oi m p l e m e n tu n d e r w a t e rd i g i t a ls p e e c hc o m m u n i c a t i o n I tm a i n l yr e s u l t sf r o mt h eu n d e r w a t e ra c o u s t i cc h a n n e lw h i c hh a st h ec h a r a c t e r i s t i c so fl a r g en o i s e,n a r r o wb a n d w i d t h,l o wc a r r i e rf r e q u e n c y,g r e a tp r o p a g a t i o nl a t e n c ya n dm u l t i p a t he f f e c tv a r y i n gw i t ht i m e-s p a c e-f r e q u e n c y 黝t h ed e v e l o p m e n to fn a t i o n a ls e c u r i t ya n dm a r i n ee c o n o m y,t h er e s e a r c ho nu n d e r w a t e rd i g i t a lv o i c ec o m m u n i c a t i o ni sg e t t i n gm o r ea n dm o r ei m p o r t a n t I nt h i st h e s i s,d i g i t a ls p e e c hc o d i n gt e c h n o l o g i e sa r es m d i e dw i t ht h ep u r p o s eo f i m p l e m e n t i n gu n d e r w a t e rd i g i t a ls p e e c hc o m m u n i c a t i o n S i n c ea nu n d e r w a t e ra c o u s t i cc o m m u n i c a t i o nc h a r m e li Sb a n d w i d t h-l i m i t e d,t r a n s m i s s i o no fq u a n t i z e ds p e e c hs a m p l e sa th i g l lb“r a t e si sr e s t r i c t e d,h e n c es p e e c hs i g n a lm u s t b eg r e a t l yc o m p r e s s e d I nt h i s“獬锄皿t h ea l g o r i t h m so fs p e e c hc o d i n ga tl o wb i t sr a t e sa m a i n l ys t u d i e d C o d eE x c i t e dL i n e a rP r e d i c t i o n(C E L P)c o d e re x h i b i tt h eg o o dp e r f o r m a n c eo fa m p l i t u d ec o d e ra n dp a r a m e t e rc o d e r,w h i c hc a np r o v i d eh i g hq u a l i t ys p e e c ha tv e r yl o wb i tr a t e s A c c o r d i n gt ot h eF S-1 0 1 6s t a n d a r do f C E L Pw h i c ha l et h ei m p o r t a n ta n di n t e r n a t i o n a la l g o r i t h m,an e wm e t h o do fs p e e c hc o d i n gb a s e do nt h ef a s ts e a r c ha l g o r i t h mo fa d a p t i v ec o d e-b o o ki sp r o p o s e d 弛er e s u l t ss h o wt h a tt h ea l g o r i t h mp e r f o r m sw e l la g a i n s th i g hB E Ra n dl a r g en o i s e,a n di tC a ns a t i s f yt h er e q u i r e m e n t so f u n d e r w a t e rd i g i t a lv o i c ec o m m u n i c a t i o nw e l l R e s e a r c h _ t i f fr e s u l t si nt h et h e s i s&r es u m m a r i z e d 嬲f o l l o w s:1 B a s i n go nt h es t u d yo fF S-1 0 1 6a l g o r i t h m,ad i g i t a ls p e e c hc o d e cs c h e m ei nt e c h n i ci sp r e s e n t e da n das i m u l a t i o ns y s t e mi sc o n s t r u c t e df o ri t S i m u l a t i o nr e s u l t si l l u s t r a t et h a tt h ec o d e cs c h e m ei sf e a s i b l ea n dt h es i m u l a t i o ns y s t e mC a np r o v i d eh i g hq u a l i t ys p e e c ha sw e l la sr e p r e s e n tt h ef a v o r a b l ep e r f o r m a n c e 2 C a p a b i l i t yo f t h ec o d e cs c h e m ea n dt h es i m u l a t i o ns y s t e mf o rr e s i s t i n gb i ta 榭r a t e s(B E R)a r es t u d i e dd e e p l y I ts h o w st h a tt h es i m u l a t i o ns y s t e mb a s e do nt h eC A:K l e cs c h e m er e p r e s e n t sf a v o r a b l ec a p a b i l i t yo fr e s i s t i n gB E R,a n di tc a nr e a l i z ec l e a rv o i c ec o m m u n i c a t i o nw h e nt h eB E Rb e l o w2 5 3 An e wm e t h o do fs p e e c hc o d i n gb a s e do nt h ef a s ts e a r c ha l g o r i t h mo fa d a p t i v ec o d e-b o o ki sp r o p o s e df o rr e d u c i n gt h ec o m p l e x i t yo fF S-1 0 1 6a l g o r i t h m T h en e wIa l g o f i t h r ai sr e a l i z e db yi m p r o v i n gt h eA B S(A n a l y s;i s-b y-S y n t h e s i s)m o d e li nF S-1 0 1 6a l g o f i t h m S i m u l a t i o ns h o w st h a tc o m p u m t i o no ft h ef a s tS e a L r C ha l g o r i t h mi ss i 鲥黟r e d u c e dt o6 0 o ft h ec o n v e n t i o n a la l g o r i t h mo fa d a p t i v ec o d e-b o o ka n dt h en e wa l g o r i t h mC a l lp r o v i d et h eh i 曲q u a l i t ys p e e c ha sg o o da st h eo l do n e F i n a l l yt h ee o m p l e x i t yo f F S-1 0 1 6a l g o r i t h mi sg r e a t l yd e c r e a s e d,4 T h ep e r f o r m a n c eo fd i g i t a lu n d e r w a t e rv o i c ec o m m u n i c a t i o ns y s t e mb a s e dO nt h ef a s ts e a r c ha l g o r i t h mo fa d a p t i v ec o d e b o o ko fF S 1 0 1 6i nt h ea c t u a l l yu n d e r w a t e rc h a n n e li ss t u d i e db yu t i l i z i n gac o n s t r u c t e da c o u s t i cc o m m u n i c a t i o ns y s t e ma n dt h ed a t ao fe x p e r i m e n t si nt h el a k e T h ee x p e r i m e n tr e s u l t ss h o w st h a tt h en e wa l g o r i t h m sr e p r e s e n t sf a v o r a b l ec a p a b i l i t ya g a i n s th i 曲B E R,ac l e a ra n dc o r r e c tv o i c ec o m m u n i c a t i o nC a nb ea c h i e v e de v e nt h er a n g ei s5 k ma n dB E Ri s2 5 K E Y W O R D S:O i g i U du n d e r w a t e ra c o u s t i cv o i c ec o m m u n i c a t i o n,D i g i t a ls p e e c hc o d i n g,C o d ee x c i t e dl i n e 缸p r e d i c t i o n,Af a s ts e a r c ha l g o r i t h mo fa d a p t i v ec o d e-b o o k,c a p a b i l i t yo f r e s i s t i n gB E R,s t u d yi ne x p e r i m e n tI V西北工业大学业学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西北工业大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业大学。保密论文待解密后适用本声明。学位论文作者签名髟i 堕指导教师签名d 7 年4 月堂日翔年月日西北工业大学学位论文原创性声明秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容和致谢的地方外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果,不包含本人或其他己申请学位或其他用途使用过的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式表明。本人学位论文与资料若有不实,愿意承担一切相关的法律责任。学位论文作者签名:鱼塑)7 年千月rB话北工业大学硕士学位论文第一章绪论第一章绪论1 1 课题的研究意义及选题背景地球上,海洋所占的面积比人类所居住生活的陆地还要广大,其深度也完全可以与陆地上的高山的高度相比拟。人类己经成功地征服了天空,并且把触角伸向了遥远的太空,己经成功地踏足月球、通过发射探测器收集到丰富的其它星球的信息和知识。然而,由于海水的阻隔和重重障碍,尽管也通过潜艇等工具进行了探索和研究,但是相对来说,所获得海洋世界的知识较少,并且停留在海洋深度在几千米以内的表层空间,更深的海洋世界还几乎是未知数。然而海洋作为人类尚未开发的领域,已经成为当今各国研究与开发的重要战略目标,成为国际上激烈竞争的焦点之一。海洋工程技术和宇航空间技术、核能科学技术并列为当代技术革命中三大尖端技术。由于研究和开发海洋的需要,现代通信系统和网络已经从陆地和空中延伸到了海洋,特别是随着近几年网络的普及和移动通信卫星通信的飞速发展,对于任何时间任何地点可以进行通信的要求也越来越强烈。海洋中,潜水员和潜水员之间,潜水员和母舰之间的语音通信,母船和水下机器人之间的数据传送,大型水下武器实验场的数据采集,水下战争中的潜艇编队之间以及潜艇与水面舰艇,潜艇与岸上指挥中心之间的通信都必需依靠水声通信。然而无论是在陆地上还是在水下,在人与人的通信方式上,尤其是在水下蛙人潜水、饱和潜水、对潜通讯、海上军事训练等场合,语音通信是人与人交流的最直接手段。因此研究水声语音与数据通信,建立高可靠性的水下通信链路,构建陆地空中和海洋三位一体的立体化通信网络无论对于军事领域和海洋的研究开发都有着特别重要的意义。随着人类开发利用海洋和现代军事工程的需要,蛙人或潜水员在很多水下作业中都有重要的作用。虽然当前的智能机器人技术发展迅速,智能机器人能够代替蛙人执行一些水下任务,但是机器人的智能程度及其灵活性总是有限的,而且造价昂贵。在一些具体的应用场合,只有人类才能审时度势,根据具体的环境和现实情况,采取灵活机动的方法来很好地完成水下作业。蛙人或潜水员在执行水下任务时又需要与水面舰船或潜艇或岸站上的人员之间进行联络和协商,这时最方便的联络方式就是使用语音通信,简便的麦克风与耳机对蛙人的行动束缚很小,可以在不影响其工作的情况下进行通信。因此研究水声语音通信成为水声通信研究领域中非常重要的一部分。1西北工业大学硕士学位论文第一章绪论目前为止,在具有“时变一空变一频变”特性条件恶劣的海洋信道中进行通信,最为可靠的手段是通过具有在海水中传输特性较好的超声波作为载体来传输信息,因而海洋信道也通常被称之为“水声信道”。水声信道的情况,相比无线的空中信道还要恶劣:衰减大,传输距离有限;频率漂移大;海底和海面情况复杂导致多途效应严重;存在温度梯度影响,等等。加之超声波的频带窄,传输速率低(1 5 0 0 m s),为达到一定的实时性,就严重限制了可传输的数据量。对于信息量较大的语音信号来说,这是致命的一点,所以如何克服信道特性,完成足够信息量的传输并保证一定的实时性,是一项艰巨的任务。因此,采取压缩方法,降低需要传输的数据量就成为必需。而且在压缩的同时,还应兼顾考虑到解压后语音质量的问题。因此在允许一定限度失真的前提下,对语音数据进行一定程度的压缩,结合实际需要和应用领域的要求,选择合适的压缩方法,去除冗余信息,是实现水声数字语音通信系统的关键,这一点也是本文所要研究的重点之一。1 2 水声语音通信系统的发展现状1 2 1 国外水声语音通信系统的发展现状由于军事上的需要,水声通信技术在第二次世界大战初期得到迅速发展。水声通信中语音通信技术的发展可追溯到第二次世界大战期间,它的发展经历了从最初的模拟通信阶段到现在的数字通信阶段。自第二次世界大战末期被正式使用以来,经过不断的改进,广泛采用单边带调制方式。例如1 9 4 5 年美国海军水声实验室研制的水下电话是世界上最早的水下语音通信系统,该系统主要用于潜艇之间的通信,其中使用单边带调制技术,载波频段为8 1 1k H z,工作距离可达几公里【1】。目前美国海军采用的是由H a r r i sA c o u s t i cP r o d u c t sC o r p o r a t i o n 提供的A N W Q C-2 A 单边带语音通信机。该单边带调幅语音通信机根据不同的通信距离有两个不同的工作频段(1 4 5 3 1 0 k H z 或8 3 1 1 1 k H z)可供选择,可进行语音和低速电报工作,已大量装备于美国海军的水面舰艇、潜艇和岸站。英国研制的用于潜艇和水面舰艇的G 7 3 2 M K I I 型舰艇水声通信机,具有语音通信和摩尔斯电报等功能,以及用于完成潜艇之间或水面舰艇之间通信的高质量语音通信的3 2 0 0型水声电话,都是采用单边带传输方式。法国汤姆逊啐特尔公司研制T s M 5 1 2 l A和T S M 5 1 2 1 B 水声电话,分别用于潜艇和水面舰艇,均具有电话和电报双向通信的功能,通信距离约为2 0 k m,是上边带发射调频呼叫工作方式。模拟系统存在的缺点是功率利用率低,一般情况下为了在几千米的距离上进2西北工业大学硕士学位论文第一章绪论行通信,需要达到上百瓦的发射功率。另外,虽然单边带调制是节省传输频带的调制方式,但实现起来比较困难,要获得单边带信号,必须有陡峭频率特性的发送边带滤波器。技术难度较大。随着通信技术的发展,数字通信在i f r 2 0 年以来得到了迅速发展,主要原因是由于数字通信的抗干扰能力强、便于进行各种数字信号处理(如加密、压缩等),易于实现集成化,其经济效益正在超过模拟通信,而且传输与交换可结合起来,传输语音与传输数据也可结合起来,成为一个统一体,有利于实现综合业务通信网。近十年来在水声通信技术中采用了多种数字调制技术,因而水声数字通信技术得到了迅速的发展,英国、法国和日本等国家在水声数字通信方面也取得了一定的成果,表1 列出了各国的研究情况。表1 各国研究机构的水声通信设备比较研制机构用途信道条件调制方式抗码间干带宽传输速率扰技术(k b s)日本海洋科图像传输垂直信道4 _ D P S K线性均衡2 0 l 沮z1 6学技术中心6 5 0 0 米(L M S 算法)日本电水下机器6 0 米浅线性均衡气公司人通信水信道1 6-Q A M(L M S 算法)1 瑚z5 遥控E N S T(英数字语音试验水池4 D P S K判决反馈均衡6国)I F R E M R通信(L M S 算法)M i c r i l o r 公司水声遥测1 0 0 0 米浅2 D P S K直接序列扩频3 0 眦H d0 6海信道i o c 龇W o o d sH o l e水声遥测冰层下浅Q P S K判决反馈均街1 5 k I-l z5海洋研究所水信道(R L S 算法)由于水声数字通信技术发展的需要而引入了水声数字语音通信技术的研究,各种语音编码算法的出现,为水下数字语音通信提供了基础。目前水下数字语音传输系统中最有代表性的是1 9 9 4 年由法国研制的C E L P 试验系统【2 1,水池试验传输率为6 k b i t*。采用的调制方法为4-D P S K,利用L,M S 判决反馈均衡器,但还没有关于其海上试验的报道。另外具有代表性的水下数字语音系统是英国拉夫堡大学研制的“话音通信系统”3 1,采用D P P M(D i g i U t lP u l s eP o s i t i o nM o d u l a t i o n)实现语音通信,其通信速率为2 4 k b i t s。1 2 2 国内水声语音通信系统的发展现状军用上,目前我国海军现役水声通信系统是采用模拟单边带调幅的语音通信机。如6 6 0 通信声呐,其技术实现是:通信信息模拟语音、报文(摩尔斯码M o r s eC o d e 或加密报文)等的传输采用单边带S S B(S i n g l eS i d e b a n d)调幅技术。发信西北工业大学硕士学位论文第一章绪论机把用户终端送出来的话音(3 0 0-3 4 0 0 H z)或电报信号(8 0 0 H z 单音)对一个8 0 7 8 k H z 的载波调制后,抑制载波取出上边带,经功率驱动后从水声换能器送出声波1 4】。由于海洋水声环境复杂多变,多途径情况严重,因此通信质量难以保证,多数情况下语音模糊不清。民用上,除了少数科学考察船只有装备外,很少见到有其它方面应用。军用方面,水声通信技术一直是发达国家对我国实行禁止出口的技术领域之一,因此研制具有自主知识产权的水声通信技术具有深远的意义。1 2 水下语音通信系统正如一般的数字通信系统,水下语音通信系统也包括发射系统、信道和接收系统三个部分,具体框图如图1 1 所示。图1 1 水下语音通信系统框图发射系统的主要任务是:用适当的传感器,如话筒,把原始语音信息转变成电信号送入信源编码器,信源编码器对输入信号进行A D 变换,并完成语音压缩功能,形成低码率的数字信号,再经过信道编码,对数字信号进行适当的编码(如卷积编码、R S 编码等),增加信号的冗余度,使具有检错和纠错能力。一般把经过信道编码的信号称为符号,调制部分是根据水声信道的特点和要求把信道编码后的符号以适当的方式调制到一定频率的载波上,最后送往发射机,经由发射阵转化为声信号。接收系统对信号的处理过程基本与发射系统一一对应,是一个相反的过程。主要包括:接收信号的预处理(放大、滤波、增益控制、A D 采样,信号的解调,信道解码和语音压缩解码,最后重建原始语音信号。4西北工业大学硕士学位论文第一章绪论1 3 论文的主要工作由于水声信道具有噪声高、带宽窄、载波频率低、传输时延大、多途径效应随时问一空间一频率变化的特性,对于水下数字语音通信系统而言,在选择语音编码方案时,要重点考虑水声信道带宽窄的特点,这就决定了经压缩编码后的语音信号的数据率要尽可能低,且要有较好的抗误码能力。同时考虑到水下语音通信的实时性处理,要求编码算法的复杂度不能过高。针对以上存在的问题,本文参照F S-1 0 1 6 标准提出了一种基于快速自适应码书搜索方法的语音编解码算法该算法使编码复杂度大大降低。研究结果表明,该算法有利于实现较远程的水声语音通信。论文各个章节的主要研究内容如下:第一章;阐述了水声通信中数字语音通信技术的研究背景及意义,回顾了水声语音通信的发展历程,介绍了本论文的主要研究工作。第二章:介绍了语音压缩编码的理论依据、语音压缩编码的分类及语音编码算法的属性概述了目前主流低速率语音压缩编码技术的算法体制,并对更低比特率的语音压缩编码算法进行了总结和分析。第三章:详细分析了语音信号线性预测编码技术的理论基础,介绍了语音信号产生的数字模型及语音生成的线性预测模型。重点对线性预测编码方法的基本原理进行了分析,讨论了线性预测编码(L P c)正则方程的自关解法,并推导出自关法解L P C 正则方程的D u r b i n 递推算法。第四章:详细分析了基于码激励线性预测技术(C E L P)的语音编码系统,对C E L P 算法进行了概述。重点对该编码系统的关键技术进行了详尽分析,讨论了C E L P 算法中短时和长时两个时变预测器形成的理论依据,最后介绍了自适应码书和随机码书的搜索算法。第五章:介绍了F S 一1 0 1 6 标准的算法体制。重点依据F S 1 0 1 6 标准对其编码器和解码器进行了仿真方案设计,并在M a t l a b 环境下开发了编解码系统,仿真结果表明该系统稳定,合成语音具有较高的清晰度和自然度,M O S 分达3 5 分以上,达到较理想的编码效果。最后对编解码系统的抗误码性能进行了分析,结果表明:本文所实现的数字语音编解码系统具有良好的抗误码能力。第六章:在详细分析了自适应码书结构及传统自适应码书搜索算法理论的基础上,提出了一种快速的自适应码书搜索算法。该算法大大降低了编码算法的复杂度,同时为其硬件实现提供良好的基础。仿真结果表明:新算法较好的保持了传统F S 一1 0 1 6 编码算法合成语音的质量,并使自适应码书搜索运算量下降约4 0左右。西北工业大学硕士学位论文第一章绪论第七章:根据湖试试验所测数据,对基于快速自适应码书搜索方法的语音编解码算法在水声通信条件下的性能进行了试验研究。结果表明:该算法具有良好的抗误码性能,通信距离为5 k m 时,在较高误码率条件下(2 5)可实现清晰、可靠的水下语音通信。第八章:对全文的研究工作进行总结,并指出有待进一步研究的工作。1 4 本章小结本章主要介绍了本文的研究背景及意义,回顾了水声语音通信技术的发展历程,包括国外和国内语音通信系统的发展状况。最后,详细给出了本论文的主要研究工作。6西北工业大学硕士学位论文第二章语音压缩编码技术概述第二章语音压缩编码技术概述2 1 语音压缩编码的依据语音信号可以进行压缩编码的基本依据包括两个方面的原因:一方面是语音信号本身存在很大的冗余度,这是语音可压缩的外因;另一方面是由于人耳的听觉感知机理,这是语音可压缩的内因。(】)语音信号本身存在很大的冗余度根据统计分析,语音信号中存在着多种冗余度,在时域和频域都可以进行描述。1)语音信号存在时域冗余度乱语音信号的幅度显现出非均匀分布,小幅度出现的概率高,而且通话过程中会有间隙,同时实际通话的信号功率电平一般也比较低,这就导致出现大量的低电平样本,可以用较少的比特来表示。b 语音信号样本间存在强相关性。语音波形采样数据的最大相关性存在于相邻的样本之间:当采样频率为8 k I-I z 时,相邻样值之间的相关系数大于O 8 5,甚至在相距1 0 个样本之间,相关系数还可能有0 3 左右的取值。随着采样率提高,样本间的相关性会更强,因此可以利用这种较强的一维相关性进行预测编码。c 浊音语音段具有准周期性。浊音波形不仅显示出周期之间的信息冗余度,而且还显示了对应于音调间隔周期的长期重复图形。因此,对语音浊音部分编码的最有效方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其它基音段的模板。d 声道的形状及其变化比较缓慢。上述样本间、周期间的一些相关性,都是在1 0 m s-3 0 m s 时间间隔内进行统计的所谓短时相关性。在较长的时间间隔内(几十秒)进行统计,便得到长时自相关函数。在8 k H z 采样语音的相邻样本的平均相关系数高达0 9。2)语音信号存在频域冗余度a 非均匀的长时功率谱密度。在相当长的时间内进行统计平均,可得到长时功率谱密度,它显现出强烈的非平坦性。这种非平坦性表现为功率谱的低频能量,较高、高频能量较低,这恰好对应于时域上相邻样本间的相关性。这意味着没有充分利用给定的语音频段,即存在着固定的冗余度。b 语音特有的短时功率谱密度。语音信号的短时功率谱在某些频率上出现峰7西北工业大学硕士学位论文第二章语音压缩编码技术概述值,在另一些频率上出现谷值。峰值频率也就是能量较大的频率,称为共振峰频率。此频率不止一个,最主要的是前3 个,由它们决定了不同的语音特征。整个短时频谱也是随着频率增加而递减,更重要的是,整个频率谱的细节以基音频率为基础,形成高次谐波结构。(2)人耳的听觉感知机理语音信号可以进行压缩编码的第二个依据是利用人类听觉的某些特点,即人耳的听觉感知机理。人的听觉生理和心理特性对于语音感知的影响主要表现在以下三个方面。1)人类听觉系统(H A S)具有掩蔽效应(M E)。H A S 特性曲线随着不同声音压、不同频率对声音的影响而变化形成了所谓的掩蔽曲线(掩蔽域),它大致表现为声级越高的一个单音对周围频率声音的掩蔽作用越强。掩蔽曲线反映了人耳的掩蔽效应,即一个强音能抑制一个同时存在的弱音而导致人耳听不到或对这个弱音不敏感。对人耳听不到或极不敏感的声音分量可以看做是冗余。语音压缩编码本质上就是设法去除这些冗余度,从而达到压缩比特率的目的。2)人耳对不同频段声音的敏感程度不周。由于浊音的周期和共振蜂主要集中在低频段,因此人耳对低频段比较敏感,而对高频段不太敏感,即较强的低频音能妨碍同时存在的高频音。3)人耳对语音信号的相位变化不敏感。人耳能做短时的频率分析,对语音信号的周期性很敏感,但对语音信号相位感知却很迟钝。因此人耳听不到或感知很不灵敏的声音相位分量可以被当作冗余信号。2。2 语音压缩编码的意义及作用在现代通信中,信道利用的有效性和经济性仍然是研究的重要目标,频率资源愈发显得宝贵。语音通信作为人们交流信息的主要手段之一,作为通信的主要业务量,也在不断地向数字化方向发展。因此,压缩语音信号的传输带宽或降低电话信道的传输码率,一直是人们追求的目标,在实现这一目标中语音压缩编码技术扮演着重要角色。由于语音信号本身存在很大的冗余度和入耳的听觉感知机理,对全语音进行压缩编码成为可能,即只对语音信号主观上非常重要的属性进行编码,并把它们进行存储或者进行传输。这样即使在低比特率的情况下也能保持合成语音的质量。以下将从语音和语言的角度来分析语音编码的极限速率。从语音的角度来看,语音中最基本的单位是音素,世界上语音的音素一般约西北工业大学硕士学位论文第二章语音压缩编码技术概述为1 2 8-2 5 6 个,如果按通常的说话速度,每秒钟平均发出1 0 个音素,则根据信息论的观点,当音素取2 5 6 个时,此时的信息率为:I=l 0 9 2(2 5 6)1 0=8 0(b s)(2 1)从语言的角度来看,把发音看成是以语音的速率来发报文。对英语来讲,每一个字母用7 b 编码,每分钟发1 2 5 个英语单字可以认为达到了通信语音速率。如果每个单字平均由7 个字母组成,则此时的信息率为:,:7 7 罢;l o o(b s)(2-2)6 0。因此,一般可以认为语音编码的极限速率为8 0 b s-1 0 0 b s 此时只能传送句子的内容,至于讲话者的音质、音调等重要信息已丢失。但是,从标准的语音编码速率(6 4 k b s)到语音编码的极限速率(8 0 b s-I O O b s)之间存在着很大的跨距(约6 4 0 倍),这对于理论研究和实用化都有着很大的吸引力。就目前具有通信质量的中、低码率语音编码器而言,1 6 k b s 和8 k b s 的技术已经标准化和产品化,4 S k b s 是标准化制定和实用产品竞争的热点,主流仍为C E L P(C o d eE x c i t e dI 知e a rP r e d i c t i o n)类型的技术,而重点的研究焦点将逐步转向更低的码率,例如2 4 k b s 或1 2 k b s 以下的编码器。近年来,国际上的许多研究机构已把“4 k b s 速率以下的语音压缩编码”作为未来几年的重点研究课题,因为这方面的研究有着广泛与强烈的应用背景。如移动电话系统、多媒体通信、语音信箱、1 1 (I n t o r n e tP h o n e)电话等都需要低速率语音压缩编码方面的关键技术。2 3 语音压缩编码的分类语音压缩编码,按编码后所需传输的数据率来分,可以分为高速率(3 2 k b p s)、中高速率(1 6 3 2 k b p s)、中速率(4 8 1 6 k b p s)、低速率(1 2 q 8 k b p s)和极低速率(1 2 k b p s)五大类。根据描述语音信号的不同方法将语音编码分为3 类:波形编码、参数编码和混合编码,这是一种最传统和最常用的分类方法。2 3 1 波形编码波形编码的指导思想是将语音信号当做一般波形信号来处理,使重构的语音波形与原始的语音波形尽可能保持致,即在编码端以波形逼近为原则对语音信号进行压缩编码,