嵌入式语音门禁系统的设计与实现.pdf
《嵌入式语音门禁系统的设计与实现.pdf》由会员分享,可在线阅读,更多相关《嵌入式语音门禁系统的设计与实现.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、嵌入式语音识别系统的设计与实现马跃,杨磊,王巍(天津工业大学信息与通信工程学院天津3 0 0 1 6 0)摘要:介绍一种基于F P G A 的嵌入式语音识别系统设计与实现,系统采用线性预测倒谱系数(L P C C)算法和动态时间规整(D T W)算法,该系统的核心部件采用目前流行的V i r t e x I IP r o 系列F P G A 芯片使用的工具为业界领先的嵌入式设计套件X i l i n xI S ED e s i g nS u i t e1 0 1,并且运用现代电子系统软硬件协同设计、协同验证和协同工作的方法完成设计。通过实验表明,对于小词汇量、特定A i e,别系统,具有很好的
2、识别效果,识别准确率达到9 5 2 以上。该系统的识别性能可以满足基本的嵌入式设备需要。具有广阔的应用价值。关键词:F P G A;语音识别;L P C C;D T W中图分类号:T P 2 7 4文献标识码:A文章编号:1 0 0 4 3 7 3 X(2 0 1 0)0 5 1 2 1 一0 4D e s i g na n dI m p l e m e n t a t i o no fE m b e d d e dS p e e c hR e c o g n i t i o nS y s t e mM AY u e Y A N GL e i。W A N GW e i(C o l l e g
3、eo fC o m m u n i c a t i o na n dI n f o r m a t i o nT e c h n o l o g y,T i a n j i nP o l y t e c h n i cU n i v e r s i t y,T i a n j i n,3 0 0 1 6 0,C h i n a)A b s t r a c t:T h ed e s i g na n di m p l e m e n t a t i o no fF P G A b a s e de m b e d d e ds p e e c hr e c o g n i t i o ns y
4、s t e ma r ei n t r o d u c e d,t h es y s t e mu s e sL i n e a rP r e d i c t i o nC e p s t r a lC o e f f i c i e n t s(L P C C)a l g o r i t h ma n dD y n a m i cT i m eW a r p i n g(D T W)a l g o r i t h m,t h ek e yc o m p o n e n t so ft h es y s t e mu s ec u r r e n tp o p u l a rV i r t e
5、 x 一1 1P r oS e r i e sF P G Ac h i p。a n du s et h ei n d u s t r y l e a d i n ge m b e d d e dd e s i g nk i tX i l i n xI S ED e s i g nS u i t e1 0 1。a p p l ym o d e r ne l e c t r o n i cs y s t e m s h a r d w a r ea n ds o f t w a r eC O d e s i g na n dC O v e r i f i c a t i o nt oc o r n
6、 p l e t et h ed e s i g n E x p e r i m e n t ss h o wt h a tf o ras m a l lv o c a b u l a r ya n das p e c i f i cr e c o g n i t i o ns y s t e m,i th a sv e r yg o o dr e c o g n i t i o nr e s u l t s,r e c o g n i t i o na c c u r a c yr a t ei sa b o v e9 5 2 R e c o g n i t i o np e r f o r
7、 m a n c eo ft h i ss y s t e mc a nm e e tt h eb a s i cn e e d so fe m b e d d e dd e v i c e s i th a sb r o a da p p l i c a t i o nv a l u e K e y w o r d s:F P G A;s p e e c hr e c o g n i t i o n;L P C C;D T W0引言模块三部分组成,如图l 所示。语音识别技术从2 0 世纪5 0 年代开始到现在已经历半个多世纪的蓬勃发展,在这期间获得了巨大的进步。语音识别技术逐渐成为了人机交互
8、的重要方式,成为了具有革命性和战略性的重要新兴产业,语音识别技术市场领域也成为国内外科学界和产业界的关注焦点和竞争热点。随着3 G 手机、G P S 导航设备等移动通信终端和M P 3、电子词典等便携式消费电子产品的日益普及,语音识别技术在嵌入式设备中的应用也越来越广泛。因此基于嵌入式平台的语音识别技术将是语音技术发展与应用的重要方向。1 系统整体设计本系统由信号采集模块、信号处理模块、命令输出收稿日期:2 0 0 9 1 1 3 0基金项目:天津工业大学大学生创新性实验计划资助项目(0 8 0 2 8)图1系统整体连接系统的信号采集模块由麦克风,系统开发板提供的音频编解码芯片L M 4 5
9、5 0 组成,其主要功能是将语音信号采集到信号处理模块内。并通过语音识别算法提取出相应的语音特征数据。如果在系统训练阶段,则将特征数据存入F L A S H 中;如果在识别阶段,则进行模式匹配,将识别结果通过R S2 3 2 串口传输到P C 机上。并用超级终端显示识别结果。2 系统硬件设计本系统采用X U PV i r t e x I IP r o 开发板实现整个语音信号的信号采集、语音训练和语音识别过程。开发板上的核心芯片是美国X i l i n x 公司生产的V i r t e x I IP r o 系列的F P G A(X C 2 V P 3 0 F F G 8 9 6 C),该芯片内
10、嵌了P o w e r P C 4 0 5 处理器内核和M i c r o b l a z e 处理器内核,】2 1万方数据E 巨盈冕蜀一里壁董:墅蔓适童迟型丞统鱼逯i 土要塞堡还包括了先进的主动互联(A c t i v eI n t e r c o n n e c t)技术;P o w e r P C 4 0 5 处理器是与C o r e C o n n e c t 总线结构相兼容的,包括X i l i n xI P 软核在内的任何C o r e C o n n e c t 兼容核都可以通过这个高性能的总线结构与处理器模块集成。C o r e C o n n e c t 结构提供了处理器局部
11、总线(P L B)、片内外设总线(O P B)和器件控制寄存器(D C R)总线三类,利用这三类总线来互连处理器模块、X i l i n xI P 软核、第三方I P 核和定制的逻辑 1 。本系统采用频率为4 0 0的处理M H zP o w e r P C 4 0 5器。开发工具采用业界领先的X i l i n xI S E(F P G A 开发工具)和E D K(F P G A 嵌入式系统开发工具),如图2所示。P L B 总线B U S 桥O P B 总线图2F P G A 内部硬件配置图根据系统需要,将P o w e r P C 4 0 5c o r e、定时、中断、D D RS D
12、R A M 等高性能外设连接到高带宽、低滞后的P L B 总线,将U A R T、G P I O、A C 9 7、F L A S H 等较慢的外设连接到O P B 总线,可以减少P L B 总线的流量,提高整个系统的性能。3 系统软件设计与实现3 1系统调度本系统采用开发板上的音频编解码芯片L M 4 5 5 0A C 9 7A u d i oC O D E C 音频模块对语音信号进行采集,通过定时中断来控制系统运行。主程序使能音频模块,从音频模块的缓冲区内读取语音数据到D D RS D R A M 存储器中。当音频模块缓冲区全部为空时,主程序对D D R 内的数据进行预处理、端点检测、线性预
13、测倒谱系数(L P C C)的提取。如果在训练阶段,此时的L P C C 系数被当作模板存入到F L A S H 中。如果在识别阶段,L P C C 系数则会被调入D D R 存储器中与测试模板进行模式匹配,并给出识别结果。模式匹配算法采用动态时间规整(D T W)算法2。3 2 语音识另l】算法设计语音信号从说话人发出到接收装置的转换处理过程中,会受到放大器和模数转换器等器件的物理特性以及环境、温度等多种因素的影响,造成数字化语音信】2 2号的特点如下:背景噪音大背景噪音会严重影响数字化语音信号的特征参数的提取,从而降低了模式匹配的准确度,使系统对语音信号的识别性能下降;时变性强语音信号的时
14、变性常常使同一语音信号具有不同的特征,从而影响模式匹配的精确度。本系统是基于F P G A 进行语音识别的,因此必须针对上述特点进行算法的改进,从而提高语音识别的精确度。3 3算法原理、语音识别的基本原理如图3 所示 3 。图3 语音识别算法原理图3 3 1分帧、预加重处理预加重的目的是提升信号的高频部分,使信号的频谱变得宽坦,以便于进行频谱分析或声道分析。语音信号具有短时平稳的特点,因此可以对语音信号进行分帧处理,从而减小因语音信号时变性强带来的负面效果。预加重算法:s i g n(n)=s(咒)一口s(,l 一1)(1)式中:口取0 9;s(7 z)为数字化的语音信号;s i g n(n)
15、为加重后的语音信号。分帧算法:s。(n)一s(m)叫(,z 一优)(2)式中:s(挖)为原始信号;s。(咒)为分帧后信号。分帧采用的窗函数(其中N 为帧长,即一帧的采样点数):r o 5 4 0 6 4 c o s -(2 7 c 咒)(N 一1),叫(,z)=jN=0,1,N 一1(3)0,N 为其他值3 3 2端点检测算法端点检测的作用是找出一段语音信号中语音命令的起点和终点的位置。本系统采用短时平均幅度方法进行端点检测,精确地检测到语音的起点和终点,从而保证了系统的高识别率。短时平均幅度的计算如式(3)所示:N-1E=Is(n)|(4);罱3 3 3 特征提取算法语音信号是一种典型的时变
16、信号,如果把观察时间万方数据缩短到几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。全极点线性预测模型(L P C)可以对声管模型进行很好的描述,每段声管对应一个L P C 模型的极点。一般情况下,极点的个数在1 2 1 6 个之间就可以足够清晰地描述语音信号的特征了。语音信号经过预处理,它的每个样值均可由过去若干个样值的线性组合来逼近,同时可以采用使实际语音抽样与线性预测抽样之间均方差最小的方式,解出一组预测系数a。这就是L P C 所提取出信号的初始特征 4 3。在语音识别系统中,很少直接使用L P C 系数,而是由L P C
17、系数推导出另一种参数:线性预测倒谱系数(L P C C)。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行F F T 变换,对数操作和相位校正等步骤,预算比较复杂。在实际计算中,他不是由原始信号S(n)得到的,而是由L P C 系数a;得到的。L P C 系数算出后,就可以直接进行倒谱系数C(忌)的计算,其迭代算法如下:。(1)初始化C(O)一l o gG z(5)(2)迭代计算,n 一1,卜+蚤争强L1 仇PC(m)=j(6)I,广ll 善知,-k C(k),DP综合考虑识别误差和识别速度的影响,在计算L P C 时。L P C 系数的阶数Q 值取为8,而L P C C 系数
18、的阶数P 值取为1 6。3 3 4 模式匹配系统模式匹配部分采用动态时间规整(D T W)算法。参考模板表示为:R=R l,R 2,R。,R M)测试模板表示为:T 一 瓦,疋,L,虱)其中,R。和T。分别为第优帧参考语音和第竹帧测试语音的特征参数,参考模板与测试模板一般采用相同类型的特征参数(L P C C),二者都是L 一1 6 维的矢量。如图4 所示,将测试模板的各帧T l,孔,L,R。用直角坐标系的横轴表示,参考模板的各帧R。,R。,R,R M 用纵轴表示。图4D T W 算法搜索路径网络中的每一个交叉点(咒,优)表示测试模板中某一帧与参考模板中某一帧的交汇点。用D T W 算法寻找一
19、条通过此网络某些交叉点的最优路径,通过计算最优化的局部距离得到整体的最小累积距离。采用欧几里德公式计算局部距离,见式(7),d(n,优)表示L 和R。这两帧特征矢量之间的距离。Ld(n,优)一 L(z)一R,(z)2(7)五五数据点(L,R。)的累积距离用D(n,优)表示:D(t l,优)一m i n D -(,z,优),D -(n,优一1),D -(1 l,仇一2)(8)4系统性能语音识别算法全部采用C 软件实现,使用X i l i n x公司提供的X i l i n xI S ED e s i g nS u i t e1 0 1 的嵌入式开发套件E D K 进行软硬件协同工作。利用该软件完
20、成I P 核的调用、编译、仿真、综合、验证、实现和C 程序代码的产生、编辑、编译、链接、加载、调试。对本系统进行测试,选取了1 0 个不同的人分别对系统进行训练,训练后分别对系统进行5 0 个语音命令测试,每个命令2 4 个字。测试过程中记录了每个人的平均识别准确率以及系统从采集语音到超级终端显示出识别结果的平均时间。结果如表1 所示。表1 系统性能测试测试人系统运行平均时问s准确率1 81 6l _ 51 92 01 81 91 71 81 91 7 91 2 3。:。,。mM万方数据由表1 可知,对于单个人识别成功率为9 5 2,系统平均运行时间为1 7 9s,基本可以满足嵌入式设备对语音
21、识别的性能要求。5结语介绍了基于F P G A 的语音识别嵌入式系统研究与实现,系统通过开发板上的音频编解码芯片L M 4 5 5 0A C 9 7A u d i oC O D E C 音频模块对语音信号进行采集,采用L P C C 算法进行特征提取。D T W 算法进行模式匹配。通过实验表明,系统识别效率基本可以满足嵌入式系统的性能要求,因此本系统为F P G A 在嵌入式语音识别系统的应用提供了实践基础。本系统采用的是X i l i n x 大学计划X U PV i r t e x 一P r o 开发板,开发板上的资源没有被充分利用,造成了资源的浪费与成本的提高;同时系。统在特定人、孤立词
22、识别领域中有较好的识别效果,但在非特定人、连续词领域中识别效果会明显下降。针对以上问题。从两方面进行了改进:第一,定制专用的P C B 板,从而使成本降低,资源得到充分利用;第二,优化语音识别算法,使其能适用于更广泛的领域,提高识别效率,从而更好地适用于嵌入式系统。参考文献E 1 田耘。胡彬,徐文波,等X i l i n xI S ED e s i g nS u i t e1 0 xF P G A开发指南D s P、嵌入式与高速传输 M 北京:人民邮电出版社,2 0 0 8 2 3 赵丽娜,侯义斌。黄樟钦,等基于F P G A 的嵌入式语音识别控制系统 J 小型微型计算机系统,2 0 0 7(
23、8):15 2 7 15 3 1 3 3 王炳锡,屈丹,彭煊实用语言识别基础 M 北京:国防工业出版社。2 0 0 6 4 鲍长春数字语音编码原理 M 西安:西安电子科技大学出版社,2 0 0 7 E s 美 T h o m a sFQ u a t i e r i 离散时间语音信号处理原理与应用 M 赵胜辉,刘家康,译北京:电子工业出版社。2 0 0 4 6 田耘,胡彬徐文波。等X i l i n xI S ED e s i g nS u i t e1 0 xF P G A 开发指南逻辑设计篇 M 北京:人民邮电出版社,2 0 0 8 7 孟宪元。钱伟康F P G A 嵌入式系统设计 M 北京
24、:电子工业出版社,2 0 0 7 8 U w eM e y e r B a e s e D i g i t a lS i g n a lP r o c e s s i n gw i t hF i e l dP r o g r a m m a b l eG a t eA r r a y s M S p r i n g e r。2 0 0 2 9 3X i l i n x P o w e r P C4 0 5P r o c e s s o rB l o c kR e f e r e n c eG u i d e,E m b e d d e dD e v e l o p m e n tK i t E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 嵌入式 语音 门禁 系统 设计 实现
限制150内