欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于语音控制功能的显示器设计本科论文.doc

    • 资源ID:91483092       资源大小:829.50KB        全文页数:37页
    • 资源格式: DOC        下载积分:12金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于语音控制功能的显示器设计本科论文.doc

    xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx大学毕业设计(论文)基于语音控制功能的显示器设计摘 要语音识别是一门交叉学科,是计算机通过识别把语音信号转换为相应的文本的技术,属于多维模式识别和智能计算机接口的范畴。语音识别的研究目标是让计算机“听懂”人类口述的语言。听懂是不仅将口述的语言逐词逐句的转换为相应的书面语言,而且能对口述语音中所包含的要求或询问做出相应的正确的响应,不仅仅拘泥于将所有词都正确的转变为书面文字。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入各个领域。 人与人之间的交流手段中,语音是最高效的手段之一,如果能让人与计算机的交流也能达到这样的简单高效,那将会带来极大地便利。现有的显示器调节方案主要是采用手动调节的方式,通过手动按键输入各种命令,使显示器能按照终端用户的要求进行开关机,信号选择,亮度色彩等调节。而手动调节的方式在很大程度上浪费用户的时间。本设计拟采用语音识别处理器和通信模块设计一种语音控制的显示器,给出了单片机的内部结构,系统的硬件组成,分析了语音模块识别的基本原理,其中包括语音输入识别模块、处理模块、主电路模块、显示模块,从软硬件等各个角度详细阐述了语音控制显示器的实现过程。能够简捷、快速、有效地对显示器进行调节,解放用户双手,使产品更加人性化、智能化的同时也节约了用户的时间。关键词:语音识别模块;控制系统;转换系统;The Design of Display Based on Voice ControlAbstractSpeech recognition is a cross discipline,its a computer technology by identifying the text of the speech signal which converted to the corresponding , belongs to the category of the multi-dimensional pattern recognition and intelligent computer interface.Speech recognition research goal is to let the computer "understand" human oral language.Understand it is not only oral language, word for word is converted to the corresponding written language, but also to the oral speech contained in the request or enquiry accordingly the correct response, not just limited to all words right into the written word.Over the past twenty years,speech recognition technology has made significant progress,start from the lab to market.Is expected, the next 10years, speech recognition technology will enter each domain.Among the means of communication between people, voice is one of the most efficient means, if it can make people communicate with the computer can achieve such a simple and efficient, it will bring great convenience. Adjust the existing display adjustment scheme is mainly by manual adjustment of the way, by a manual button input commands, the display in accordance with the requirements of user terminal switch, signal selection, brightness and color. Manually adjust the way to a large extent a waste of user's time.This topic proposed USES speech recognition processor and communication module design a kind of voice control display,The internal structure of single chip microcomputer is given, the system hardware composition, analyzes the basic principle of speech recognition module, including speech input recognition module, processing module, main circuit module, display module, from the point of view of software and hardware and so on each detail the implementation process of voice control display.Can simply, quickly and effectively to adjust the display, the liberation of the user's hands, make the product more human, intelligent but also saves the time of the user.Key words :Speech recognition module;Control system;Transformation system;目 录引 言1第1章 绪论21.1 语音控制系统的背景与发展21.2 语音控制系统的意义31.3 本设计研究的主要内容3第2章系统总体设计42.1 设计方案42.2 语音识别技术的基本原理52.3 语音识别的类型52.4 语音识别的基本算法6第3章 硬件设计83.1 AT89C52的主要特点概述83.1.1 AT89C52单片机功能介绍83.2 LD3320模块的主要特点概述93.2.1 LD3320语音芯片的功能介绍93.2.3 识别系统103.2.4 其他电路(晶振及复位电路)113.3 液晶显示设计123.3.1 LM016L的结构及功能123.3.2电源133.3.3 电源13第4章 软件设计164.1 系统软件的整体设计164.2 软件整体结构164.3 软件仿真步骤174.3.1 Proteus操作步骤174.3.2 Proteus仿真步骤18总结与展望20致 谢21附 录 A 基于语音控制的显示器的设计硬件原理图22附 录 B 一篇引用的外文文献及其译文23附 录 C 主要参考文献题录及摘要30附 录D 主要源程序32插图清单图2-14图2-25图3-18图3-210图3-312图3-412图3-512图3-613图3-714图3-815图4-116图4-217图4-318图4-419III引 言 语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。  语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。近年来,随着语音识别与确认技术的逐渐成熟,基于语音识别技术的对话控制系统受到了越来越多的关注。随着科学技术以及经济的发展,人类越来越希望解放自己的双手,这就涉及到语音控制及其识别技术。随着社会发展,人们渴望更加人性化和谐化交流,传统人机交流工具键盘显示器等越来越不能满足人们的要求,严重影响了人们的工作质量和工作效率,因此,研究工作者提出了一种全新解决方案,即语音识别技术。语音是人类最常用和最重要的交流工具之一,语音识别技术就是让机器能识别人类语音并执行相关语音命令,使机器具有听力和语言表达能力,从而实现人机更高层次的交流语言是人类特有的功能,是人与人之间相互交流的重要方式。从计算机出现的那一刻,人们就希望能够用语言与机器交流,相互传递信息。随着现代科技的不断进步,语音接收与处理方面的技术及应用受到了人们的广泛关注,拥有广阔的应用前景。目前,在我们日常生活的很多领域已经实现了利用语音进行人机交互的功能。第1章 绪 论1.1 语音控制系统的背景与发展语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。 20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。 20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping,DTW)技术基本成熟,特别提出了矢量(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论。 20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition)的声学建模;在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统 。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。  20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展 。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题 。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。 目前,全球语音技术市场规模超过30亿美元,近年来年增长率保持在25%以上,未来语音识别市场被看好,其中电信行业(VoIP等),移动应用领域(手机、学习机、平板电脑、车载系统等移动设备),都会呈现出爆发式增长。近20年来,语音识别技术取得了显著的进步,开始从实验室走向市场。有人预计,不出十年,语音识别、控制技术将进入家电、汽车电子、通讯、家庭服务等各行各业。语音识别控制系统有着广泛的应用领域,主要包括以下几个方面:(1)控制系统包含好多内容。比如说生产前线上的复杂控制面板,密密麻麻、许多许多的按钮如今只要一个麦克风就能代替,甚至都不用动手就能完成所有操作;还有高温高危操作区间,人们不易于接近实施操作,用语音指令就可以避免不必要的潜在的危险;汽车飞机上装的语音控制系统也是这样,只需输入语音指令,汽车飞机就按照你预定的方向行驶,理想状态下驾驶员甚至可以在里面小憩片刻。本设计的语音控制显示器就是一个很好的应用实例。(2)查询、反馈系统查询是语音识别的另一个重要的应用,现代社会是个信息化的社会,信息查询也就日益显得重要,查询到的信息在一定程度上也是对信息的一个反馈,有了语音识别、控制系统,就不需要人们按各种按键了,想要什么信息,直接告诉系统就好了,系统会自动识别您的语音信号,然后为您提供相应的信息。这样的信息来的多快,查询方式多么灵活,操作多么简便。(3)人机互动最早的人机互动并不是什么人机互动,只是应用在玩具中,使得玩具能发出几种声音,到后来就是可以和人进行简单的交流,这必然使得玩具更加吸引人。但是这里所说的简单交流并不是像电影里面那样能够多么多么智能化,甚至有了自己的思想,这里是简单交流只是用户输入语音信号,设备进行相应的应答操作。与自然语音交流还有相当大的距离,后者不仅要求语音识别技术更加完善和发展,还与人工智能的发展密切相关,这里只是做到简单的人机互动而已。1.2 语音控制系统的意义人与人之间的交流手段中,语音是最高效的手段之一,如果能让人与计算机的交流也能达到这样的简单高效,那将会带来极大地便利。现有的显示器调节方案主要是采用手动调节的方式,通过手动按键输入各种命令,使显示器能按照终端用户的要求进行开关机,信号选择,亮度色彩等调节。而手动调节的方式在很大程度上浪费用户的时间。 语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。语音控制具有操作简单(如同与人对话一般)、命令丰富(只要建立可靠性高的模板,几乎任何命令都能运用)、稳定可靠(不会老化失灵)等优点,具有非常巨大的应用前景和应用价值。普通的控制器都是使用按键控制或者使用触摸屏控制,这种方法虽然使用起来比较简单,技术也比较成熟,但是由于它们始终属于“物理”控制,就不可避免的会有按键以及屏幕的老化失灵的问题,寿命一般只有那么三四年,频繁使用的话寿命会更短。1.3 本设计研究的主要内容人与人之间的交流手段中,语音是最高效的手段之一,如果能让人与计算机的交流也能达到这样的简单高效,那将会带来极大地便利。现有的显示器调节方案主要是采用手动调节的方式,通过手动按键输入各种命令,使显示器能按照终端用户的要求进行开关机,信号选择,亮度色彩等调节。而手动调节的方式在很大程度上浪费用户的时间。本设计拟采用语音识别处理器和通信模块设计一种语音控制的显示器,能够简捷、快速、有效地对显示器进行调节,解放用户双手,使产品更加人性化、智能化的同时也节约了用户的时间。第2章系统总体设计2.1 设计方案本设计主要介绍用Flash单片机AT89C51和录放时间达60s的数码语音芯片LD3320设计的一套智能语音录放系统。图2-1 方案原理框图这一方案的特点:能进行语音控制,不用手动输入信号指令,解放了用户的双手,在显示器上显示出来,进行开关机,信号选择,亮度色彩等调节。还可以修改指令,而且修改语音方便;修改录音内容时,可以通过更改软件程序,从其中任意一段开始修改指令。还有语音反馈,提供给用户系统的状态,让用户能更简洁便利的操作控制系统。LD3320芯片的音频模拟管脚连接相应的电容/电阻后通过排针引出。M-LD3320模块上设计有2个音频插座,直接引出MIC输入和Speak输出信号。用户可以用一个带麦克风的耳机验证语音识别和声音播放,十分方便。M-LD3320模块上没有电源芯片,相应的电源管脚由排针引出,由开发者连接入3.3v电源输入。M-LD3320模块上的CLK输入可以选择如下任意一种:(1)直接将晶振信号通过排针输入到LD3320的相应管脚。 (2)或者用户可以自行焊接晶振,在模块上预留晶振的空间和连接点3。M-LD3320模块上有两个LED灯,连接到LD3320芯片的29, 30管脚上,在LD3320上电重启复位(RSTB*)并稳定工作后,29, 30管脚会稳定输出低电平,因此这两个LED灯可以作为芯片上电指示。方案设计:方案中采用了一片LD3320 语音芯片(如图3-2 所示),LD3320 是一颗基于非特定人语音识别(SI-ASR:Speaker-Independent Automatic Speech Recognition)技术的语音识别/声控芯片。提供了真正的单 芯片语音识别解决方案。LD3320 芯片上集成了高精度的 A/D 和 D/A 接口,不再需要外接辅助的 Flash 和 RAM,即可以实现语音识别/声控/人机对话功能。并且,识别的关键词语列表是可以动态编辑的。自动控制是单片机应用的一个重要领域,在自动控制领域中,除数字量之外经常会遇到一种物理量,即模拟量,而声音就是一种模拟量由于单片机只能处理数字量的转换,因此计算机系统中凡遇到有模拟量的地方,就需要进行模拟量向数字量或数字量向模拟量转换,伴随而来的就出现了单片机的A/DD/A转换的接口问题,虽然这些接口都已集成化,体积小,功耗低,并能方便地与单片机连接,但在转换之后仍然有一定程度的误差,特别是对语音的转换,有明显的失真因此,使语音能得到更好的还原是方案选择的最终出发点。2.2 语音识别技术的基本原理语音识别系统基本原理框图如下图所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。图2-2 语音识别系统基本框图2.3 语音识别的类型语音识别按不同的角度有以下几种分类方法。(1)以识别单位分语音识别以识别单位分,有孤立词识别、音素识别、音节识别、孤立句识别、连接词识别、连续语音识别和语音理解。语音理解是在语音识别的基础上,用语音学知识来推断语音的含义,它是更高一级的语音识别。目前已进入实用的语音识别系统是孤立词语音识别,以几百限定单词为识别对象,并且已有较为成熟的产品。连接词识别和连续语音识别是指小词汇量、连续语音的一种识别技术,发音方式是连续方式。连接语音识别技术,最简单的情况是在识别阶段将孤立词的参考模式拼接起来,再与输入语音的特征矢量序列进行匹配,有时使用从连续语音中切割出的语音数据参与训练孤立词参考模式。在连接语音识别中,如果能够得到基元间的概率或语法关系,则可利用它来提高系统性能。例如,将连接数字识别系统用于电话拨号,那么在某地区中不同号码的出现频率及各位数字的出现频率是有一定关系的,这些都可以得到有效利用。(2)以识别规模分语音识别以识别规模分,有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等孤立词识别。在所有情况下,语音识别的识别率都随单词量的增加而下降。由于词条越多,潜在的词间相似性就会增加,分辨越困难,因此随着词条数增加,系统的搜索运算开销及存储开销就增加。当然,词表不是识别率的决定因素,因为识别率与词之间的混淆程度及发音方式都有关系,但词表的大小却影响着识别策略的选择。例如,对于小词表特定任务的系统,可采用孤立词或连接词识别策略。当词表大到一定程度,由于存储模板所需存储的增加,特别是对训练数据要求的增加,一般要选择较小的声学单元如半音节、音素等作为基本识别单元,此时往往必须采用连续语音识别策略,那么声学模型、搜索算法、语音模型就成为不得不细致研究的问题了。(3)以服务对象分语音识别以服务对象分,有特定讲话人、多讲话人(有限的讲话人)和与讲话人无关(无限的说话人,也就是无论是谁的声音都能识别)3种。特定讲话人的语音识别较简单,能得到较高的识别率。目前商品化的设备多属此种。后两种为非特定说话人识别系统。这种识别系统通用性好、应用面广,但难度也较大,不容易得到高的识别率。而与讲话人无关的识别系统的实用化将会有很高的经济价值和深远的社会意义。一个特定人的语音识别系统需要事先采集使用者的许多语音样本对系统进行训练,才能方便地应用。每一个使用者都必须建立自己专用的参考模式库。非特定人语音识别系统原则上是事先由许多人(通常3040人)语音样本训练好系统,使用者无论是否参加过采样训练都可以共用一套参考模式,使用该系统进行语音识别。(4)以识别方法分语音识别以识别方法分,有模板匹配法、随机模型法和概率语法分析法。这三种方法都属于统计模式识别法。目前,语音识别的研究重点已经转移到大词汇量、非特定人、连续语音上来,并且已经取得很大的突破。典型的做法是:以HMM为统一框架,构筑识别系统模型。每个基本识别单位至少建立一套HMM结构和参数。2.4 语音识别的基本算法语音识别方法主要有动态时间归正技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐含马尔可夫模型(Duration Distribution Based Hidden Markov Mode1DDBHMM)l引和人工神经元网络(ANN)。(1)DTW和VQDTW是较早的一种模式匹配和模型训练技术。它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题。在孤立词语音识别中获得了良好性能但因其不适合连续语音大词汇量语音识别系统。目前已被HMM模型和ANN代替V0技术从训练语音提取特征矢量,得到特征矢量集。通过LBG算法生成码本。在识别时从测试语音提取特征矢量序列。把它们与各个码本进行匹配,计算各自的平均量化误差。选择平均量化误差最小的码本。作为被识别的语音。但同样只适用孤立词而不合连续语音大词汇量语音识别。(2)HMM 模型HMM模型是语音信号时变特征的有参表示法,是一种描述随机过程特性的概率模型。HMM的基本理论最早出现在20世纪60年代末和70年代初Baum等人的论文中,并由CMU公司和IBM公司将其成功地应用于语音处理中。从20世纪80年代中期开始,随着Bell实验室对其理论进行了系统而深入的介绍之后,HMM逐渐成为语音处理领域的重要理论基础之一,并在语音处理的各个领域中得到十分广泛的应用。它由相互关联的两个随机过程共同描述信号的统计特性。其中一个是隐蔽的(不可观测的)具有有限状态的Markov链。另一个是与Markov链的每一状态相关联的观察矢量的随机过程(可观测的)隐蔽MarkOV链的特征要靠可观测到的信号特征揭示。这样语音时变信号某一段的特征就由对应状态观察符号的随机过程描述。而信号随时间的变化由隐蔽Markov链的转移概率描述,模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数简称CHMM)以及半连续隐马尔可夫模型(SCHMM)。一般来讲,在训练数据足够的情况下CHMM优于DHMM和SCHMM。HMM模型统一了语音识别中声学层和语音学层的算法结构以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起,极大地增强了连续语音识别的效果。LD3320 是一颗基于非特定人语音识别(SI-ASR:Speaker-Independent Automatic Speech Recognition)技术的语音识别/声控芯片。提供了真正的单芯片语音识别解决方案。第3章 硬件设计由第二章的总体方案的介绍,可以得到整个系统的各个模块。本章主要描述整个系统中设计到的硬件模块以及各个模块的集体实现原理和电路的设计,并且对各个模块进行了介绍。 3.1 AT89C52的主要特点概述3.1.1AT89C52单片机功能介绍AT89C52是一个低电压,高性能CMOS 8位单片机,片内含8k bytes的可反复擦写的Flash只读程序存储器和256 bytes的随机存取数据存储器(RAM),器件采用ATMEL公司的高密度、非易失性存储技术生产,兼容标准MCS-51指令系统,片内置通用8位中央处理器和Flash存储单元,AT89C52单片机在电子行业中有着广泛的应用。AT89C52有40个引脚,32个外部双向输入/输出(I/O)端口,同时内含2个外中断口,3个16位可编程定时计数器,2个全双工串行通信口,2 个读写口线,AT89C52可以按照常规方法进行编程,也可以在线编程。其将通用的微处理器和Flash存储器结合在一起,特别是可反复擦写的 Flash存储器可有效地降低开发成本。3.1.2AT89C52引脚及功能AT89C52为8 位通用微处理器,采用工业标准的C51内核,在内部功能及管脚排布上与通用的8xc52 相同,其主要用于会聚调整时的功能控制。功能包括对会聚主IC 内部寄存器、数据RAM及外部接口等功能部件的初始化,会聚调整控制,会聚测试图控制,红外遥控信号IR的接收解码及与主板CPU通信等。主要管脚有:XTAL1(19 脚)和XTAL2(18 脚)为振荡器输入输出端口,外接12MHz 晶振。RST/Vpd(9 脚)为复位输入端口,外接电阻电容组成的复位电路。VCC(40 脚)和VSS(20 脚)为供电端口,分别接+5V电源的正负端。P0P3 为可编程通用I/O 脚,其功能用途由软件定义,在本设计中,P0 端口(3239 脚)被定义为N1 功能控制端口,分别与N1的相应功能管脚相连接,13 脚定义为IR输入端,10 脚和11脚定义为I2C总线控制端口,分别连接N1的SDAS(18脚)和SCLS(19脚)端口,12 脚、27 脚及28 脚定义为握手信号功能端口,连接主板CPU 的相应功能端,用于当前制式的检测及会聚调整状态进入的控制功能。如下图:图3-1 AT89C52结构及引脚图 3.2 LD3320模块的主要特点概述3.2.1 LD3320语音芯片的功能介绍LD3320 芯片上集成了高精度的 A/D 和 D/A 接口,不再需要外接辅助的 Flash 和 RAM,即可以实现语音识别/声控/人机对话功能。并且,识别的关键词 语列表是可以动态编辑的。基于 LD3320,可以在任何的电子产品中,甚至包括最简单的 51 作为主控 芯片的系统中,轻松实现语音识别/声控/人机对话功能。为所有的电子产品增 加 VUI(Voice User Interface)语音用户操作界面。主要特色功能:非特定人语音识别技术:不需要用户进行录音训练。可动态编辑的识别关键词语列表:只需要把识别的关键词语以字符串的形式传 送进芯片,即可以在下次识别中立即生效。比如,用户在 51 等 MCU 的编程中, 简单地通过设置芯片的寄存器,把诸如“你好”这样的识别关键词的内容动态 地传入芯片中,芯片就可以识别这样设定的关键词语了。真正单芯片解决方案:不需要任何外接的辅助 Flash 和 RAM,真正降低系统成 本。内置高精度 A/D 和 D/A 通道:不需要外接 AD 芯片,只需要把麦克风接在芯片的 AD 引脚上;可以播放声音文件,并提供 550mW 的内置放大器。高准确度和实用的语音识别效果 支持用户自由编辑 50 条关键词语 在同一时刻,最多在 50 条关键词语中进行识别,终端用户可以根据场景需要,随时编辑和更新这 50 条关键词语的内容。3.2.2 LD3320的引脚功能电压要求:VDD 数字电路用电源输入 3. 0 V - 3. 3 V VDDIO 数字1/0电路用电源输入 1. 65 V - VDD VDDA 模拟电路用电源输入 3. 0 V - 4. 0 V建议用户可以用统一的3. 3v电压输入以简化设计。数字电压和模拟电压进行隔离可以使得芯片有更好的效果。芯片管脚输入电压范围:高电压(逻辑“1”):0. 7-1VDDIO 低电压(逻辑“0”):0-0.3VDDIO因此,开发者需要保证自己使用的主控MCU同样工作在3.3v,保证主控MCU向LD3320的管脚输出的高电压不超过3.3V。时钟(Clock):芯片必须连接外部时钟,可接受的频率范围是4-48MHz;而芯片内部还有PLL频率合成器,可产生特定的频率供内部模块使用。复位:对芯片的复位信号(RSTB:1:)必须在VDD/VDDA/VDDIO都稳定后进行。无论芯片正在进行何种运算,复位信号都可以使它恢复初始状态,并使各寄存器复位。如果没有后续的指令(对寄存器的设置),复位后芯片将进入休眠状态。此后,一个CSB:1:信号就可以重新激活芯片进入工作状态。并行接口:本芯片可通过并行方式和外部主CPU连接,此时使用8根数据线(PO-P7),4个控制信号(WRB#,RDB#,CS冰,AO),以及一个中断返回信号(INTB#)。串行接口:串行接口通过SPI协议和外部主CPU连接,首先要将MD接高电平,而将(SPIS:1:)接地。此时只使用4个管脚:片选(SCS冰)、SPI时钟(SDCK)、SPI输入(SDI)和SPI输出(SDO)。寄存器:对芯片的设置和命令,包括传送数据和接受数据,都是通过对寄存器的操作来完成的。例如进行语音识别时,设置识别的关键词语列表,设定芯片的识别模式,谀别完成后获得识别结果都是通过读写寄存器来完成。播放声音时,就是将MP3格式的数据循环放入FIFO对应的寄存器。(识别结果是通过寄存器返回识别出的关键词语在关键词语列表中的排列序号Index数值,该Index数值是在设置关键词语列表时指定)。喇叭音量的外部控制:除了特定寄存器来控制音量以外,芯片外部的电路可以控制喇叭的音量增益。使用的是EPI、EP2、EP3对应的管脚。图 3-2 LD3320结构引脚图3.2.3 识别系统语音识别 ASR 技术,是基于关键词语列表识别的技术。只需要设定好要识 别的关键词语列表,并把这些关键词语以字符的形式传送到 LD3320 内部,就可 以对用户说出的关键词语进行识别。不需要用户作任何地录音训练。语音识别 ASR 现实意义:ASR 技术最重要的现实意义就在于提供了一种脱离按键、键盘、鼠标的基于语音的用户界面 VUI:Voice User Interface。使得用户对于产品的操作更快速,更自然。非特定人语音识别技术 ASR,是对几十 G 的语音数据经语言学家语音模型 分析,科学家建立数学模型,并经过反复训练提取基元语音的细节特征,以及 提取各基元间的特征差异。可以得到在统计概率最优化意义上的各个基元语音 特征。最后才由资深工程师将算法以及语音模型转化为硬件芯片以应用在嵌入 式系统中。基于领先的语音识别核心引擎,经过在各大主流手机产品中三年来超过一 千万份的量产检验,LD3320 提供了可以真正实用的语音识别/声控功能。ASR 技术是基于关键词语列表识别的技术。每次识别的过程,就是把用户说出的语音内容,通过频谱转换为语音特 征,和这个关键词语列表中的条目进行一一匹配,最优匹配的一条作为识别结 果。比如在手机的应用中,这个关键词语列表的内容就是电话本中的人名/手机 的菜单命令/T 卡中的歌曲名字。不论这个列表的条目内容是什么,只需要用户设置相关的寄存器,就可以 把相应的待识别条目内容以字符形式传递给识别引擎。LD3320 可以识别列表中的关键词,用户说的语音可以是这个列表中任意的 关键词语,而且不需要用户在识别前进行任何训练。识别引擎不关心关键词语列表中的关键词语的内容,可以是命令,人名, 歌曲名字,操作指令等等任何的汉字字符串。每条关键词语最大可以支持的字数,从算法角度是限制在 30 字以内。但是 从实际情况来看,用户一口气说超过 8 个字以上的条目时,几乎肯定会出现说 错字/说漏字/说多字/打嗝/停顿等情况,这些情况都会严重影响识别并造成识 别错误。因而一般来说,如果要获得理想的识别效果,建议每条关键词语的字 数不要过长,避免影响效果。3.2.4 其他电路(晶振及复位电路) 单片机没有晶振电路就没有时钟周期,没有时钟周期,就无法执行程序代码,单片机就无法工作。每个单片机都有晶振电路。每个单片机系统里都有晶振,全程是叫晶体震荡器,在单片机系统里晶振的作用非常大,他结合单片机内部的电路,产生单片机所必须的时钟频率,单片机的一切指令的执行都是建立在这个基础上的,晶振的提供的时钟频率越高,那单片机的运行速度也就越快。晶振用一种能把电能和机械能相互转化的晶体在共振的状态下工作,以提供稳定,精确的单频振荡。在通常工作条件下,普通的晶振频率绝对精度可达百万分之五十。高级的精度更高。有些晶振还可以由外加电压在一定范围内调整频率,称为压控振荡器(VCO)。晶振的作用是为系统提供基本的时钟信号。通常一个系统共用一个晶振,便于各部分保持同步。有些通讯系统的基频和射频使用不同的晶振,而通过电子调整频率的方法保持同步。在上电或复位过程中,控制CPU的复位状态:这段时间内让CPU保持复位状态,而不是一上电或刚复位完毕就工作,防止CPU发出错误的指令、执行错误操作,也可以提高电磁兼容性能。无论用户使用哪种类型的单片机,总要涉及到单片机复位电路的设计。而单片机复位电路设计的好坏,直接影响到整个系统工作的可靠性。许多用户在设计完单片机系统,并在实验室调试成功后,在现场却出现了“死机”、“程序走飞”等现象,这主要是单片机的复位电路设计不可靠引起的。单片机在启动时都需要复位,以使CPU及系统各部件处于确定的初始状态,并从初态开始工作。89系列单片机的复位信号是从RST引脚输入到芯片内的施密特触发器中的。当系统处于正常工作状态时,且振荡器稳定后,如果RST引脚上有一个高电平并维持2个机器周期(24个振荡周期)以上,则CPU就可以响应并将系统复位。 图3-3晶振电路 图3-4复位电

    注意事项

    本文(基于语音控制功能的显示器设计本科论文.doc)为本站会员(红****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开