书签分享收藏举报版权申诉 / 35

立即下载

当前位置：首页 > 应用文书 > 工作计划 > 工程硕士学位论文写作范例.docx

工程硕士学位论文写作范例.docx

上传人：知****量

文档编号：28104487

上传时间：2022-07-26

格式：DOCX

页数：35

大小：66KB

( 4.5 )

《工程硕士学位论文写作范例.docx》由会员分享，可在线阅读，更多相关《工程硕士学位论文写作范例.docx（35页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、工程硕士学位论文写作范例Study on the Pavement Material of Pervious Concrete(申请清华大学工程硕士专业学位论文)培养单位：运算机科学与技术系工程领域：运算机技术申请人：李某指导教师：某某某教授联合指导教师：某某某高工二九年三月工程硕士学位论文写作说明李某关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定，即：清华大学拥有在著作权法规定范畴内学位论文的使用权，其中包括：（1）已获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段储存研究生上交的学位论文；（2）为教学和科研目的，学校

2、可以将公布的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。作者签名：导师签名：日期：日期：摘要摘要情感是人类智能的重要方面。为建立和谐的人机交互环境，运算机自然需要具有懂得情感和表达情感的能力。本文在声学层次上系统性地研究了情感的区分特点和感知特点，并提出了情感语音的叠加模型。论文的主要成果如下：1. 分析了. ，指出当前存在. 问题。研究了. 特点，提出了一种算法，并通过. 实现了。2. 提出了一种基于韵律强度的语音基频猜测算法，. 。3. 设计了一个自学习的特点权值训练算法，提高了. 。4 实现了. 平台

3、，验证了. 的有效性。关键词：关键词1关键词2关键词3关键词4关键词5VIIIAbstractAbstractWith the rapid development of information technology, computer becomes an indispensable tool in our daily life. To make human-computer interaction friendlier, researchers of relevant research fields apply themselves on the development of new hum

4、an-computer interaction technologies. Speech, as the most natural way in human communication, is also in the center of attention. And the HCI (human-computer interface) technologies, which based on speech recognition, speech synthesis, and natural language understanding, have been recognized as the

5、most promising research direction.In recent years, as the development of statistical methods for speech synthesis, large corpus based Text-to-Speech (TTS) system has been able to synthesize high quality speech. But compared with human natural speech, the synthesized speech still has some shortages,

6、especially in prosody expression. In this thesis, speech prosody in Chinese Putonghua is first studied, and a conclusion is made that one problem with current prosody modeling methods is lack of a global-level prosody planning process. It also points out that the prosodic parameters for global-level

7、 prosody planning, such as prosodic strength, is in need. In chapter 2, a new prosodic strength estimation method based on Parallel Encoding and Target Approximation (PENTA) Model is introduced. In this estimation method, prosodic strength is taken as a latent variable in phrase-level prosodic plann

8、ing process, and prosodic strength function, which is a mapping function between acoustic prosodic parameters and prosodic strength, is represented with Neural Network. Based on the correlation between prosodic strength and speech unit target completion degree, prosodic strength functions are traine

9、d automatically with a speech corpus.In chapter 3, an F0 generation method based on prosodic strength is proposed. In this new F0 prediction method, the global prosody planning problem is tackled through adding a global prosodic strength planning process before pitch prediction for speech units. It

10、has been widely accepted that, in human speech communication there is a prosody pre-planning process for each prosodic phrase before articulation, and then syllables are articulated according to their pre-planned prosodic results. In this method, prosodic strength is chosen as the latent variable fo

11、r phrase level prosodic planning, and the prosody planning process is simulated with prosodic strength modeling. So in prosodic prediction, a prosodic strength planning is first done for each prosodic phrase, and then pitch contour of each syllable is predicted based on its assigned prosodic strengt

12、h and its prosodic context information.One difficulty in speech synthesis for embedded platform is how to customize the speech corpus to meet the different requirements from different embedded platforms. On this problem, a self-learning feature weights training algorithm and a speech corpus customiz

13、ation algorithm are proposed in chapter 4. With this method, given the size of target speech corpus, sample numbers of syllable classes will be determined automatically, and the synthesis results of different syllable classes can be made sure to be balanced.Keywords: prosodic strength prosodic model

14、 pitch prediction speech corpus customization HMM目录目录第1章引言11.1 论文背景及意义11.2 国内外研究现状21.2.1 语音合成技术的研究现状21.3 论文主要内容3第2章汉语韵律分析52.1 汉语的特点分析52.1.1 汉语声调的声学特性52.2 汉语语音的韵律52.2.1 汉语的韵律层级结构72.2.2 汉语重音的韵律分析72.3 韵律分析模型研究现状82.3.1 Stem-ML模型82.3.2 PENTA模型82.4 问题的提出92.5 基于目标靠近(TA)模型的韵律强度(prosodic Strength)运算112.5

15、.1 Target完成程度的估量112.5.2 Prosodic strength函数的定义122.5.3 Prosodic strength的训练122.6 实验及结果分析122.7 小结15第5章总结与展望17参考文献19致谢21声明21附录AXXX23个人简历、在学期间发表的学术论文与研究成果25主要符号对照表主要符号对照表GMM高斯混合模型（Gaussian Mixtures Model）HMM隐含马尔科夫模型（Hidden Markov Model）LPC线性猜测系数（Linear Prediction Coefficients）LPCC线性猜测倒谱系数（Linear Pred

16、iction Cepstral Coefficients）AMCC自适应Mel倒谱系数（Adaptive Mel Cepstral Coefficients）MFCCMel频域倒谱系数（Mel Frequency Cepstral Coefficients）UBM统一背景模型（Universal Background Model）UELS无偏对数频谱估量（Unbiased Estimation of Log Spectrum）TI文本无关（Text-Independent）TD文本相关（Text-Dependent）ASI自动说话人辨识（Automatic Speaker Identifica

17、tion）ASV自动说话人确认（Automatic Speaker Verification）VQ矢量量化（Vector Quantization）FAR错误接受率（False Acceptance Rate）FRR错误拒绝率（False Rejection Rate）GMM高斯混合模型（Gaussian Mixtures Model）HMM隐含马尔科夫模型（Hidden Markov Model）LPC线性猜测系数（Linear Prediction Coefficients）LPCC线性猜测倒谱系数（Linear Prediction Cepstral Coefficients）AMCC自

18、适应Mel倒谱系数（Adaptive Mel Cepstral Coefficients）MFCCMel频域倒谱系数（Mel Frequency Cepstral Coefficients）UBM统一背景模型（Universal Background Model）UELS无偏对数频谱估量（Unbiased Estimation of Log Spectrum）TI文本无关（Text-Independent）TD文本相关（Text-Dependent）ASI自动说话人辨识（Automatic Speaker Identification）ASV自动说话人确认（Automatic Speaker

19、Verification）VQ矢量量化（Vector Quantization）FAR错误接受率（False Acceptance Rate）FRR错误拒绝率（False Rejection Rate）第1章引言第1章引言1.1 论文背景及意义文本所研究的语音合成（TTS）是利用运算机将输入的文本信息，按照自然语言的发音规则转换成语音输出，即使运算机具有“读”的功能的一项技术。一个语音合成系统，要实现高质量的语音合成，第一需要对所要合成的文本信息有很好的懂得，这主要涉及到自然语言懂得的问题；要使合成的语音符合人的说话的韵律形式，就需要人的自然语音的韵律变化状态及字音转换方面的知识；最后要完

20、成以上所有信息到具体合成语音的声学实现，主要涉及到语音信号处理等方面。总之语音合成系统本身涉及声学、语言学、数字信号处理、多媒体技术等多个领域，是中文信息处理领域的一项前沿技术。脚注实际的语音合成过程一样是将输入的文字序列转换成音韵序列，再由语音合成器生成语音波形。整个过程一样第一步为文本分析处理，即按照语义、语法等规则对文本进行分词和标注，并将文字序列转换成字的音节序列；第二步为韵律分析猜测，即根据语境、韵律规则和韵律模型，为每个音节或词组调整韵律参数，将音节序列转换成音韵序列。第三步语音声学合成，主要利用信号处理技术，按要求合成出符合上两步猜测结构的高质量的语音流。因此，语音合成系统在结

21、构上通常可分为文本分析处理、韵律处理和声学处理三大模块，如图1.1所示。其中在文本分析处理模块主要模拟人对自然语言的懂得过程，对输入的文本进行分析并给出后两个模块所需的各种发音提示，具体内容可划分为正则化、分词与词性标注、韵律结构猜测、字音转换等几个部分。其中正则化部分主要负责将自然文本中存在在非汉字字符转换为汉字字符，比如数字格式的日期等。由于汉语的文本中词与词之间没有自然的分界，而自然语音中的韵律的节奏和文本中的词的边界有很大的关系，因此分词也是文本分析的重要任务之一。然后就是字音转换部分，主要负责将输入的文字序列转变为音节的序列。韵律处理模块的主要功能是为合成语音规划出音段特点，如音高、

22、时长和音强等，使合成语音能正确表达语意，听起来更加自然。因此，它是合成语音音质好坏的关键。韵律处理模块将根据语调、重音和节奏，对每个发音单元进行韵律调整，调整后的输出是包含“韵律信息”的音韵序列。声学处理模块利用音韵序列中的相应参数，从语音数据库中选取合适的语音基元拼接成句，再经过韵律修饰，就可以输出自然连续的语音流。作为人机交互的核心技术之一，语音合成技术一直是语音研究的重要领域，而且近年在技术和应用方面都取得了很大的发展。随着电子运算机的运算和储备能力的迅猛发展，语音合成技术由早期的基于规则的参数合成，到基于小样本的拼接调整合成，并逐步发展为基于大语料库的拼接合成，到现在流行的基于隐马尔科

23、夫模型HMM的语音合成。与此同时，合成语音的自然度和音质都得到了明显的改善，基本可以实现人们的应用需求，从而促进了其在实际系统中的应用。目前，语音合成技术己经在自动应答呼叫中心(包括金融、电信和政府等)、电话信息查询(包括天气、交通和旅行等)、汽车导航以及电子邮件阅读等方面得到广泛的应用，同时针对娱乐和教育方面的应用也正在开展。总而言之，语音合成技术正在影响着现代社会的方方面面。1.2 国内外研究现状1.2.1 语音合成技术的研究现状1.2.1.1 三级节标题语音合成技术根据语音生成的方法大致可分为四种：发音参数合成方法，基于声道模型参数合成方法，拼接合成方法和基于统计模型的参数合成方法。其中

24、发音参数合成着重于对人的发音过程进行直接模拟，由于人的发音生理过程受各种因素的影响使具体的物理模拟过程与现实有很大差异，合成成效不理想。声道模型参数合成方法主要基于一个“鼓励源滤波器”(source-filter)的语音生成模型，它把人的声道看作成一个谐振腔，腔体的共振峰特性决定了语音的频谱特性，通过建立鼓励源模型和共振峰声道模型来合成自然语音。这种方法主要有共振峰合成器、LPC合成器等，但由于模型本身相对于实际的人的发声器官来说过于简单，生成的合成语音机器味很浓，自然度不理想。拼接合成方法与前两种通过对发声过程进行模拟的语音合成方式不同，采用通过对自然语言的分析，挑选合适的基元单位，建立一定

25、规模的语料库；在合成时，在语料库中挑选合适的基元将其拼接起来而完成完整的语音输出。一样拼接式合成系统结构如图1.2所示：文本分析基元选取韵律分析拼接合成语音输出基元库文本输入图1.2拼接式语音合成系统结构图由于编解码储存了语音的绝大部分信息，自然度很高。但是由于人实际说话时的自然语流并不仅仅是各个孤立语音的简单拼接，所以整体成效自然度不好。1.3 论文主要内容23第2章汉语韵律分析第2章汉语韵律分析2.1 汉语的特点分析汉语普通话是以北方话为基础方言，以北京语音为标准音，以现代白话文作为语法规范的语言。汉语与其他的西方语言有很大的不同，主要表现在一字一音或一字多音，而由不同字的组合构成了无

26、限多个词汇，不同词汇的组合又构成了表达一定意义的句子，但是相同发音的词汇甚至句子在不同的语境中表达的意思却可能千差万别。音素是语音学的基本单位，是指发出各不相同声音的最小单位。汉语中有64个音素，它们构成了声母和韵母两大类。汉语拼音中有21个声母和38个韵母，声母和韵母共计59个，声母和韵母再组成音节。汉语无调音节有417个，由于每个音节又有不同的声调，因此汉语的有调音节为1332个，无调音节和有调音节加起来，总计为1700多个音节。总体上汉语语音主要有以下特点：2.1.1 汉语声调的声学特性声调主要表现人的声带振动情形，它的声学表现是语音的基音频率的高低及其基音频率值随时间的变化趋势。因此，

27、要完成一个声调的发音必须要连续一定的时长，这样才能被人们正确地感知，从声学参数角度来说就是要有一段连续的基频变化曲线，即声调曲线。对于汉语来说，音节声调的变化主要通过音节的浊音部分的基频变化来表现，通常采用音节韵母段中基频变化的轨迹来确定音节的声调曲线。在8385中提出，一个完整的汉语音节声调曲线可以分为3个部分：弯头段(头部)、调型段(中部)和降尾段(尾部)。2.2 汉语语音的韵律语音中的韵律主要是指自然语音中轻重、节奏，语调等方面的变化。韵律在自然语言交流中起着非常重要的作用，它不仅是清楚表达语义的关键，而且能反映说话人的态度、意向、情绪以及对听话人的期望等信息。重音和语调是自然语音中韵律

28、表现最突出的两个方面。比如，我们在表达一个疑问句和陈述句之间的区别，是通过语调的改变和用我们发音的基频变化来产生疑问的。语调的变化还可以传达一个说话人的情感状态、性别、健康情形等81。而重音在谈话中通常被用于表明句子语义的重心所在。例如，陈述句：“小明拿走了书包”这一句话，当重心放在“小明”和“书包”两个不同的位置是所表达的意思就有很大的不同，虽然字面上仍是一样的，但是对于说话人和听话人来说具有不同的意思。这也是自然语言相对与书面语言一个优势的方面，在书面语言中，还没有更好的方法来表达重音和语调，这两个韵律特点只在在语音中才有明显的表现。从感知的角度来看，韵律主要为听觉特点，韵律包含了说话人的

29、意图信息和听话人的感知信息，它在帮助听话人懂得语言及意图时十分有用。从生理上来看，韵律的实现是发音人在完成发音的同时，与发音声调的高低、用力的大小以及连续时间的长短等因素总体作用的结果12。从声学的角度上看，韵律对应的声学特点主要表现在语音的基频、时长、能量和频谱的变化。从听觉的角度上看，可以用音高、时长、音强和音色四个语音听觉特点来描述。其中基频是韵律特点中最主要的声学特点，说话过程中，主要通过声音基频的高低和变化模式反映说话人的情绪、语句内容的不同等。此外，语音中适当的停顿也是韵律的一个很重要的成分。在汉语语音中，音节是最基本单元，然后由音节组成词，由词构成句子。在汉语语音合成中，音节也通

30、常被选用做语音合成的基本单元，音节的基频、时长、能量作为表示韵律的声学参数。但是在连续自然语音中同一个汉语音节在不同的语流环境中，由于发音器官运动轨迹的连续性和众多发音习惯的制约，其韵律声学参数都会发生相应的改变。而且韵律本身也是通过连续音节的韵律变化表现出来的，因此韵律特点也被称为“超音段特点”，因此要对汉语语音中音节的韵律进行研究必须同基元所在的上下文相结合才行。也就是说自然语音中一个韵律单元的各个声学参数之间都不是相互独立的，而是相互配合在一起共同完成发音人对所要表达内容的声学实现。在语音的研究中也普遍认为，人在讲话时总是先将意识层要表达的信息转化成语言层和音系层的表达手段，如挑选怎样的

31、措辞及句式，怎样的语调、轻重变化模式、节律模式等，最后再通过发音人的声学器官来完成音系层和语言层所规划的目标。对于语音合成系统来说，韵律猜测的水平对合成语音的自然度关系极大，甚至会影响合成语音的可懂度，也只有当合成语音中各个音节的韵律特点的参数更新与所处的语流环境和谐一致时，才能获得高自然度的语音输出。2.2.1 汉语的韵律层级结构在连续自然语流中由于达意和节奏的需要，说话时对于音节序列的发音是按组完成，即节奏群。在节奏群内音节与音节之间连接紧密，整体语调曲线连贯，而且节奏群内音节基频曲线整体上出现下降的趋势；在节奏群之间则会插入停顿，在后一个节奏群的开始通常基频将重置89。在节奏群内部音节间

32、相互连接的紧密程度也是有所不同的，通常共同构成一个词的音节间连接相对会更紧密一些，这样在整个节奏群中也可以通过音节间不同的紧密程度将整个语句韵律表现为一个层次结构。关于语言的韵律层级，各家说法不同，所用术语也不统一17。在韵律音系学里，一样认为，韵律域从小到大可依次分为：莫拉、音节、音步、音系词、附着语素词组、音系短语、语调短语和韵律语句。但通常，人们将汉语韵律层级简化为三个层级：韵律词、韵律短语和语调短语89。广义地说，韵律结构应包括重音、节奏和语调三方面的结构，例如重音的位置分布及其等级差异；韵律边界的位置分布及其等级差异；语调的基本架构及其与声调和重音的关系等。狭义地说，韵律结构主要指话

33、语节奏的层次性组织，包括韵律词的构成以及各韵律成分边界的界定等等，通常叫做韵律切分。从表面上看，语言信息呈线性排列，在时间上依次显现；但从话语生成的本质上看，语言信息在时间域并不是线性地平均分配，而是以非线性的、层级的形式分布，并且是非递归的50。按照韵律的层级结构，可以采用韵律结构树的方法，将任何一个句子非递归地从高到低、依序分解成语调短语、韵律短语和韵律词，其中韵律短语和韵律词是现实应用系统常用的韵律单位。2.2.2 汉语重音的韵律分析重音一样是通过对连续语流中某个字或词的发音在一定的范畴内韵律特点的凸显表现出来的，也就是说受到重读的字或词的韵律特点明显地不同于相邻单元的韵律特点29。研究

34、表明，汉语重音的韵律声学特点表现在音高和时长的变化，即音域扩大（增高声调域的上限）和时长延长两个方面，其次才是音强的增加。许洁萍等8882经过实验也得出了相似的结论。曹剑芬59认为，重音是韵律四要素综合增强的效应，其中主要是音节时长显著加长，音高变化突出，具体表现为音阶或音闭的抬高或下沉，音域变化范畴增大；然后是音强的相对提高，音色也更加典型。从感知的角度来看，如果一个字或词组成为重音可以通过音高、时长、音强和停顿来表征81。例如，在连续语流中，提高某个字或词组的音高，可以起到警示或强调作用；拉长音节时长可以在心理上起到暗示作用；提高声音的幅度可增加人们的注意力；在字或词组前加入停顿，在听觉上

35、会凸现重点。传统的语音研究中曾经把音强和重音等同起来，这是片面的。重音不仅和音强有关，更和时长、音高有关。时长越长、音高越高、跨过的调域越广，重音越明显。例如“ji，shu技术”重心在前一个音节，而“ji，shu计数”重心在后一个音节。尽管两个词组的发音完全相同，但是由于它们发音时的重音位置不同，其音高和时长也不同，则词组表达的意思完全不同，因此重音的作用和意义非常明显，如图2.2所示。.2.3 韵律分析模型研究现状在语音韵律模型方面的研究主要分为两个方面，一个方面是音系学方面的研究人员为说明语音中的韵律现象而提出的韵律分析模型方面的研究4，主要代表有Shih提出的Stem-ML模型和XuYi

36、的PENTA模型，而另一个方面为语音合成和语音识别的研究人员所提出的为在实际的系统中应用的韵律猜测模型7172，目前主要是基于数据驱动的韵律猜测模型，比如基于上下文决策树的2，基于概率的韵律猜测模型3050等。在这一部分我们主要针对Stem-ML和PENTA这两个韵律分析模型进行简单介绍。2.3.1 Stem-ML模型2.3.2 PENTA模型2.4 问题的提出要实现高自然度的语音合成，韵律猜测是最重要的工作之一。目前语音合成系统中使用的韵律猜测模型大多是基于数据驱动的方法，比如基于决策树方法，基于概率的统计模型10等等，主要是基于上下文聚类的方法对声学层韵律参数进行猜测。上下文聚类中采用的上

37、下文信息主要有韵律层级结构信息，音节自身属性，及前后音节属性信息等5，而相对于自然语音中的复杂多变的韵律来说这些上下文信息是远远不够。由于有限上下文信息的限制，当前的韵律猜测方法只能够应对一样性的韵律变化，对于相对复杂的韵律现象就显得不足，比如自然语音普遍存在的轻重读9192现象。在自然语音的同一韵律节奏单元中，不同音节总是受到不同形式的轻读或重读，这样使语音中的韵律更加丰富多彩36。而且从这些音节的不同轻重读和节奏中，我们可以懂得到比字面上更多的信息，比如说话人的态度、意图等等，事实上这些信息就是由语音的韵律特点所表现出来的。在我们对录制的语料库中的语音的观察中发觉，虽然录音人已经尽量使用中

38、性且不附加任何个人意图的表达方式进行语音的录制，在语音节奏中仍普遍存在着不同的轻读和重读53。并且，文本中也总是存在着一些很自然的句子重心，语义重心，比如一些转折词之类，他们就也很自然地受到相对的重读，而其他一些不重要的成分，比如一些辅助词，则自然地受到相对的轻读。这在某种程度上说明了，在正常自然语音表达过程中，语句中各个单元在语义上的不平等性必然会引起语音中不同单元间不同的轻重读现象，而且这一现象是自然语音韵律中不可缺少的一部分。因此要使语音合成系统达到自然语音韵律的合成成效，就要求我们在韵律建模中也要能够描述这种韵律现象9192。关于自然语音中普遍存在的轻重读现象，13中通过对实验室录制语

39、音与日常语音之间的区别的研究，认为日常语音与录制语音之间最大的区别就是日常语音中partial reduction现象十分明显，语音单元的发音一样都不是完全完整的，这一点造成了实验室中利用录制语音建立的语音模型在描述日常语音时表现很差92，指出这其中主要原因可能是当前韵律模型中在语句规划和发音建模之间缺乏一个用来描述语音中的韵律规划的桥梁14。因此，要完成自然语音中这种韵律变化的描述有必要在当前的韵律猜测模型中加入韵律规划的能力。关于在全局层次的韵律规划，音系学方面学者已经从韵律分析的角度做了深入研究，也取得了很多研究成果。在当前的主要韵律分析模型，比如前面一节所介绍的Stem-ML和PENT

40、A模型，已经可以引入了各自的韵律特点来对自然语音中的韵律规划现象进行说明。比如Stem-ML模型中的目标权值（target weight）参数。在Stem-ML模型中认为每个语音单元都隐含着一个目标权值，它在概念上表示说话人对此语音单元的发音完整的重视程度。因为现实语音总是追求在最省力的条件下，完成自己说话的任务，因此从目标权值的角度来说就是，追求整体目标权值和最小的情形下，尽量表达清楚自己要说的内容。所以在语音表达的过程中应该有一个各个语音单元的目标权值的规划过程，然后各个单元按照自己的权值做出一定程度的轻读或重读。另外在PENTA模型中也有发音强度（articulation strengt

41、h）参数来描述类似的概念。但是如何将韵律分析方面所取得的研究成果应用到实际韵律猜测系统中还有一定的困难，主要表现在韵律分析模型中大多建立在自然语音交流中从人的心理的角度或实际发音中生理上的约束这两个方面体现的抽象韵律特点的基础上，而这些韵律特点大多只是定性的描述而没有准确的量化方法，从而在实际的韵律猜测系统中难以使用，而这也造成了韵律分析模型在实际韵律韵律模型中应用的困难。在如何对prosodic strength进行量化运算，也有研究人员进行了初步的尝试。比如在28中，提出使用prosodic strength来描述每个音节的目标权值，并且提出了一种基于Stem-ML模型的prosodic

42、strength运算方法。该方法主要利用基频信息完成prosodic strength的运算，具体方法为：第一基于Stem-ML模型，拟合现有的基频曲线，得到可最佳表示此基频曲线的Stem-ML模型参数，然后将此参数与各个声调的参数模板相比较，通过与参数模板间的差距来运算各个音节的prosodic strength，差异越大意味着音节偏离基本形状越严重，相应prosodic strength也越大。但是此方法仍严重依靠于对原始语音数据的Stem-ML标注，而目前也没有较好的Stem-ML自动标注方法，因此很难在当前以数据驱动方法为主的韵律猜测模型中使用。在此我们提出了一个基于target思想的

43、prosodic strength运算方法。在我们的运算方法中，利用人在实际发音过程中prosodic strength与韵律单元的target实现情形之间的相关性，以及不同韵律单元target形式的相关性，完全采用数据驱动和机器学习的方法完成对音节的prosodic strength的估量工作。2.5 基于目标靠近(TA)模型的韵律强度(prosodic Strength)运算基于目标靠近（TA）模型，我们可以认为对音节的预先规划主要是对各个音节目标（target）的规划，而实际的发音过程是对规划的音节target的实现的过程。另外由于韵律强度（prosodic strength）作为一种内

44、在的strength，可以看做是实现音节target的鼓励。整个发音过程可以说明为在整体prosodic strength尽量小的前提下，尽量好的完成对各个音节的target的实现26；由于不同音节在实际的语句中有不同的重要性，表现在实际的发音过程中对各个音节target实现程度的要求也不尽相同，所消耗的prosodic strength也相应不同。基于以上分析，我们第一凭体会给出一种对音节target完成程度进行估量的方法，然后根据音节target完成程度提出了一种基于TA模型的prosodic strength运算方法。2.5.1 Target完成程度的估量汉语是一种有调语言，在实际语言表

45、达过程中声调占有很重要的位置，即在实现汉语音节target的过程中对声调的实现是必需的。因此，为完成prosodic strength的运算，第一为汉语普通话的每种声调定义了一个衡量该声调target实现程度的函数，用以描述一个音节的target完成程度。而声调在声学参数上主要表现为基频的变化规律，因此我们通过音节基频信息估算出音节对声调完成的程度4373，并以此来表示该音节的target完成程度。表2.1不同声调音节target完成程度运算声调类型完成程度运算阴平阳平上声去声在普通话中，对于阴平和上声分别为基频高线和基频低线，主要为水平状态，而且好的音节实现除了基频值越高越好（对于上声越低越

46、好）还应当保持基频变化范畴应当较小。而对于阳平和去声这两个声调，基频变化范畴较大。对各声调target的具体形式如表2.1。其中各个参数的定义如表2.2所示：2.5.2 Prosodic strength函数的定义由于prosodic strength为在发音过程中起韵律规划作用的隐式strength，可以合理假设语音中的各声学参数是这种内在strength的鼓励下通过整个声学发音系统后表现出来的。从生理上看人的声学发音系统随着音节不同有不同的发音方式，而对于同类音节发音方式是类似的。由此可以合理推理出：对于同类音节，prosodic strength在声学参数上的表现形式是类似的。对于汉语来说，一样每个音节都是由清音和浊音两部分组成，清音在声学上的表现相对较弱，浊音整体上占主导作用。通过我们对实际语音参数的观察懂得，可以认为对于相同声调的浊音其发音时声学系统的基本特性是类似的，即可认为其prosodic strength的表现方式是类似的，因此相同声调的浊音的prosodic strength运算可以采用同一个映射关系来表示。我们采用神经网络函数来描述各类音节的prosodic strength与声学参数之间的关系，采用按有调音节的韵母信息（对应于音节的浊音段）对音节进行分类，具有相同声调、相同韵母的有调音节作为一类训练一个神经网络函数；所选取的声学参数主要为音

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 工程硕士学位论文写作范例

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：工程硕士学位论文写作范例.docx
链接地址：https://www.taowenge.com/p-28104487.html