GitHub标星近1万:只需5秒音源这个网络就能实时“克隆”你的声音.docx
《GitHub标星近1万:只需5秒音源这个网络就能实时“克隆”你的声音.docx》由会员分享,可在线阅读,更多相关《GitHub标星近1万:只需5秒音源这个网络就能实时“克隆”你的声音.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、GitHub标星近1万:只需5秒音源,这个网络就能实时“克隆”你的声音 | Google团队 译者 | 凯隐 编辑 | Jane 出品 | AI科技大本营 ID rgznai100 本文中 Google 团队提出了一种文本语音合成 text to speech 神经系统 能通过少量样本学习到多个不同讲话者 speaker 的语音特征 并合成他们的讲话音频。此外 对于训练时网络没有接触过的讲话者 也能在不重新训练的情况下 仅通过未知讲话者数秒的音频来合成其讲话音频 即网络具有零样本学习才能。 目前 已经有人将该论文实现并在 GitHub 上发布了开源工程 目前该工程标星超 9.5k fork 数
2、是 1.5k。 GitHub链接 s:/github /CorentinJ/Real-Time-Voice-Cloning?utm_source mybridge utm_medium blog utm_campaign read_more 简介 传统的自然语音合成系统在训练时需要大量的高质量样本 通常对每个讲话者 都需要成百上千分钟的训练数据 这使得模型通常不具有普适性 不能大规模应用到复杂环境 有许多不同的讲话者 。而这些网络都是将语音建模以及语音合成两个经过混合在一起。本文工作首先将这两个经过分开 通过第一个语音特征编码网络 encoder 建模讲话者的语音特征 接着通过第二个高质量的T
3、TS网络完成特征到语音的转换。 两个网络可以分别在不同的数据集上训练 因此对训练数据的需求量大大降低。对于特征编码网络 其关键在于声纹信息的建模 即判断两段语音为同一人所讲 因此可以从语音识别 speaker verification 任务进展迁移学习 并且该网络可以在带有噪声以及混响的多目的数据集上训练。 为了保证网络对未知 训练集中没有的 讲话者仍然具有声音特征提取才能 编码网络在18K讲话者的数据集上训练 而语音合成网络只需要在1.2K讲话者的数据集上训练。 网络构造 主要由三局部构成 声音特征编码器 speaker encoder 1. 语音编码器 提取讲话者的声音特征信息。将讲话者的
4、语音嵌入编码为固定维度的向量 该向量表示了讲话者的声音潜在特征。 2. 序列到序列的映射合成网络 基于Tacotron 2的映射网络 通过文本以及1得到的向量来生成对数梅尔频谱图 log mel spectrogram 。 梅尔光谱图将谱图的频率标度Hz取对数 转换为梅尔标度 使得人耳对声音的敏感度与梅尔标度承线性正相关关系 3.基于WaveNet的自回归语音合成网络 将梅尔频谱图 谱域 转化为时间序列声音波形图 时域 完成语音的合成。 需要注意的是 这三局部网络都是独立训练的 声音编码器网络主要对序列映射网络起到条件监视作用 保证生成的语音具有讲话者的独特声音特征。 1. 声音特征编码器 编
5、码器主要将参考语音信号嵌入编码到固定维度的向量空间 并以此为监视 使映射网络能生成具有一样特征的原始声音信号 梅尔光谱图 。编码器的关键作用在于相似性度量 对于同一讲话者的不同语音 其在嵌入向量空间中的向量间隔 余弦夹角 应该尽可能小 而对不同讲话者应该尽可能大。此外 编码器还应具有抗噪才能以及鲁棒性 可以不受详细语音内容以及背景噪声的影响 提取出讲话者声音的潜在特征信息。这些要求以及语音识别模型 speaker-discriminative 的要求不谋而合 因此可以进展迁移学习。 编码器主要由三层LSTM构成 输入是40通道数的对数梅尔频谱图 最后一层最后一帧cell对应的输出经过L2正那么
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GitHub 标星近 音源 这个 网络 实时 克隆 声音
限制150内