(1.1.49)--通用音频分类数据挖掘.ppt
《(1.1.49)--通用音频分类数据挖掘.ppt》由会员分享,可在线阅读,更多相关《(1.1.49)--通用音频分类数据挖掘.ppt(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、通用音频分类目录(一)题目内容(二)项目数据(三)求解思路(四)详细过程(五)实验结果2024/2/21(一)题目内容l题目来源:通用音频分类竞赛 DataFountainl题目内容:作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。本次训练赛旨在构建通用的基于深度学习的自动音频分类系统,希望大家探索更为鲁棒的音频表述方法。2024/2/21(二)项目数据l数据简介:数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。l数据说明:数据文件夹包含6个文件,依次为2024/2/21(二)项目数据l训练集:共30个文
2、件夹,其中存放若干与文件名相同的英语单词音频。l测试集:存放6835个随机音频。2024/2/21(三)求解思路l基本思路:音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。2024/2/21(三)求解思路l具体思路:1.对语音wav文件进行特征提取2.对得到的数据进行归一化处理3.使用CNN神经网络对归一化后的数据进行分类训练4.使用训练得到
3、的模型对新的语音wav文件进行识别2024/2/21(四)详细过程2024/2/211.加载文件右侧代码可对trainset文件夹进行音频读取与分类,将同一类音频放在cls字典的同一个key中;音频分类完毕后,对每类音频,随机选取80%为训练集、10%为训练时的验证集、10%为最终测试集。(四)详细过程2024/2/212.读取文件并使用librosa库函数提取音频的mfcc特征函数输入的是wav文件名的list,每个文件是一个单词的发音,每个单词发音特征提取后是一个20*80的数据矩阵。即mfcc的维度为20,帧数为80。(四)详细过程2024/2/21(四)详细过程2024/2/214.CNN网络构建(四)详细过程2024/2/215.特征训练(四)详细过程2024/2/216.模型测试(五)实验结果2024/2/21(五)实验结果2024/2/21谢谢观看!2024/2/21
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 1.1 49 通用 音频 分类 数据 挖掘
限制150内