DB35_T 1979-2021 智慧家庭人工智能语音服务通用技术规范.docx
《DB35_T 1979-2021 智慧家庭人工智能语音服务通用技术规范.docx》由会员分享,可在线阅读,更多相关《DB35_T 1979-2021 智慧家庭人工智能语音服务通用技术规范.docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS35.240.01CCSL7735福建省地方标准DB35/T19792021智慧家庭人工智能语音服务通用技术规范Generaltechnicalspecificationforartificialintelligencevoiceserviceofsmarthome2021-06-21发布2021-09-21实施福建省市场监督管理局发布DB35/T19792021目次前言.II1范围.12规范性引用文件.13术语和定义.14缩略语.25语音服务的组成及能力等级划分.36环境要求.37基本要求.48测试方法.10附录A(规范性)语音测试集录音质量要求.15附录B(规范性)测试用设备要求.1
2、6IDB35/T19792021前言本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由福建省工业和信息化厅提出并归口。本文件起草单位:中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网络通信有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、新大陆通信科技股份有限公司、福建福日电子股份有限公司。本文件主要起草人:章金水、黄海辉、林海
3、、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。IIDB35/T19792021智慧家庭人工智能语音服务通用技术规范1范围本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试方法。本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB30962008声环境质量标准GB/T210232007中文语音识别系统
4、通用技术规范GB/T210242007中文语音合成系统通用技术规范GB/T222392019信息安全技术网络安全等级保护基本要求GB/T36464.12020信息技术智能语音交互系统第1部分:通用规范GB/T36464.22018信息技术智能语音交互系统第2部分:智能家居3术语和定义GB/T210232007、GB/T210242007、GB/T36464.12020、GB/T36464.22018界定的以及下列术语和定义适用于本文件。语音服务voiceservice人机之间通过自然语言对话来获取信息的服务。语音采集voiceacquisition通过传声器或麦克风阵列等拾音设备对语音进行采集
5、。语音识别speechrecognition将人类的声音信号转化为文字或指令的过程。来源:GB/T210232007,3.1语义理解semanticunderstanding使功能单元理解人说话的意图。来源:GB/T36464.12020,3.111DB35/T19792021语音合成speechsynthesis通过机械的、电子的方法合成人类语言的过程。来源:GB/T210242007,3.1端点检测voiceactivitydetection一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。来源:GB/T36464.12020,3.22智能语音终端artificialinte
6、lligencevoiceterminal可接收用户的语音,使得用户可以获取在线音视频等内容,或可通过语音进行控制的设备。噪声noise语音采集过程中,采集到的由非有效语音信源发出的,能干扰、影响对有效语音信号的理解或处理的声音信号。来源:GB/T36464.12020,3.27等效声级equivalentcontinuousA-weightedsoundpressurelevel在声场中的某个位置上,用某一段时间内能量平均的方法,将间歇暴露的几个不同噪声,用这样一个声级来表示该段时间的噪声大小。平均意见得分meanopinionscore语音质量的一种主观度量。来源:GB/T36464.22
7、018,3.26语音唤醒speechwakeup;voicetrigger处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令词识别、连续语音识别等其他处理状态的过程。来源:GB/T36464.22018,3.13媒资mediaassets媒体单位生产的文字、图片、音视频等数据。媒资库mediapool存储媒资的数据库。4缩略语下列缩略语适用于本文件。PCM:脉冲编码调制(PulseCodeModulation)MOS:平均意见得分(MeanOpinionScore)2语音服务能力等级定义主体语音采集与识别语义理解语音合成与播放语音技能Level5语义深度理解与智能互动
8、端点检测上下文及多场景语义理解与智能终端控制智能翻译多级互动Level4语义理解与语音互动语义理解自然合成(多语种、多发音人)应用唤醒、栏目唤起、内容搜索Level3语音深度识别与自然合成Level2语音识别与机器合成语音识别机器合成Level1语音采集与播放语音采集语音播放温度相对湿度大气压力KPa04010%90%无凝结86106DB35/T197920215语音服务的组成及能力等级划分语音服务的组成由语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。语音服务能力等级划分语音服务能力根据成熟度划分为五个等级,见表1。表1语音服务能力等级6环境要求自然环境智能语音终端主要在家庭
9、环境下使用,在表2所示自然环境条件下应正常工作。表2自然环境要求网络环境智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网,网络接入速度应不低于128kbit/s。噪声环境智能语音终端主要在家庭环境下使用,家庭噪声环境具体要求按照GB30962008第4章中0、1、2类声环境功能区的规定执行。3声环境功能区类别环境噪声等效声级dB(A)句识别率%0类昼间50,夜间40901类昼间55,夜间45852类昼间60,夜间5080DB35/T197920217基本要求语音采集与识别7.1.1语音采集人工智能语音服务使用智能语音终端进行语音采集,应能通过传声器或麦克风阵列等具备语音采集能力的
10、拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求:a)支持8kHz或16kHz采样率,16bit及以上的采样精度;b)音频文件编码支持PCM或Opus或Speex格式;c)对于连续性音频,支持30s或60s为时间单位进行切片分割。注:Opus是有损音频的一种编码格式;Speex是一套针对语音音频的压缩格式。7.1.2端点检测人工智能语音服务在进行语音采集时,应对采集的音频进行端点检测,以区分用户说话的自然停顿和主观停止。7.1.3语音识别应满足以下要求:a)支持家庭场景下关键词语音识别能力,如影视、音乐、医疗、教育等;b)支持简单中英文混合识别;c)支持数字、电话号码;
11、d)支持普通话、带有福建口音的普通话;e)宜支持福建省内主流方言,如闽南语、客家语;f)语音识别句识别率应满足表3要求。表3语音识别句识别率要求句识别率计算方法按公式(1)。100%(1)式中:Psr句识别率,单位为百分数(%);Nsr智能语音终端语音交互系统正确识别的句数;Nsi标注总句数。4分值主观测听效果5非常接近播音员真人发声,达到以假乱真的程度,总体听感很好,清晰、流畅。4发音清晰、可懂,总体听感好、流畅,听测人愿意接受(半小时左右不觉疲劳),没有明显韵律错误。3基本可以听懂,但在语气节奏处理上问题较多,音节之间拼接不流畅感较重,听测人不太愿意接受,有明显的疲劳感。2语音吐字不清晰,
12、字词之间有较为严重的顿挫感,体验性不好,但不影响正常理解。语义理解等级场景语义理解正确率%0类影视,电视直播,节目回看901类音乐,医疗,购物,教育855DB35/T19792021语义理解应满足以下要求:a)支持简称、别名、代码、数字的理解;b)具有用户表达存在错字、缺字、模糊时的容错理解能力;c)支持多轮、全双工对话的人机交互方式;d)语义理解正确率应满足表4要求。表4语义理解等级表语义理解正确率计算方法按公式(2)。100%(2)式中:Rss语义理解正确率,单位为百分数(%);Nss操作意图及语义要素均被正确判断的次数;N用户输入被正确识别出文本信息的总次数。语音播放与合成7.3.1语音
13、播放具备声音外放功能的智能语音终端,昼间播放的语音提醒以及其它音频,外放声音应不低于60dB。7.3.2语音合成应满足以下要求:a)支持在线或离线方式合成近似人类的语音;b)支持普通话和英语,宜支持福建省内主流方言,如闽南语、客家语;c)支持中英文数字等各种混合音,宜支持多音色合成和个性化合成;d)MOS应大于或等于4,MOS量化分值见表5。表5MOS量化分值声环境功能区类别夜间环境噪声等效声级dB(A)发声大小dB唤醒率要求0类4055不作要求553m优于95%1类4560不作要求601m优于95%3m优于90%5m优于85%2类5065不作要求653m优于85%分值主观测听效果1发音不清晰
14、,机器音质,听不懂,只能表达断续、个别的语音信息,猜测语意都很困难,不能接受。注:参考GB/T36464.12020中A.8.3的表A.1,结合家庭环境要求,对主观测听效果作更详细描述。声环境功能区类别昼间环境噪声等效声级dB(A)发声大小dB唤醒率要求0类5065不作要求653m优于90%DB35/T19792021表5MOS量化分值(续)语音唤醒7.4.1夜间唤醒具备语音唤醒功能的智能语音终端在夜间的唤醒率应满足表6要求。表6夜间不同噪声环境下的唤醒率要求夜间唤醒率计算方法按公式(3)。100%(3)式中:Rnw夜间唤醒率,单位为百分数(%);Nsw成功唤醒次数;Nw语音唤醒操作次数。7.
15、4.2昼间唤醒具备语音唤醒功能的智能语音终端在昼间的唤醒率应满足表7要求。表7昼间不同噪声环境下的唤醒率要求6声环境功能区类别昼间环境噪声等效声级dB(A)发声大小dB唤醒率要求1类5570不作要求701m优于90%3m优于85%5m优于80%2类6075不作要求753m优于80%环境噪音(S)dB(A)12h内误唤醒次数S450次45S55不作要求55S65低于2次S65不作要求DB35/T19792021表7昼间不同噪声环境下的唤醒率要求(续)昼间唤醒率计算方法按公式(4)。100%(4)式中:Rdw昼间唤醒率,单位为百分数(%);Nsw成功唤醒次数;Nw语音唤醒操作次数。7.4.3误唤醒
16、次数具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。表8误唤醒次数要求语音技能7.5.1通用技能7.5.1.1响应时间因调用网络资源的不同,音频端点检测方式的不同,语音技能的响应时间也会有所不同,但最长响应时间应小于或等于2s。响应时间计算方法按公式(5)。(5)式中:Tack响应时间,单位为秒(s);7DB35/T19792021tr给出结果时刻;te语音输入结束的时刻。注1:如语音交互系统支持识别结果分多次返回,te为第一部分识别结果返回的时刻。注2:如智能语音终端具备语音唤醒功能,tr为终端返回指定内容、反馈的时刻。注3:如智能语音终端具备显示屏幕,tr为终端以屏幕显示或音频播放
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB35_T 1979-2021 智慧家庭人工智能语音服务通用技术规范 1979 2021 智慧 家庭 人工智能 语音 服务 通用 技术规范
限制150内