艾瑞咨询:2022年中国智能语音转写行业研究报告-43页.pdf
《艾瑞咨询:2022年中国智能语音转写行业研究报告-43页.pdf》由会员分享,可在线阅读,更多相关《艾瑞咨询:2022年中国智能语音转写行业研究报告-43页.pdf(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、释放数字生产力,留存探索语音内容2022.12 iResearch Inc.智能语音转写行业研究报告2研究背景:研究对象:在工具不发达的年代,会议记录主要依靠人力完成,以多人合作的分工形式提升记录效率。后随着记录工具不断升级和专业培训,人工转写的效率也在不断提升,专业速录师可依靠速录机完成会议等场景的转写需求,但成本较高。后随着互联网及人工智能技术的不断发展,智能语音转写产品应运而生。尤其在 2011 年,大量研究人员转向深度学习在智能语音领域的研究,利用大数据、机器学习和大算力“三驾马车”,让语音识别的识别准确度再一次得到明显提升,智能语音技术迎来落地应用的发展期。”工欲善其事,必先利其器“
2、,智能化的语音转写服务以价优、质高、便捷的优势满足了转写记录这一交流场景的需求痛点,并在远程办公、新媒体、国际化交流的需求背景下,未来保持强劲市场增长力。作为语音识别技术的产品应用,智能语音转写产品是可以支持长音频识别的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。研究方法:本报告通过业内资深的专家访谈、桌面研究、产品对比研究、行业数据统计与行业规模推算输出相应研究成果。艾瑞咨询产业数字化研究部人工智能研究组报告撰写前言对此,艾瑞发布中国智能语音转写行业研究报告,从语音识别-智能转写产品角度出发,确立智能语音转写服务的范围定义,描绘智能语音转写服务的产业图谱
3、与需求市场,梳理智能语音转写服务在 SaaS 软件服务及本地解决方案的不同产品形式、商业模式及厂商格局,并为中国智能语音转写行业的趋势发展提供分析判断,希望通过本报告,为读者呈现中国智能语音转写的产业发展背景、行业厂商动态、产品发展机遇的多维视角,欢迎各界探讨指正。32022.12 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。从技术趋势来看,语音识别技术的精度和速度仍取决于实际应用环境,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音转写技术应用仍有待突破;从场景价值来看,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,未来
4、转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务;从厂商策略来看,各家将以构建自身产品生态,加强外部场景合作为策略核心,基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模走高。部分智能语音产品如语音助手、语音转写、智能客服等取得产品价值突破或商业
5、上的显著成就,语音识别相关产品多已进入稳步上升期。但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。在人力成本、协同办公、传媒音视频、会展交流、跨国沟通等多重因素驱动下,中国智能转写市场不断注入需求活力,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬,预计2026年市场规模将达到38亿。从产品形态来看,智能转写产品主要包括SaaS类产品与本地化部署解决方案两大类。其中,SaaS市场头部聚集效应显著,讯飞听见与
6、搜狗听写位列第一梯队,讯飞听见在转写准确率尤其是小语种和方言等、产品丰富度、品牌影响力和发展潜力维度拔得头筹。未来,SaaS形式API调用与垂类解决方案将形成合力,构成智能语音转写产业既快且稳的增长飞轮,高生态活性加硬解决方案实力的企业将更能突出重围,抢占更多增量市场。语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,附加产品服务、多语种翻译、内容分析等智能化功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。随着语音识别准确性及效率的提升、多语种与方言
7、转写服务丰富,以及上下文纠正、标点过滤、自定义热词配置、声纹角色分离、语音内容分析提取等功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。智能语音产业发展智能语音转写产品智能语音转写市场智能语音转写趋势洞察4智能语音转写行业发展背景篇1智能语音转写行业市场分析篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇452022.12 iResearch I智能语音产业的宏观背景数字信息输入输出的重要载体,人工智能产业落地“先锋军”智能语音技术指通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等技术形成完整的
8、人机语音交互流程,是实现人与机器交流的纽带,也是数字信息输入与输出的重要载体。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。作为人工智能产业落地的“先锋军”,智能语音产业得到了国家和地方政策的有力支持,且随着参与者不断进入智能语音赛道,“百舸争流,千帆竞发”,产业技术水平和产品竞争力不断提高。来源:艾瑞研究院根据公开资料自主研究绘制。发布日期相关机构重点内容2022-05国务院办
9、公厅强化科技赋能,进一步加强12345平台和网上12345能力建设,开发智能推荐、语音自动转写、自助派单功能2021-11工信部工业和信息化部批复组建国家智能语音创新中心,将围绕多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等研发方向,构建集共性技术研发、测试验证、中试孵化和成果转移转化于一体的创新平台2021-01国务院办公厅提出加强自助下单、智能文本客服、智能语音等智能化应用,方便企业和群众反映诉求建议2020-10工信部鼓励智能家居产品普及语音控制功能,推动基于智能语音识别技术的智能音箱、智能可穿戴设备及其他智能家电产品开发,老年人可通过语音方式实现便捷化操作2019-02最高
10、人民法院全面提升语音识别技术在庭审语音同步转录中的应用效能,建成全国法院智能语音云平台,实现全国法院语音识别的模型共享和统一管理2018-04国务院办公厅开展智能医学影像识别、病理分型和多学科会诊以及多种医疗健康场景下的智能语音技术应用,提高医疗服务效率2017-07科技部公布了首批国家新一代人工智能开放创新平台,包括自动驾驶、城市大脑医疗影像和智能语音2017-07司法部大力发展电子公证、法律服务智能保障等业务模式,推进人工智能语音热线和社交网络法律服务机器人技术研发,促进公共法律服务提档中国智能语音产业典型应用场景及政策汇总(部分)传媒制作智能机器人智能客服智能家居协同办公62022.12
11、 iResearch I智能语音产业的市场规模2022年智能语音市场规模达215亿元,产业规模持续走高近年来,我国人工智能产业维持稳步增长态势;其中,智能语音产业基于语音识别等算法模型突破、优质数据集积累和丰富的下游应用场景创新,已进入规模化深耕阶段。我国头部智能语音企业、大型互联网企业等纷纷以“开放平台+垂直赛道”的发展模式,一方面通过语音开放平台为各行业开发者提供智能语音技术支撑,协作场景与产品创新,助力产业规模增长;另一方面凭借各自在消费硬件、协同办公、视频直播等领域的行业理解与用户生态,持续拓展智能车载、娱乐传媒、协同办公、智慧医疗、在线教育、智能家居等垂直行业赛道,以语音为信息的出入
12、口,构建泛语音产业生态集群。2022年中国智能语音产业规模可达215亿元且维持较高增速,预计到2026年产业规模可达469亿元。注释:智能语音典型产品包括对话机器人、智能硬件中的AI语音助手以及教育、医疗、司法、公安、互联网等垂直行业中的智能语音产品及应用。来源:艾瑞咨询研究院根据专家访谈,结合艾瑞统计模型自主研究绘制。2019-2026年中国智能语音产业规模7710915921527233139646941.6%45.9%35.2%26.5%21.7%19.6%18.4%-1 5 0.0%-1 0 0.0%-5 0.0%0.0%5 0.0%1 0 0.0%01 0 02 0 03 0 04
13、0 05 0 06 0 07 0 08 0 02019202020212022e2023e2024e2025e2026e智能语音产业规模(亿元)智能语音产业增速(%)CAGR=16.9%72022.12 iResearch I智能语音产业的产品成熟度语音识别相关产品多已进入稳步上升期人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。后随着近场语音识别准确率提升、远场语音识别和唤醒发展、全双工语音交互出现、基于NLP的对话和问答能力逐渐成熟、知识图谱技术助力对话引擎以及针对实际应用
14、中的算法优化,智能语音技术的落地可用性不断突破。但其背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”。因此尽管部分智能语音产品如语音助手、语音转写、智能客服等已取得了产品价值突破或商业上的显著成就,但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。来源:艾瑞咨询研究院自主研究及绘制。2022年中国智能语音产品成熟度曲线分布阶段表示智能语音相关技术的一阶产品,可衍生出各细分领域的产品应用。如智能客服+金融、基于语音助手的智能
15、音箱等表示智能语音技术二阶产品,如基于语音识别技术的智能语音转写产品、基于语音合成技术的语音播报等智能客服产品成熟度萌芽探索期落地实践期飞跃发展期稳步上升期生产成熟期语音识别智能语音开发平台语音芯片声纹识别语音输入法语音转写智能车载语音助手生成式AI(音频)语音审核智能消费硬件语音合成语音播报自然语言处理技术落地初期阶段,产品成熟度较低产品普及率提升,成熟度曲线处于缓慢爬坡期产品规模化应用,成熟度快速增长成熟度趋于稳定,产品及服务差异化竞争阶段成熟度稳定阶段。但技术若出现跨越性突破,产品或回到飞跃发展阶段82022.12 iResearch I智能语音转写的定义与分类语音识别产品的重要输出形态
16、,分为实时与非实时语音转写语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。适用于线上线下会议记录转写、影视字幕制作、媒体新闻工作、会议翻译等多个应用情境。作为数字化劳动力,解决刚需问题,有效提高办公效率。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、语气词过滤、自定义热词配置、声纹角色分离、语音内容分析提取等智能化服务功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音
17、识别产品的“排头兵”。来源:艾瑞咨询研究院自主研究及绘制。0102实时语音转写智能语音转写产品定义与分类实时语音转写(流式上传-同步获取):实时语音转写可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;可用于直播实时字幕、实时会议记录;也可配合机器翻译,实现同传功能。非实时语音转写非实时语音转写(已录制音频文件上传-异步获取):非实时语音转写将长段音频数据转换成文本数据。可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。语音识别作为智能交互中的一环,进行语音识别,让机器“理解”人类说的话语,而非以识别为最终产品目的语音转写:支持长音视频的语音转文字服务,可为信息处理和数
18、据挖掘提供基础。92022.12 iResearch I语音识别系统技术架构实现对声音波形序列的识别,得到相应的单词或者字符序列智能语音转写产品的核心是语音识别系统,需实现对给定的声音波形序列的识别,得到相应的单词或者字符序列。语音识别系统由信号处理和特征提取、声学模型(Acoustic Model,AM)、语言模型(Language Model,LM)和解码搜索共四部分组成。识别过程首先对音频流进行处理,通过消除噪声和信道失真对语音进行增强,然后分割声音片段并转换成一系列数值,通过声学模型识别数值,最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。声学模型和语言模型的获得需对预先
19、收集好的海量语音、语言数据库进行信号处理和知识挖掘训练。解码过程中还存在一个“自适应”反馈模块,可对用户的语音进行自学习,从而对模型进行校正,进一步提高识别准确率。来源:艾瑞根据CSDN等公开资料整理研究绘制。信号处理和特征提取解码搜索声学模型语言模型智能语音转写产品核心语音识别系统的技术结构音频信号声音特征语言模型得分识别结果信号处理和特征提取:以音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量。Step1Step2声学模型将声学和发音学(Phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型通过
20、训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,找出该声音特征最有可能对应的文字序列。Step3解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。声学模型语言模型打开空调 0.95大凯空调 0.70大楷空条 0.35da kai kong tiao0.85 0.950.700.85da kai zhao ming0.85 0.950.200.15声学模型得分102022.12 iResearch I语音识别技术发展历程声学模型突破引领技术商业落地进程从最初的基于孤立词的小词汇量语音识别系统,到目
21、前的基于大词汇量的连续语音识别系统,语音识别技术取得了显著的进展。语言模型主要基于传统的N-Gram方法(一种基于统计语言模型的算法)进行统计匹配。虽然目前也有深度神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。或加入NLP Embedding模型,联系上下文,以提升语音识别结果准确率。而纵观其技术落地的突破路径,对于声音模型的研究优化是实现产品性能提升的主旋律。声学模型是语音识别系统的重要组成部分,占据着大部分的计算资源并决定着语音识别系统的性能。2009年随着深度学习技术发展,基于DNN-HMM的语音声学模型成为主流,语音识别因此取得了突破性进展;此后,不同的网络结构组合以
22、及优化策略极大提升了声学模型的性能,如端到端的识别模型、粗粒度的建模单元、更复杂的深度神经网络等。来源:艾瑞研究院根据公开资料自主研究绘制。语音识别技术中声学模型的突破路径u深度神经网络方法主导2006至今u概率统计方法主导1970s2006u模板匹配方法主导 1970s模板匹配识别:提取语音信号的特征构建参数模板,将测试语音与参考模板参数进行比较匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法可有效解决孤立词识别,但难以实现大词汇量、非特定人连续语音识别。概率统计识别:隐马尔可夫模型(HMM)和 高 斯 混 合 模 型(DMM)。GMM-HMM框架中,GMM用于对语音声学特征的
23、分布进行建模,HMM则用于对语音信号的时序性进行建模。自上世纪90年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,语音识别进入缓慢发展期。2006年:深度学习进入发展元年。2019年,Hinton将DNN应用于语音的声学建模;2011年底,微软研究院将DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。此外LSTM(递归神经网络模型)具有长短时记忆能力,整体性能比DNN有相对20%左右稳定提升2015-2017:基于端到端识别模型可去除HMM,直接从声学特征输入就可以得到识别的词序列,进一步提升语音识别准确率及解码速度。2
24、017年以后:随着各种深度神经网络以及端到端技术的兴起,业界厂商纷纷发布及持续优化各自声学模型结构。语音识别准确率持续提升。以科大讯飞为例,2010年中英文识别准确率只有60%左右,而在2021年8月,科大讯飞厂商的中英文转写准确率已突破98.33%。112022.12 iResearch I智能语音转写的需求场景以转写功能为基础,满足细分场景需求,构成丰富产品形态自从以远场语音技术落地为代表的智能音箱产品规模化应用、深度神经网络下的声学模型研发创新进入平稳发展期后,语音识别赛道的产业竞争已经从标准环境下的算法研发比拼,过渡到了在真实细分需求场景下如何满足用户体验的竞争。智能语音转写产品也遵循
25、这一赛道特征,以语音转文字功能为基础,附加产品服务、多语种翻译、内容分析等智能化服务功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。智能语音转写产品具备丰富的产品形态,可应用于娱乐传媒、在线教育、会议会展、同传等多行业领域,帮助提升企事业单位办公人群、学生、自媒体从业人员、翻译专业人士等各类群体的工作效率。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品的需求场景转写功能语种翻译产品服务内容分析实时场景非实时场景提供会议记录及会后整理,可附加会议软件等产品功能提供字幕转写服务,可附加音视频编辑相关产品功能提供语音转写服务,在多语种环境下,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 咨询 2022 年中 智能 语音 转写 行业 研究 报告 43
限制150内