2022年语音产业调研. .pdf
《2022年语音产业调研. .pdf》由会员分享,可在线阅读,更多相关《2022年语音产业调研. .pdf(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、目录智能语音产业发展情况调研. 2NUANCE公司(语音识别,图像处理,输入法软件) . 2IBM(VIAVOICE) . 3微软( SPEECH SDK) . 3DIALOGIC . 4安吉星 ONSTAR(通用汽车) . 5车音网 . 5深圳华为 . 6科大讯飞 . 7苏州思必驰 . 8北京捷通华声语音技术有限公司(智能人机交互HCI) . 9中科信利(中科院声学所). 10中科模识 . 12北京正鹰科技. 13北京得意音通公司. 13厦门天聪智能软件. 14北京宇音天下科技有限公司. 15四维图新(车载语音). 16上汽荣威 . 17福州海景科技(海景生物识别技术研究中心). 18唯创科
2、技 . 19北京云知声 . 19北京普强公司. 21聚熵信息技术(上海 )有限公司 . 22百度 . 22GOOGLE. 23三星 . 24名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 24 页 - - - - - - - - - 智能语音产业发展情况调研Nuance 公司(语音识别,图像处理,输入法软件)核心技术:语音识别产品:1. 电脑语音识别软件Naturally Speaking2. T9 智能文字输入法 (支持超过 70 种语言,超过 30 亿移动终端内置,市
3、场占有率 70%,中国超 50%)3. Dragon Dictation (声龙听写),适用于 iPhone ,iPad 和 iPod touch 用户的一款语音识别应用软件, 将用户的语音转换成文字。软件目前支持美国英语、 英国英语、澳大利亚英语、 法语、德语、意大利语、西班牙语、日语、韩语和中文。特点:在类似的产品中拥有最高的语音辨识率,英文可达99%。其英文语音产品 Dragon NaturallySpeaking9在法律和医院临床记录占据很大市场。世界语音技术市场, 有超过 80%的语音识别是采用Nuance 识别引擎技术,其名下有超过1000 个专利技术,公司研发的语音产品可以支持超
4、过 50 种语言,在全球拥有超过20 亿用户。在金融领域,超过 500 家客户;电信行业,前15 大公司有超过 10 家为 Nuance用户。语音识别应用领域广泛,如呼叫客服中心、GPS 语音定位搜索、电子词典发音,说话译成不同语言的文字。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 24 页 - - - - - - - - - 08 年 3 月,亿讯成为大中华区的专业总代理。在中国有90% 的语音识别应用是采用Nuance的核心技术。在中国,占据大部分客服呼叫中心的份
5、额,尤其在电信、金融行业广泛应用。IBM (ViaVoice )产品: ViaVoiceIBM ViaVoice 是一种通过麦克风输入中文的程序。您所需要做的仅仅是对着话筒喊出您要输入的字符,ViaVoice就会自动判断并且帮你输入汉字。作为语音识别软件系列的产品,它可以使PC、手提设备、汽车系统和自动客户服务系统之间的信息交流变得轻松快捷。作为第一个全功能的语音指令桌面程序,运行在Windows下的ViaVoice 支持 Microsoft Office 2003,为不同要求的用户提供了精确的语音识别技术。 与其它语音识别系统一样, 它能够不断学习和适应用户的特定语音,并不断提高识别的准确度
6、。ViaVoice同样可以对识别出来的文本进行修改纠错,这也让软件变的更加实用。微软( Speech SDK )产品: Speech SDKSpeech SDK 是微软的语音识别系统。它的功能与IBM的ViaVoice类似,可以将用户的语音信号转化为文字,省去打字的繁琐。原程序带的是英文引擎,外带中日文语言包,可支持中文和日文输入。在进行简单的语音训练之后即可使用,也具有较高的辨识度。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 24 页 - - - - - - - -
7、 - 比较 ViaVoice 和 Speech SDK ,VIavoice 的优点在于纠错功能比较好用并且对短的字词识别度较高,而Speech SDK 的优点在于一方面它很好与微软的语音输入法结合起来,另一方面它对整句的识别度比较高。Dialogic Dialogic是一家 Intel 所属公司,它提供关键构件和技术服务。Dialogic的产品用于客户拥有设备和公用网络环境中的语音、传真、数据、语音识别和合成、呼叫中心管理和IP 电话应用程序。Dialogic总部位于新泽西Parsippany ,并在全球设有地区总部。Dialogic公司是一个提供开放的、高品质的、基于标准的电信和计算机语音集
8、成部件的供应商,并占有全球64%的市场份额。您会发现很多基于Dialogic产品的系统在可靠地管理电话、传真和由计算机通过有线和无线网络来应答的多媒体呼叫系统。Dialogic产品广泛应用于语音、传真、数据、语音识别、声音合成、互联网电话和呼叫中心管理等一系列商业领域。Dialogic 产品中国区总代理是北京美迪格威科技有限责任公司产品:1. 语音网关DMG 媒体网关系列IMG 集成媒体网关系列BorderNet网关系列名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 24
9、 页 - - - - - - - - - 2. 语音传真卡Diva Soft IP Brooktrout系列HMP 接口卡安吉星 Onstar (通用汽车)安吉星是通用汽车与上汽集团之间的第八家合资企业,也是北美市场之外的首家OnStar 信息服务业务机构。 OnStar 是通用汽车最成功的品牌之一,在 2008 年底北美上市的 95% 通用汽车产品都安装了该系统。 OnStar系统通过应用全球卫星定位系统(GPS)和无线通信技术来为中国的消费者提供广泛的汽车安全信息服务,包括碰撞自动求助、路边救援协助、 全音控免提电话 、实时按需检测和 全程音控领航 (Turn-By-Turn Naviga
10、tion)等十多项。车音网车音网是中国首家 特马服务( Telematics )提供商,是富创新精神和开拓性的新锐科技公司, 是中国市场应用自动语音识别和跨网通信技术进行语音增值业务的领导者。车音网与联通及广大汽车专业服务商紧密合作,致力于推广全新的汽车生活理念, 提倡 “安全、便捷、时尚”的汽车生活方式, 提供安全的驾驶通讯环境和便携的汽车特马服务。核心技术:语音识别与语音合成;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 24 页 - - - - - - - - -
11、 主要产品:1. 企业级产品: 一声达为 TSP及汽车企业用户提供的基于语音识别引擎的用户管理及服务平台,为企业级用户提供集服务管理、会员管理、网站管理以及报表统计于一体的基于语音平台级的咨询服务,通过自身语音平台技术优势和经验帮助用户进行语音平台的设计和实施。2. 用户级产品: 智驾精灵基于语音识别引擎的车联网智能移动终端套件为企业级用户提供促销推广、行业礼品解决方案,通过自身语音平台技术优势和经验为客户群体提供基于语音识别技术的智能终端应用方案,根据用户的需求,整合不同的服务内容,服务配套设备,实现整合营销。车音网背景阅读:http:/ 金融行业 VoIP 解决方案华为公司作为国内著名的通
12、信设备制造商,借助多年电信设备开发经验,为金融系统提供全方位的可管理、 智能化语音解决方案。2. Emotion UI中内嵌的 语音助手华为语音助手是华为终端公司开发的用于终端的语音控制程序。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 24 页 - - - - - - - - - 华为终端将在未来上市的高端智能手机上采用全新的Emotion UI,并且启用“智能语音助手”功能。这个新功能的具体名称目前还不得而知,但可以肯定它不仅具有Siri 的基本功能,而且一改 An
13、droid系统 Voice Actions的诟病,针对自然语言的理解和反应进行全面的中国本地化改善。科大讯飞产业方向:1. 语音平台产业方向;2. 通信增值产业方向;3. 嵌入式产业方向;4. 教育产业方向;5. 行业软件和系统集成产业方向。核心技术:1. 语音合成技术;2. 语音识别技术;3. 语音评测技术;4. 声纹识别技术;5. 自然语言处理。主要产品:1. 讯飞语音输入法;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 24 页 - - - - - - - - -
14、 2. 讯飞语点;3. 讯飞口讯;苏州思必驰思必驰致力于为国内外的教育软件公司、标准化考试机构、培训机构、出版社、大中小学提供基于云计算平台的中英文智能语音交互技术,以及相关的智能人机互动口语教学系统解决方案,帮助传统教学产品和服务实现智能语音人机互动和跨平台(互联网、桌面应用、移动平台等)应用。核心技术:1. 语音分析思必驰强大的智能语音分析模块,支持中文和英文的全方位智能分析,覆盖基本音素、音节、字词、句子以及段落各个范围,覆盖声调、语调、流利程度、母语程度等各个评估维度。客观的鲁棒性测试显示,思必驰的语音分析技术不单在安静标准的考试环境下达到很高精度,在通常的家庭学习环境和一般麦克风声学
15、环境下仍然达到了评估的高准确度,显著领先于市场上的同类产品。2. 语音合成思必驰开发了商业化的低资源消耗的语音合成系统,以同类产品1/200的大小,提供不限词表、不同性别、多语种的多风格自然语音合成。采用新一代的基于参数化统计模型的语音合成系统,与传统的音频片段拼接合成技术相比,具有更高的灵活性,在合名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 24 页 - - - - - - - - - 成多样化风格语音方面具有特别的优势,使风格定制化的语音合成成为现实。3. 语音识
16、别与语音理解思必驰拥有自主知识产权的统计语音识别和理解技术,突破了大词汇量、连续自然语音、说话人变化、环境变化、语义模糊等一系列主要技术难点,其引擎可以在复杂运行条件下提供更高的识别率、更快的反应速度和自适应调整能力,达到了国际先进水平。产品:1. 声动之芯( API)“声动之芯”是为教育软件公司、标准化考试机构、培训机构、出版社提供的基于云计算的智能语音交互技术服务,能实现口语教辅系统、口语学习软件、口语考试系统、语音游戏、互动教材等功能。用户无需专业语音知识, 调用简单接口或应用成熟模板,就能立刻使软件、网站、智能手机、平板电脑增加国际领先的智能语音分析互动能力。2. 智能人机互动口语教学
17、系统解决方案面向教育培训机构、教育软件公司、出版社提供的教学系统定制服务。该方案基于思必驰先进的智能语音技术,覆盖完整口语教学环节,提供针对课前预习发音练习人机对话口语评测的应用模块。客户只需选择相关模块,添加相应学习内容,就能形成一套最适合自己的教学、评测产品。北京捷通华声语音技术有限公司(智能人机交互HCI)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 24 页 - - - - - - - - - 平台:人机交互感知云捷通灵云(HCI)核心技术:1. 语音合成2.
18、语音识别3. 手写识别主营产品:1. HCI 技术授权类产品(平台级,嵌入式,桌面级)2. HCI 方案类产品(平台应用解决方案,嵌入式应用解决方案)3. HCI 应用类产品(安卓应用,捷通听书)4. 小唐龙 语音助手小唐龙是一个灵敏、可爱、智能的手机助手。依靠语音识别(ASR) 、语音合成( TTS)和人工智能( AI)来实现让小唐龙可以通过自然语言与用户进行互动,为用户提供工作、学习、生活、交友等各个方面的手机助理。中科信利(中科院声学所)产品:1. 中科信利语音识别引擎;中科信利嵌入式语音识别引擎(MSR)是一款特别为移动设备比如 PDA、手机语音应用而设计的语音识别引擎。其内核基于隐马
19、尔科夫模型( HMM ) ,所采用的搜索算法针对嵌入式移动设备的特点作了针对性的改进以提高速度和识别率。所用的中文语音模名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 24 页 - - - - - - - - - 型是基于大量的不同场合,不同人群和不同口音的真实语音数据训练出来的,具有较好的鲁棒性。 根据不同移动设备的资源情况,该识别引擎可以被定制成不同的配置,使得它可以在某种设备上让语音识别的应用性能达到最优。2. 中科信利 KTV 语音点歌解决方案;中科信利 KTV
20、 语音点歌解决方案,是针对卡拉OK 包房内点歌系统而提出的,具有根据用户用嘴说出的歌名、歌手名、一句歌词或哼唱一段旋律来搜索歌曲的功能,以及对演唱者的旋律准确度进行评分的功能。其自然的交互和简便的操作方式,均胜于传统的点歌方式。为适应 KTV 的高噪声环境, 中科信利 KTV 语音点歌方案还集成了中科信利专有的降噪处理算法,保证了嘈杂环境中语音点歌的准确性。3. 中科信利嵌入式系统语音合成引擎;中科信利嵌入式语音合成引擎(简称MTTS )是一款特别为移动设备比如手机语音应用而设计的语音合成引擎。其特点是基于汉语全音节以及某些特殊单元建模,并结合特定的语音压缩的算法,针对嵌入式移动设备的资源有限
21、的特点作了针对性的改进,以降低音库大小并提高自然度。根据不同移动设备的资源情况以及不同的应用场合,该引擎可以附加定制不同的特定音库,以使得它可以在某种应用背景中的性能达到最优。4. 中科信利语音手机通语音手机通 VoiceTone 是基于中科信利嵌入式语音识别引擎名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 24 页 - - - - - - - - - 和中科信利嵌入式语音合成引擎,专门针对高端手机(比如PDA手机、 SmartPhone等)开发的语音应用软件,它为用
22、户提供了通过人机语音交互模式控制移动设备的快捷方便的途径。使用该产品,只需直接说出要查询的人的名字,其资料将会自动显示出来,然后可根据语音提示的指令进行拨号操作。语音手机通适用于Windows CE平台和其他资源极度受限的嵌入式操作系统,能在资源有限的情况下以较小开销完成人名/命令识别等任务。该软件的主要目的是为嵌入式系统用户提供基于语音的人机交互界面,使嵌入式移动设备的操作更加人性化,同时,也方便了老年人以及残障人群对嵌入式移动产品的使用。中科模识北京中科模识科技有限公司 (Pattek )是中国科学院自动化研究所于 2000 年成立的高新技术企业。 模识科技专业从事语音识别技术研究、产品开
23、发与成果转化,为拥有自主知识产权的创新型企业。公司为中关村科技园区高新技术企业和软件企业。模识科技致力于为成为全球著名的智能语音处理技术与应用服务提供商。经过几年的不断努力和应用探索,模识科技研究和开发了系列化的智能语音处理技术和产品。面向嵌入式、桌面、广播电视和电话等信道,Pattek ASR 可提供系列化的语音 -文字转换、关键词检出、说话人识别和语种识别等技术引擎;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 24 页 - - - - - - - - - Pat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年语音产业调研. 2022 语音 产业 调研
限制150内