T_BIA 17-2024 数字人指标要求及评估方法 第1部分:平台基础能力.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《T_BIA 17-2024 数字人指标要求及评估方法 第1部分:平台基础能力.docx》由会员分享,可在线阅读,更多相关《T_BIA 17-2024 数字人指标要求及评估方法 第1部分:平台基础能力.docx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS 33.160M 61团 体 标 准T/BIA 17-2024数字人指标要求及评估方法第 1 部分:平台基础能力Technical requirements and test methods for digital human Part 1: Platform basic competency2024 年 02 月 02 日 发布 2024 年 03 月 01 日 实施北京信息化协会I目 录前 言 I1 范围 12 规范性引用文件 13 术语、定义和缩略语 13.1 术语和定义 13.2 缩略语 24 概述 25 基础技术能力 25.1 能力要求 35.2 评估方法 66 基础工程化能力
2、 66.1 能力要求 66.2 评估方法 87 基础安全保障能力 87.1 能力要求 87.2 评估方法 9附录 A 10II前 言本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规则起 草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 数字人指标要求及评估方法分为以下部分:第1部分:平台基础能力;第2部分:平台性能分级;第3部分:平台安全可信;第4部分:动作捕捉技术;第5部分:终端一体机;第6部分:金融场景应用;第7部分:营销场景应用;本文件为第1部分。本文件由北京信息化协会提出并归口。本文件起草单位:中国信息通信研究
3、院、北京信息化协会元宇宙创新发展工作委员、中国移动通信 集团北京有限公司、北京蓝色光标数据科技股份有限公司、中兴通讯股份有限公司、北京数智云科信息 科技有限公司、凌宇科技(北京)有限公司、北京飞天云动科技有限公司、数字栩生(北京)科技有限公 司、北京海百川科技有限公司、深圳传音控股有限公司、南京硅基智能科技有限公司、深圳市闪剪智能 科技有限公司、北京蔚领时代科技有限公司、湖南芒果融创科技有限公司、马上消费金融股份有限公司、 科大讯飞股份有限公司、北京黑镜次元科技有限公司、北京中科深智科技有限公司、北京聚力维度科技 有限公司、北京摩登天空文化发展有限公司、北京灵芒科技文化有限公司、爱化身科技(北
4、京)有限公 司、北京元客方舟科技有限公司、北京五一视界数字孪生科技股份有限公司、北京元宇宙文化有限公司、 浙江君同智能科技有限责任公司、苏州次源科技服务有限公司、杭州趣看科技有限公司、九度数字科技 (苏州)有限公司、中传景创(北京)文化旅游有限公司、宁波菊风系统软件有限公司。本文件主要起草人:颜媚、石霖、和婕、冯昊宇、凌玲、纪菁、翁冬冬、任春霞、李志强、郭晓喆、 蒋耀琳、吕海兵、刘彦宾、李松、赵明睿、张佳宁、李金兰、汪磊、周世晟、宋震、孙博、赵晶、朱峰 结、汤本来、司马华鹏、毛丽艳、唐向阳、高宏刚、费元华、于淼、张亦弛、吴红、冯月、曾定衡、郜 静文、张一凡、吴松城、张培养、宋健、罗志文、赵天奇
5、、渠源、沈玥、张逸娟、张晶、朱金晨、涂政、 郭林、耿放、熊伟、吴亚光、曹振、王国林、邢琳、韩蒙、林昶廷、张广亮、李小满、钱代友、贺波、 陈乾、栗兰贺、杨茂森、刘奕宏、钱晓炯、蒋莹凯、龚任娇子、盛琳子。IT/BIA 17-2024数字人指标要求及评估方法 第 1 部分:平台基础能力1 范围本文件面向数字人平台,从基础技术能力、基础工程化能力、基础安全保障能力三个维 度规定了数字人平台基础能力要求及评估方法。本文件适用于指导对数字人平台基础能力的设计、研发、评估、验收等工作。2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期 的引用文件,仅该日期对应的版
6、本适用于本文件;不注日期的引用文件,其最新版本(包括 所有的修改单)适用于本文件。ITU/T F.748. 15 数字人应用系统基础框架和评测指标(Framework and metrics for digital human application systems)3 术语、定义和缩略语3.1 术语和定义ITU/T F.748. 15界定的以及下列术语和定义适用于本文件。3.1.1虚拟数字人 digital human简称数字人或虚拟人,是指基于现实世界设计或通过计算机虚拟生成,再借助真人或计 算驱动,在多模态输出设备呈现的拟人化的虚拟形象或虚拟人物,是集计算机图形学、计算 机视觉、智能语音
7、、人工智能和自然语言处理技术于一体的计算机应用,可用于数字内容生 成和人机交互,帮助提高内容生产效率和用户体验。来源:ITU/T F.748.15 ,3.2. 1 ,有修改3.1.2文本驱动 text-driven是指支持不同类型的文本到最终数字人视频(包括语音和画面)的驱动方式。3.1.3音频驱动 audio-driven是指支持语音输入以及音乐输入,实现对数字人表情及动作的控制的驱动方式。3.1.4视频驱动 video-driven是指基于计算机视觉和计算机图形学等技术,通过摄像头对真人的动作捕捉,实现对数 字人表情及动作的控制的驱动方式。1T/BIA 17-20243.1.5动作捕捉设备
8、驱动 motion capture device driven是指通过动作捕捉设备对真人的动作捕捉,实现对数字人表情及动作的控制的驱动方式。3.2 缩略语2下列缩略语适用于本文件。2D 二维3D 三维API 应用程序接口CG 计算机图形学CPU 中央处理器GPU 图形处理器SaaS 软件即服务SDK 软件开发工具4 概述2-Dimensional3-DimensionalApplication Programming InterfaceComputer GraphicsCentral Processing UnitGraphics Processing UnitSoftware as a Se
9、rviceSoftware Development Kit数字人平台基础能力如图1所示,主要涵盖以下三个方面的内容:(1)基础技术能力,即数字人平台的基础功能是否能够满足用户普遍的使用需求,主 要从形象技术能力、语音技术能力、驱动技术能力、交互技术能力、内容供给能力、人设定 制能力等维度进行评估。(2)基础工程化能力,即数字人平台的非功能性能力是否能够支撑业务应用落地,主 要从标准资源配置、可移植性、易用性、可扩展性、兼容性、时效性、可靠性等方面进行评 估。(3)基础安全保障能力,即数字人平台是否能够满足现有合规要求,主要从形象版权 保障、内容追溯能力、 内容风险控制等方面进行评估。图1 数字
10、人基础能力评估框架5 基础技术能力T/BIA 17-20245.1 能力要求5.1.1 概述数字人基础技术能力可从形象技术能力、语音技术能力、驱动技术能力、交互技术能力、 内容供给能力、人设定制能力等维度进行评估,具体评估指标及查验内容如表1所示。表1 基础技术能力评估指标及查验内容指标类别指标项查验内容必选/可选基础技术能 力形象技术能力支持的形象类型必选支持的形象精细度必选形象生成方式支持情况必选形象装扮更换支持情况必选位移支持情况必选语音技术能力语音合成能力必选语音编辑能力可选语音转换能力可选语音定制能力可选驱动技术能力支持的驱动方式必选驱动范围必选交互技术能力支持的交互方式可选语音识别
11、能力可选交互自主性可选支持的交互能力类型可选情感化表现可选富媒体展示能力可选唤醒能力可选内容供给能力内容构建方式必选人设定制能力人设定制能力必选风格一致性必选5.1.2 形象技术能力5.1.2.1 形象类型支持一种或多种数字人形象类型,如2D卡通形象(含动物、拟人化设计物)、2D真人形 象、3D卡通形象(含动物、拟人化设计物)、3D半写实形象、3D写实形象等;注1:2D真人形象类数字人类型可根据性别、着装、妆容风格、动态表达风格等维度划分。性别可分为 男、女;着装可分为偏礼仪服装、专业制服、主题服装、休闲服装、民族服装等;妆容风格可分为正式妆 容、特色妆容、 自由妆容、民族妆容等,动态表达风格
12、可分为正式风、可爱风等。注2:3D数字人形象各分类定义见附录A的A.2。5.1.2.2 形象精细度支持一种或多种数字人形象精细度。若是2D真人形象类数字人,应披露支持的分辨率; 若是3D数字人应披露数字人头部、身体、毛发、服装等部位的模型面数、光照效果等,详情3T/BIA 17-2024见附录A;注1:2D真人形象类数字人的精细程度主要根据合成的数字人图像的原始分辨率进行划分,需要根据场 景需求对精细度和合成效率以及传输带宽要求上进行权衡,根据使用场景前端显示设备的不同(如手机APP 类型的小屏场景、一体机以及会场大屏的大屏场景等)支持不同分辨率的调节能力,如支持480p、720p、 1080
13、p等不同分辨率。注2:3D虚拟数字人的建模精细度决定了最终的呈现效果以及处理的效率,根据模型的面数可以将3D 虚拟数字人的精细程度划分成四个等级:普通质量、中级质量、高级质量、超高级质量,详情见附录A。5.1.2.3 形象生成方式支持一种及以上的数字人形象生成方式,供用户定制数字人形象。其中,生成2D卡通、 3D写实形象、3D半写实形象、3D卡通形象(含动物、拟人化设计物)的方式包括但不限于:1)根据用户提供的需求,利用CG技术进行生成数字人;2)提供模块化数字人定制,系统定义数字人身体各部位参数,供用户选择搭配;3)提供深度数字人定制,用户可完全自主定义数字人身体各部位的参数。 生成2D真人
14、形象的方式包括但不限于:1)用户输入照片, 由系统根据照片参数生成数字人形象。2)用户输入视频,利用人工智能算法处理视频生成数字人形象。a)输入大量视频数据,生成高清真人数字人形象;b)输入微量视频数据,生成低成本,可即时任意替换的真人数字人形象。5.1.2.4 形象装扮更换支持数字人形象装扮更换,可供用户定制不同的数字人的装扮。更换内容包括但不限于 发型、服饰、配饰等;5.1.2.5 位移支持情况披露数字人的位移支持情况,包括在视频画面中不同位置的展现,以及数字人在场景中 移动的能力,如全身移动、全场景变换等;注1:全身移动是指数字人与虚拟镜头、背景、地面的相对位置可以发生变化,可以为观众带
15、来视角变 化、距离变化、背景环境变化的视觉效果。注2:全场景变换是指人、场、道具的互动,除数字人的相对位置可以发生变化以外,随着镜头用户能 感受到整个空间所有元素相对位置的变化,数字人能与道具、环境进行自然的互动(位移、抓举、改变形 态等)。5.1.3 语音技术能力应包含以下基本功能:支持语音合成能力 ,并披露对于多情感、多语种、多方言、唱歌、变声等语音合成 能力的支持情况;注1:多情感是指具备中性、悲伤、高兴等三类以上的情感;多语种是指支持中文、英文、日语、西班 牙语等语种合成能力;多方言是指除普通话外,还支持粤语、四川话等方言的处理能力;唱歌是指合成歌 唱语音;变声是指将不同人的声音转换成
16、特定声音的能力;披露支持的语音编辑能力,支持如下一项或几项:语速、音色、音量、情感、发音 编辑等;4T/BIA 17-2024注 2:发音编辑是指编辑文本中多音字、符号等的发音,并能依据用户的设定合成正确的发音。支持语音转换能力,即让数字人按照语音编辑设置好的参数将音频实时转换成数字 人的语音的能力,并披露语音转换实时率;支持语音定制能力,如支持录音棚录音的常规定制或小样本数据的语音定制(应披 露样本数据时长)等;5.1.4 驱动技术能力应包含以下基本功能:支持一种或多种驱动方式,如文本驱动、语音驱动、视频驱动、动作捕捉设备驱动、 其他驱动等。注:动作捕捉设备包括光学动作捕捉、惯性动作捕捉等动
17、作捕捉设备。披露支持的驱动范围,如口型、面部表情、肢体(半身或全身)、手指、背景内容 素材等(不同驱动范围说明驱动的方式);5.1.5 交互技术能力应包含以下基本功能:支持一种或多种交互方式,如单轮、多轮对话、全双工等语音交互,手语、肢体动 作、视线等视觉交互,点击等触屏交互、多模态交互等;披露在某一业务场景下某一语种或方言的语音识别率,以及语音识别所支持的领域 场景,如金融,电力, 电信等;注:语音识别赋予数字人“听 ”的能力,是数字人与用户产生交互的必要条件。例如,在人机识别场 景下,8k电话信道的识别率可达到88%以上,16k网络信道的识别率可达到95%以上。支持主动交互或被动交互。主动
18、交互是指根据时间、地点、用户状态,在恰当的时 机主动发起交互行为,可以是语音交互,视觉信息展示等;被动交互能力如:人工输入文字、 语音或视频进行驱动交互,或者通过动捕设备驱动数字人交互;披露支持的交互能力类型,如业务处理、常识性智能问答、闲聊等; 支持情感化表现,如喜、怒、哀、乐等情感;支持交互过程中的富媒体展示能力,如图表、视频、虚拟物品等; 披露支持的唤醒方式,如基于传感器、点击、视觉、语音等。5.1.6 内容供给能力应包含以下基本功能:支持一种或多种内容构建方式,如手工构建、SaaS化工具构建、智能生成等;注 1:手工构建是指通过非工具化的方式,手工准备的数字人应用场景内容,需要实施人员
19、进行手工 编辑、导入或提交;注 2:SaaS 化工具构建指提供工具化的软件,支持数字人用户创建或修改数字人应用场景内容,如直 播剧本编辑工具、知识编辑等。用户创建或修改完成后可以直接供数字人使用;注 3:智能生成是指通过算法或大数据挖掘,系统自动化为数字人生成应用场景内容,如电商直播的 商品介绍剧本、新闻直播的新闻剧本、问答知识库等;5.1.7 人设定制能力数字人人设应包括形象、服饰、表达、声音等方面。数字人人设定制应包含以下基本功 能:披露对数字人人设的定制能力,且数字人的人设应当与使用场景、目标用户通识认5T/BIA 17-2024知保持一致。注: 目标用户通识认知指在某一特定场景下,用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- T_BIA 17-2024 数字人指标要求及评估方法 第1部分:平台基础能力 17 2024 数字 指标 要求 评估 方法 部分 平台 基础 能力
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内