人工智能算力中心技术规范 第2部分:测试方法 编制说明.docx
《人工智能算力中心技术规范 第2部分:测试方法 编制说明.docx》由会员分享,可在线阅读,更多相关《人工智能算力中心技术规范 第2部分:测试方法 编制说明.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、团体标准人工智能算力中心技术规范第2局部:测试方法(征求意见稿)编制说明一、工作简况新一代人工智能产业技术创新战略联盟(简称AITISA联盟)是在科技部的指 导下于2017年成立,由近200家来自行业内的顶尖企业、高校和科研院所、资本 机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准 制定团队的基础上,联盟从成立开始,便以人工智能产业开展需求为引领,围绕 产业开展中存在的共性问题,建立了AI标准工作组,着手人工智能标准体系的搭 建和技术标准的制定。AI标准工作组内部成立了假设干专题组,分别承当相关细分 领域的标准制定工作,智算中心与网络专题组是其中之一,致力于人工智能
2、计算 中心和网络相关技术标准的制修订。人工智能算力中心技术规范第2局部:测试方法本局部规定了人工智能 计算中心性能、可靠性特性的测试方法,适用于人工智能计算中心性能、可靠性 特性的测试与评定,也可为系统优化、瓶颈发现提供试验依据。工作组自2021年9月第17次会议开始,讨论启动智算中心技术标准制定工作, 首先形成了人工智能算力中心技术规范第2局部:测试方法技术提案。标准 于2022年3月正式立项(AITISA 2022 8号文),计划号2022032505。2022年3 月第18次会议,工作组提出了关于人工智能算力中心技术规范系列标准的工作安 排,在18次会上决议通过。按全会审议通过的安排,工
3、作组于2022年3月至2022 年5月,经历4次会议(3月28日,4月8日,4月28日,5月13日),收到并讨论了5 份(含修改意见40余条)关于第2局部:测试方法的提案,最终讨论修改形 成草案。该草案在工作组内部进行公示与审阅。最终于2022年6月,向19次全会 报告,全会批准进入征求意见阶段。形成了标准的征求意见稿。本文件起草单位:鹏城实验室、清华大学、北京大学、北京市商汤科技开发 、中科寒武纪科技股份、华为技术、上海燧原科技有 限公司、百度在线网络技术(北京)、平安科技(深圳)。本文件主要起草人:任志祥、陈文光、曾炜、吕文静、张鹏、赵海英、汪邦 虎、张世雄、李假设尘、李志永、肖京、吴庚、
4、赵轩、黄乾明、黄岩哲、姚伟峰、 侍国斌、桂煌、赵淑静、胡敏、边思雨、熊亮、陈又新。二、标准编制原那么和主要内容及解决的主要问题标准的编制原那么:1)本局部给出的智算中心的典型组成及各级(包含服务器节点、连接机构、 计算中心整体)测试方法,包含性能和可靠性测试。符合各行业人工智能应用对 算力不断增长的需求趋势,表达人工智能计算中心的开展水平和方向。规定的技 术要求结合产学研众多单位的意见,可用来评估人工智能计算中心相关产品的能 力。2)可测试、可评估本局部规定的测试方法明确、易操作、可实施。可以用来测试人工智能计算 中心技术水平。本局部的内容作为第2局部技术要求的补充,与第1局部搭配使用 使用,
5、为人工智能计算中心的测试提供指引。主要内容:本局部规定了人工智能计算中心性能、可靠性特性的测试方法。本局部适用于人工智能计算中心性能、可靠性特性的测试与评定,也可为系 统优化、瓶颈发现提供试验依据。本局部分为7个章节,2个附录,包含:第1章“范围”;第2章“规范性引用 文件”;第3章“术语和定义”;第4章“缩略语”;第5章“概述”;第6章“性 能扩展测试”;第7章“可靠性扩展测试”。第1章阐述了本局部的主要内容及范围。第2章说明了本局部的引用文件。本局部无规范性引用文件。第3章列出了本局部中术语的引用和定义。大局部术语从第1局部技术要求继 承而来。本局部那么附加给出了测试相关的术语,包含被测系
6、统、被测者、测试系 统、测试者、作业、训练数据、验证数据等。为人工智能计算中心相关测试提出 一致的语境。第4章列出了本局部涉及的缩略语。第5章给出人工智能计算中心测试的整体框架,以及对各种类型技术要求的 一般测试方法和原那么。第5章可作为测试的整体引导,指导使用者如何应用人工 智能算力中心技术规范系列标准。第6章包含人工智能计算中心的性能扩展测试的方法,包含测试过程,规那么, 对结果的(完备性等)要求和指标计量方法。在推理方面,附加给出了作业到达 模式,包含测试时作业丧失的处理方法。第7章包含人工智能计算中心的可靠性测试方法,包含测试过程,规那么,对 结果的(完备性等)要求,故障注入方法和指标
7、计量方法。附录A (规范性)和附录B (规范性)分别包含对基础性能和可靠性要求的验 证方法,将第5章提出的测试验证手段,应用到不同的要求条款,在保证可验证、 可评估的基础上,兼顾效率和公平性。解决的主要问题:人工智能计算中心技术规范拟解决以下产业问题,本局部聚焦第4个问题及 前飞个问题中与测试相关的局部。a)各人工智能计算中心的体系架构、组成等可有显著区别,特定计算中心 的计算特性和基本配置无基线规定,为应用的部署、调试、移植等带来了一定的 障碍;b)人工智能计算中心的性能是其应用的核心条件之一,性能的优化应建立 测试之上。然而,当前没有专门针对人工智能计算中心的、较为全面的性能测试 方法;c
8、)人工智能计算中心的可靠性是用户关心的重要问题。当前,并无专门针 对人工智能计算中心可靠性的技术要求。数据中心及软件系统标准中对可靠性的 要求及测试方法,也需做相当程度的调整和取舍;d)人工智能计算中心建设的认定规程没有统一的标准化指导,认定工作中 因人员、工具、用例、流程等因素的不一致,或造成认定结果的偏差。三、主要试验或验证情况分析本局部提出了用于验证人工智能计算中心性能、可靠性的测试负载(见表1 和表2)和指标。在产业内,这些负载有充分的试验验证基础,数据集可获得, 指标可计量。表1训练、推理固定负载类型工程技术要素人工智能计算中心A.图1模型resnetlOl vl像识 别数据集加ag
9、enei2012门限bTopi-准确率 75%2模型resnet50_vl. 5数据集“imagenet2012门限bTopi-准确率 74%B.自 然语 言处 理1模型bert-large r 4数据集“训练:cn-wiki / en-wiki推理:SQuAD vl. 1门限b训练:mask_lm_accuracy 0. 7推理:Fl 91.02模型盘古-alpha试验次数1数据集Chinese text corpus3门限号次学习 Fl (CMRC2018) : 16. 647零次学习 Fl (DRCD) : 9. 99零次学习 Fl (WebQA) : 16. 32注:表中的符号表示“或
10、”。表2人工智能计算中心故障模块故障模式故障原因故障影响D.人工智 能加速器1.片上内存多 比特ECC片上内存颗粒存储空间失 效对应单加速器不可用2.人工智能加 速器故障人工智能处理器芯片内部 模块失效对应单人工智能加速器不 可用3.人工智能加 速器板异常掉电人工智能处理器板供电模 块失效整节点不可用E.节点服 务器硬件1.宕机异常掉电,操作系统崩溃,磁盘、 内存、CPU错误整节点不可用F.网络1.加速设备不可调人工智能加速器网卡故障,TOR/Leaf交换机故障,或其连接单人工智能加速器不可用,使用 该加速器的IP作为检测IP时,报用线缆断连网络错误2.交换设备不可用EOR/Spine交换机故
11、障或其线缆 断连一个或多个加速器报网络错误本局部提出具体的测试方法,所使用的工具可包含固定负载和非固定负载2 的测试工具。这两个工具皆有大量的验证、适配和测试案例。四、知识产权情况说明新一代人工智能产业技术创新战略联盟没有制定专门的知识产权政策,标准 制订时参照并执行AVS工作组专利政策。AVS工作组制定了完善的工作组规约和知 识产权政策,包括:数字音视频编解码技术标准工作组章程、数字音视频 编解码技术标准工作组章程细那么、数字音视频编解码技术标准工作组会员协 议、数字音视频编解码技术标准工作组知识产权政策。具体而言,在标准的制定过程中,对于因利益关系“塞进”标准的专利技术, 坚决清除;对于工
12、作组成员的有价值的技术提案,在其作出至少同意在中国范围 以专利池方式授权标准用户使用的前提下,大胆采用;对于必要但又有国外专利 覆盖的技术点,尽最大可能通过自主技术进行替代。经分析,本局部不涉及专利,亦不存在明显的知识产权侵权风险。五、采用国际标准和国外先进标准情况本局部未采用国际标准。人工智能计算中心衍生于数据中心,后者被ISO/IEC JTC 1/SC 39及我国等同采用的相关国家标准定义。本局部提出的测试方法,针 对人工智能计算过程和相关能力,并不与以上标准重复或冲突。六、与现行相关法律、法规、规章及相关标准的协调性符合我国有关的现行法律、法规。本文件与人工智能性能测试标准的关系,总结见
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能算力中心技术规范 第2部分:测试方法 编制说明 人工智能 中心 技术规范 部分 测试 方法 编制 说明
限制150内