《人工智能算力中心技术规范 第1部分:技术要求编制说明.docx》由会员分享,可在线阅读,更多相关《人工智能算力中心技术规范 第1部分:技术要求编制说明.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、团体标准人工智能算力中心技术规范第1局部:技术要求(征求意见稿)编制说明一、工作简况新一代人工智能产业技术创新战略联盟(简称AITISA联盟)是在科技部的指 导下于2017年成立,由近200家来自行业内的顶尖企业、高校和科研院所、资本 机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准 制定团队的基础上,联盟从成立开始,便以人工智能产业开展需求为引领,围绕 产业开展中存在的共性问题,建立了AI标准工作组,着手人工智能标准体系的搭 建和技术标准的制定。AI标准工作组内部成立了假设干专题组,分别承当相关细分 领域的标准制定工作,智算中心与网络专题组是其中之一,致力于人工智能
2、计算 中心和网络相关技术标准的制修订。人工智能算力中心技术规范第1局部:技术要求规定了人工智能计算中 心的组成、性能、可靠性技术要求。本局部适用于人工智能计算中心的设计和建 设,也为人工智能计算中心能力测试提供参考和依据。工作组自2021年9月第17次会议开始,讨论启动智算中心技术标准制定工作, 首先形成了人工智能算力中心技术规范第1局部:技术要求技术提案。标准 于2022年3月正式立项(AITISA【2022】8号文),标准计划号:2022032504 75%2模型resnet50_vl.5数据集“imagenet2012门限bTopi-准确率 74%B.自 然语 言处 理1模型bert-l
3、arge数据集“训练:cn-wiki / en-wiki 推理:SQuAD v 1.1门限,训练:maskm_accuracy 0.7推理:Fl 91.02模型盘古-alpha试验次数1数据集Chinese text corpus3门限零次学习 Fl (CMRC2018): 16.647零次学习 Fl (DRCD) : 9.99零次学习 Fl (WebQA): 16.32注:表中的“尸符号表示“或” 表2人工智能计算中心故障模块故障模式故障原因故障影响1.片上内存多 比特ECC片上内存颗粒存储空间失 效对应单加速器不可用D.人工智 能加速器2.人工智能加人工智能处理器芯片内部对应单人工智能加速
4、器不速器故障模块失效可用3.人工智能加 速器板异常掉电人工智能处理器板供电模 块失效整节点不可用E.节点服 务器硬件1.宕机异常抻电,操作系统崩溃,磁盘、 内存、CPU错误整节点不可用V.网络1.加速设备不可调 用人工智能加速器网卡故障,TOR/Leaf交换机故障,或其连接 线缆断连单人工智能加速器不可用,使用 该加速器的IP作为检测IP时,报 网络错误2.交换设备不可用EOR/Spine交换机故障或其线缆 断连一个或多个加速器报网络错误本局部不提出具体的技术方案,不存在方案是否成熟及相关验证问题。本部 分提出的技术要求的验证,可能使用相关工具,当前工具可获得并可切实使用。四、知识产权情况说明
5、新一代人工智能产业技术创新战略联盟没有制定专门的知识产权政策,标准 制订时参照并执行AVS工作组专利政策VS工作组制定了完善的工作组规约和知 识产权政策,包括:数字音视频编解码技术标准工作组章程、数字音视频 编解码技术标准工作组章程细那么、数字音视频编解码技术标准工作组会员协 议、数字音视频编解码技术标准工作组知识产权政策。具体而言,在标准的制定过程中,对于因利益关系“塞进”标准的专利技术, 坚决清除;对于工作组成员的有价值的技术提案,在其作出至少同意在中国范围 以专利池方式授权标准用户使用的前提下,大胆采用;对于必要但又有国外专利 覆盖的技术点,尽最大可能通过自主技术进行替代。经分析,本局部
6、不涉及专利,亦不存在明显的知识产权侵权风险。五、采用国际标准和国外先进标准情况本局部未采用国际标准。人工智能计算中心衍生于数据中心,后者被ISO/IEC JTC 1/SC 39及我国等同采用的相关国家标准定义。本局部提出的技术要求,针 对人工智能计算过程和相关能力,并不与以上标准重复或冲突。六、与现行相关法律、法规、规章及相关标准的协调性符合我国有关的现行法律、法规。本文件与人工智能性能测试标准的关系,总结见表3:表3本文件与AI性能测试标准的关系已有标准主旨和内容关系分析MLPerf国际AI系统通用性能测 试基准,涉及云计算基础 设施、端侧计算设施、移测试指标以端到端时间(或加速比)、系统整
7、体能耗、 吞吐量为主,测试用例那么选取非领域模型及数据。1)指标、测量方法颗粒度较大,不专门面向人工智动终端、高性能计算设施 等能计算中心,忽略了本领域有价值指标;2)该基准不涉及人工智能计算中心可靠性的要求及 测试,不适合宜接作为人工智能计算中心的综合测试 评估方法DAWNBench国际A1系统通用性能测 试基准,主要测试云侧、 集群系统性能DAWNBench所覆盅的场景较少,并已停止维护Linpack国际通用高性能计算设 施(HPC)测试基准,有 独特的适用于HPC环境 的测1试指标Linpack的测试用例是大型线性方程组收敛优化求解 算法。Linpack不采用AI任务作为测试负载,不能代
8、 表AI领域的实际应用。Linpack没有度量I/O信息, 只度量双精度浮点数运算,没有度量AI领域中大量 使用的单精度与半精度浮点数运算。HPL-AI Benchmark与Linpack相似,使用类 似测试用例不采用机器学习任务作为测试负载AHA云侧人工智能 芯片性能测试规范规定了云侧使用的人工 智能芯片的推理测试方 法、指标、工作负载两个标准:1)定位在云侧AI芯片测试,人工智能计算中心不但 含有芯片,还含有构成整机的部件、互联部件、存储 服务器、交换设备等。标准的定位与人工智能计算中 心的评定需求符合程度有限:2)不涉及高可靠。对人工智能计算中心整体的测试, 已超出了该标准的范围。本文件
9、针对人工智能计算中 心的两种形态(高性能,高可靠)整体,提出专门的 技术指标、测试方法。T/CESA 1119-2020 人工智能芯片面向 云侧的深度学习芯片 测试指标与测试方法规定了云侧芯片性能测 试指标、方法、工作负载本文件与信息系统可靠性相关标准的关系,总结见表4:表4本文件与信息系统可靠性相关标准的关系已有标准主旨和内容关系分析GB/T 5080. 1可靠性实验第1局部试验条件和统计检 验原理:GB/T 5080. 2可靠性试验第2局部:试验周期设计;GB/T 5080. 6设备可靠性试验第7局部:恒定失效率 假设的有效性检验GB/T 5080. 7设备可靠性试验恒定失效率假设下的失
10、效率与平均无故障时间的验证试验方案GB/T 5080. 4设备可靠性试验第4局部:可靠性测定 试验的点估计和区间估计方法(指数分布)GB/T 5080. 5设备可靠性试验 第5局部:成功率的验 证试验方案GB/T 5080 为可 靠性试验设计、 实施和利用统计 方法分析试验数 据提供指引GB/T 5080不是专为 人工智能计算设施研制的 可靠性检验标准,但本文 件对可靠性的测试设计与 之提出的原那么保持一致GB/T 29832. 1系统与软件可靠性第1局部:指标体系GB/T 29832. 2系统软件可靠性第2局部:度量方法GB/T 29832. 3系统与软件可靠性第3局部:测试方法GB/T 2
11、9832 提出 了系统与软件可 靠性指标、测量 方法和测试规程GB/T 29832不是专为 人工智能计算设施研制的 可靠性测试标准,但本文 件对可靠性的测试设计与 之提出的原那么和方法保持 一致GB/T 9813.3计算机通用规范 第3局部:服务器GB/T 9813.3 提 出了对中央处理 曙服务器的技术 要求、试验方法、 质量评定程序及 标志、包装、运 输和贮存等要求GB/T 9813.3 提出了 服务器的运行可靠性要 求,但仅针对含有1-4个 中央处理器的计算机,规 定了服务器在平均失效问 隔工作时间(MTBF)上的 最低要求。本文件的可靠 性指标包含MTBF,但针对 人工智能计算中心提出
12、要 求和测试方法,不与GB/T 9813. 3冲突IEC 61907 Communication network dependability engineering提出一个网络通 信可靠性的通用 框架,并为网络 通用可靠性的实 现提供指导,提 出可靠性能力的 测试方法本文件针对人工智能 计算中心,但其内部实现 涉及节点间网络通信。人 工智能计算中心所涉及的 内部通信可靠性,遵循 IEC 61907的要求,但针 对分布式AI计算的常见 场景,设计专门的指标、 测试用例和方法本文件与数据中心相关标准的关系,总结见表5:表5本文件与数据中心相关标准的关系已右.标准主旨和内容关系分析1S0/IEC 2
13、2237Information technology -Datacentrefacilities and infrastructuresPart 1: General concepts:数据 中心设计原那么,基于可用性、安全、 能源效率等因素对数据中心的分 类,术语,参数及参考模型人工智能计算中心是数据中心的一种,本文件: 1)遵循ISO/IEC 22237. 1定义的术语和基本技 术原那么,但针对AI领域给。细化,以支持人工 智能计算中心的建设和测试Part 2: BuiIding construction 提出数据中心场地建设的谷底2)遵循ISO/IEC 22237.2对容纳人工智能计算
14、中心的场地(楼宇)的规定,在必要时,将基于 人工智能计算中心的特殊性,提出适当的修改或 增强Part 3: Power distribution 提出数据中心能源供应与使用的技 术原那么和要求3)遵循ISO/IEC22237. 3对数据中心能源供应 的原那么和要求,在必耍时,将基于人工智能计算 中心的特殊性,提出适当的修改或增强Part 5: Telecommunicationscabling infrastructure 提出数据中心通信设施的技术要求4)遵循ISO/IEC 22237. 5提出的关于数据中心 通信设施的技术要求,在必要时,将基于人工智 能计算中心的特殊性,提出适当的修改和增
15、强Part 6: Security systems提出数据中心场地/场所/管理安全 方面的要求,建议解决方案5)遵循ISO/IEC 22237. 6对数据中心场地/场 所/管理安全的要求Part 7: Management and operational information 提出数据中心管理及操作规程,以6)遵循ISO/IEC 22237. 7对数据中心管理及操作的规定保证数据中心服务质量ISO/IEC 30134 Information technology -Data centres - Key performance indicatorsPart 1: Overvicw and ge
16、neral requirements面向有效性及效率,提出数据中心 关键指标及定义人工智能计算中心是数据中心的一种,本文件: 1)遵循ISO/IEC 30134. 1提出的关键指标,并针对人工智能计算中心提出相应的增强和取舍Part2:Powerusageeffectiveness (PUE)提出数据中心能源使用效果指标的 定义及测量方法2)遵循ISO/IEC 30134.2对PUE的定义,并对人工智能计算中心提出相应的测量方法Part 3: Renewable energy factor (REF)定义数据中心可重用能源因素及其 计算、表示方法3)遵循ISO/IEC 30134. 3对REF
17、的定义,并结 合国内实际情况,做出调整和取舍Part 4: IT Equipment Energy Efficiency for servers (ITEEsv) 定义数据中心中服务器的IT设备的 能效指标及其测量、计算方法4)遵循1SO/IEC30134.4对数据中心服务器IT 能效指标的定义,并针对人工智能计算中心,提 出相应的测量、计算方法Part 5: IT Equipment Utilization for servers (ITEUsv)定义数据中心中服务器的利用率指 标及计算方法5)遵循ISO/IEC 30134. 5对服务器利用率的指 标的定义,并针对人工智能计算中心,提出相应 的测量、计算方法,结合国内实际情况,调整或 取舍七、重大分歧意见的处理经过和依据无。八、标准性质的建议建议发布为推荐性标准。九、贯彻标准的要求和措施建议本局部可单独使用,并宜与第2局部测试方法搭配使用:a)单独使用时:本局部可作为当代人工智能计算中心设计、建设的基础依 据,特别是在关键组成部件选型方面,作为基线指导;b)搭配使用时:本局部那么提供人工智能计算中心性能、可靠性测试的能力 目标,使用第2局部中规定的测试方法,完成测试。十、替代或废止现行相关标准的建议无。十一、其它应予说明的事项无。团体标准人工智能算力中心技术规范 第1局部:技术要求编制工作组 2022-08-06
限制150内