人工智能算力中心技术规范 第2部分:测试方法.docx
《人工智能算力中心技术规范 第2部分:测试方法.docx》由会员分享,可在线阅读,更多相关《人工智能算力中心技术规范 第2部分:测试方法.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS 35.040CCS L 71团 体标 准T/AI XXX. XXXXXX人工智能算力中心技术规范第2发布:测试方法Spec i f i cat i on for artificial i rite I I i gence comput i ng centrePart 2: Test requi rements(征求意见稿)XXXX - XX - XX 实施XXXX - XX - XX 实施(在提交反应意见时,请将您知道的相关专利连同支持性文件一并附上)XXXX - XX - XX 发布中关村视听产业技术创新联盟 发布T/AI XXX. XXXXXX6性能扩展测试6.1 训练测试测试过程
2、训练测试过程,应符合以下要求:a)训练被测系统包含人工智能计算中心硬件及配套软件(不含模型或算法负载);b)训练测试过程,包含以下步骤:1)测试准备: 被测者于测试前,取得测试集;如需要,被测者可对数据进行必要的格式转化或封装; 训练数据安置在计算中心内的存储机构上(特定存储服务器或节点的硬盘):2)测试运行: 被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、 结果模型格式转化与持久化),得到结果模型;训练期间,记录过程数据、按表1的规定测量、计算指标值、记录日志、生成结果数 据;表1训练性能指标测量方法指标测量方法总体训练用时a)在(从中心内特定存储服务器或节点的
3、硬盘)读入训练数据命令前,紧邻该命令计时,获得时间点tn;b)在输出模型持久化完成后,串行并紧邻调用计时命令,获得时间点E;c) 计算总体训练时间。训练用时a)训练开始前,串行并紧邻调用计时命令,获得时间tm, t询可等于褊;b)训练退出时(模型持久化之前),串行并紧邻调用计时命令,获得时间点tw;C ) 计尊训练用时:Ttr - Ctr: Itri0人工智能 计算中心 训练实际 吞吐率a)每个训练节点n上,统计每个训期(epoch) i (i为正整数)所使用的时间T肝:b)基于a)的结果,统计每训期平均”c)计尊节点n的训练实际吞吐率;d)(按第1局部中公式7)计算人工智能计算中心的训练实际
4、乔吐率。人工智能 计算中心 训练有效 计算能力a)对于给定的训练场景集合S,对每个场景负载s W S,使用某特定参照计算系统,在s上测得吞吐 率丁年,作为基线:b)设SUT在s上测得的训练实际吞吐率为7%,那么训练综合相对吞吐率,由崇在s上的加权几何平均,(按第1局部中公式9)计算人工智能计算中心训练有效计算能力。每秒浮点 /整型运 算次数(1)在每个训练节点i上:1)在第j (j是非负整数)次模型构型变异(变异过程见第1局部6. 2.2)后(第0次变异 后指使用种子模型),训练前,计算学习所需前向、后向传播过程计算量G, G;2) 在第j次模型构型变异后,训练时,测量该此训练用时Tnnj;3
5、)在第j次模型构型变异后,训练中,统计前向、后向传播过程数量N,Nb:4) 计算节点i每秒运算次数:e)按第1局部中公式11或公式12,计算人工智能计算中心训练的每秒浮点或整型运算次数。T/AI XXX. XXXXXX规那么检查;1)结果报送: 被测者发送测试结果给测试者;测试者检查结果合规性; 测试结束。6.1.1 测试规那么训练测试,符合以下规定:a)训练测试,不应实施以下操作:1)在测试过程中进行硬件或软件改配;2)使用本文件规定之外的训练集进行模型训练,也不应实施模型预训练及迁移学习策略;3)训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载 (要求被测者实现
6、的方法除外);4)在数据准备过程中: 替换数据集;减少数据集中的样本(除缺乏1 batch的剩余数据之外); 除b) 2)规定的操作生成的样本外,增加数据集中的样本;分析数据规律或预先提取、编码、保存样本特征; 对数据做排序、索引或拆分操作;5)在训练过程中改变指定的优化方法;6)使用AUTOML完成训练任务时,在整个训练过程中变更模型变异算法;7)增加改变超参的层(如改变卷积核的维度);b)训练测试,符合以下规定:1)应编制并运行的训练测试代码: 实现必要接口;使用测试工具提供的过程指标计算方法; 使用测试工具提供的日志记录方法;2)数据准备时: 训练数据尺寸不同或不符合模型需要时,可实施尺
7、寸调整操作;在不改变原输入图像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不 限于:线性插值、双线性插值、区域插值等; 训练集、验证集、测试集的划分比例,默认为75%、10与及15冬,特殊的划分应符合表 1的规定;可利用分布式环境实施数据准备;3)训练过程中: 可使用可变学习率,学习率改变方法,由训练算法确定;权重及偏置应以常量或随机值初始化; 试验次数应符合场景要求(见第1局部中表1);如实施混合精度训练,应符合第5章的要求;4)实施基于AUTOMI.的训练时: 应区分模型结构生成(变异)阶段和训练(针对某一代变异调整模型参数)阶段,至 少在模型结构生成(变异)过程执行前后、训练开
8、始前后,分别记录时点;模型变异及搜索空间应是有限并确定的;T/AI XXX. XXXXXX对多个变异的模型结构记录训练过程时,取性能上的最好结果(见第1局部中6. 3. 5);5)实施分布式训练时: 并行训练,方式可包含但不限于模型并行、数据并行及混合并行;可使用本地硬盘、分布式文件系统(如NFS)或存储服务器存放训练数据。6. 2测试结果训练结果,符合如下要求:a)训练结果模型与参考模型一致,符合以下要求:1)对基于固定负载的测试,训练结果模型精度应符合第1局部中表1的规定;2)对基于固定负载的测试,训练模型脚本与参考脚本应定义一致的网络结构,训练模型脚本 不应导致以下情况的发生: 多余或缺
9、失的层;多余或缺失的神经元: 改变的激励函数(对应层之间);多余或缺失的跨层连接; 改变的池化方法(对应层之间):b)训练过程应符合6. 1.2b)的规定;注:在实测时,可根据测试代码判定。O结果应包含以下信息:1) 5. 4规定的测试信息;2)场景要求的准确率指标值(见第1局部中表1);3)训练程序源代码;4)训练日志: 对非AUTOML训练,日志按每个epoch输出。每个epoch对应的格式为:M yyyy:MM:dd HH:mm:ss - trial number - epoch number - accuracy w . 其中,第一项为日 志输出时的时间戳,第二项为训练次数(正整数),
10、第三项为epoch数(正整数), 第四项为当前测试集上的准确率(依照场景要求的指标定义):注:框架软件不支持时,对应工程可填“一”;对AUTOML训练,日志按每次模型变异及对应训练过程输出。每次模型变异后,输出 变异信息,格式为:”yyyy:MU:dd HH:nun:ss- yyyy:MM:dd HH:mm:ss generation_number-nuniber_of_nodes M (, 其中,第一项为变异开始时间,第二 项为变异完成时间,第三项为变异代次计数,第四项为当前变异结果模型的节点数(对 初始化模型的训练,变异起止时间为空,代次记为0);对变异后模型的训练,日志 按每个epoch
11、输出,格式符合4)中“对非AUTOML训练”规定;5)结果模型文件(含权重和结构信息;AUTOML训练,为最终结果模型文件);6)规那么检查结果(对AUTOML训练,6. 1.2中关于AUTOML的规那么有效);7)训练线性度,包含使用负载,(两次测试使用的)节点数量,吞吐率和线性度百分比。6. 3推理测试6. 3.1推理作业推理作业,应符合以下要求:a)作业从测试系统发往被测系统,结果从被测系统发送回测试系统;T/AI XXX. XXXXXXb)每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;c)推理作业遵循特定的到达模式,符合本局部中表2的要求;表2作业到达模式到达模式编号定
12、义作业缓存, (允许/不 允许)运行趟数 (趟)超时控 制门限 (s)连续(单 一)到达0第i (i为正整数)个作业在第(iT)个 作业完成后紧邻到达。作业(i-1)未完成 或超时控制门限未到达时,作业i不发送不允许12固定周期到 达1作业以固定周期T到达,一次到达n个作 业(n为正整数)允许14泊松分布到 达2作业以泊松分布到达:eAAk P(X = k)=k!其中:k是某单位时间内到达的作、也数(k为正整数),A 为正整数)是单位时间 (如每秒)作业平均到达次数允许14高峰到达3泊松分布到达模式中,有j个短周期,每 周期内有突发性大量作业,周期持续一定 时长TG (如5s-10s),并维持
13、一定并发 度水平。(。为正整数,如。2纥个作 业/s),短周期内的作业到达,符合固定 周期到达模式(T与n可在测试时结合福 要选取)。允许160离线4一次性全部到达允许1不涉及混合作业到 达5在连续到达、固定周期到达、泊松分布到 达、高峰到达、离线到达模式中,加入与 当前测试场景不同的作业允许1取对应 超时控 制门限 ITi实际测试中,可选择一种或多种到达模式。b作业缓存是指在处理机构无法及时处理到达作业时,将到达作业缓存(如使用队列),以备后续 处理的机制。不应缓存和再利用前期推理的输出结果。d)作业丧失指被测系统无法在超时控制门限内返回结果的情况;e)超时控制门限指测试者从发送作业到收到对
14、应结果之间允许的最大时间间隔。6. 3.2测试过程推理测试过程,应符合以下规定:a)推理被测系统为人工智能计算中心硬件及配套软件(不包含模型或算法负载); b)推理测试过程,包含以下步骤:1)测试准备: 被测者向测试者发送测试请求,取得测试集;T/AI XXX. XXXXXX 测试者指定测试数据集,告知获取方法;被测系统下载数据集,检验合规性;2)测试运行: 被测者按测试内容,载入模型(可预先准备好)和数据集: 被测者运行测试;记录过程数据,按表3的规定测量、计算指标值;表3推理性能指标测量方法指标测量方法推理总延时T,a)测试者在发送第1个样本的第1字节前,紧邻计时,得到时间点1”;b)测试
15、者在接收到所有样本的最后1字节后,紧邻或在最后一个处理超时时间点计 时,得到时间点5:C)计算得到推理总延时Tl = 112 - tl.o端到端推理 延时T”a)测试者在发送某样本第1字节前,紧邻计时,得到时间点b)测试者在接收完该样本返回结果的最后1字节后,紧邻计时,得到时间点2;c)计算端到端推理延时:Tn = tm-tnio分派处理延 时To 结果合规性检查;3)结果报送: 被测者发送测试结果数据给测试者; 测试者检验结果合规性; 测试结束。6. 3.3测试规那么推理测试,符合以下规定:a)符合以下合规性要求:1)推理测试源码: 应实现必要接口(数据准备、输入、输出): 应使用测试系统提
16、供的指标计算方法; 应使用测试系统提供的日志记录方法;a)被测者收到样本最后1字节后,紧邻计时,得到时间点5时; b)被测者对某样本的处理结束后,紧邻计时,得到时间点匕皿;C)计算分派处理延时Toir = tm - ton-10人工智能计 算中心推理 实际吞吐率a)在整个推理测试过程中(TI内),累计所有实际发送的样本,及实际返回结果, 计算样本数量n:b)计算其与TI的比值。人工智能计 算中心推理 有效计算能 力a)对每个场景负载sS,使用某特定参照计算系统,在s上测得吞吐率,作为基线; b)对每个场景负载SGS,使用SUT,在s上测得推理实际吞吐率;c)使用第1局部中公式9计算。T/AI
17、XXX. XXXXXX不应对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载(要求被测 者实现的函数或接口除外)。2)推理过程: 模型编译、部署时,不应使用其他模型替换测试模型;测试前,除数据集封装格式转化外,不应浏览或记录数据、修改数据(非预处理)、 拷贝数据,以及分析、提取、缓存数据特征; 测试过程中,不应实施以下操作:以推理测试进程之外的任何进程,修改、记录口志; 以推理测试进程之外的任何进程,存取测试输入、输出数据;缓存、复用输入、输出 及过程(预处理结果、后处理输入)数据;修改内存中模型参数;保存、缓存后处理 过程输入数据;记录、分析或使用作业到达模式来预测某时段内的作业量
18、;根据过程 中准确率、丧失率等指标值,故意忽略待处理数据;b)推理时的模型压缩,不应实施如下操作:1)删除非零权重;2)使用剪枝或其他改变模型结构的方法;3)实施模型蒸播。c)推理时的模型量化,符合以下要求:1)不同场景下量化的模型对象应与第1局部中表1中A.l, A.2, B.1规定的模型一致;2)量化结果不应出现6. 1.3a) 2)列出的情况;d)推理精度应符合第1局部中表1的要求;e)应声明推理所用批大小的信息,符合第5章的规定。 . 3.4测试结果推理结果,应包含如卜信息:a) 5. 4规定的测试信息;b)推理作业到达模式序号(见第1局部中表1);O推理使用的实际精度;d)场景要求的
19、指标值;e)推理测试源码;f)推理日志。日志周期性输出,每条日志的格式为:“yyyy:MM:dd HH:mm:ss - accuracy- 已处理作业数-已处理样本数-样本丧失数。其中: 1)第一项为本条日志输出时的时间戳;2)第二项为当前累计的准确率(具体指标的选取,符合第1局部中表1的要求):3)第三项为当前已返回结果的作业数;4)第四项为当前已返回结果的样本数;5)第五项为当前未能在超时范围内处理的样本数,即丧失样本数;g)合规性检查结果(见6.2.3)。7可靠性扩展测试7.1测试过程可靠性测试过程使用故障注入方法,使训练过程中断,各被测系统实施故障检测、恢复手段,在特 定时间段内,使训
20、练运行。可靠性测试过程应符合以下要求:T/AI XXX. XXXXXXa)可靠性测试的被测系统为人工智能计算中心及配套软件组件(不包含模型与算法负载);b)可靠性测试过程,包含以下步骤:1)测试准备: 测试者按第1局部中表4指定故障工程(每模块不少于1项),确定故障注入次序, 在测试前通知被测者;被测者按本局部表4,准备故障注入脚本或实施方案(含脚根源码、人员操作方法和 执行/操作时点),并报测试者检查确认; 被测者向测试者确认对每一个故障工程排除的方式(自动、手动或混合);表4人工智能计算中心故障注入方法模块故障模式注入方法人工智能 加速器片上内存多比特ECC编制脚本,修改ECC错误标志寄存
21、器人工智能加速器故障在特定加速器0S上执行脚本(如echo命令),挂死0S人工智能加速器/板异常抻电整台服务器下电或宿主机0S重启动节点服务 器硬件岩机整台服务罂下电或宿主机0S重启动网络加速设备不可调用编制脚本,在宿主机0S上关闭加速器网口交换设备不可用重启交换机,或关闭端口注:如需使用本表之外的故障注入方法,应提前向测试者说明,并获得确认。2)测试运行: 可靠性测试应单独实施,与性能测试别离;被测者运行固定负载训练或推理过程,并设定故障注入脚本的运行行为(如在故隙注 入脚本中使用定时器): 记录过程数据,按第1局部中公式13,14和15计算指标值;结果合规性检查;3)结果报送: 被测者发送
22、测试结果数据测试者;测试者检验结果合规性; 测试结束。 . 2测试规那么可靠性测试,符合以下规定:a)可靠性测试,不应实施以下操作:1)在空载(不执行训练或推理任务时)状态下实施测试;2)在测试过程中改配软件或硬件,或使用与训练、推理测试不同的软、硬件配置;3)测试中,对已实现的指标测量行数或测试流程控制函数实施改动、继承或重载;4)在测试中,替换故障注入脚本或方法;5)由训练、推理测试数据注入故障;6)在排除某故障前,注入另一个故障;10T/AI XXX. XXXXXXb)可靠性测试,应实施以下操作:1)应编制并运行必要的测试代码: 实现故障注入命令调用接口;使用测试工具提供的指标计算方法及
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能算力中心技术规范 第2部分:测试方法 人工智能 中心 技术规范 部分 测试 方法
限制150内