文档介绍:该【智算中心算力性能评估测试方法 】是由【书籍1243595614】上传分享,文档一共【25】页,该文档可以免费在线阅读,需要了解更多关于【智算中心算力性能评估测试方法 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。 : .
ICS
CCS L70
团 体 标 准
T/SHSIC 0101—202 3
智算中心算力性能评估测试方法
Computing Power Performance Evaluation and Test Method of Intelligent
Computing Center
学兔兔 标准下载
2023-06-14 发布 2023-06-30 实施
上海市通信学会 发布 : .
T/SHSIC 0101—2023
智算中心算力性能评估测试方法
1 范围
本文件规定了智算中心在算力方面的基本性能指标测量、应用性能指标测量、有效性指标测量、资
源管理能力评估、生态支持评估等多维度性能指标及测试、评估方法。
本文件适用于智算中心的智能算力,包括人工智能加速卡、服务器到集群系统的测试、评估、选型、
部署和运营。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
3 术语和定义
下列术语和定义适用于本文件。
智算中心 intelligent computing center
智能算力生产中心,以融合架构计算系统为平台,以数据为资源,以强大算力驱动AI模型对数据进
行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式,向组织及个人进行供应。
标准数据集 standard data set
本文件指可以以公开的方式获得的,用于训练、验证和测试特定机器学习模型,并符合规范要求的
数据集。
软件工具开发包 SDK
由第三方服务商提供的实现软件产品某项功能的工具包
资源管理 resource management
学兔兔 标准下载
对各种算力资源进行合理有效的复用、聚合、监控、调度和使用。
资源切分 resource segmentation
通过虚拟化等手段将算力资源切分成不同的粒度,并灵活地按需分配。
1 : .
T/SHSIC 0101—2023
资源聚合 resource aggregation
对不同来源的算力资源进行有机融合,并创造出新的算力资源的过程。
资源监控 resource monitoring
对算力资源被调度和使用情况的监控。
全栈服务 full stack service
提供端到端的完整的从IaaS基础架构到PaaS平台再到通用型SaaS 服务的算力解决方案。
第三方兼容 third-party compatibility
对第三方设备、开发框架等的兼容性。
模型迁移 model porting
将现有模型移植到另一种加速卡平台或转换为其他框架下可运行模型。
4 测试规则
测试环境要求
a) 测试用例中涉及搭载人工智能加速卡的服务器、测试环境的配置上宜基本一致,需明确和记录
CPU主频、内存、存储、交换机型号,机房温湿度等;
b) 测试使用到的测试工具和监控工具宜统一,测试过程、结果的数据采集方式一致;
c) 测试用例算法模型和数据集由测试者根据目标选择,封闭模式使用业界公开的算法模型和数
据集(参考附录A ),开放模式测试者基于自身行业领域,提供的自定义算法模型和数据集;
d) 用于测试的数据集中80%用于训练测试用例, 20%用于推理测试用例,其中用于训练用例的数据
集按照7 0%、15%、1 5%比例随机划分为模型训练的训练集、验证集和测试集。
训练测试规则
训练测试过程,应符合以下要求:
a) 训练被测系统包括但不限于算法模型、数据集、智算中心硬件及配套软件;
学兔兔 标准下载b) 训练测试过程,包含以下步骤:
1) 测试准备:
• 被测者于测试前,应准备好测试集;
• 如需要,被测者可对数据进行必要的格式转化或封装;
• 训练数据安置在计算中心内的存储机构上(特定存储服务器或节点的硬盘);
2) 测试运行:
2 : .
T/SHSIC 0101—2023
• 被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、
结果模型格式转化与持久化),得到结果模型;
• 训练期间,记录过程数据、按测试项(第5 节、第 6 节、第 7 节)规定测量、计算指
标值、记录日志、生成结果数据;
• 规则检查;
3) 结果报送:
• 被测者发送测试结果给测试者;
• 测试者检查结果合规性;
• 测试结束。
训练测试,符合以下规定:
a) 训练测试,不应实施以下操作:
1) 在测试过程中进行硬件或软件改配;
2) 使用本文件规定之外的训练集进行模型训练,也不应实施模型预训练及迁移学习策略;
3) 训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、 继承或重载
(要求被测者实现的方法除外);
4) 在数据准备过程中:
• 替换数据集;
• 减少数据集中的样本(除不足 1 batch 的残余数据之外);
• 除 b)2 )规定的操作生成的样本外,增加数据集中的样本;
• 分析数据规律或预先提取、编码、保存样ᴨꤕ넂휀
• 对数据做排序、索引或拆分操作;
5) 在训练过程中改变指定的优化方法;
6) 增加改变超参的层(如改变卷积核的维度);
b) 训练测试,符合以下规定:
1) 应编制并运行的训练测试代码:
• 实现必要接口;
• 使用测试工具提供的过程指标计算方法;
• 使用测试工具提供的日志记录方法;
2) 数据准备时:
• 训练数据尺寸不同或不符合模型需要时,可实施尺寸调整操作;
• 在不改变原输入图像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不
限于:线性插值、双线性插值、区域插值等;
• 训练集、验证集、测试集的划分比例,默认为 75%、10%及 15%,特殊 的划分应符合场
景的特别规定;
• 可利用分布式环境实施数据准备;
学兔兔 标准下载3) 训练过程中:
• 可使用可变学习率、训练批量大小,学习率、训练批量大小改变方法,由训练算法确
定;
• 权重及偏置应以常量或随机值初始化;
• 试验次数应符合场景要求;
4) 实施分布式训练时:
3 : .
T/SHSIC 0101—2023
• 并行训练,方式可包含但不限于模型并行、数据并行及混合并行;
• 可使用本地硬盘、分布式文件系统(如 NFS)或存储服务器存放训练数据。
训练结果,符合如下要求:
a) 训练结果模型与参考模型一致,符合以下要求:
1) 对基于固定负载的测试,训练结果模型精度应符合场景的具体规定;
2) 对基于固定负载的测试,训练模型脚本与参考脚本应定义一致的网络结构,训练模型脚本
不应导致以下情况的发生:
• 多余或缺失的层;
• 多余或缺失的神经元;
• 改变的激励函数(对应层之间);
• 多余或缺失的跨层连接;
• 改变的池化方法(对应层之间);
b) 训练过程应符合 )的规定;
c) 结果应包含以下信息:
1) 测试环境信息,包括但不限于模型、标准数据集(或用户指定的行业数据集)、采用的开
发框架;
2) 场景要求的准确率指标值;
3) 训练日志按每个 epoch 输出。每个 epoch 对应的格式为:“[y yyy:MM:dd HH:mm:ss]–
[trial_number]–[epoch_number]–[accuracy]”。 其中,第一项为日志输出时的时间戳,
第二项为训练次数(正整数),第三项为 epoch 数(正整数),第四项为当前测试集上的
准确率(依照场景要求的指标定义);
4) 结果模型文件(含权重和结构信息);
5) 规则检查结果。
推理测试规则
推理作业,应符合以下要求:
a) 作业从测试系统发往被测系统,结果从被测系统发送回测试系统;
b) 每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;
c) 推理作业遵循特定的到达模式,符合表 1 的要求;
表 1 作业到达模式
作业缓存 b 超时控制
a 运行趟数
到达模式 编号 定义 (允许/不 门限
(趟)
学兔兔 标准下载允许) (s)
第 i (i 为正整数)个作业在第(i-1)个作业完成后
连续(单
0 紧邻到达。作业(i-1)未完成或超时控制门限未达到 不允许 1 2
一)到达
时,作业 i 不发送
4 : .
T/SHSIC 0101—2023
固定周期到 作业以固定周期 T 到达,一次到达n 个作业( n 为正
1 允许 1 4
达 整数)
作业缓存 b 超时控制
a 运行趟数
到达模式 编号 定义 (允许/不 门限
(趟)
允许) (s)
作业以泊松分布到达:
e−λλk
P(X = k) =
泊松分布到 k!
2 允许 1 4
达 其中:k是某单位时间内到达的作业数(k 为正整数),
𝜆𝜆 (𝜆𝜆为正整数)是单位时间(如每秒)作业平均到
达次数
泊松分布到达模式中,有j 个短周期,每周期内有突
发性大量作业,周期持续一定时长TG(如 5s-10s),
高峰到达 3 并维持一定并发度水平σ(σ为正整数,如σ > 210 允许 1 60
个作业/s ),短周期内的作业到达,符合固定周期到