测试基准与标准 | BenchCouncil
其中涉及AI的有如下:
AI
(1) AIBench Training
AIBench 培训采用平衡的 AI 基准测试方法,考虑全面性、代表性、可负担性和可移植性。该方法广泛调查人工智能任务和模型,并在最大程度上涵盖了算法级、系统级和微架构级因素空间。从算法层面考虑常用的构建块、模型层、损失函数、优化器、FLOP、不同尺度参数大小;从系统层面考虑收敛速率和热函数。从微架构层面,考虑了不同的计算和内存访问模式。AIBench 培训涵盖 19 项具有代表性的 AI 任务,采用最先进的模型来保证多样性和代表性。此外,还提供了两个AIBench培训子集:RPR和WC子集,以实现可负担性。
项目主页: AIBench Training | Balanced Industry-Standard AI Training Benchmarking, BenchCouncil.
(2) AIBench Inference
通过深入分析搜索引擎、社交网络、电子商务三大互联网服务的核心场景,AIBench 推理提供了 19 个工作负载,每个工作负载代表一个具有代表性的 AI 任务。
项目主页: AIBench Inference | BenchCouncil.
(3) ScenarioBench
ScenarioBench 不是使用实际应用程序或从头开始实现成熟的应用程序,而是提出基本任务的排列作为场景基准。目标是确定实际方案的关键路径和主要模块,因为它们消耗最多的系统资源,并且是系统设计和优化的核心焦点。每个场景基准都提炼了行业规模应用程序的关键属性,并减少了后者在巨大的代码大小、极端的部署规模和复杂的执行路径方面的复杂性的副作用。
项目主页: ScenarioBench | BenchCouncil
(4) AI Matrix
AI Matrix是对阿里巴巴内部使用的深度学习应用程序进行全面调查的结果,旨在涵盖占阿里巴巴数据中心GPU使用率90%以上的典型DL应用程序。收集的基准主要分为三类:计算机视觉、推荐和语言处理,它们构成了阿里巴巴中大多数的深度学习应用程序。
项目主页: home, GitHub - alibaba/ai-matrix: To make it easy to benchmark AI accelerators
(5) Dcbench
Dcbench旨在提供一种标准化的方法来评估以数据为中心的AI开发的工具和系统。
项目主页: GitHub - data-centric-ai/dcbench: A benchmark of data-centric tasks from across the machine learning lifecycle.
(6) DAWNBench
DAWNBench 是一项基准测试和竞赛,专注于端到端训练时间,以达到最先进的精度水平,以及具有该精度的推理时间。
项目主页: Stanford DAWN Deep Learning Benchmark (DAWNBench) ·
(7) Fathom
Fathom 是用于研究的八个原型深度学习工作负载的集合。这些模型中的每一个都来自深度学习社区的开创性工作,从Krizhevsky等人熟悉的深度卷积神经网络,到Facebook人工智能研究小组的更奇特的记忆网络。
项目主页: GitHub - rdadolf/fathom: Reference workloads for modern deep learning methods.
(8) MLPerf Training Benchmark
MLPerf 训练基准测试衡量系统将模型训练到目标质量指标的速度。它包含 8 个工作负载,每个工作负载由数据集和质量目标定义。
项目主页: v2.1 Results | MLCommons
(9) MLPerf Inference Benchmark
MLPerf 推理基准测试提供了评估 ML 推理系统的基准测试方法,并规定了一组规则和最佳实践,以确保具有截然不同架构的系统之间的可比性。
项目主页: v2.1 Results | MLCommons
(10) TPCx-AI
TPCx-AI是由TPC开发的端到端AI基准标准。该基准测试衡量端到端机器学习或数据科学平台的性能。基准开发侧重于模拟与当前生产数据中心和云环境相关的代表性行业 AI 解决方案的行为。
项目主页: TPCx-AI Homepage
而其中MLPerf Training Benchmark的相关的如下
v3.1 Results | MLCommons 信息如下:
后面有详细的detail信息
https://github.com/mlcommons/inference_results_v3.1/blob/main/closed/Dell/code/resnet50/tensorrt/README.md
可以根据github上的信息进行相应的测试
Resnet50架构与MLPerf竞赛 - 知乎 里面详细的如何操作的步骤
测试操作步骤 这里有netapp的测试信息 包括物理架构信息