设计工具
存储

美光展示了搭载戴尔Power Edge和创新AI存储软件的高性能Gen5 NVMe

瑞安·梅雷迪思| 2024年4月

美光与戴尔和英伟达的团队合作,在AI训练模型卸载到NVMe方面进行了行业领先的研究, 在NVIDIA GTC全球人工智能大会上展示的. 美光的数据中心工作量工程团队, 在戴尔技术营销实验室和NVIDIA存储软件开发团队的支持下, 测试了大加速器内存(BaM)与gpu发起的直接存储(GIDS) 英伟达H100 张量的核心 GPU 在戴尔PowerEdge R7625服务器上安装了美光即将推出的高性能Gen5 E3.S NVMe 固态硬盘硬盘.

BaM和GIDS是基于以下论文的研究项目, 与GitHub上可用的开源代码:


NVMe为更多内存?
 

人工智能模型的规模正在迅速增长, 而训练大型模型的默认方法是在GPU上尽可能多地使用HBM, 然后拥有尽可能多的系统DRAM, 如果一个模型不适合HBM + DRAM, 在多个NVIDIA GPU系统上并行.

在多个服务器上并行训练的成本很高, 特别是在GPU利用率和效率方面, 由于数据需要流经网络和系统链路, 哪些很容易成为瓶颈.

如果我们可以通过使用NVMe作为第三层“慢”内存来避免在多个GPU系统上分割AI训练任务,那该怎么办? 这正是带有GIDS的BaM所做的. 它取代并简化了NVMe驱动程序,将数据和控制路径传递给GPU. 那么它是如何表现的呢?
 

基准性能结果
 

所有显示的测试结果都是在上面链接的开源BaM实现中包含的BaM图神经网络(GNN)基准测试中运行的.

第一个测试显示了在启用了GIDS的情况下使用BaM和不使用BaM会发生什么. Linux mmap的一个标准实现用于通过CPU对存储器的错误内存访问, 表示没有特定存储软件的测试用例.

 


mmap测试耗时19分钟 Nvidia a100 80gb 张量的核心 GPU 和一个美光9400 Gen4 NVMe固态硬盘. 部署BaM和GIDS后,只需42秒,性能提高了26倍. 性能改进体现在基准测试的特征聚合组件中, 这取决于存储性能.
 

戴尔实验室的Gen5性能
 

在GTC上,美光希望证明我们即将推出的第5代NVMe固态硬盘能够很好地用于AI模型卸载. 我们与戴尔的技术营销实验室合作,获得了带有英伟达H100 80GB PCIe GPU (Gen5x16)的戴尔PowerEdge R7625服务器的访问权限,并在他们的出色支持下完成了测试.
 


 

GNN工作负载性能 微米 Gen5 H100 微米 Gen4 A100 Gen5与Gen4性能
特征聚合(NVMe) 18s 25s 2x
培训(GPU) 0.73s 3.6s 5x
抽样 3s 4.6s 1.5x
端到端时间
(特征聚合+训练+采样的总和)
22.4s 43.2s 2x
GIDS + BaM访问/s 2.87M 1.5M 2x

 

特性聚合取决于固态硬盘的性能. 它的执行时间是总运行时间的80%,从Gen4到Gen5,我们看到了2倍的改进. 采样和训练是GPU相关的, 我们看到从NVIDIA A100到H100张量核心GPU的训练性能提高了5倍. 此用例需要高性能Gen5 ssd, 而美光Gen5固态硬盘的预生产版本的性能几乎是Gen4的两倍.


BaM与GIDS对我们的固态硬盘做了什么?


因为带有GIDS的BaM取代了NVMe驱动程序, 标准的Linux工具查看IO指标(IOPs), 延迟, 等.)不起作用. 我们对带有GIDS GNN训练工作量的BaM进行了跟踪,并发现了一些惊人的结果.

  • 使用GIDS的BaM几乎可以在驱动器的最大IO性能下执行.
  • GNN训练的IO配置文件是99%的小块读取.
  • 固态硬盘队列深度是我们对CPU上“正常”数据中心工作负载期望的10-100倍.

 

这是一种新颖的工作负载,将推动NVMe性能的高端. 一个GPU可以管理多个并行流, 带有GIDS软件的BaM将管理和优化延迟, 创建甚至可能无法在CPU上运行的工作负载配置文件.
 

结论
 

随着人工智能产业的发展, 围绕GPU系统利用率和效率的智能解决方案非常重要. 带有GIDS的BaM等软件将通过提供更好的方法来解决更大的人工智能问题集,从而提高人工智能系统资源的效率. 将模型存储扩展到NVMe会对训练时间产生影响, 但这种权衡将允许在更少的GPU系统上执行对时间不太敏感的大型训练任务, 最终提高部署人工智能硬件的效率和TCO.

此数据用于以下NVIDIA GTC会话:
加速和保护GPU对大型数据集的访问[S62559]

非常感谢以下美光、戴尔和英伟达的工作人员,他们使这项研究成为可能:

  • 美光:约翰·马齐,杰夫·阿姆斯特朗
  • 戴尔:谢默斯·琼斯,杰里米·约翰逊,莫汉·洛克卡姆
  • NVIDIA: Vikram Sharma Mailthody, CJ Newburn, Brian Park, Zaid Qureshi, Wen-Mei Hwu


硬件和软件详细信息:

  • 工作量:GIDS与igbh -全面培训.
  • 由美光数据中心工作负载工程团队测量的NVMe性能结果, NVIDIA存储软件团队在类似系统上测量的基准(mmap)性能结果.
  • 测试系统:
    • 代4:2倍AMD EPYC 7713, 64核,1TB DDR4,美光9400 PRO 8TB, NVIDIA A100-80GB GPU, Ubuntu 20.04 LTS (5.4.0-144), NVIDIA驱动535.129.[au:.3、DGL 2.0.0
    • Gen5: Dell R7625, 2 AMD EPYC 9274F, 24核, 1 tb DDR5, 微米 Gen5 固态硬盘, Nvidia h100-80gb gpu, Ubuntu 20.04 LTS (5.4.0-144), NVIDIA驱动535.129.[au:.3、DGL 2.0.0
  • 基于论文“BaM系统架构中gpu发起的按需高吞吐量存储访问”的工作 http://arxiv.org/abs/2203.04910, http://github.com/ZaidQureshi/bam

存储解决方案架构总监

瑞安梅雷迪思

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术,以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.