专注广西服务器储存、伟德APP伟德国际betvicror手机客户端、数据库、虚拟化等产品服务商,服务范围:南宁、百色、河池、崇左、柳州、桂林、玉林、贵港、北海、防城、钦州。


SERVICE PHONE
0771-3492568
服务中心
SERVICE CENTER
SERVICE PHONE
0771-3492568
banner

咨询热线

0771-3492568
15078896959
0771-6779766
地址:广西南宁市青秀区民族大道88-1号铭湖经典A座1707号
联系人:罗先生、梁小姐
邮箱:838792164@qq.com
© 2017 Baidu - GS(2016)2089号 - Data © 长地万方

新闻资讯

当前位置:广西南宁机房 > 新闻资讯 > 如何获得的GPU存储性能

如何获得的GPU存储性能

发布时间:2020-03-18 10:47:12 点击量:56

在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保GPU系统具有最高的性能和成本效益。

支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保GPU系统具有最高的性能和成本效益。


f212dc7d23dc8db37f2309b272bdc917

然而,为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,与此同时需要注意以下两个挑战:

1)服务器利用率。GPU服务器对于训练大型AI /  ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI,IT员工需要让GPU使用率足够饱和。但不幸的是,很多部署经验表明GPU仅有30%的使用率。

2)GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地RAM容量,从而产生了一个I /  O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们庞大的数据阻碍了及时访问,从而影响了性能。

为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。NVMe支持大规模的IO并行性,性能约为同类SATA  SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。NVMe闪存解决方案可以使AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

此外,NVMe Over  Fabrics可以虚拟化整个高速网络上的Nvme资源,通过NVMeoF技术可以更好的适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。

1.有效扩展GPU存储容量

例如,某存储公司为不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此,这家公司需要最大的ROI和可扩展性。特别是对多租户的需求,这意味着为满足各种工作负载和客户端的性能要求,基础架构必须随时准备就绪。

该基础架构团队在部署其第一个GPU服务器系统的早期就了解到,本地GPU服务器的存储容量将太有限,只有4TB的本地存储,而客户的工作量则需要10到100  TB的数据。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。

最终这家公司通过使用软件定义存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法),最终可以实现更高的GPU容量利用率,消除了GPU瓶颈并提高了ROI,因此现有的GPU变得更加充分利用。(注:参考lnstaDeep)

2.大规模调整性能

AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担,STFC(The Science and Technology Facilities  Council )则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百个Researchers  中扩展资源所需的企业级存储功能。

通过在具有RDMA功能的高速网络(例如Infiniband或融合以太网(RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI  / ML用户组(例如STFC)可以虚拟化NVMe  SSD在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天。即使具有复杂的模型训练任务,GPU存储也不再是瓶颈。

3.在并行文件系统下使用NVMe池化存储

当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI /  ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率。

例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700  KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。

通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。

4.检查特定于GPU的“高速公路”

新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接的数据通道,从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对NVMe企业级卓越性能的无障碍访问。

总结

AI和ML的创新步伐迅捷,这意味着当今的部署依赖及关键技术在一年前可能是不存在的,在明年也可能被新技术取代。现在精通微调GPU存储性能的IT团队已经意识到它们之前的许多新选择,可以实现最佳的系统利用率和ROI,从而为其组织带来竞争优势。


相关标签 :

在线留言

  • 留言标题 *

  • 留言内容 *

  • 姓名 *

  • 手机号码 *




  • 上一篇:数据中心考虑采用超融合基础设施的8个理由

    下一篇:Infortrend GS一机多用造就大型染织企业高性价比存储

    相关文章:
  • 在线咨询
  • 返回顶部
  • cache
    Processed in 0.009689 Second.