降温高密度GPU将是供应商的新战场

By 新天域vipcathy at 2019-02-08 14:39 • 167次点击
新天域vipcathy

因此,您希望扩展您的计算能力,以培养更大的深度学习模型。您的数据中心可以处理吗?
根据Nvidia的说法,它出售的机器学习专用芯片比其他任何公司都多,但它很可能不会。这些系统通常消耗大量电力,传统数据中心无法消除它们产生的热量。
随着越来越多公司的机器学习计划从最初的实验阶段开始 - 在此期间,他们的数据科学家可能已经发现从谷歌或微软那里租用的云GPU足够了 - 他们开始考虑更大规模的模型并投资他们自己的硬件他们的团队可以分享训练这些模型。
Nvidia的DGX-1和DGX-2超级计算机是用于这些目的的首选硬件选择之一,该公司专门针对机器学习而设计。当客户考虑为他们的数据科学家购买其中几个系统时,他们经常发现他们的设施不能支持这种功率密度,并且希望将设施部分外包。
负责Nvidia DGX系列营销的Tony Paikeday在采访中告诉数据中心有关该芯片制造商新的主机托管推荐计划的消息,他说:“这项计划不仅可以解决这一挑战。” “绝对有很多组织开始考虑共享基础设施”,用于机器学习。他解释说,部署和管理这种基础设施属于他们的IT领导,许多IT领导者“正在努力主动超越他们公司的AI议程。”
热AI硬件的冷却设计
DGX并不是公司用于培训深度学习模型的唯一系统。有很多选择,包括所有主要硬件供应商的服务器,由Nvidia或AMD的GPU提供支持。但是因为它们都在一个盒子中包含大量的GPU - 例如,HPE Apollo服务器有8个GPU,DGX-1也是如此,而DGX-2有16个GPU - 高功率密度在这类硬件中是一个常数。这意味着随着机器学习的兴起,对高密度数据中心的需求不断增长。
Colovore由Digital Realty部分拥有,于2014年在圣克拉拉建立了工厂,专门负责硅谷的高密度数据中心需求。今天,它支持近1,000个DGX-1和DGX-2系统,该公司首席财务官兼联合创始人Ben Coughlin告诉我们。他不会说谁拥有硬件,只说它属于不到10个“主要是技术”公司的客户。 (考虑到该设施距离Nvidia总部仅五分钟车程,芯片制造商本身很可能负责该DGX足迹的很大一部分,但我们无法证实这一点。)
单个DGX-1在三个机架单元的空间内消耗3kW,而DGX-2需要10kW并占用10个机架单元 - 无论型号如何,每个机架单元为1kW。 Coughlin说,客户通常在一个机架中放置9到11个DGX-1,或者最多放置三个DGX-2。根据他的说法,将冷冻水泵送到安装在机柜上的后门热交换器上,Colovore的被动冷却系统(门上没有风扇)可以冷却到40kW。
在“稳定状态”下,许多机柜的功耗为12kW至15kW,“但是当它们进入某种工作负载状态时,当它们进行一些处理时,它们的功率将达到25至30千瓦,”他说。 “在我们的基础设施当时,你可以看到我们的UPS在400到500千瓦的波动。这很疯狂。“
高密度风冷
Flexential是Nvidia的推荐计划的一部分,但没有高密度主机托管作为其唯一关注点,使用传统的高架地板空气冷却来实现高密度,在冷通道的末端添加门以将它们与其他部分隔离开该公司的首席创新官Jason Carolan在一封电子邮件中解释说,该建筑和“为服务器入口创造一个冷空气浴缸”。
据他介绍,这种方法适用于35kW的DGX系统机架。 “我们拥有下一代冷却技术,这将使我们超越空气,但到目前为止,我们还没有足够大的客户应用程序,需要大规模的,”他说。 Flexential的41个数据中心中有五个可以为今天的高密度机柜降温。


密度, gpu, 供应商


目前尚无回复
登录 后发表评论