NVIDIA于近日宣布与微软展开一项为期多年的合作,双方将共同打造全球最强大的AI超级计算机。微软Azure的先进超级计算基础设施,结合NVIDIA GPU、网络和全栈式AI软件为此超级计算机赋能,以帮助企业训练、部署和扩展包括大型、先进模型在内的AI。
Azure的云端AI超级计算机包括强大、可扩展ND与NC系列虚拟机,其专为AI分布式训练和推理而优化,是首个采用NVIDIA先进AI堆栈的公有云,并添加了数以万计的NVIDIA A100和H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand网络和NVIDIA AI Enterprise软件套件在平台上。
在此次合作中,NVIDIA将使用Azure的可扩展虚拟机实例来研究并进一步加快生成式AI的发展。生成式AI是正在迅速兴起的AI领域,其中像Megatron Turing NLG 530B这样的基础模型是无监督、自学习算法的基准,这些算法被用来创造新的文本、代码、数字图像、
视频或音频。
两家公司还将合作优化微软的DeepSpeed深度学习优化软件。NVIDIA的全栈式AI工作流和软件开发工具包皆专为Azure进行了优化,并将提供给Azure企业客户。
NVIDIA企业计算副总裁Manuvir Das表示:“AI技术正在加速发展,行业的采用速度也在同时加快。基础模型上的突破引发了研究浪潮、培育了新的初创企业并启动了新的企业
应用程序。我们将与微软一同为研究者和企业提供最先进的AI基础设施和软件,使他们能够充分利用AI的变革性力量。”
微软云与AI事业部执行副总裁Scott Guthrie表示:“AI正在掀起整个企业和工业计算的下一轮自动化浪潮,帮助企业机构在变幻莫测的经济环境中得以事半功倍。我们与NVIDIA合作,打造全球可扩展性最强的超级计算机平台,为微软Azure上的每家企业提供最先进的AI功能。”
通过Azure上的NVIDIA计算与Quantum-2 InfiniBand实现可扩展峰值性能
微软Azure的AI优化虚拟机实例采用了NVIDIA最先进的数据中心GPU,并且是首个搭载NVIDIA Quantum-2 400Gb/s InfiniBand网络的公有云实例。客户可以在单个集群中部署数千GPU来训练最具规模的大型语言模型,大规模地构建最复杂的推荐系统以及实现生成式AI。
目前的Azure实例采用了NVIDIA Quantum 200Gb/s InfiniBand网络和NVIDIA A100 GPU。未来的实例将集成NVIDIA Quantum-2 400Gb/s InfiniBand网络和NVIDIA H100 GPU。结合Azure先进的计算云基础设施、网络和存储,这些通过AI优化的产品将为任何规模的AI训练和深度学习推理工作负载提供可扩展的峰值性能。
加速AI的开发和部署
另外,该平台将支持广泛的AI应用和服务,包括微软DeepSpeed和NVIDIA AI Enterprise软件套件。
微软DeepSpeed将使用NVIDIA H100 Transformer引擎来加速基于Transformer的模型,这些模型可用于大型语言模型、生成式AI和编写计算机代码等应用。该技术将8位浮点精度能力应用于DeepSpeed,大大加快了Transformer的AI计算速度,使其吞吐量达到16位运算的两倍。
被全球企业广泛采用的NVIDIA AI平台软件NVIDIA AI Enterprise已通过认证并支持搭载NVIDIA A100 GPU的微软Azure实例。未来的软件版本将增加对搭载NVIDIA H100 GPU的Azure实例的支持。
NVIDIA AI Enterprise包括用于语音AI的NVIDIA Riva以及NVIDIA Morpheus网络安全应用框架,可简化从数据处理和AI模型训练到仿真和大规模部署等AI工作流中的每一步。