目前人工智能对算力需求增长的速度要快于算力供给增长的速度。据OpenAI的分析,自2012年以来,最大规模的人工智能训练中使用的计算量以3.4个月的倍增时间呈指数增长。未来人工智能将进一步推动算力需求爆炸式增长,据OpenAI推算,GTP-5的参数量将是GTP-3的100倍,需要的计算量则是GTP-3的200~400倍。
近期,全球头部云厂商、数据中心提供商纷纷发布规划及预算,加速数据中心布局。meta预计2023年资本支出390亿美元,主要投资服务器和网络基础设施。NTT于2023年宣布计划在未来五年内向数据中心、人工智能和其他“增长领域”投资590亿美元,其中至少110亿美元将用于扩大或升级其数据中心。
数据中心的设计建设模式需适应人工智能产生的需求,下一代数据中心需要投资人工智能专用硬件,采用新的数据中心设计,主要体现在四个方面,第一,人工智能数据中心通过异构计算突破算力瓶颈,包括CPU、GPU以及专用硬件如ASICs和FPGAs在数据中心的综合部署。第二,人工智能和机器学习可能需要三倍于传统数据处理的功率密度,冷却是人们广泛关注的主题,液体冷却和浸泡冷却可能是发展趋势。第三,高速的存储访问对于人工智能工作负载至关重要,数据中心需要扩展其存储能力来满足不断增长的需求。第四,人工智能数据中心的效率与其网络的性能直接相关,零丢包、低时延、高吞吐的智能无损网络将成为人工智能数据中心的网络解决方案。