随着深度学习、仿真、BIM设计、AEC行业在各行各业应用的发展,在AI技术虚拟GPU技术的加持之下,需要强大的GPU算力解析。无论是GPU服务器,还是GPU工作站都趋向于小型化、模块化、高集成度设计方向发展。热流密度经常达到传统风冷GPU服务器设备的7-10倍,由于采用模块集中安装方案,拥有数量众多且发热量大的NVIDIA英伟达GPU显卡,因此散热问题非常突出。过去常用的散热设计技术已经无法满足新系统的使用要求,传统的水冷GPU服务器还是液冷GPU服务器都离不开风扇的加持,今天我们就来解析一下热虹吸管散热技术。
目前市场上的热虹吸散热技术主要还是利用柱型或板型散热器为体,在散热器底部穿入热媒管,壳体内注入工质,并建立真空环境,这是一种常温重力式热管。工作过程如下:在散热器底部,供热系统通过热媒管将壳体内的工质加热,在工作温度范围内,工质沸腾,蒸汽上升至散热器上部凝结放热,凝结液沿散热器内壁回流至加热段被再次加热蒸发,热量通过工质的不断循环相变由热源传递至热沉,达到供热、加热的目的。
1热虹吸散热在GPU工作站上的运用
每一代CPU散热器是如何一步步走向当代的理论性能的极限。从最原始的铝制散热片到现在,它都是不错的选择。大家可能想既然一些小鳍片就这么好用,那更多更大的鳍片是不是更好用?然而结果并非如此。鳍片离热源距离越远,鳍片温度就越低。当温度降低至周围空气的温度时,无论将鳍片做的多长,热传递也不会继续增加。
portant; overflow-wrap: break-word !important;" align="left">当现代GPU计算功耗进入75至350瓦区间甚至更高时,热设计工程师们转而研发新的散热方法。热管本身并没有增强散热器的散热能力。它的作用是同时利用热传导和热对流,来实现远高于金属本身的热传递效率。
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">早在1937年就有热虹吸技术出现,正常运行时热管内部的液体会沸腾,蒸汽通过蒸汽腔到达冷凝端,蒸汽变回液体后再通过管芯返回热源,管芯通常是烧结上去的金属内层,可如果热管吸收太多热量,则会出现“热管干涸”的现象。液体不仅在蒸汽腔内变成蒸汽,同时也会在管芯内变成蒸汽,导致其无法变回液体返回热源,大幅增加了热管的热阻。
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">现在我们的重头戏来了——热虹吸。热虹吸散热不像热管,用管芯将液体带回蒸发端,而是仅仅利用重力,再加上一些巧妙的设计形成循环,把液体蒸发过程当水泵用。这并不是新技术,在放热量大的工业应用中很常见。
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">一般来说,GPU内部制冷剂会沸腾,向上流动到里面的冷凝端内,变回液体并返回蒸发端。理论上有两大优势:
portant; overflow-wrap: break-word !important;" align="left">1. 避免热管干涸,可用于超频超高性能芯片
portant; overflow-wrap: break-word !important;" align="left">2. 因为不需要水泵,所以可靠性优于传统一体式水冷
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">热虹吸散热现在最重要的一点是它的厚度将会从传统的103毫米减少到仅仅30毫米(减到三分之一以下),外形相对小巧,不会损害性能。热虹吸散热的器材为了便于加工,目前厂家使用铝材质居多。也有使用铜制,温度可能还能再降5-10度,仅针对发热量较大的GPU服务器。
敲黑板敲黑板 敲黑板
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">划重点-小蓝用实验数据来结束这次的重点。小蓝测试的三种不同的英伟达GPU卡,普通风扇和热虹吸散热器在同等4卡水冷GPU服务器下的散热数据:
portant; overflow-wrap: break-word !important;" align="left">
portant; overflow-wrap: break-word !important;" align="left">图一是RTX A6000功率为300瓦
portant; overflow-wrap: break-word !important;" align="left">图二是RTX 3090,功率约350瓦
portant; overflow-wrap: break-word !important;" align="left">图三是NVIDIA A100,功率约为400瓦
portant; overflow-wrap: break-word !important;" align="center">
portant; overflow-wrap: break-word !important;" align="center">
portant; overflow-wrap: break-word !important;" align="center">