你的位置:首页 > 新闻动态 > 行业新闻

液冷技术:从GB200到GB300的跃迁

2025-03-08 09:58:42      点击:

英伟达GB300系列AI服务器被视为下一代高性能计算的标杆,其液冷技术方案的革新尤为引人注目。

GB200的液冷基石

在GB200的设计中,液冷技术已经展现出英伟达对高密度算力散热的深刻理解。以一个compute tray(计算托盘)为例,其冷板配置采用“一进一出”的设计,每个大冷板通过一对快接头与液冷系统相连。多个冷板回路经由manifold(分流器)汇集成一个整体回路,最终连接至机箱外壳。一个compute tray内部理论上包含两对快接头(冷板侧),加上与manifold连接的两对,总计需要六对快接头。以NVL72系统为例,18个compute tray共需108对快接头,再加上9个switch tray(每个两对),整个系统快接头总数达到126对。    

GB200的快接头设计中,冷板与manifold之间的连接均采用快接头,每根管子两端各配有一对(母端在冷板侧,公端在manifold侧)。值得一提的是,冷板上的母端快接头因结构隐藏在扣环内,外观上不易察觉,而manifold侧的公端较为凸出。这种设计在拆机图中常引发误解,但实际上快接头无处不在,确保了液冷系统的灵活性和可维护性。    

GB300的液冷革命

相比GB200,GB300在液冷设计上迈出了大胆一步。最显著的变化在于冷板结构的革新:GB300摒弃了大面积冷板覆盖多个芯片的模式,转而为每个芯片配备独立的“一进一出”液冷板。以NVL72系统为例,一个compute tray包含6个芯片,每个芯片对应两对快接头(进出各一对),共12对,加上与manifold连接的两对,总计14对快接头。整个系统18个compute tray的快接头数量因此激增至252对,较GB200的108对翻倍有余。    

这种独立冷板设计的背后,是对算力密度提升的响应。GB300的芯片布局更加紧凑,传统大冷板已无法满足散热需求,而独立冷板不仅提高了散热效率,还为未来的模块化升级提供了可能。然而,这一变化也显著增加了快接头的使用量和系统复杂性。

相较前代GB200,GB300的液冷设计在结构、效率和供应链上均实现了突破:

独立液冷板设计        

GB300摒弃了GB200的大面积冷板覆盖方案,改为每个GPU芯片配备独立的一进一出液冷板。这一设计显著提升了散热效率,同时允许更灵活的硬件配置。例如,在NVL72系统中,单个computetray的液冷板快接头数量从GB200的6对增至14对,系统总接头数达252对,是GB200的2倍。

快接头小型化与成本优化    

GB300采用新型快接头NVUQD03,尺寸缩小至原型号的1/3,单颗价格从GB200的70-80美元降至40-50美元。这一变化既适应了高密度芯片布局的需求,也降低了整体液冷系统的成本。

散热效率与可靠性挑战    

尽管小型化可能增加漏液风险,但GB300通过优化密封工艺和加速测试(如插拔测试、材质可靠性验证)确保稳定性。冷板与manifold的连接仍采用快接头,但冷板端采用隐藏式母端设计,外观更紧凑。    

供应链重构:从CPC到CoolerMaster的转向

GB300的液冷供应链体系发生了显著变化:

供应商格局重塑         

GB200时代,快接头主要由CPC和Staubli主导,而GB300则引入CoolerMaster、AVC(富士达)和立敏达等新厂商。CoolerMaster凭借与英伟达的紧密合作率先通过验证,成为初期量产主力,占据主导地位。

技术门槛与验证周期  

快接头小型化带来的高精度组装和密封要求,迫使厂商投入更严格的测试流程。例如,CoolerMaster已完成数百小时加速寿命测试,而AVC和立敏达仍处于验证阶段。  

国内供应链的潜在机会    

尽管CoolerMaster的工厂分布保密,但其部分产能可能依托中国大陆的Tier2供应商。高澜股份、英维克等中国厂商虽未直接参与快接头制造,但其液冷机柜和冷板解决方案在数据中心市场的渗透率逐步提升。

与GB200时期由CPC和Staubli主导的供应链体系不同,GB300的供应链选择反映了英伟达对快速迭代和小批量验证的需求。NVUQD03的小型化设计对组装公差、密封性能和断水功能提出了更高要求,国外厂商的谨慎态度可能使其错失先机。

小型化的双刃剑

NVUQD03的尺寸缩小旨在解决空间受限问题,但并未降低漏液风险,反而因密封面积减小和组装精度要求提升而增加了潜在隐患。为确保可靠性,供应商需进行包括加速测试、插拔测试及材质可靠性测试在内的数百小时验证。目前,CoolerMaster已完成初步验证,但整体测试仍在进行中,量产稳定性仍需时间检验。

液冷设计的未来趋势

沿用与创新并存

GB300在冷板设计上的革新并未全面推翻GB200的体系。manifold、CDU(冷却分配单元)及cartridge等组件均沿用原有设计,仅在核心散热模块上进行了调整。这种策略既降低了开发成本,又确保了系统的兼容性。

水冷全面化的前景

当前,GB300的switch tray仍以气冷为主,仅主芯片采用水冷。然而,英伟达已透露出全面转向水冷的计划,包括前端transceiver连接器在内的所有组件都可能配备液冷模块。未来,每个光模块或将单独配备液冷板,取代快接头的铜管焊接设计将成为主流。这一转变将显著提升制造工艺复杂性和成本,但也为超高密度算力的实现铺平道路。现阶段,这一方案仍处于设计阶段,具体落地形式尚未明朗。