算力“过热”?来聊聊计算工程+3D打印的液冷新解法

sparktalk 认知

在AI算力需求爆发的驱动下,由于英伟达VR300(3600W)、AMD MI355(1400W)、谷歌TPU v7(约980W) 等主流AI芯片的热设计功耗已普遍逼近或超过1000W,突破了传统风冷散热的极限,使得液冷技术正成为AI数据中心的刚性需求。行业报告预测,到2026年,AI数据中心液冷渗透率将快速提升至40%,全球市场规模有望达到165亿美元(约1162亿元人民币)。[1]

然而传统制造技术所实现的液体冷板散热性能已亮起了红灯,增材制造-3D打印作为在实现复杂三维结构、一体化功能集成结构时具有显著优势的技术,是不是可以成为下一代液体冷板制造届的“能力担当”?如何通过先进设计激发增材制造技术在这一领域的潜能?

sparktalk people

传播增材思维的火种,本期SparkTalk,由3D科学谷SparkUnion-星火联盟成员-LEAP71大中华区独家合作伙伴/上海集栈科技创始人林一祎女士,主要从计算工程技术驱动的增材制造设计角度,谈谈她对于3D打印下一代液体冷板如何重塑数据中心热管理的见解。

Q: 数据中心的发展对于散热提出了怎样的挑战?

数据中心技术与需求每三年就“翻一番”,这个时间周期正在持续加速——从云计算、大数据到今天的生成式AI,每一次迭代都把“散热”推向新极限。

目前从“需求变化→散热痛点→技术方向”链条出发,对散热需求包括不限于:

芯片层面:单卡功耗破千瓦,风冷散热天花板被击穿。传统风冷(热管/均热板+机房空调)已经很难稳定压住功率1000W 的芯片;英伟达下一代的更高功率芯片已逐渐量产,预计轻松突破1500W+,风冷已经逼近声功率和温度极限。基于目前的高热流密度,热量被困在封装内部,需要更高效的热管理方法直接带走热量。

机柜层面:单柜功率从6kW→60kW→120kW,局部热点瞬间爆表,而局部热点的小温差 1–2℃ 就能触发降频或宕机。

数据中心层面:PUE政策与电费双重挤压,散热必须“既省地又省电”。 国内“东数西算”新建机房强制PUE≤1.25,北京/深圳核心区更要求 ≤1.15;风冷机房平均PUE1.6–1.8,液冷可轻松做到1.05–1.15,已经成为基于政策和节省资源层面的刚需解决方法。全球数据中心2024年已吃掉1.5% 总电量,IEA 预计 2030年冲到4%;AI训练中心电费占TCO 50% 以上,散热系统每降低0.1 PUE,10MW 机房十年可省电费约1500 万元。

数据中心从“风冷够用”到“液冷必需”,核心驱动力就是“芯片功耗千瓦级+机柜功率十万瓦级+PUE政策红线”——散热必须向高导热、高比热、低温度梯度的液冷演进,否则算力再强也“热”到跑不动。

Q: 传统制造的冷板能够应对这些新挑战吗?是否需要一种全新的设计和制造范式?

“铣削+钎焊”这条传统路线在几何、公差、可靠性、时效性等方面的红线已经亮起,业界需要在设计、制造端唤醒“3D设计制造一体化”这一新范式。

传统制造的“硬墙”

1. 微通道极限:受刀具径深比限制,CNC无法稳定加工超高精度的连续通道;钎焊后焊料流动容易堵塞,热交换面积做不上去,高比表面积又是提升换热效率的一大指标之一,所以人们开始思考超高精度的板翅设计,如英伟达黄仁勋提出的MLCP方案,即微通道液冷板。

2. 热点匹配度低:直线/铲齿流道是2D思路,面对GPU核心+显存“非均匀热图”只能平均化,局部温差仍较大,容易触发降频。

3. 泄漏及强度:多零件+焊缝结构会提升泄漏率,随时可能报废整柜。

4. 迭代速度与成本考量:开模-冲压-钎焊-检漏-修模周期较长,AI 芯片迭代速度较快,传统节奏很快无法同步。

创新型设计范式如计算工程,结合3D打印可以在很大程度上加快迭代周期,拓宽设计制造一体化思路,从而在成本层面以及技术层面上进一步优化终端产品形态。具体可以通过如下几方面得到体现:

1. 计算工程给出的几何自由:基于目前终端客户需求确定设计边界,运用在航空航天等热管理领域积累的计算工程的工程模型库,跨行业设计优化不同于简单的翅片(Fins)结构或者2D CAD仿生结构等,解决特别存在于高功率芯片上工作热量集中/热流密度高的痛点,均质化热流密度的同时指数级提升比表面积,同时降低热阻。基于目前包括不限于MLCP等结构设计存在的优缺点进行分析,可以发现其对于工艺的要求非常高(SLM增材制造工艺需要达到0.15-0.2mm的层厚和间距),无形中提升了制造成本,缩减了工艺的选择性。设计需要进一步考虑制造端的更多可能性,进行迭代,争取在设计端可以突破高精度制造端的限制。

sparktalk part可堆叠液液热管理结构

在600mm幅面3D打印设备采用无支撑工艺进行加工制造

2. 一体化无焊:3D打印的兴起给了我们更多制造端的可能性,如激光或ECAM电化学沉积一次成型等,可以从成本的角度出发,结合传统工艺拓宽最终产品形态的设计思路。

3. 材料潜能释放:运用散热效率高的材料如纯铜,另外也考虑铜合金的可能性:结合制造工艺优化材料组分和材料工艺,解决纯金属(铜)强度低、耐腐蚀性差、抗氧化差等问题。需要考虑合金降低的热导率,可以从两个方面解决:

a) 设计端弥补:通过计算工程生成的高效结构弥补材料段导致的热导率降低的缺陷;

b) 改性合金:通过添加微量元素,在考虑成本的基础上达到与纯铜持平甚至超越纯铜的热导率,即400w/mK。

4. 研发节奏:计算工程快速设计迭代→结合3D打印的工艺定型→测试闭环,设计变更只需改代码,可快速验证新版结构,迭代速度与芯片同频。

“铣削+钎焊”逐渐触及物理、经济和时效三重天花板;我们需要探索耦合材料、设计以及制造工艺的一体化解决思路新范式——这不是“升级”,而是“换代”。

Q:  3D打印液冷板规模化应用存在哪些挑战?

采用金属3D打印工艺的主要顾虑有:

1)制造成本

2)批量时的交期

3)技术方式,如红光打印与绿光打印的对比(包含尺寸精度、成本等),材料的选择、结合3D打印的工艺选择等。

但目前3D打印在冷板的形态中已经是刚需,需通过创新设计和材料以及工艺,来进一步拓宽3D打印在冷板量产方面的可能性。

Q:  3D打印液冷板存在哪些设计挑战?AI+计算工程技术如何赋能增材制造冷板设计?

现阶段,存在的主要挑战包括应用端缺乏基于3D打印制造技术在更优化更有效散热结构上的设计思维。同时,对于对材料和工艺的综合考量也相对缺乏,这导致设计端受到限制,从而限制了3D打印在液冷板设计中的可能性。

AI可以进一步优化植入到计算工程中的数据有效性,而计算工程可以给出几何自由:基于目前终端客户需求确定设计边界,运用计算工程跨行业工程模型库设计优化结构,解决特别存在于高功率芯片上工作热量集中/热流密度高的痛点,均质化热流密度的同时指数级提升比表面积,同时降低热阻。设计需要进一步考虑制造端的更多可能性,进行迭代,争取在设计端可以突破高精度制造端的限制。同时,计算工程可以进一步根据材料的选择定制化设计方案,解锁更多材料运用在液冷板应用的可能性。

sparktalk part 2Leap71 计算工程设计的高效热管理结构

sparktalk part3l 典型先进热管理结构 l 计算工程设计结合3D打印一体成型,以优化的内部冷却流道提升热管理效率,解决气动塞式发动机(Aerospike)塞体尖端的极高温(>2000K)和梯度热应力挑战。

Q: 展望未来,有哪些是需要产业链上下游共同推动的?

再牛的3D打印冷板也救不了“孤岛式数据中心”,只有“芯片-打印-液冷-运维”全链路打通数据、接口与模型,才能让越来越高要求的数据中心热管理集群真正跑起来,而标准制定、联合实验室、开源数据库、资本生态库等等等则是推动新范式的“集结号”。

sparktalk

认知,是信念的底座

3D科学谷SparkTalk,只在每年岁末年初做一件事:希望传递给增材制造产业一束“信仰之光”,把那些行业跳动的脉搏翻译成所有人都能听懂的“下一个伟大变化”。SparkTalk不是年终秀,而是一场“信仰接力”——从增材制造出发,让智能制造的脉搏跳动成能看的到未来的节奏。预见全球智能制造的“伟大变化”,不是预言,而是此刻正在发生的现场。
欢迎更多业界人士加入分享属于你的认知,在这里,我们一起相信信念的力量,一起相信每一个微小的改变,将成为变革的因子,推动增材制造与传统制造共谱下一代自进化、可持续发展的智能制造蓝图。

参考资料:
[1]《国海计算机 | GPU+ASIC渗透加速,液冷市场规模再添增量》

知之既深,行之则远。基于全球范围内精湛的制造业专家智囊网络,3D科学谷为业界提供全球视角的增材与智能制造深度观察。有关增材制造领域的更多分析,请关注3D科学谷发布的白皮书系列。


白皮书下载 l 加入3D科学谷QQ群:106477771
网站投稿 l 发送至2509957133@qq.com
欢迎转载 l 转载请注明来源3D科学谷 l 链接到3D科学谷网站原文

分享:

你可能也喜欢...

发表评论