(原标题:AI集群:铜缆互联,未来真的很美好吗?)
英伟达在GTC上发布 DGX GB200 NVL72后,铜缆互联一炮打响,迅速成为市场热捧对象,A股很多股票,受益于铜缆产业链,也成为大家热捧的对象,两个月普遍都是成倍的涨幅,成为市场一道靓丽的风景,典型代表有沃尔核材、神宇股份等。
鲜花掌声过后,市场稍微冷静了片刻,借此机会,我们应该仔细思考,铜缆互联往后会怎么发展? 这个技术路线能否持续发展下去? 会随着AI基建持续成长吗?
一,基础知识:有损传输线的损耗和趋肤效应有线通信里的金属线,一截无限小的线段,可以抽象成“电阻+电感串联,然后再与一个电容和电阻并联”的电路图。然后在无限个这样的电路串联起来。
所以,任何有线连接,都是有损耗的,在学术上表达为导电率。
另外,高频信号(>GHz)在有线传输中,趋肤效应很明显,也就是电流只会沿着金属的表面爬行,而不会深入到金属体里面去。当频率很高的电流通过导线时,可以认为电流只在导线表面上很薄的一层中流过,频率越高越浅,等效于导线的截面减小,电阻增大,大大降低了导体材料的有效利用率。
一方面,金属线本身有损耗,另外一方面,趋肤效应大幅减小了截面积导致电阻增加。频率越高,损耗越大。所以,有线通信都有一个确定的上限,不可能无限扩展。
金属铜的导电率优秀,趋肤深度也还行,同时价格相对低,综合性能优秀,所以在通信系统中,一般都选用铜缆做互联。
二,铜缆互联的优劣势铜有线互联的第一个优势是成本。
在铜有线的舒适区距离内,铜缆互联的成本只有光互联的十分之一。
铜有线互联的另外一个优势,是在它的舒适区,功耗竞争力强。比如3D封装内部走线(毫米级),可以做到0.1pJ/b,PCB内走线(厘米级),可以做到1pJ/b。板间铜缆走线(1~2米)可以做到5pJ/b。
根据前面基础知识介绍(损耗 + 趋肤效应),大家可以明白了,铜缆互联的劣势也非常明显。随着信号频率提高,距离急剧缩短。如下图:
50Gb/s的时候可以跑3米,100Gb/s能勉强跑2米,200Gb/s的时候只能到1米,这些都是物理规律决定的。
如果一定要把距离拉上去怎么办呢?
1、用更纯的铜(降低损耗),用更粗的铜线(趋肤效应下,通过增加表面积增加导电面积)。但这种方法会带来成本大幅度增加,同时也会大幅度降低带宽密度,原本一个框可以拉出1000跟线,用粗铜线后降低到500根。所以,按照单位面积的带宽密度来衡量,这种方法,出来的结果是一个常量。
2、用电来补。物理信道不变的情况下,用更复杂的编码,更复杂的纠错技术,来增加信道容量。路径如下图:
不过,用电补铜的方法,弊病也很突出:功耗急剧增加,系统的健壮性降低,成本大幅度提升。最关键的是,每一次迭代,都面临技术研究、开发、测试、大规模环境验证等复杂的过程,开发周期很长。在AI日新月异的紧迫压力下,TTM是一个很大的软肋。
三,当前AI集群中,铜缆互联应用的解读英伟达的DGX GB200 NVL的NVlin域,采用了Rack规模的224Gbps速率的铜缆互联来降低成本、降低功耗。19U的机架内部,GPU到Switch的铜缆链路长度为0.87米,再考虑GPU内部走线10cm,Switch单板内部的走线10cm,那么整个GB200的Rack内部高速通信线缆的走线,略微超过1米的距离,逼近物理极限。
英伟达下一代GPU采用3nm工艺,性能比GB200继续翻倍,对应NVLink的链路带宽至少也要翻倍。前面已经讲了,物理特性决定了铜的速率不可能再提升了,如果继续用铜缆连接,线缆数量翻倍,从5000条增加到10000条。方案可行吗?
基本不可行。
1、3nm工艺的功耗贡献只能提升15%,所以性能翻倍的情况下,功耗要增加75%。新GPU的单芯片散热是一个十分挑战的问题,迫使GB200 server从1U高度更加到xU,那么,GPU到Switch的距离就会大幅度增加,远远超过1米的上限。
2、GB200 NVL36、72这种rack配置,采用 18 server + 9 switch的配置,为了兼容DC机房基础设施,液冷是非接触式。而下一代,肯定必须上侵没式液冷。那么侵没式液冷的最佳选择是几个整机和在一起共享一套液冷系统。所以,从散热的角度看,下一代NVL集群,很有可能从 Rack又退回到DGX B100那种6U高的整机形态。铜缆互联从机架,又回到了机框。
所以,Nvidia的首席科学家Bill Dally在Hoti 2023年的主旨演讲AI集群系统演进时,全部聚焦于光(OIO、CPO、LPO、硅光)和网络架构(Spine-Leaf、GragonFly、Toturs),全程无铜,足以说明英伟达对铜缆的特性认识和局限性是很清楚的。并且英伟达自身在光通信中,布局非常深、广,全程参与技术攻关,寄予厚望:
四,铜缆互联产业链有线互联是IT里面最原始最早的通信技术,线缆有纯度要求,屏蔽要求。连接器对插损要求高。 但是整个产业链因为是无源器件,技术是一层纸,模仿很容易,门槛相对比较低。
但是低门槛,不一定意味着产业链就很容易进出。这个行业,西方几个大公司,通过大量的专利提前布局,占据了上游最有利的位置,别人很难突破他们的专利墙,所以基本只能跟着打零工,喝些汤汤水水。从资本市场的角度看,铜缆互联技术路线,给A股市场带来的增量价值有限。
中国,强光弱电,强无线通信。
总结:1、铜缆通信,在舒适区范围内,成本低、功耗低。超过舒适区,性价比急剧降低。
2、线路损耗和趋肤效应,满足技术可行性和经济性的前提下,铜缆通信的速率*距离 = 常量。 速率和距离不可鱼和熊掌兼得。
3、人类的通信史,是一部光进铜退的历史。在电信领域、企业网、DC云互联网都走过,未来的AI集群,也必然会走这条路。由物理规律决定。
4、英伟达的 DGX B200 NVL36/72,一开始,就把铜缆信道利用到了极致,往后的代际演进,铜将逐步往回缩,用其它通信技术来实现最优解。
5、铜缆互联对A股并不是一个资本友好型的技术路线。
6、可以理性地预测,AI集群通信中,铜缆互联出道即巅峰,以后将是一个光进铜退的过程。
7、从投资的角度审视,个人倾向于认为铜缆互联:
A)价值量的大头在西方,给A股带来的价值量很少,远非光通信肥美。
B)快周期性,投资甜区可能只有2024年。今年是股价的巅峰,明年是利润的巅峰,后年降天花板,周期下行。
C)光通信的技术突破速度,决定了铜缆互联的周期窗口大小。突破快,则周期短;突破慢,则延后下降周期。
$上证指数(SH000001)$ $中际旭创(SZ300308)$ $神宇股份(SZ300563)$龙岩股票配资