英伟达首席执行官黄仁勋在近期GTC大会上宣布,公司计划在2028年前利用光子互联技术,将超过一千个GPU整合进单一的巨型计算系统中。为了支持这一规模的扩张,英伟达近期斥资数十亿美元投资了Marvell、Coherent和Lumentum等光通信及互联技术厂商,旨在提前布局供应链。
黄仁勋在主题演讲中强调,生态系统正面临巨大的容量需求。他表示:“我们需要更多的铜缆、更多的光学器件以及更多的共封装光学(CPO)容量,这也是我们与合作伙伴共同打下增长基础的原因。”
从铜缆到光学的技术演变
英伟达对光学的拥抱并非偶然。在2022年ChatGPT发布时,英伟达意识到其现有的8个GPU系统已无法满足大规模AI模型的训练需求。随后的Grace Blackwell NVL72系统通过长达数英里的铜缆背板,将72个GPU连接成一个整体,但在带宽达到1.8 TB/s的情况下,铜缆的传输距离受限严重。
英伟达网络业务高级副总裁Gilad Shainer指出,铜缆在短距离传输中极具成本效益且功耗极低,但信号衰减限制了其物理长度。这也解释了为何NVL72机架内部的NVSwitch必须集中布置,因为铜缆的有效传输距离只有几英尺。随着系统规模向千级GPU迈进,铜缆的物理局限已成为不得不突破的瓶颈。
早期阻碍光学应用的主要因素是功耗。若采用传统可插拔光学模块,每个Blackwell GPU将需要18个800 Gbps模块,这会额外增加约20,000瓦的电力消耗。然而,随着共封装光学(CPO)技术的进步,光学引擎得以直接集成在交换机ASIC旁,显著降低了能耗。
英伟达已确定在未来的Vera Rubin NVL576和Rosa Feynman NVL1152系统中采用“铜缆与光学并举”的策略。Ian Buck表示,第一层网络将继续使用铜缆以保持GPU架构不变,而第二层脊状网络(spine layer)将引入光学模块。这种混合架构被视为在保证性能的同时,有效规避大规模电力浪费的最佳方案。