共封装光学器件(CPO)手册——以光为介质实现下一代互连技术扩展

共封装光学器件(CPO)手册——以光为介质实现下一代互连技术扩展
横向扩展与纵向扩展的CPO技术、CPO总拥有成本与功耗预算、DSP收发器与LPO/NPO/CPO对比、台积电COUPE工艺、MZM/MRM/EAM调制器深度解析、CPO核心企业与供应链布局共封装光器件(CPO)技术长期以来被寄予厚望,有望彻底改变数据中心互联格局,但该技术历经漫长周期才得以面世,真正具备部署条件的成熟产品直至2025年才问世。在此期间,可插拔收发器凭借其相对成本效益、部署便捷性以及基于标准的互操作性,始终满足网络需求并保持着主流地位。
然而,人工智能工作负载带来的高网络需求意味着此次情况不同。人工智能网络带宽的发展路线图表明,互连速度、覆盖范围、密度和可靠性要求很快将超越收发器所能提供的水平。固态光子学(CPO)将带来一定效益,为横向扩展网络提供更多选择,但它将成为纵向扩展网络的核心技术。在本十年后期及之后,CPO将成为纵向扩展网络带宽增长的主要驱动力。
当前基于铜缆的扩展解决方案(如NVLink)可提供高达7.2 Tbit/s的单GPU带宽——鲁宾架构时代将提升至14.4 Tbit/s。然而铜缆链路的传输距离上限仅为两米,这意味着扩展域的规模最多只能覆盖一两个机架。此外,通过铜缆提升带宽的难度正日益增加。在Rubin架构中,NVIDIA将通过双向SerDes技术使每铜缆通道带宽再翻倍。但依靠开发更高速SerDes来提升铜缆带宽的扩容路径充满挑战,进展缓慢。而CPO技术不仅能实现同等甚至更优的带宽密度,更能提供多元化的带宽扩容路径,同时支持更大规模的扩展域。要理解CPO技术诞生的动因,首先需审视光通信中使用收发器时存在的诸多低效与权衡。收发器虽能延长链路距离,但网络交换机或计算托盘前面板上用于插拔收发器的插槽,通常距离XPU或交换机ASIC有15-30厘米之遥。这意味着信号必须先通过LR串解码器在15-30厘米距离内进行电传输,再由收发器内的数字信号处理器(DSP)恢复并调理电信号,最后转换为光信号。采用CPO方案时,光引擎直接部署于XPU或交换机ASIC旁,从而省去DSP环节,并可使用低功耗SerDes将数据从XPU传输至光引擎。相较于DSP收发器,该方案可降低50%以上的数据传输能耗——许多方案甚至致力于将每比特能耗降低80%。尽管像英伟达和博通这样的横向扩展型CPO解决方案正获得更多关注,并受到终端客户的密切关注,但主要超大规模企业已开始规划其纵向扩展型CPO战略,并向供应商作出承诺。例如Celestial AI预计到2028年底可实现10亿美元营收规模——我们认为这主要得益于其与亚马逊Trainium 4协同推出的纵向扩展CPO解决方案。
专注于CPO的企业现已超越论文、试点项目和演示阶段,正就光端口架构等关键产品决策展开布局,以解决大规模量产难题。对于扩展型CPO而言,问题已不再是”是否采用”和”为何采用”,而是”何时实现”和”如何推进”——如何推动这些系统进入量产阶段,以及何时能确保激光器等关键组件的供应链稳定。

本文来自知之小站

 

报告已上传百度网盘群,限时15元即可入群及获得1年期更新

(如无法加入或其他事宜可联系zzxz_88@163.com)