当前位置:首页>行业洞察>随着人工智能网络需求的上升,光网络挑战受到关注

随着人工智能网络需求的上升,光网络挑战受到关注

随着人工智能网络需求的上升,光网络挑战受到关注

对更高速度、人工智能网络发展和能源效率的需求正在推动光网络技术的进步。

随着大型企业和超大规模网络处理越来越多的人工智能工作负载和其他需要高带宽性能的应用程序,对光纤连接技术的需求也在增长。

思科光学系统和光学集团高级副总裁兼总经理比尔·加特纳 (Bill Gartner) 表示,归根结底,光纤是唯一能够在所需距离内提供组织所需容量的连接技术,可以连接数据中心、服务器、路由器、交换机以及构成当今网络架构的所有分布式组件。

但在网络中更广泛地使用光纤并非没有挑战。

供应商正在制定计划,有效且可持续地转向更高的速度,例如 400G 以太网、800G 以太网及更高速度,同时他们也在尝试开发先进技术来支持 AI 网络。他们还在努力为光纤网络和接口开发更节能的技术。

目前,思科、Calient Networks、博通、Nvidia 和 Teleescent 等供应商正在提供或开发光路交换机。谷歌也在开发自己的光路交换平台 Apollo。虽然支持高带宽和速度的需求至关重要,但这些参与者也专注于提高能源利用率。

谷歌推进阿波罗光路交换

谷歌在最近一篇关于 Apollo 的博客中表示,传统网络使用“Clos”拓扑(也称为脊叶配置)来连接数据中心内的所有服务器和机架,而其 Apollo 平台使用光电路交换 (OCS) 进行数据中心联网:

“在脊叶架构中,计算资源(配备 CPU、GPU、FPGA、存储和/或 ASIC 的服务器机架)连接到叶或机架顶部交换机,然后通过各种聚合层连接到脊叶,”谷歌写道。“传统上,该网络的脊叶使用电子分组交换机 (EPS),这是 Broadcom、思科、Marvell 和 Nvidia 等公司提供的标准网络交换机。然而,这些 EPS 消耗大量电力。”

“Apollo 被认为是数据中心网络光电路交换 (OCS) 的首次大规模部署。Apollo OCS 平台包括自主研发的 OCS、循环器和定制的波分复用 (WDM) 光收发器技术,该技术支持通过 OCS 和循环器实现的双向链路。Apollo 已成为所有 Google 数据中心网络的骨干,已投入生产近十年,支持所有数据中心用例。

“采用 Apollo OCS 层取代主干块,通过消除主干层中使用的电气开关和光学接口,可显著节省成本和功耗。Google 在直接连接架构中使用这些光学开关,通过配线架连接叶子。这种方法不是分组交换;它充当光学交叉连接,”Google 表示。

Dell’Oro Group 副总裁 Sameh Boujelbene 表示:“OCS 交换机提供高带宽和低网络延迟,同时显著降低资本支出。这是因为它们能够减少所需的电气交换机数量,从而消除昂贵的光电光转换。此外,与电气交换机不同,当服务器采用下一代光收发器时,OCS 交换机不需要频繁升级。”

然而,OCS 仍是一项新兴技术。“迄今为止,经过多年的发展,只有谷歌成功在其数据中心网络中大规模部署了 OCS。此外,OCS 交换机可能需要对现有的光纤基础设施进行更改,具体取决于云服务提供商,”Boujelbene 说道。

Boujelbene 表示:“OCS 交换机已部署在谷歌的主干层,但随着人工智能应用的出现,我们看到它们更多地部署在人工智能集群内部,因为它们能带来好处。”

标准化光传输技术

随着人工智能网络的扩展,对更高速以太网网络设备的需求也在不断变化。例如,对采用 800ZR 高速光传输技术的 800G 以太网和 OpenZR+(为相干光收发器开发可互操作标准的行业倡议)的需求不断增长。

根据思科 Acacia 网站的数据,在 400G 以太网级别,400ZR“对于相干可插拔行业来说是一个巨大的成功,拥有多家供应商,并且在城域 DCI [数据中心互连] 应用中部署了大量 400ZR QSFP-DD 和 OSFP 模块”。 (思科于 2021 年以 45 亿美元 收购了光学制造商 Acacia Communications 。)

IDC 最近报告称:“400ZR 等网络级可插拔光学器件将在 2024 年在通信服务提供商网络中的部署显著增加。”

Gartner 表示,随着人工智能数据中心之间的距离成为一个问题,通过 DCI 将分散的数据中心有效地连接在一起将成为人工智能和光纤网络的关键驱动因素。

思科的 Gartner 表示,这些链路的容量需要随着 AI 应用的增加而增加。“目前,我们在一个波长上拥有 400 千兆,但业界希望获得更好的性能、更低的成本、更低的密度、更高的密度,这也将实现,”Gartner 表示。“因此,最初推出的产品可能针对 5 纳米进行了优化。我们需要做得更好,这将是这项技术的进步。”

人工智能集群规模不断扩大

Boujelbene 表示,新兴 AI 应用的规模似乎呈指数级增长,这些应用需要处理的参数数量每 2 到 3 年就会增长 1000 倍。“因此,AI 集群的平均规模(以加速器数量计算)每 2 年就会翻两番,从典型的 256 个发展到 1000 个,然后迅速发展到 4K 个,现在有些集群拥有 32K 和 64K 个加速器。”

Boujelbene 在有关 OFC 2024 的博客中写道,在 2023 年光纤通信会议 (OFC) 上,供应商推出了许多基于每波长 200 G 的 1.6 Tbps 光学元件和收发器,并且在 OFC 2024 上也进行了许多这些 1.6 Tbps 产品的演示。

Boujelbene 写道:“虽然我们预计直到 2025/2026 年才会实现 1.6 Tbps 的出货量,但业界必须已经开始努力实现 3.2 Tbps,并探索达到这一里程碑的各种途径和选择。”

“这种紧迫感源于多种因素,包括人工智能集群内带宽需求的急剧增长,以及与更高速度相关的不断升级的功率和成本问题。”

在Dell’Oro最近发布的《用于AI工作负载的AI网络》报告中,研究人员预测,到2025年,AI网络中大多数端口将达到800Gbps,到2027年,大多数端口将达到1600Gbps,这表明市场上最高速度的采用速度非常快,Boujelbene表示。

然而,光速的提升面临着成本和功耗大幅增加的挑战。Boujelbene 表示,对人工智能基础设施的大量投资正在加速开发创新的光学连接解决方​​案,以满足人工智能集群的需求,同时解决一些成本和功耗挑战。

LPO 与 CPO

虽然光学和 AI 网络问题可能会成为未来的趋势,但更当前的问题是线性驱动可插拔光学器件 (LPO) 和共封装光学器件 (CPO) 之间的斗争。LPO 通常在光纤模块之间建立直接链接,无需数字信号处理器等传统组件。CPO 的特点是将光学组件直接集成到交换机 ASIC 中。

专家表示,这两种技术在光纤网络中都有一席之地,因为它们都有望降低功耗并支持更高的带宽密度。它们各有优缺点——考虑到 CPO 套件中包含的技术数量,CPO 的部署更为复杂,而 LPO 则有望简化部署。

LPO 的支持者今年一直在大力推动这项技术。例如,今年 3 月,思科、博通、英特尔、Nvidia、Arista 和 AMD 等 12 家核心光学供应商成立了线性可插拔光学多源协议小组,以进一步推动 LPO 技术的发展。

LPO 集团正在开发各种光网络设备,例如交换机、NIC 和以太网 GPU,旨在满足 AI 和高性能计算等高速、大容量应用的需求。

LPO MSA 主席 Mark Nowell 在一份声明中表示:“迫切需要降低 AI 和其他高性能应用的网络功耗。LPO大幅降低了模块和系统的功耗,同时保持了可插拔接口,为客户提供了大批量部署所需的经济性和灵活性。”

事实上,LPO 和 CPO 都旨在降低功耗,并可能降低光学器件在向更高速度迈进时的成本。然而,Boujelbene 表示,多供应商支持、上市时间、可维护性、可制造性和可测试性是批量采用的关键要求。“LPO 似乎在满足这些要求方面领先于 CPO,因为它保留了可插拔的外形尺寸(仅移除了 DSP)。因此,我们预计 LPO 将在 CPO 之前实现批量部署。”

本文由 @弱电KK 发布于弱电智能网 ,来自:Network World 。

题图来自Unsplash,基于CC0协议

内容观点仅代表作者本人,弱电智能网平台仅提供信息存储空间服务。

如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

文章名称:《随着人工智能网络需求的上升,光网络挑战受到关注》

文章链接:https://www.ruodian360.com/news/54598.html

添加微信ydian188免费入群,记得备注“弱电智能网”。

给TA打赏
共{{data.count}}人
人已打赏
行业洞察

《数字中国发展报告(2023年)》正式发布

2024-7-2 10:42:59

行业洞察

行业洞察|效能十倍提升:政府转型开启新篇章

2024-7-3 19:50:38

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索