全球首款 102.4T 以太網(wǎng)交換機(jī)芯片!
2025-06-05 15:28:05 EETOP近日,博通發(fā)布了高性能交換芯片,宣布開始出貨Tomahawk 6 系列交換機(jī),并將其稱為“全球首款 102.4Tbps 交換機(jī)”。國外科技網(wǎng)站All About Circuits 采訪了博通數(shù)據(jù)中心交換機(jī)產(chǎn)品線經(jīng)理皮特·德爾·維奇奧(Pete Del Vecchio),以便更直接地了解這款產(chǎn)品。
Tomahawk 6——102.5 Tbps 交換芯片
隨著AI 工作負(fù)載持續(xù)突破數(shù)據(jù)中心邊界,博通報(bào)告稱,計(jì)劃于 2025 年部署的每一個(gè)大規(guī)模 AI 網(wǎng)絡(luò)都將采用基于以太網(wǎng)的架構(gòu),而非 InfiniBand。
德爾·維奇奧表示:“回顧過去一年半到兩年間的情況,從 InfiniBand 到以太網(wǎng)的轉(zhuǎn)變十分顯著。如今,最大的 AI 集群正在采用以太網(wǎng)部署,其性能可與 InfiniBand 相媲美,甚至更優(yōu)。”
在此背景下,博通的Tomahawk 6 是一款 102.4 Tbps 交換芯片,旨在鞏固以太網(wǎng)作為超大規(guī)模 AI 集群統(tǒng)一架構(gòu)的地位。
Tomahawk 6-100G(左)與 Tomahawk 6-200G(右)
Tomahawk 6 在前代產(chǎn)品(即 Tomahawk 5 的 51.2 Tbps)的基礎(chǔ)上進(jìn)行了升級(jí),并融入了專為 AI 驅(qū)動(dòng)通信模式設(shè)計(jì)的新功能。此次升級(jí)的核心在于支持 100G 和 200G PAM4 串行器/解串器(SerDes),包括 1024 條 100G 通道或 512 條 200G 通道的選項(xiàng),并提供電可插拔和共封裝光學(xué)模塊。這種靈活性使系統(tǒng)架構(gòu)師無需更改核心芯片,即可為傳統(tǒng)基礎(chǔ)設(shè)施和前沿光學(xué)拓?fù)浣Y(jié)構(gòu)調(diào)整互連配置。
支持規(guī)模擴(kuò)展與橫向擴(kuò)展的AI 工作負(fù)載
博通在設(shè)計(jì)Tomahawk 6 時(shí),明確旨在滿足 AI 基礎(chǔ)設(shè)施中規(guī)模擴(kuò)展和橫向擴(kuò)展網(wǎng)絡(luò)的不同需求。規(guī)模擴(kuò)展互連將緊密耦合計(jì)算節(jié)點(diǎn)內(nèi)的擴(kuò)展處理單元(XPU)連接起來,以實(shí)現(xiàn)高吞吐量內(nèi)存訪問和低延遲模型并行。為此,Tomahawk 6 在規(guī)模擴(kuò)展域中支持多達(dá) 512 個(gè) XPU 的單跳連接,其規(guī)模是現(xiàn)有解決方案的七倍多。
通過集成博通的規(guī)模擴(kuò)展以太網(wǎng)(SUE)框架,該芯片支持通過標(biāo)準(zhǔn)以太網(wǎng)在 XPU 之間進(jìn)行基于內(nèi)存語義的通信,從而減少對(duì) NVLink 等專有互連的依賴。在解釋 Tomahawk 6 規(guī)模擴(kuò)展支持的設(shè)計(jì)理念時(shí),德爾·維奇奧表示:“使用 Tomahawk 6,你可以擴(kuò)展至 512 個(gè) GPU 或 XPU……出于延遲原因,以及通信和擁塞管理方面的考慮,你希望實(shí)現(xiàn)單跳,即僅通過一個(gè)交換機(jī)跳轉(zhuǎn)。”
Tomahawk 6 支持開放的規(guī)模擴(kuò)展以太網(wǎng)
在橫向擴(kuò)展部署中,該交換機(jī)提供了構(gòu)建扁平化兩層拓?fù)渌璧膸捄投丝诿芏龋總€(gè)集群可支持100,000 個(gè)或更多 XPU。而端口速度較低的競爭性交換機(jī)則需要三層拓?fù)洳拍苓_(dá)到相同的覆蓋范圍,這會(huì)導(dǎo)致光學(xué)模塊數(shù)量增加 67%,由于額外的跳轉(zhuǎn)而增加延遲,以及網(wǎng)絡(luò)功耗大約翻倍。Tomahawk 6 的 102.4 Tbps 帶寬支持使用更少組件構(gòu)建大型 Clos 架構(gòu),從而降低基礎(chǔ)設(shè)施開銷和總擁有成本。
全負(fù)載下的Cognitive Routing與負(fù)載均衡
傳統(tǒng)數(shù)據(jù)中心交換機(jī)通常在70% 以下的利用率下運(yùn)行,以緩解擁塞并減少尾部延遲。然而,AI 網(wǎng)絡(luò)必須將架構(gòu)利用率提高到 90% 以上,以滿足大規(guī)模模型訓(xùn)練和推理的需求。為了在這種高強(qiáng)度下保持性能,Tomahawk 6 集成了博通的下一代自適應(yīng)路由和遙測套件——Cognitive Routing 2.0。
該交換機(jī)利用全網(wǎng)智能,根據(jù)實(shí)時(shí)擁塞指標(biāo)動(dòng)態(tài)重新平衡流量。與靜態(tài)等價(jià)多路徑(ECMP)路由或基于哈希的方案相比,Tomahawk 6 在全局了解路徑擁塞情況的基礎(chǔ)上進(jìn)行出站鏈路選擇。在實(shí)際應(yīng)用中,這可在負(fù)載下實(shí)現(xiàn)高達(dá) 50% 的吞吐量提升,且對(duì)鏈路故障的響應(yīng)時(shí)間比標(biāo)準(zhǔn)以太網(wǎng)故障轉(zhuǎn)移機(jī)制快 10,000 倍。該系統(tǒng)可將活躍流量從性能下降的路徑中轉(zhuǎn)移出去,并可修剪和重傳擁塞的數(shù)據(jù)包,以在不中斷的情況下保持性能。
博通Cognitive Routing 2.0
節(jié)能光學(xué)與靈活互連
功率密度限制仍然是超大規(guī)模AI 集群擴(kuò)展的一個(gè)關(guān)鍵因素。在當(dāng)今的 AI 數(shù)據(jù)中心中,光學(xué)模塊占網(wǎng)絡(luò)功耗的比例高達(dá) 70%。Tomahawk 6 通過實(shí)現(xiàn)原本需要三層設(shè)計(jì)的兩層架構(gòu)來緩解這一問題。可插拔光學(xué)模塊和共封裝光學(xué)模塊(CPO)變體的可用性,使運(yùn)營商能夠進(jìn)一步控制熱包絡(luò)。對(duì)此,德爾·維奇奧解釋道:
“如果你需要使用其他技術(shù),就無法在兩層架構(gòu)中連接這些 GPU。你將不得不采用三層網(wǎng)絡(luò)架構(gòu)。最終,你將使用 67% 更多的光學(xué)模塊,且網(wǎng)絡(luò)功耗幾乎翻倍。”
博通的CPO 選項(xiàng)借鑒了前幾代 Tomahawk 的經(jīng)驗(yàn),提供了更低的功耗和更少的鏈路抖動(dòng)。該芯片還支持?jǐn)U展距離的直連銅纜(DAC)和被動(dòng)背板連接,利用了博通的 SerDes 設(shè)計(jì),該設(shè)計(jì)在 200G PAM4 下可實(shí)現(xiàn)超過 45 dB 的信道覆蓋范圍。這些功能使超大規(guī)模數(shù)據(jù)中心能夠在不犧牲端口覆蓋范圍或無需高功耗、基于數(shù)字信號(hào)處理器(DSP)的光學(xué)模塊的情況下,部署高密度、低功耗的交換機(jī)互連。
面向AI 基礎(chǔ)設(shè)施的統(tǒng)一開放平臺(tái)
最終,博通將Tomahawk 6 定位為垂直整合以太網(wǎng)平臺(tái)的一部分,該平臺(tái)涵蓋交換機(jī)、網(wǎng)絡(luò)接口卡(NIC)、光學(xué)模塊和軟件。該交換機(jī)本身可與博通的 Thor NIC 和 NIC 芯片組互操作,這些芯片組可集成到 XPU 中,以實(shí)現(xiàn)靈活的端點(diǎn)調(diào)度。它還符合超以太網(wǎng)聯(lián)盟(Ultra Ethernet Consortium)的規(guī)范,可與開源擁塞管理、遙測標(biāo)準(zhǔn)和 AI 模型傳輸協(xié)議兼容。
這種開放標(biāo)準(zhǔn)導(dǎo)向有助于希望優(yōu)化XPU 通用性的超大規(guī)模數(shù)據(jù)中心。無論接口是用于規(guī)模擴(kuò)展還是橫向擴(kuò)展網(wǎng)絡(luò),運(yùn)營商都可以根據(jù)工作負(fù)載需求動(dòng)態(tài)重新配置它。綜合考慮,這種靈活性減少了硬件的分散性,使云提供商能夠優(yōu)化 GPU 分配,而無需鎖定到特定的互連角色或拓?fù)浣Y(jié)構(gòu)中。
行業(yè)展望
在AI 模型復(fù)雜性和硬件加速需求呈指數(shù)級(jí)增長的環(huán)境下,博通通過 Tomahawk 6 采取的方法反映了網(wǎng)絡(luò)在系統(tǒng)性能和效率中處于核心地位的更廣泛趨勢。正如德爾·維奇奧所說:“我們在這里所做的,實(shí)際上是讓網(wǎng)絡(luò)和所有訓(xùn)練變得更加高效……這樣你就可以讓網(wǎng)絡(luò)不再成為障礙,讓 GPU 之間的流量盡可能快速地通過。”
博通認(rèn)為,在芯片和架構(gòu)層面優(yōu)化互連的競賽將決定AI 系統(tǒng)設(shè)計(jì)的下一階段,并希望 Tomahawk 6 能使其在這場競賽中占據(jù)領(lǐng)先地位。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章