面向未來的PCI-Express交換機(jī)推理服務(wù)器
2025-03-28 11:40:38 EETOP點(diǎn)擊關(guān)注半導(dǎo)體創(chuàng)芯網(wǎng),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元
在數(shù)據(jù)中心系統(tǒng)的發(fā)展歷程中,能被英偉達(dá)選為其人工智能系統(tǒng)的組件供應(yīng)商,這無疑是至高無上的贊譽(yù)。
這也正是新興互連芯片制造商阿斯特拉實(shí)驗(yàn)室(Astera Labs)感到頗為得意的原因。該公司正與博通(Broadcom)和美滿電子(Marvell)等公司在 PCI-Express 交換機(jī)、PCI-Express 重定時(shí)器以及 CXL 內(nèi)存控制器等領(lǐng)域展開競(jìng)爭。英偉達(dá)認(rèn)可其即將推出的使用Blackwell GPU 加速器的服務(wù)器節(jié)點(diǎn),采用阿斯特拉實(shí)驗(yàn)室的 PCI-Express 6.0 交換機(jī)和重定時(shí)器,將 X86 GPU 與Blackwell GPU 相連,在某些情況下還會(huì)連接網(wǎng)絡(luò)接口卡和存儲(chǔ)設(shè)備。
MGX 是一套服務(wù)器參考設(shè)計(jì),它構(gòu)成了英偉達(dá)自身人工智能服務(wù)器的基本架構(gòu),原始設(shè)備制造商(OEM)和原始設(shè)計(jì)制造商(ODM)也會(huì)基于此進(jìn)行復(fù)刻,以便分得一杯羹。
在上周舉行的 2025 年 GPU 技術(shù)大會(huì)(GPU Technical Conference 2025)上,阿斯特拉實(shí)驗(yàn)室做了兩件事。首先,該公司展示了其 “天蝎座”(Scorpio)P 系列 PCI-Express 6.0 結(jié)構(gòu)交換機(jī)和 “白羊座”(Aries)PCI-Express 6.0 重定時(shí)器,與英偉達(dá)的 Hopper H100 和 H200 GPU,以及用于 HGX 配置的各種Blackwell B100 和 B200 GPU 之間的互操作性(大家熟悉的雙 CPU 搭配八 GPU 的設(shè)計(jì),如今Hopper 架構(gòu)的被稱為 HGX NVL8,Blackwell 架構(gòu)的則叫 DGX NVL16)。其次,阿斯特拉實(shí)驗(yàn)室展示了一款由 ODM 服務(wù)器制造商緯創(chuàng)(Wistron)設(shè)計(jì)的推理服務(wù)器,該服務(wù)器基于Hopper GPU,并使用阿斯特拉的交換機(jī)和重定時(shí)器將各個(gè)組件連接在一起。
目前還完全不清楚英偉達(dá)自身在其系統(tǒng)中哪些地方使用了阿斯特拉的芯片,我們只是借這一消息來了解一下阿斯特拉所提供的產(chǎn)品。不過,英偉達(dá)硬件工程副總裁安德魯?貝爾(Andrew Bell)確實(shí)在一份聲明中表示,“天蝎座” 交換機(jī)已集成到 “基于Blackwell的 MGX 平臺(tái)” 中,所以就是這樣。基于數(shù)字信號(hào)處理器(DSP)的 “白羊座” 重定時(shí)器雖未被提及,但如果你需要擴(kuò)展 PCI-Express 5.0 或 6.0 鏈路以拉開組件之間的距離,同樣也需要這類設(shè)備。
從概念上講,整個(gè)架構(gòu)是這樣的:
如你所見,你可以使用重定時(shí)器將 GPU 連接到網(wǎng)絡(luò)或存儲(chǔ)結(jié)構(gòu),以及另一個(gè)用于直接將 GPU 相互連接的 PCI-Express 結(jié)構(gòu),這與英偉達(dá)使用 NVLink 端口和 NVSwitch 交換機(jī)的方式非常相似。目前,對(duì)于 GPU 加速器而言,這種 PCI-Express 結(jié)構(gòu)上不存在內(nèi)存尋址功能,但這正是由 AMD、博通、思科系統(tǒng)(Cisco Systems)、谷歌(Google)、慧與(Hewlett Packard Enterprise)、英特爾(Intel)、Meta Platforms和微軟(Microsoft)牽頭開展的超高速加速器鏈路(UALink)項(xiàng)目的目標(biāo)所在。
“天蝎座” P 系列交換機(jī)用于將 CPU 連接到 GPU、網(wǎng)絡(luò)接口和存儲(chǔ)設(shè)備,“天蝎座” 交換機(jī)還有另一個(gè)版本,即 X 系列,用于創(chuàng)建 GPU 網(wǎng)格,這與英偉達(dá)的 NVSwitch 的作用類似,顯然其帶寬要低得多。這款 X 系列芯片需要定制化的合作項(xiàng)目,不出所料,在 2025 年的 GPU 技術(shù)大會(huì)上,阿斯特拉絕對(duì)不會(huì)提及這款芯片。
P 系列和 X 系列交換機(jī)都向后兼容一直到 PCI-Express 1.0 的設(shè)備。
就 PCI-Express 6.0 而言,以下是阿斯特拉與英偉達(dá)共同測(cè)試的內(nèi)容:
“天蝎座” P 系列交換機(jī)于 2024 年 9 月開始提供樣品,目前正在逐步擴(kuò)大量產(chǎn)規(guī)模。
阿斯特拉與 ODM 合作伙伴緯創(chuàng)展示的機(jī)器,是英偉達(dá) MGX H100/H200 NVL 推理服務(wù)器的一個(gè)具體實(shí)現(xiàn)。MGX 系列模塊化機(jī)器于 2023 年 5 月推出,其理念是將 GPU 加速應(yīng)用于不同類型的工作負(fù)載,并采用適合相應(yīng)用途的外形規(guī)格。
從概念上看,MGX 推理服務(wù)器是這樣的:
這是一個(gè) 4U 機(jī)架式機(jī)箱,后部有一個(gè)雙插槽 X86 服務(wù)器作為系統(tǒng)主機(jī),配備 PCI-Express 交換機(jī),連接到兩個(gè)BlueField 3數(shù)據(jù)處理單元(DPU,位于前方右側(cè))以及八個(gè) H100 或 H200 PCI-Express 5.0 GPU(位于前方,占據(jù)了大部分空間)。沒有 NVSwitch 內(nèi)存互連,但每張 GPU 卡上都有 NVLink 內(nèi)存端口,并且可以使用橋接器將兩個(gè)或四個(gè)相鄰的 GPU 連接成共享內(nèi)存配置,以便共享內(nèi)存并針對(duì)更大的內(nèi)存進(jìn)行計(jì)算。
這種 MGX 參考架構(gòu)還有其他配置,例如配備一個(gè)BlueField 3 DPU 和四個(gè) ConnectX-7 智能網(wǎng)卡,每兩個(gè) GPU 對(duì)應(yīng)一個(gè)智能網(wǎng)卡。
以下是每個(gè) “天蝎座” 交換機(jī)連接兩個(gè) GPU 和一個(gè)網(wǎng)卡的 MGX 推理系統(tǒng)原理圖:
每對(duì)通過 NVLink 橋接器連接的 GPU,都有一個(gè) ConnectX-7 網(wǎng)卡,用于與外部世界通信,并通過 “天蝎座” P 系列交換機(jī)進(jìn)行數(shù)據(jù)傳輸。我們推測(cè),這對(duì) GPU 也可以通過 “天蝎座” 交換機(jī)以 PCI-Express 6.0 速度進(jìn)行通信。如果 GPU 支持 PCI-Express 6.0,x16 通道的速度可達(dá) 256GB/秒;如果僅支持 PCI-Express 5.0,則速度只有 128GB/秒。
在主機(jī) CPU 和 GPU 之間需要多少帶寬,以及 NVLink 非統(tǒng)一內(nèi)存訪問(NUMA)的級(jí)別(NVL2 或 NVL4),取決于你所進(jìn)行的人工智能類型。
這款 MGX 推理服務(wù)器設(shè)計(jì)的一個(gè)重要特點(diǎn)是它具有模塊化特性。(因此 MGX 中的 “M” 代表 “Modular”,即模塊化的 GPU,我們不確定 “X” 代表什么)
以下是緯創(chuàng)實(shí)際的 “xWing” 推理服務(wù)器 GPU 系統(tǒng)板的樣子:
這種設(shè)計(jì)每個(gè) “天蝎座” 交換機(jī)連接兩個(gè) GPU,并且在板的左側(cè)有一個(gè)網(wǎng)卡插槽。
沒有一款 MGX 推理服務(wù)器設(shè)計(jì)能夠?qū)碛袛?shù)萬億參數(shù)的生成式人工智能(GenAI)模型進(jìn)行推理。但對(duì)于許多人工智能推理工作負(fù)載來說,它們的規(guī)模恰到好處。
原文:
https://www.nextplatform.com/2025/03/27/future-proofing-inference-servers-with-pci-express-switches/
關(guān)鍵詞: PCI-Express 交換機(jī) 服務(wù)器
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章