重磅!英偉達開放 NVLink
2025-05-23 12:55:09 EETOPNvidia 成為 AI 革命硬件巨頭的原因眾多,除了眾所周知得CUDA護城河,NVLink 內存共享端口無疑也是其中之一。早在 2016 年,該端口就開始在其 Pascal P100 GPU 加速器上推出。如今,在該領域耕耘近十年后,隨著 UALink 聯盟準備與 Nvidia(常被稱為 Big Green)合作,為數據中心計算引擎提供內存一致性互連,Nvidia 決定開放對 NVLink 協議以及驅動該協議的物理傳輸(PHY)的訪問。
由此產生的知識產權包名為 NVLink Fusion,這意味著那些定制 CPU 或加速器的公司可以獲得 NVLink 端口設計以及其上內存原子協議的許可,從而實現一種類似于 CPU 幾十年來所具備的 NUMA 內存共享模式。
當然,從技術層面而言,任何技術都可以進行授權,這不過是一個討價還價的過程。例如,只要向 Intel 開出足夠高額的支票,或者在法庭上以反壟斷為由起訴他們,就有可能獲得 X86 指令集的許可。事實上,AMD 就曾起訴 Intel,以獲取使用其技術并克隆 X86 指令集的權利,之后雙方簽訂了交叉許可協議,才結束了法律紛爭。雖然起訴 Nvidia 并非行業的理想選擇,但如果 Nvidia 在 UALink 及其知識產權問題上過于刁難,毫無疑問,行業內各方會聯合起來應對。畢竟,業內人士(這里指全球 IT 領域的相關人員)都認同,Nvidia 需要面臨一定競爭,才能促使 AI 基礎設施價格降低。
不過,降低價格并非 Nvidia 的職責所在。Nvidia 理應在當下盡可能獲取更多收入和利潤,這是企業的正常經營策略。就像 IBM、Microsoft 和 Intel 等公司都曾有過類似階段。例如,Nvidia 在 2020 - 2022 年試圖以 400 億美元收購 Arm,這在當時看來就是一種資金的大規模投入行為。雖然該交易最終未達成,Nvidia 還向軟銀支付了 12.5 億美元以取消因反壟斷監管機構反對而無法推進的交易,但這或許也讓 Nvidia 汲取了經驗教訓。倘若 Arm 交易成功,按照 Nvidia 聯合創始人兼首席執行官黃仁勛最初的設想,NVLink 及其相關的 NVSwitch 知識產權可能會通過 Arm 的知識產權體系,以合理價格向所有人開放使用。
在 Arm 交易告吹后,我們在 2022 年初就提醒過 Nvidia,即便無法通過收購 Arm 獲得某些技術,它仍可通過與 Arm 更緊密合作,或者通過自身的知識產權許可來實現類似目標。或許 Nvidia 已經與超大規模企業和云構建商展開了相關談判,這些企業有意自行設計 CPU 和 AI 加速器,并交由臺積電進行制造。
實際上,已有一家 CPU 制造商與 Nvidia 達成了此類許可協議,那就是 IBM。IBM 與 Nvidia 合作,利用 NVLink 9 端口打造了將其 Power9 處理器與 Nvidia 的 “Volta” V100 GPU 加速器相結合的百億億次級系統。在此過程中,技術實現并不復雜。IBM 開發了自己的 “BlueLink” OpenCAPI PHY 以及運行其上的 NUMA 協議,用于在共享內存 NUMA 設置中連接 Power9 處理器。在此基礎上添加 NVLink 協議,并非難事。正因如此,IBM 成為了橡樹嶺國家實驗室的 “Summit” 超級計算機和勞倫斯利弗莫爾國家實驗室的 “Sierra” 超級計算機的主要承包商,而 Nvidia 也在其中提供了大量支持。
然而,IBM 和 Nvidia 未能就如何在這兩個美國能源部實驗室的百萬兆次級系統上進一步合作達成一致,并且 IBM 并未在 Power10 芯片上支持 NVLink 3.0 端口,盡管從技術角度而言這是可行的,而且在經濟層面或許也更為有利。也正因為此,AMD 抓住機遇,贏得了相關交易,獲得了振興其數據中心 GPU 業務的契機(以往 AMD 在該領域表現平平,但如今情況已有所不同)。
當然,Nvidia 的 “Grace” CG100 Arm 服務器處理器配備了 NVLink 鏈接。這些鏈接經過聚合處理,在 CPU 與 “Hopper” H100 和 H200 GPU 加速器,或 “Blackwell” B100、B200 和 B300 GPU 加速器之間,為每個端口帶來了 600 GB / 秒的聚合帶寬。
NVLink 的鏈路具備靈活特性:每個鏈路包含兩個通道用于雙向流量,可通過多個鏈路構建物理端口;通道的速度因信號上 PAM - 4 調制的生成和使用情況而異,具體如下:
NVLink 1.0:通道運行速度為 20 Gb / 秒,每個鏈路有 8 個通道,每個鏈路的雙向帶寬為 40 GB / 秒。每個 Pascal P100 加速器配備四個鏈路,Nvidia 借此在 GPU 之間以及具有實驗性 NVLink 1.0 端口的 Power8 CPU 之間提供了 160 GB / 秒的帶寬。
NVLink 2.0:通道運行速度提升至 25 Gb / 秒(與 IBM 的 BlueLink 速度相同),每個鏈路依舊為 8 個通道,每個鏈路的雙向帶寬達到 50 GB / 秒。V100 GPU 總共設有 6 個鏈路,可在設備之間提供 300 GB / 秒的帶寬。
NVLink 3.0:在 NVlink SerDes 中引入 PAM - 4 調制,通道帶寬翻倍,但每個鏈路的通道數量減半至 4 個,使得每個鏈路的雙向帶寬仍維持在 50 GB / 秒。“Ampere” A100 GPU 擁有十二個 NVLink 3.0 端口,總帶寬為 600 GB / 秒(這也是 Grace CPU 的帶寬配置)。
NVLink 4:信號傳輸速率進一步提高到 100 Gb / 秒(基于原生 50 Gb / 秒并添加 PAM - 4 編碼),每個鏈路有 2 個通道,每個鏈路的雙向信號傳輸速率同樣為 50 GB / 秒。Hopper 和 Blackwell 芯片各自擁有 18 個鏈路(Blackwell 芯片組的情況也是如此),從而為每個 Hopper 或 Blackwell GPU 小芯片提供 900 GB/s 的雙向帶寬(Blackwell 套接字包含兩個小芯片,可獲得 1.8 TB / 秒的 NVLink 4.0 帶寬)。
UALink:如我們在 4 月份所闡述的,UALink 能夠整合更多通道和鏈路,以增加加速器和 CPU 的進出帶寬。UALink 的通道運行速度為 200 Gb / 秒(原生 100 Gb / 秒信令加上 PAM - 4 編碼),每個鏈路包含 4 個通道,可實現 800 Gb / 秒的鏈路速度,即每個鏈路的雙向速度達到 1,600 Gb / 秒。將四個這樣的鏈路整合,可創建一個運行速度為 800 GB / 秒的 UALink 端口,這與 NVLink 4 為 Hopper 和 Blackwell 提供的每個端口 900 GB / 秒的速度已較為接近。
通過 NVLink Fusion,Nvidia 并非完全開放 NVLink 和 NVSwitch,也無意營造一個完全自由競爭的環境(無論從何種角度理解),并非任何制造 CPU 或加速器的企業都能隨意將 NVLink 內存技術應用到自身設備上。
NVLink Fusion 有兩個已獲批的應用場景:
場景一:將 NVLink 端口添加到定制 CPU,例如超大規模提供商和云構建商為自身設計的 CPU 端口。這一應用場景基于這樣的假設,即這些超大規模提供商和云構建商將利用 NVLink 把 Nvidia GPU 加速器連接到他們自主研發的加速器上。從硬件架構圖來看,硬件堆棧包括 Spectrum - X 交換設備以及 BlueField 或 ConnectX 網絡接口卡,這些設備連接到 CPU,并與東西向和南北向網絡相連。其中,Nvidia GPU 通過 NVSwitch 交叉耦合,并由 Nvidia 的 Mission Control 系統控制軟件進行管理。目前尚不確定將 NVLink 添加到定制 CPU 芯片時是否需要所有這些組件,但我們暫且假定是需要的。
場景二:利用 Nvidia 當前的 Grace CG100 Arm 處理器,或未來的 “Vera” CV100 CPU 以及 NVLink C2C die - to - die 互連技術,連接到具備 NVLink Fusion 端口的定制加速器。同樣,前端的 Spectrum - X 和 BlueField/Connect - X 網絡,以及后端的 NVSwitch 和 Mission Control 網絡都圍繞該應用場景構建。與上述情況類似,目前也不確定將 NVLink 端口添加到定制加速器時是否必須采用這種方式。
無論哪種應用場景,都可以在定制 CPU 和定制加速器上使用 NVLink 端口,既可以通過 NVSwitch 互連,也可以像超級芯片那樣直接連接,還可以在多對多配置(包含兩個、四個或八個加速器)中使用。目前主要就是上述兩種應用選項。
Nvidia 與 Cadence Design Systems 和 Synopsis 作為技術合作伙伴,協助客戶將 NVLink 端口設計集成到他們的 CPU 或加速器中。Alchip、Astera Labs、Marvell 和 MediaTek 等公司具備定制設計能力,能夠將 NVLink Fusion 端口添加到相關設備中。富士通和高通已簽署協議,計劃將 NVLink Fusion 端口應用于其數據中心 CPU 設計。高通也有涉足 AI 加速器領域的意向,并且可能也會為這些設備添加 NVLink 端口,但顯然,他們需要將設備與 Nvidia 的 Grace 或 Vera CPU 相連接才能實現這一目標。