英偉達(Nvidia)發布了其 Blackwell B4.1 GPU的第一個 MLPerf 200 結果。結果顯示,Blackwell GPU 的性能是其基于 Hopper 架構的前身 H100 的四倍,凸顯了英偉達作為 AI 硬件領導者的地位。但是,我們需要指出一些注意事項和免責聲明。
根據英偉達的結果,基于Blackwell 的 B200 GPU 在服務器推理測試中在單個 GPU 上提供 10755 個tokens/秒,在離線參考測試中提供 11264 個tokens/秒。從其公開可用的 MLPerf Llama 2 70B 基準測試結果https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference發現基于 4 路 Hopper H100 的機器提供了類似的結果,這證明了英偉達的說法,即單個 Blackwell 處理器比單個 Hopper H100 GPU 快約 3.7 倍至 4 倍。但我們需要剖析這些數字以更好地理解它們。

首先,英偉達的 Blackwell 處理器使用 FP4 精度,因為其第五代 Tensor Core 支持該格式,而基于 Hopper 的 H100 僅支持和使用 FP8。MLPerf 指南允許這些不同的格式,但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番,因此這是第一個需要注意的重要事項。
接下來,英偉達在使用單個 B200 與四個 H100 GPU 方面有些虛偽。擴展從來都不是完美的,因此單個 GPU 往往是每個 GPU 性能的最佳情況。MLPerf 4.1 沒有列出單個 GPU H100 結果,只有一個 B200 結果。然而,單個 H200 達到了 4,488 個tokens/秒,這意味著 B200 在該特定比較中僅快了 2.5 倍。
內存容量和帶寬也是關鍵因素,并且存在很大的代際差異。經過測試的 B200 GPU 配備 180GB HBM3E 內存,H100 SXM 配備 80GB HBM(某些配置高達 96GB),H200 配備 96GB HBM3 和高達 144GB 的 HBM3E。具有 96GB HBM3 的單個 H200 在離線模式下僅達到 3,114 個tokens/秒。
因此,數字格式、GPU 數量、內存容量和配置方面存在潛在差異,這些差異會影響“高達 4 倍”的數字。其中許多差異僅僅是因為 Blackwell B200 是一款具有更新架構的新芯片,而所有這些都影響了其最終性能。
回到配備 141GB HBM3E 內存的英偉達H200,它不僅在以 Llama 2 70B 大型語言模型為特色的生成式 AI 基準測試中也表現出色,而且在數據中心類別的每一項測試中都表現出色。出于顯而易見的原因,在利用 GPU 內存容量的測試中,它的速度明顯快于 H100。
目前,英偉達只公布了其 B200 在 MLPerf 4.1 生成式 AI 基準測試中 Llama 2 70B 模型的性能表現。至于這是因為它仍在進行調優,還是其他原因,我們無法確定,但 MLPerf 4.1 有九個核心測試項目,而現在我們只能猜測 Blackwell B200 如何應對其他測試。