英偉達重磅發布:144核超級Arm CPU及800億晶體管的超級GPU!
2022-03-23 12:01:56 EETOP其中最為引人關注的是最新Hopper架構的H100 GPU系列及144核超級Arm CPU。
先進的小芯片互聯技術
為了便于更好的文章內容,我們先介紹一下英偉達的最新推出的芯片互聯技術NVLink-C2C。
這是一種支持內存一致性的芯片到芯片互連技術。NVLink-C2C 可提供高達 25 倍的能效,比 Nvidia 目前使用的 PCIe 5.0 PHY 的面積效率高 90 倍,支持高達 900 GB/s 或更高的吞吐量。該接口支持 CXL 和 Arm 的 AMBACHI 等行業標準協議,并支持從基于 PCB 的互連到硅中介層和晶圓級實現的各種連接。令人驚訝的是,Nvidia 現在允許其他供應商將該設計用于他們自己的小芯片。此外,Nvidia 宣布將支持新的 UCIe 規范。
NVLink-C2C 現在將覆蓋 Nvidia 的所有芯片,包括 GPU、CPU、SOC、NIC 和 DPU。Nvidia 還表示,它正在開放規范以允許其他公司在其小芯片設計中使用 NVLink。這為客戶提供了使用 UCIe 接口或 NVLink 的選項,盡管 Nvidia 聲稱 NVLink-C2C 已針對比 UCIe 更低的延遲、更高的帶寬和更高的能效進行了優化。
比如英偉達利用NVLink-C2C可將兩個Grace CPU互聯在一起組成144核的超級CPU - Grace CPU Superchip (CPU+CPU)。也可以將單片Grace CPU與Hopper GPU互聯(CPU+GPU),組成Grace Hopper Superchip.
144核超級CPU: Grace CPU Superchip
Grace CPU Superchip是該公司第一款專為數據中心設計的純 CPU 的 Arm 芯片。基于 Neoverse 的架構,支持 Arm v9,并通過Nvidia 新的 NVLink-C2C 互連技術將兩個72核心的Hopper CPU融合在一起(CPU+CPU),提供一致的 900 GB/s 連接,組成144核的Grace CPU Superchip。此外,基于 Arm v9 Neoverse的芯片支持 Arm 的 Scalable VectorExtensions (SVE),這是一種性能提升的 SIMD 指令,其功能類似于 AVX。
兩個 Grace CPU 通過 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進行通信。這種芯片到芯片和芯片到芯片的互連支持低延遲內存一致性,允許連接的設備同時在同一個內存池上工作。Nvidia 使用其 SERDES 和 LINK 設計技術制作接口,重點是能源和面積效率。
Nvidia 聲稱 Grace CPUSuperchip 在 SPEC 基準測試中提供的性能比其自己的 DGX A100 服務器中的兩個上一代 64 核 AMD EPYC 處理器高出 1.5 倍,并且是當今領先服務器芯片的兩倍。
老黃聲稱 Grace CPUSuperchip 將于 2023 年初出貨,將成為市場上最快的處理器,適用于超大規模計算、數據分析和科學計算等廣泛的應用。
鑒于我們對 Arm 路線圖的了解,該芯片基于 N2 Perseus 平臺,這是第一個支持 Arm v9 的平臺。該平臺采用 5nm 設計,支持所有最新的連接技術,如 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0,比 V1 平臺提供高達 40% 的性能。
考慮到 Grace CPU Superchip 的兩個 CPU 和板載內存都消耗 500W 的峰值功率,這很有意義。這與其他領先的 CPU 具有競爭力,例如 AMD 的 EPYC(霄龍),每個芯片的最高功率為 280W(這不包括內存功耗)。
Nvidia 聲稱 Grace CPU 在市場上的效率將是競爭 CPU 的兩倍。每個 CPU 都可以訪問自己的 8片LPDDR5X,因此這兩個芯片仍然會受到近遠內存的標準 NUMA 類趨勢的影響。盡管如此,兩個芯片之間增加的帶寬也應該有助于減少由于競爭減少而導致的延遲,從而實現非常有效的多芯片實現。該設備還配備了 396MB 的片上緩存,但尚不清楚這是用于單個芯片還是兩者兼有。
Grace CPU Superchip 內存子系統提供高達 1TB/s 的帶寬,Nvidia 稱這是 CPU 的首創,是支持 DDR5 內存的其他數據中心處理器的兩倍多。LPDDR5X 共有 16 個封裝,可提供 1TB 容量。此外,Nvidia 指出,Grace 使用了 LPDDR5X 的第一個 ECC 實現。
集成800億晶體管,英偉達發布新一代GPU,臺積電專屬4nm
今天,在其 GPU 技術大會 (GTC) 上,Nvidia 透露了其 Hopper 架構和 Nvidia H100 GPU的詳細信息。
我們知道 Nvidia 致力于下一代 GPU 已經有一段時間了,但現在我們有了一些具體的規格。不要將 Hopper 架構和 H100 GPU 與 Ada 混淆,后者是以消費者為中心的架構,將為未來的 GeForce 卡提供動力。
Nvidia 尚未透露有關 Ada 的任何細節,Hopper H100 將取代 Ampere A100,后者本身取代了 Volta V100。這些都是數據中心部件,并且與來自 AMD 的Instinct MI250/250X和新發布的Instinct MI210等公司的激烈競爭,Nvidia 正在尋求重新奪回 HPC 的領先地位。正如您所期望的那樣,H100 專為超級計算機設計,專注于 AI 功能。與當前的 A100 相比,它包括許多更新和升級,所有設計都達到了新的性能和效率水平。
Hopper 包含 800 億個晶體管(A100 GPU“僅”有 540 億個晶體管)。它是使用定制的 TSMC 4N 工藝制造的——這是為 4nm Nvidia 設計的,這不要與 TSMC 提供的通用 N4 4nm 工藝混淆。
英偉達沒有透露核心數量或時鐘頻率,但確實提供了一些其他細節。H100 支持 Nvidia 的第四代 NVLink 接口,可提供高達 128 GB/s 的帶寬。它還支持不使用 NVLink 的系統的 PCIe 5.0,最高速度為 128 GB/s。更新后的 NVLink 連接提供的帶寬是 A100 的 1.5 倍,而 PCIe 5.0 提供的帶寬是 PCIe 4.0 的兩倍。
H100 還將默認支持 80GB 的 HBM3 內存,帶寬為 3 TB/s,比 A100 的 HBM2E 快 1.5 倍。雖然 A100 有 40GB 和 80GB 兩種型號,后者在生命周期的后期推出,但 H100 和 A100 仍然使用多達六個 HBM 堆棧,顯然禁用了一個堆棧(即使用虛擬堆棧)。
一般來說,H100 的內存和接口帶寬比其前代產品多 50%??梢钥隙?,這是一個很好的改進,但 Hopper 的其他方面涉及更大的增長。H100 可提供高達 2,000 TFLOPS 的 FP16 計算和 1,000 TFLOPS 的 TF32 計算,以及 60 TFLOPS 的通用 FP64 計算——在所有三種情況下,這都是 A100 性能的三倍。Hopper 還增加了改進的 FP8 支持,計算能力高達 4,000 TFLOPS,比 A100 快六倍(由于缺乏原生 FP8 支持,它不得不依賴 FP16)。為了幫助優化性能,Nvidia 還擁有一個新的轉換器引擎,它將根據工作負載在 FP8 和 FP16 格式之間自動切換。
Nvidia 還將添加旨在加速動態編程的新 DPX 指令。這些可以幫助廣泛的算法,包括路線優化和基因組學,Nvidia 聲稱這些算法的性能比其上一代 GPU 快 7 倍,比基于 CPU 的算法快 40 倍。Hopper 還包括提高安全性的更改,多實例 GPU (MIG) 現在允許在單個 H100 GPU 上運行七個安全租戶。所有這些變化對于英偉達的超級計算和人工智能目標都很重要。然而,這些變化并非都是好的。盡管轉向較小的制造節點,但 SXM 變體的 H100 TDP 已增加到 700W,而 A100 SXM 模塊的 TDP 為 400W。這增加了 75% 的功率,改進范圍似乎在 50% 到 500% 之間,具體取決于工作負載。
總的來說,我們預計性能將比英偉達 A100 快兩到三倍,因此效率仍應有凈提升,但這進一步證明了摩爾定律正在放緩。總體而言,英偉達聲稱 H100 的擴展性優于 A100,并且可以在 AI 訓練中提供高達 9 倍的吞吐量。使用 Megatron 530B 吞吐量作為基準,它還提供了 16 到 30 倍的推理性能。最后,在 3D FFT(快速傅立葉變換)和基因組測序等 HPC 應用程序中,Nvidia 表示 H100 比 A100 快 7 倍。
Nvidia DGX H100、Superpods 和 Eos 超級計算機
當然,Nvidia H100 GPU 只是故事的一部分。與 A100 一樣,Hopper 最初將作為新的 DGX H100 機架式服務器提供。每個 DGX H100 系統包含 8 個 H100 GPU,可提供高達 32 PFLOPS 的 AI 計算和 0.5 PFLOPS 的 FP64,以及 640GB 的 HBM3 內存。DGX H100 alos 具有 3.6 TB/s 的二等分帶寬。
使用多臺 DGX H100 服務器,Nvidia 可以擴展到具有 32 個 DGX H100 系統的 DGX SuperPod,并與更新的 NVLink 交換機系統和 Quantum-2 InfiniBand 網絡連接在一起。因此,單個 H100 SuperPod 具有 256 個 H100 GPU、20TB 的 HBM3 內存和高達 1 ExaFLOPS 的 AI 計算潛力。它還提供 70.4 TB/s 的帶寬。
自然,超級計算機可以使用多個 SuperPod 構建,Nvidia 宣布了其新的 Eos 超級計算機,該超級計算機緊隨 Selene 的腳步。Eos 將由 18 個 H100 SuperPods、576 個 DGX H100 系統和 360 個 NVLink 交換機構建而成,它將提供 275 PFLOPS 的 FP64 計算。更重要的是,在 Nvidia 專注于 AI 的未來,它將提供 18 EFLOPS 的 FP8 AI 計算,或 9 EFLOPS 的 FP16。
前面提到,通過英偉達最新互聯技術可以將Grace CPU和Hopper GPU互聯融合在一起(CPU+GPU),組成Grace Hopper Superchips。
Grace Hopper Superchip 在一個載板上有兩個不同的芯片,一個 CPU 和一個 GPU。我們現在知道 CPU 有 72 個內核,使用基于 Neoverse 的設計,支持 Arm v9,并與 Hopper GPU 配對。這兩個單元通過 900 GBpsNVLink-C2C 連接進行通信,提供 CPU 和 GPU 之間的內存一致性,從而允許兩個單元同時訪問 LPDDR5X ECC 內存池,據稱帶寬比標準系統提高了 30 倍。
Nvidia 最初沒有公布設計中使用的 LPDDR5X 數量,但在這里我們可以看到該公司現在聲稱擁有“600GB 內存 GPU”,其中肯定包括 LPDDR5X 內存池。我們知道 LPDDR5X 每個封裝的最高容量為 64GB,這意味著 CPU 配備了高達 512GB 的 LPDDR5X。同時,Hopper GPU 通常具有 80GB 的 HBM3 容量,使我們接近 Nvidia 的 600GB 。讓 GPU 訪問該數量的內存容量可能會對某些工作負載產生變革性影響,尤其是對于經過適當優化的應用程序。