谷歌發布第七代TPU!
2025-04-10 12:07:53 EETOP4月9日,在谷歌云 Next 25 大會上,谷歌推出了第七代張量處理單元(TPU)Ironwood。這是谷歌迄今為止性能最強、擴展性最佳的定制化人工智能加速器,也是首款專門為推理設計的 TPU。十多年來,TPU 一直為谷歌要求最嚴苛的人工智能訓練和服務工作負載提供支持,也助力谷歌的云服務客戶實現了同樣的目標。
Ironwood 的推出標志著人工智能及其基礎設施的發展出現了重大轉變。這是從能夠為人們提供實時信息以供解讀的響應式人工智能模型,向能夠主動生成見解和解讀的模型的轉變。這就是我們所說的 “推理時代”,在這個時代,人工智能智能體將主動檢索和生成數據,以協作的方式提供見解和答案,而不僅僅是數據。
Ironwood 的設計初衷是為了滿足生成式人工智能下一階段的發展需求,以及其巨大的計算和通信要求。它可擴展至 9216 個液冷芯片,這些芯片通過突破性的芯片間互連(ICI)網絡連接,功耗接近 10 MW。Ironwood 是谷歌云人工智能超級計算機架構的多個新組件之一,該架構將硬件和軟件進行了優化組合,以應對要求最嚴苛的人工智能工作負載。借助 Ironwood,開發人員還可以利用谷歌自研的 Pathways 軟件棧,可靠且輕松地整合數萬個 Ironwood TPU 的計算能力。
接下來,讓我們深入了解這些創新是如何協同工作的,從而以無與倫比的性能、成本效益和能效,應對要求最嚴苛的訓練和服務工作負載。
Ironwood 助力推理時代
Ironwood 旨在出色地處理 “思維模型” 復雜的計算和通信需求,這些模型包括大語言模型(LLM)、專家混合模型(MoE)以及高級推理任務。這些模型需要大規模并行處理和高效的內存訪問。特別是,Ironwood 的設計旨在在進行大規模張量操作時,最大限度地減少芯片上的數據移動和延遲。在前沿領域,思維模型的計算需求遠遠超出了任何單個芯片的處理能力。谷歌為 Ironwood TPU 設計了低延遲、高帶寬的 ICI 網絡,以在全 TPU 集群規模下支持協調、同步的通信。
對于谷歌云的客戶,Ironwood 根據人工智能工作負載的需求提供兩種規格:256 芯片配置和 9216 芯片配置。
當每個集群可擴展到 9216 個芯片,總計算能力達到 42.5 exaflops 時,Ironwood 的計算能力是世界上最大的超級計算機 El Capitan的 24 倍多,后者每個集群的計算能力僅為 1.7 exaflops。Ironwood 提供了處理要求最嚴苛的人工智能工作負載所需的大規模并行處理能力,例如超大型密集型大語言模型或具備思維能力的專家混合模型的訓練和推理。每個芯片的峰值計算能力達到 4614 TFLOPs,這標志著人工智能能力的巨大飛躍。Ironwood 的內存和網絡架構確保在如此大規模的計算下,始終能獲取合適的數據以支持其峰值性能。
Ironwood還配備了增強型的SparseCore,這是一種專為處理超大型嵌入而設計的加速器,這種嵌入在高級排序和推薦工作負載中很常見。Ironwood 中擴展的SparseCore支持使得更多類型的工作負載能夠被加速,包括超越傳統AI領域,延伸到金融和科學領域。
Pathways 是谷歌 DeepMind 開發的一種自有的機器學習運行框架,能夠在多個 TPU 芯片上實現高效的分布式計算。在谷歌云上使用 Pathways 可以輕松突破單個 Ironwood 集群的限制,能夠將數十萬個 Ironwood 芯片組合在一起,迅速推動生成式人工智能計算的發展。
下圖,顯示了 TPU 性能的逐步提升
5GlITjj4Larw/640?wx_fmt=png&from=appmsg" class="rich_pages wxw-img" data-ratio="0.56125" data-s="300,640" data-type="png" data-w="800" type="block" data-imgfileid="503567233" data-original-style="null" data-index="3" src="http://www.xebio.com.cn/uploadfile/2025/0410/20250410120907644.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-report-img-idx="2" data-fail="0" style="-webkit-tap-highlight-color: transparent;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;visibility: visible !important;width: 677px !important"/>
圖 1. 相對于谷歌首款面向外部云服務的 TPU——TPU v2,總 FP8 峰值浮點運算性能的提升情況。
圖2. 云TPU產品3D環面版本的技術規格并排比較,包括最新一代Ironwood。FP8峰值TFlops在v4和v5p中是模擬的,但在Ironwood中是原生支持的。
谷歌云是唯一一家擁有超過十年人工智能計算服務經驗的超大規模云服務提供商,這些服務支持前沿研究,并無縫集成到為數十億用戶提供服務的諸如 Gmail、谷歌搜索等全球級服務中。所有這些專業技術都是 Ironwood強大能力的核心所在。其關鍵特性包括:
在顯著提升性能的同時注重能效,使人工智能工作負載能夠以更具成本效益的方式運行。Ironwood的性能功耗比是谷歌去年推出的第六代 TPU Trillium的兩倍。在可用功率成為提供人工智能能力的限制因素之一的當下,谷歌為客戶的工作負載提供了每瓦更高的計算能力。谷歌先進的液冷解決方案和優化的芯片設計,即使在持續繁重的人工智能工作負載下,也能可靠地維持高達標準風冷兩倍的性能。事實上,Ironwood的能效比谷歌 2018 年推出的首款云 TPU 高出近 30 倍。
大幅增加了高帶寬內存(HBM)容量。Ironwood每個芯片提供 192GB 的內存,是Trillium的 6 倍,這使得它能夠處理更大的模型和數據集,減少了頻繁數據傳輸的需求,進而提升了性能。
顯著提升了 HBM 帶寬,每個芯片達到 7.2 TBps,是Trillium的 4.5 倍。如此高的帶寬確保了快速的數據訪問,這對于現代人工智能中常見的內存密集型工作負載至關重要。
增強了芯片間互連(ICI)帶寬。雙向帶寬已提升至 1.2 Tbps,是Trillium的 1.5 倍,實現了芯片之間更快的通信,有助于大規模高效地進行分布式訓練和推理。
圖 3. 相對于最早一代云 TPU v2,谷歌 TPU 能效的提升情況。以每個芯片封裝的熱設計功耗每瓦所提供的峰值 FP8 浮點運算次數來衡量。
Ironwood 滿足未來的人工智能需求
Ironwood 在推理時代實現了獨特的突破,它提升了計算能力、內存容量,在 ICI 網絡方面取得了進展,并且增強了可靠性。這些突破,再加上能效提升近兩倍,意味著我們要求最嚴苛的客戶能夠以最高的性能和最低的延遲處理訓練和服務工作負載,同時滿足計算需求的指數級增長。如今,像 Gemini 2.5 這樣的領先思維模型以及獲得諾貝爾獎的 AlphaFold 都在 TPU 上運行。我們迫不及待地想看到,今年晚些時候 Ironwood 正式推出后,谷歌的開發人員和谷歌云的客戶會在人工智能領域取得怎樣的突破。