99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

谷歌發布第七代TPU!

2025-04-10 12:07:53 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

4月9日,在谷歌云 Next 25 大會上,谷歌推出了第七代張量處理單元(TPU)Ironwood。這是谷歌迄今為止性能最強、擴展性最佳的定制化人工智能加速器,也是首款專門為推理設計的 TPU。十多年來,TPU 一直為谷歌要求最嚴苛的人工智能訓練和服務工作負載提供支持,也助力谷歌的云服務客戶實現了同樣的目標。

Ironwood 的推出標志著人工智能及其基礎設施的發展出現了重大轉變。這是從能夠為人們提供實時信息以供解讀的響應式人工智能模型,向能夠主動生成見解和解讀的模型的轉變。這就是我們所說的 “推理時代”,在這個時代,人工智能智能體將主動檢索和生成數據,以協作的方式提供見解和答案,而不僅僅是數據。

Ironwood 的設計初衷是為了滿足生成式人工智能下一階段的發展需求,以及其巨大的計算和通信要求。它可擴展至 9216 個液冷芯片,這些芯片通過突破性的芯片間互連(ICI)網絡連接,功耗接近 10 MW。Ironwood 是谷歌云人工智能超級計算機架構的多個新組件之一,該架構將硬件和軟件進行了優化組合,以應對要求最嚴苛的人工智能工作負載。借助 Ironwood,開發人員還可以利用谷歌自研的 Pathways 軟件棧,可靠且輕松地整合數萬個 Ironwood TPU 的計算能力。

接下來,讓我們深入了解這些創新是如何協同工作的,從而以無與倫比的性能、成本效益和能效,應對要求最嚴苛的訓練和服務工作負載。

2.jpg

Ironwood 助力推理時代

Ironwood 旨在出色地處理 “思維模型” 復雜的計算和通信需求,這些模型包括大語言模型(LLM)、專家混合模型(MoE)以及高級推理任務。這些模型需要大規模并行處理和高效的內存訪問。特別是,Ironwood 的設計旨在在進行大規模張量操作時,最大限度地減少芯片上的數據移動和延遲。在前沿領域,思維模型的計算需求遠遠超出了任何單個芯片的處理能力。谷歌為 Ironwood TPU 設計了低延遲、高帶寬的 ICI 網絡,以在全 TPU 集群規模下支持協調、同步的通信。

對于谷歌云的客戶,Ironwood 根據人工智能工作負載的需求提供兩種規格:256 芯片配置和 9216 芯片配置。

當每個集群可擴展到 9216 個芯片,總計算能力達到 42.5 exaflops 時,Ironwood 的計算能力是世界上最大的超級計算機 El Capitan的 24 倍多,后者每個集群的計算能力僅為 1.7 exaflops。Ironwood 提供了處理要求最嚴苛的人工智能工作負載所需的大規模并行處理能力,例如超大型密集型大語言模型或具備思維能力的專家混合模型的訓練和推理。每個芯片的峰值計算能力達到 4614 TFLOPs,這標志著人工智能能力的巨大飛躍。Ironwood 的內存和網絡架構確保在如此大規模的計算下,始終能獲取合適的數據以支持其峰值性能。

Ironwood還配備了增強型的SparseCore,這是一種專為處理超大型嵌入而設計的加速器,這種嵌入在高級排序和推薦工作負載中很常見。Ironwood 中擴展的SparseCore支持使得更多類型的工作負載能夠被加速,包括超越傳統AI領域,延伸到金融和科學領域。

Pathways 是谷歌 DeepMind 開發的一種自有的機器學習運行框架,能夠在多個 TPU 芯片上實現高效的分布式計算。在谷歌云上使用 Pathways 可以輕松突破單個 Ironwood 集群的限制,能夠將數十萬個 Ironwood 芯片組合在一起,迅速推動生成式人工智能計算的發展。
下圖,顯示了 TPU 性能的逐步提升

5GlITjj4Larw/640?wx_fmt=png&from=appmsg" class="rich_pages wxw-img" data-ratio="0.56125" data-s="300,640" data-type="png" data-w="800" type="block" data-imgfileid="503567233" data-original-style="null" data-index="3" src="http://www.xebio.com.cn/uploadfile/2025/0410/20250410120907644.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-report-img-idx="2" data-fail="0" style="-webkit-tap-highlight-color: transparent;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;visibility: visible !important;width: 677px !important"/>

圖 1. 相對于谷歌首款面向外部云服務的 TPU——TPU v2,總 FP8 峰值浮點運算性能的提升情況。

圖片

圖2. 云TPU產品3D環面版本的技術規格并排比較,包括最新一代Ironwood。FP8峰值TFlops在v4和v5p中是模擬的,但在Ironwood中是原生支持的。

Ironwood 的主要特點

谷歌云是唯一一家擁有超過十年人工智能計算服務經驗的超大規模云服務提供商,這些服務支持前沿研究,并無縫集成到為數十億用戶提供服務的諸如 Gmail、谷歌搜索等全球級服務中。所有這些專業技術都是 Ironwood強大能力的核心所在。其關鍵特性包括:

在顯著提升性能的同時注重能效,使人工智能工作負載能夠以更具成本效益的方式運行。Ironwood的性能功耗比是谷歌去年推出的第六代 TPU Trillium的兩倍。在可用功率成為提供人工智能能力的限制因素之一的當下,谷歌為客戶的工作負載提供了每瓦更高的計算能力。谷歌先進的液冷解決方案和優化的芯片設計,即使在持續繁重的人工智能工作負載下,也能可靠地維持高達標準風冷兩倍的性能。事實上,Ironwood的能效比谷歌 2018 年推出的首款云 TPU 高出近 30 倍。

大幅增加了高帶寬內存(HBM)容量。Ironwood每個芯片提供 192GB 的內存,是Trillium的 6 倍,這使得它能夠處理更大的模型和數據集,減少了頻繁數據傳輸的需求,進而提升了性能。

顯著提升了 HBM 帶寬,每個芯片達到 7.2 TBps,是Trillium的 4.5 倍。如此高的帶寬確保了快速的數據訪問,這對于現代人工智能中常見的內存密集型工作負載至關重要。

增強了芯片間互連(ICI)帶寬。雙向帶寬已提升至 1.2 Tbps,是Trillium的 1.5 倍,實現了芯片之間更快的通信,有助于大規模高效地進行分布式訓練和推理。

圖片

圖 3. 相對于最早一代云 TPU v2,谷歌 TPU 能效的提升情況。以每個芯片封裝的熱設計功耗每瓦所提供的峰值 FP8 浮點運算次數來衡量。

Ironwood 滿足未來的人工智能需求

Ironwood 在推理時代實現了獨特的突破,它提升了計算能力、內存容量,在 ICI 網絡方面取得了進展,并且增強了可靠性。這些突破,再加上能效提升近兩倍,意味著我們要求最嚴苛的客戶能夠以最高的性能和最低的延遲處理訓練和服務工作負載,同時滿足計算需求的指數級增長。如今,像 Gemini 2.5 這樣的領先思維模型以及獲得諾貝爾獎的 AlphaFold 都在 TPU 上運行。我們迫不及待地想看到,今年晚些時候 Ironwood 正式推出后,谷歌的開發人員和谷歌云的客戶會在人工智能領域取得怎樣的突破。


關鍵詞: 谷歌 TPU

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 国产黄色一级毛片| 色黄啪啪18周岁以下禁止观看| 精品无码久久久久国产| 久久久国产成人精品| 亚洲色图欧洲色图| 小明永久2015xxx免费看视频| 皮皮在线精品亚洲| 免费一级a毛片在线| 国产女主播在线| 国产激情自拍| 深夜欧美福利视频在线观看| 国产女女视屏免费| 欧美不卡一区二区三区免| 亚洲国内| 在线观看激情偷拍视频| 国产97色在线 | 免费| 看片地址| 清纯唯美亚洲综合一区| 国产免费观看视频| 美日韩黄色大片| 天天影视综合网色综合国产| 一区二区三区免费在线| yy6080久久国产伦理| 久久夜色精品国产亚洲| 日韩精品视频免费网址| 亚洲图色视频| 成人三级在线播放线观看| 免费中文字幕在线| 欧美午夜a级限制福利片| 国产亚洲一区二区三区| 国产香蕉91tv永久在线| 国产精品看片| 美国毛片毛片全部免费| 久久精品成人| 欧美精品在线观看| 青青草国产成人久久91网| 亚洲aav| 亚洲欧美一区二区三区在饯| 68日本xxxxxxx18| 91高清免费国产自产拍2021| www.网站黄网站|