芯片巨頭AI爭霸戰!
2023-04-13 12:12:38 EETOP人工智能專家和行業高管,包括埃隆-馬斯克,最近發布了一封公開信,要求在六個月內停止比OpenAI最近的GPT-4更強大的AI開發。但引領像 ChatGPT這樣的創新的爭奪人工智能霸主地位的硬件公司沒有顯示出放緩的跡象。
業界最大的一些硬件計算公司,包括英偉達、高通和谷歌,最近都在媒體上宣稱擁有頂級的設備性能。
上一代谷歌的 TPU 為服務器機房提供動力
在本文中,我們將審視其中的一些最新公告,以評估他們的聲明并更好地了解 AI 硬件行業的競爭格局。
高通在能效方面名列前茅
本周,高通宣布其最新提交的 MLPerf v3.0 是能效類別中的領先者。
高通的 Cloud AI 100。圖片由高通提供
該公司對其 Qualcomm Cloud AI 100 進行了多項測試,其中引入了 PCIe Lite 加速器。據高通公司稱,Cloud AI 100設計為可配置 35-55 W 熱設計功率 (TDP),專為低功耗和高性能而設計。
高通實現了每秒 430 K+ 推理的 ResNet-50 離線峰值性能,超越了其之前在所有類別中的峰值離線性能、能效和延遲的記錄。提交的文件還聲稱實現了241個推理/秒/瓦的功耗效率。高通公司聲稱,通過軟件優化實現了這些改進,如改進AI編譯器、DCVS算法和內存使用。
谷歌宣稱自己是超級計算領域的領導者
谷歌本周也發布了自己的重大聲明:該公司聲稱其谷歌Cloud TPU v4為大規模機器學習提供了行業領先的效率。
張量處理單元 (TPU) v4 是谷歌的第五代特定領域架構 (DSA,domain-specific architecture) 和第三個專為訓練大規模機器學習模型而設計的超級計算機。在最近發表給 ISCA 的一篇論文中,谷歌工程師更詳細地描述了 TPU v4 系統。TPU v4 的三大特性包括其光路開關、對嵌入 DLRM(深度學習推薦模型)的硬件支持以及對 all-to-all 通信模式的支持。
TPU v4 pod(1/8部分)。圖片由 谷歌云提供
在高層次上,TPU v4提供了百億億次級的機器學習性能,有4,096個芯片,通過一個可重新配置的光路開關(OCS)進行互連。OCS的工作是動態地重新配置互連拓撲結構,以提高規模、可用性、利用率、功率和性能。這使得它更容易繞過故障部件,并通過動態改變超級計算機互連的拓撲結構來提高性能。其結果是加速了ML模型的性能。每個TPU v4還包括SparseCores,即數據流處理器,可加速依賴嵌入的模型。
在性能方面,TPU v4 在每個芯片的基礎上比 TPU v3 高出 2.1 倍,同時性能功耗比也提高了 2.7 倍,平均功耗為 200 W。百億億次級
NVIDIA 目前仍然領先
盡管高通和谷歌最近推出了 AI 基準測試,但 NVIDIA 仍然占據可操作 AI 硬件的最高市場份額。事實上,路透社最近報道稱,NVIDIA 占據了圖形處理單元(GPU) 市場 80% 的份額——這些芯片為 OpenAI 的 ChatGPT 聊天機器人提供了計算能力。AMD 在市場份額控制方面緊隨 NVIDIA(約 20%),使其成為 GPU 市場的第二大玩家。
雖然所有主要的軟件工作室目前都在使用 NVIDIA 的 A100 處理器,但谷歌聲稱其最新一代 TPU比 A100 更快、更節能——聲稱最受歡迎的選項并不總是等同于性能最佳的選項。
與 A100 GPU 相比,谷歌報告的 MLPerf 訓練 2.0 的 BERT(上)和 ResNet(下)性能。圖片由arXiv提供