特斯拉D1 AI芯片細節盤點:500億晶體管、400W熱設計功耗
2021-08-23 09:23:46 快科技
它集成了四個64位超標量CPU核心,擁有多達354個訓練節點,特別用于8×8乘法,支持FP32、BFP64、CFP8、INT16、INT8等各種數據指令格式,都是AI訓練相關的。
特斯拉稱,D1芯片的FP32單精度浮點計算性能達22.6TFlops(每秒22.6萬億次),BF16/CFP8計算性能則可達362TFlops(每秒362萬億次)。
為了支撐AI訓練的擴展性,它的互連帶寬非常驚人,最高可達10TB/s,由多達576個通道組成,每個通道的帶寬都有112Gbps。
而實現這一切,熱設計功耗僅為400W。
特斯拉D1芯片可通過DIP(Dojo接口處理器)進行互連,25顆組成一個訓練單元(Training Tile),而且多個訓練單元可以繼續互連,單個對外帶寬高達36TB/s,每個方向都是9TB/s。
如此龐然大物,耗電量和發熱都是相當可怕的,電流達18000A,覆蓋一個長方體散熱方案,散熱能力高達15kW。
特斯拉展示了實驗室內部的一個訓練單元,運行頻率2GHz,計算性能最高9PFlops(每秒9千萬億次)。
特斯拉還用D1芯片,打造了一臺AI超級計算機“ExaPOD”,配備120個訓練單元、3000顆D1芯片、1062000個訓練節點,FP16/CFP8訓練性能峰值1.1EFlops(每秒110億億次計算)。
建成后,它將是世界上最快的AI超算,對比特斯拉現在基于NVIDIA方案的超算,成本差不多,但擁有4倍的性能、1.3倍的能效比、1/5的體積。
免責聲明:本文由作者原創。文章內容系作者個人觀點,轉載目的在于傳遞更多信息,并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時聯系我們,我們將在第一時間刪除!