史上最大芯片正式推出世界最快AI計算機:1/30體積、1/5功耗、3倍性能!谷歌TPU在它面前就是渣
2019-11-20 15:17:50 EETOP
開發這種芯片是一項極其復雜的任務,但在一個合理的系統中,為所有計算出足夠電力(更不用說足夠的冷卻能力了)的芯片提供電源則完全是另一回事。Cerebras已經實現了這一壯舉,今天該公司宣布推出世界上最快的深度學習計算系統 Cerebras CS-1 。并且公布了系統內部的詳細設計圖。
該系統高度為15U,大約為26英寸,因此三個系統可以裝在一個機架中??紤]到性能,這是一個非常緊湊的封裝:它包含了1,000個GPU的集群,50千瓦的功率,以匹配一個CS-1系統的性能,這是因為單個Cerebras芯片的內核數量是單個GPU的78倍以上,內存是3,000倍,內存帶寬是10,000倍,此外它還具有33000倍的帶寬(PB/s)。
(圖片來源:Cerebras)
一套谷歌TPUv3 Pod功耗為100KW,但只有1/3的單個CS-1系統性能。總體而言,單個CS-1的功耗僅為其1/5,尺寸僅為其1/30,但比整個TPU POD快了三倍。
相比之下,單個Cerebras CS-1消耗20kW,其中4kW的功率專用于冷卻子系統,例如風扇,泵和熱交換器。該系統為芯片提供15kW的功率,而剩下的1kW因電源損耗。
系統左上角有十二個100GbE連接。這些系統將與執行傳統形式的計算的大型超級計算機協同工作。然后,由超級計算機處理的數據將流入CS-1進行其他AI處理,從而利用兩種類型的計算的優勢來滿足不同的工作負載。該系統還可以通過網絡結構擴展到多個節點,這意味著CS-1系統可以在更大的組中工作。Cerebras測試了“非常大”的集群,然后可以在數據并行模式的模型并行中將其作為單個同構系統進行管理,但尚未發布官方的可伸縮性指標。
整個Cerebras CS-1由定制組件組成。系統通過十二個電源連接從后部獲取電源。然后將其從54V降低至0.8V,然后把它送到芯片上。電源通過主板(而不是圍繞主板),然后進入處理器,不同的區域有不同數量的內核,每個內核接收自己的電源。晶圓級芯片由許多管芯(單元裸片)和管芯網絡結構捆綁在一起組成,功率傳遞比管芯/標線片閃存更為精細。這確保了整個晶片上一致的功率傳輸,并且還最小化了片上功率分配平面。
這是一個三明治式設計,具有電源子系統,母板,芯片和冷卻板作為一個組件安裝(左)。冷板從歧管向右接收冷卻水,然后將冷水輸送到冷卻板表面上的幾個單獨區域。然后,再次從確保一致散熱的小區域抽取熱水,將其抽到設備底部的熱交換器。該交換器由EMI格柵組成,并由采用空氣矯直機的強力風扇冷卻??傮w而言,該芯片的運行溫度為標準GPU的一半,從而提高了可靠性。
所有單個單元(例如6 + 6電源,熱泵,風扇和熱交換器)都是冗余的,并且可熱交換,以最大程度地減少停機時間和故障。
該芯片是在臺積電的16納米工藝上制造的,由于其成熟度和產品發布的時間安排,該公司選擇了該芯片。Cerebras尚未指定主頻速度,但告訴我們該芯片的運行時鐘不是非常“激進”的(該公司定義為2.5GHz至3GHz的范圍)。該公司將在不久的將來提供詳細信息。
Cerebras尚未指定該產品的定價,據悉將會是幾百萬美元。在面向公眾的方面,阿貢國家實驗室正在將第一套系統用于癌癥研究和基礎科學,例如研究黑洞。Cerebras已經建立了一個軟件生態系統,該部門可以接受標準的PyTorch和TensorFlow代碼,這些代碼可以通過該公司的軟件工具和API輕松修改。該公司還允許客戶指令級訪問芯片,這與GPU供應商不同。