內(nèi)核數(shù)量比全球第一E級超算多1.6倍!世界最大芯片打造最強AI超級計算機!
2022-11-18 12:45:10 EETOP該公司正試圖消除通用計算平臺的常見挑戰(zhàn),例如在分布式GPI集群上實施培訓(xùn)所需的額外開銷。有些分布式系統(tǒng)的3D配置對工程師來說很復(fù)雜的。
Cerebras 最近發(fā)布了其Andromeda超級計算機,包括一個 AI 應(yīng)用特定的硬件架構(gòu),可以在多個 GPT 語言模型上提供線性擴展訓(xùn)練;簡而言之,訓(xùn)練時間隨著所涉及的計算核心數(shù)量的增加而線性減少。這與計算單元與訓(xùn)練時間之間具有亞線性關(guān)系的通用 GPU 集群不同。
Cerebras 聲稱,由于內(nèi)存和帶寬限制,類似的工作不可能在 2,000 個NVIDIA A100 GPU 的集群上進(jìn)行。
Andromeda 建立在 Cerebras 的 CS-2 系統(tǒng)之上,包括總共1350萬個 AI 優(yōu)化計算核心和18,178 個第三代 AMD EPYC 處理器。
該超級計算機還采用晶圓級集群和權(quán)重流,由 Cerebras 的 MemoryX 和 SwarmX 技術(shù)提供支持。Andromeda 產(chǎn)生 1 exaflop 的 AI 計算和 120 petaflops 的密集計算,具有 16 位半精度。
Andromeda 擁有 16 個 CS-2 系統(tǒng),每個系統(tǒng)都配備了 Cerebras 的Wafer-Scale Engine 2 (WSE-2) 處理器——一個 46,225 mm 2處理器和 2.6萬億個 7nm 晶體管。據(jù)報道,WSE-2 是“地球上最大的處理器”。配套的軟件平臺集成了 PyTorch 和TensorFlow,開箱即用。
以下是 CS-2 的其他一些規(guī)格:
晶圓級集群通過在單個處理器中安裝包括計算組件和參數(shù)組件的整個神經(jīng)網(wǎng)絡(luò)來充分利用 WSE-2 的大小。晶圓級集群還利用了數(shù)據(jù)并行性。分配簇數(shù)就像設(shè)置參數(shù)一樣簡單明了。
這消除了在分布式系統(tǒng)上計劃和配置訓(xùn)練模型的需要,這可能是復(fù)雜、緩慢且耗電的。此外,由于 AI 計算是在單個設(shè)備上完成的,因此訓(xùn)練速度更快。
權(quán)重流
Cerebras 的MemoryX 和 StreamX 技術(shù)支持權(quán)重流。MemoryX 管理片外模型權(quán)重的存儲,包括將權(quán)重流式傳輸回處理器模型、計算更新的權(quán)重以及計時交付。MemoryX 可以支持 2000 億到 120 萬億個參數(shù),并聲稱速度與片上一樣快。
SwarmX 是存在于 MemoryX 和 CS-2 系統(tǒng)之間的另一種支持技術(shù)。它將權(quán)重分配給 CS-2 系統(tǒng)并將生成的梯度提供回 MemoryX。這兩種技術(shù)共同實現(xiàn)了訓(xùn)練過程中的重量流。
Cerebras 已為多家研發(fā)和學(xué)術(shù)機構(gòu)提供了 Andromeda 的各種應(yīng)用訪問權(quán)限。
阿貢國家實驗室使用 GPT3-XL 模型和整個 COVID-19 基因組,利用 Andromeda 開發(fā)了基因轉(zhuǎn)換器。與此同時,JasperAI 正在使用Andromeda 訓(xùn)練模型,這些模型將用于為廣告、營銷和書籍等書面材料撰寫文案。
Andromeda 托管在加利福尼亞州的 Colovore 數(shù)據(jù)中心,Cerebras現(xiàn)在可以訪問更多潛在客戶。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章