"殺死"GPU!集成2.6萬億晶體管、世界最大芯片再破紀錄:前所未有的200億個參數,最大自然語言處理模型誕生!
2022-06-23 12:57:58
EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
集成2.6萬億晶體管、一張晶圓只做一顆芯片,世界上最大的芯片CS-2 Wafer Scale Engine背后的公司Cerebras剛剛宣布了一個里程碑:在單一設備中訓練了世界上最大的NLP(自然語言處理)AI模型。雖然這本身可能意味著許多事情(例如,如果以前最大的模型是在智能手表中訓練的,那么它就不會有太多的記錄可以打破),但Cerebras訓練的AI模型上升到了驚人的、前所未有的200億個參數!所有這些都無需跨多個加速器擴展工作負載。這足以滿足互聯網最新的網絡大熱,即從文本中創建圖像的OpenAI的120億個參數的DALL-E的神經網絡(,該網絡可以根據文本說明為可以用自然語言表達的各種概念創建圖像)。Cerebras 成就中最重要的一點是基礎設施和軟件復雜性要求的降低。誠然,單個 CS-2 系統本身就類似于超級計算機。Wafer Scale Engine-2——顧名思義,蝕刻在單個300mm 7 nm 晶圓上,通常足以容納數百個主流芯片——具有驚人的 2.6 萬億個 7 nm 晶體管、850,000 個內核和 40 GB 集成緩存在一個消耗大約 15kW 的封裝中。

在單個芯片中保留多達 200 億個參數的 NLP 模型顯著降低了數千個 GPU 的訓練成本(以及相關的硬件和擴展要求),同時消除了在它們之間劃分模型的技術困難。Cerebras說這是“NLP 工作負載中最痛苦的方面之一”,有時“需要幾個月才能完成”。這是一個定制的問題,不僅對每個正在處理的神經網絡、每個 GPU 的規格以及將它們聯系在一起的網絡都是獨一無二的——在第一次訓練開始之前必須提前解決這些元素。而且它不能跨系統移植。

Cerebras 的 CS-2 是一個獨立的超級計算集群,不僅包括 Wafer Scale Engine-2,還包括所有相關的電源、內存和存儲子系統。純粹的數字可能會讓Cerebras 的成就看起來平淡無奇——OpenAI的 GPT-3 是一種 NLP 模型,它可以編寫有時可能會欺騙人類讀者的整篇文章,具有驚人的 1750 億個參數。DeepMind 的 Gopher 于去年年底推出,將這個數字提高到2800 億。Google Brain 的大腦甚至宣布訓練一個超過萬億參數的模型Switch Transformer。“在 NLP 中,更大的模型被證明更準確。但傳統上,只有極少數公司擁有必要的資源和專業知識來完成分解這些大型模型并將它們分散到數百或數千個圖形處理單元的艱苦工作。” Cerebras首席執行官兼聯合創始人 Andrew Feldman 說系統。“因此,只有極少數公司可以訓練大型 NLP 模型——這對于行業的其他人來說太昂貴、太耗時且無法使用。今天,我們很自豪能夠普及GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B,使整個 AI 生態系統能夠在幾分鐘內建立大型模型并在單個 CS-2 上訓練它們。”
RFCSch9ic9C7ZONdOwmPXibUVZPgaZk6gV4Q/640?wx_fmt=png" data-type="png" data-w="970" _width="677px" src="http://www.xebio.com.cn/uploadfile/2022/0623/20220623010339361.jpg" crossorigin="anonymous" alt="圖片" data-fail="0" style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; vertical-align: bottom; height: auto !important; width: 677px !important; visibility: visible !important;"/>然而,就像世界上最好的CPU的時鐘速度一樣,參數的數量只是一個可能的性能指標。最近,在用更少的參數實現更好的結果方面已經做了一些工作——例如,Chinchilla通常僅用 700 億個參數就優于GPT-3 和 Gopher 。目標是更聰明地工作,而不是更努力地工作。因此,Cerebras的成就比乍看起來更重要——即使該公司確實表示其系統有可能支持“數千億甚至數萬億”的模型,研究人員也一定能夠擬合越來越復雜的模型參數。”可用參數數量的爆炸式增長利用了Cerebras 的權重流技術,該技術可以將計算和內存占用量解耦,允許將內存擴展到存儲 AI 工作負載中快速增加的參數數量所需的任何數量。這使得設置時間從幾個月減少到幾分鐘,并且可以輕松地在 GPT-J 和 GPT-Neo 等型號之間切換只需幾次按鍵。“Cerebras 能夠以具有成本效益、易于訪問的方式將大型語言模型帶給大眾,這為人工智能開辟了一個激動人心的新時代。Intersect360 Research 首席研究官 Dan Olds 說:“看到 CS-2 客戶在海量數據集上訓練 GPT-3 和 GPT-J 類模型時所做的新應用和發現將會很有趣。”
關鍵詞:
GPU
Cerebras
最大芯片
NLP
-
EETOP 官方微信
-
創芯大講堂 在線教育
-
半導體創芯網 快訊