"殺死"GPU!集成2.6萬億晶體管、世界最大芯片再破紀(jì)錄:前所未有的200億個參數(shù),最大自然語言處理模型誕生!
2022-06-23 12:57:58
EETOP
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
集成2.6萬億晶體管、一張晶圓只做一顆芯片,世界上最大的芯片CS-2 Wafer Scale Engine背后的公司Cerebras剛剛宣布了一個里程碑:在單一設(shè)備中訓(xùn)練了世界上最大的NLP(自然語言處理)AI模型。雖然這本身可能意味著許多事情(例如,如果以前最大的模型是在智能手表中訓(xùn)練的,那么它就不會有太多的記錄可以打破),但Cerebras訓(xùn)練的AI模型上升到了驚人的、前所未有的200億個參數(shù)!所有這些都無需跨多個加速器擴(kuò)展工作負(fù)載。這足以滿足互聯(lián)網(wǎng)最新的網(wǎng)絡(luò)大熱,即從文本中創(chuàng)建圖像的OpenAI的120億個參數(shù)的DALL-E的神經(jīng)網(wǎng)絡(luò)(,該網(wǎng)絡(luò)可以根據(jù)文本說明為可以用自然語言表達(dá)的各種概念創(chuàng)建圖像)。Cerebras 成就中最重要的一點(diǎn)是基礎(chǔ)設(shè)施和軟件復(fù)雜性要求的降低。誠然,單個 CS-2 系統(tǒng)本身就類似于超級計算機(jī)。Wafer Scale Engine-2——顧名思義,蝕刻在單個300mm 7 nm 晶圓上,通常足以容納數(shù)百個主流芯片——具有驚人的 2.6 萬億個 7 nm 晶體管、850,000 個內(nèi)核和 40 GB 集成緩存在一個消耗大約 15kW 的封裝中。

在單個芯片中保留多達(dá) 200 億個參數(shù)的 NLP 模型顯著降低了數(shù)千個 GPU 的訓(xùn)練成本(以及相關(guān)的硬件和擴(kuò)展要求),同時消除了在它們之間劃分模型的技術(shù)困難。Cerebras說這是“NLP 工作負(fù)載中最痛苦的方面之一”,有時“需要幾個月才能完成”。這是一個定制的問題,不僅對每個正在處理的神經(jīng)網(wǎng)絡(luò)、每個 GPU 的規(guī)格以及將它們聯(lián)系在一起的網(wǎng)絡(luò)都是獨(dú)一無二的——在第一次訓(xùn)練開始之前必須提前解決這些元素。而且它不能跨系統(tǒng)移植。

Cerebras 的 CS-2 是一個獨(dú)立的超級計算集群,不僅包括 Wafer Scale Engine-2,還包括所有相關(guān)的電源、內(nèi)存和存儲子系統(tǒng)。純粹的數(shù)字可能會讓Cerebras 的成就看起來平淡無奇——OpenAI的 GPT-3 是一種 NLP 模型,它可以編寫有時可能會欺騙人類讀者的整篇文章,具有驚人的 1750 億個參數(shù)。DeepMind 的 Gopher 于去年年底推出,將這個數(shù)字提高到2800 億。Google Brain 的大腦甚至宣布訓(xùn)練一個超過萬億參數(shù)的模型Switch Transformer。“在 NLP 中,更大的模型被證明更準(zhǔn)確。但傳統(tǒng)上,只有極少數(shù)公司擁有必要的資源和專業(yè)知識來完成分解這些大型模型并將它們分散到數(shù)百或數(shù)千個圖形處理單元的艱苦工作?!?Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 說系統(tǒng)。“因此,只有極少數(shù)公司可以訓(xùn)練大型 NLP 模型——這對于行業(yè)的其他人來說太昂貴、太耗時且無法使用。今天,我們很自豪能夠普及GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B,使整個 AI 生態(tài)系統(tǒng)能夠在幾分鐘內(nèi)建立大型模型并在單個 CS-2 上訓(xùn)練它們。”
RFCSch9ic9C7ZONdOwmPXibUVZPgaZk6gV4Q/640?wx_fmt=png" data-type="png" data-w="970" _width="677px" src="http://www.xebio.com.cn/uploadfile/2022/0623/20220623010339361.jpg" crossorigin="anonymous" alt="圖片" data-fail="0" style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; vertical-align: bottom; height: auto !important; width: 677px !important; visibility: visible !important;"/>然而,就像世界上最好的CPU的時鐘速度一樣,參數(shù)的數(shù)量只是一個可能的性能指標(biāo)。最近,在用更少的參數(shù)實現(xiàn)更好的結(jié)果方面已經(jīng)做了一些工作——例如,Chinchilla通常僅用 700 億個參數(shù)就優(yōu)于GPT-3 和 Gopher 。目標(biāo)是更聰明地工作,而不是更努力地工作。因此,Cerebras的成就比乍看起來更重要——即使該公司確實表示其系統(tǒng)有可能支持“數(shù)千億甚至數(shù)萬億”的模型,研究人員也一定能夠擬合越來越復(fù)雜的模型參數(shù)。”可用參數(shù)數(shù)量的爆炸式增長利用了Cerebras 的權(quán)重流技術(shù),該技術(shù)可以將計算和內(nèi)存占用量解耦,允許將內(nèi)存擴(kuò)展到存儲 AI 工作負(fù)載中快速增加的參數(shù)數(shù)量所需的任何數(shù)量。這使得設(shè)置時間從幾個月減少到幾分鐘,并且可以輕松地在 GPT-J 和 GPT-Neo 等型號之間切換只需幾次按鍵。“Cerebras 能夠以具有成本效益、易于訪問的方式將大型語言模型帶給大眾,這為人工智能開辟了一個激動人心的新時代。Intersect360 Research 首席研究官 Dan Olds 說:“看到 CS-2 客戶在海量數(shù)據(jù)集上訓(xùn)練 GPT-3 和 GPT-J 類模型時所做的新應(yīng)用和發(fā)現(xiàn)將會很有趣?!?/span>
關(guān)鍵詞:
GPU
Cerebras
最大芯片
NLP