99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

世界最快E級超算僅使用 8% 的 GPU 快速完成萬億參數大模型訓練

2024-01-08 12:12:44 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
美國橡樹嶺國家實驗室的Frontier是全球第一臺達到百億億次級(E級)超級計算機。也是目前全球最快的超級計算機。Frontier 超級計算機配備了9,472  Epyc 7A53 CPU 37,888  Radeon Instinct 37,888 GPU

橡樹嶺國家實驗室的研究人員在Frontier 超級計算機上訓練了一個 ChatGPT 大小的大型語言模型 (LLM),只需要其 37,888 個GPU 中的 3,072 個即可完成。該團隊發表了一篇研究論文,詳細介紹了它如何完成這一壯舉以及在此過程中面臨的挑戰。

image.png

然而,該團隊僅使用 3,072 個GPU 來訓練具有 1 萬億個參數的 LLM,并使用1,024 個 GPU 來訓練另一個具有1,750 億個參數的 LLM。

該論文指出,訓練如此大的LLM的關鍵挑戰是所需的內存量,至少為14 TB。這意味著需要使用多個具有 64GB VRAM 的MI250X GPU,但這帶來了一個新問題:并行性。在 LLM 上投入更多GPU 需要越來越好的通信才能有效地使用更多資源。否則,大部分或全部額外的 GPU 馬力將被浪費掉。

這篇研究論文深入探討了這些計算機工程師是如何做到的,他們迭代了Megatron-DeepSpeed 和 FSDP 等框架,以便培訓計劃在Frontier 上以最佳方式運行。最終,結果令人印象深刻——弱擴展效率為100%,這基本上意味著隨著工作負載大小的增加,更多的 GPU 被盡可能高效地使用。

同時,1750億參數 LLM 的強擴展效率略低,為89%,1 萬億參數 LLM 為87%。根據 Amdahl 定律,強擴展是指在不改變工作負載大小的情況下增加處理器數量,這往往是更高核心數量變得不那么有用的地方。考慮到他們使用了多少GPU,即使是 87% 也是一個不錯的結果。

然而,該團隊指出,在 Frontier 上實現這種效率存在一些問題,并指出“需要做更多的工作來探索AMD GPU 上的高效訓練性能,而 ROCm 平臺很少。正如該論文所說,這種規模的大多數機器學習都是在英偉達的CUDA軟硬件生態系統中完成的,相比之下,AMD英特爾的解決方案還不夠發達。當然,這樣的努力將促進這些生態系統的發展。

盡管如此,世界上最快的超級計算機仍然是 Frontier,它擁有全 AMD 硬件。排在第二位的是Aurora,其純英特爾硬件,包括GPU,盡管目前只有一半用于基準測試提交。Nvidia GPU 為第三快的超級計算機 Eagle 提供動力。如果AMD英特爾想要以這種方式保持排名,兩家公司將需要趕上英偉達的軟件解決方案。


關鍵詞: Frontier E級超算 LLM

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 欧美做爰xxxⅹ在线视频hd| 久久久久国产精品美女毛片| 国产区视频| 在线视频精品视频| 小明永久2015www永久免费观看 | 国内精品一区二区| 亚洲视频黄色| a级毛片在线观看| 欧美日韩精品在线观看| 91碰碰视频| 国内精品福利| 日本免费黄视频| 亚洲国产经典| 999久久精品国产| 国产a视频精品免费观看| 午夜a级毛片| 亚洲国产日韩欧美一区二区三区| 国内精品久久久久久久999下| 国产精品嫩草影院在线| 在线观看中文字幕国产| 91视频会员| 成在线人免费视频一区二区三区| 国产在线视频网| 日本亚洲色图| 欧美啊啊| 国产亚洲精品久久yy5099| 中国黄色一级| 欧美日韩国产一区二区三区播放| 韩国19禁青草福利视频在线| 国内精品一区二区三区| 日本一区二区三区有限公司| 91啦中文成人| 国产精品成人嫩妇| 欧美亚洲一区二区三区在线| 一级艳片| 成人午夜免费视频| 成年人啪啪网站| 午夜精品久久久| 国产精品对白交换绿帽视频| 日韩一级欧美一级毛片在| 久久国产美女免费观看精品|