99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

世界最快E級超算僅使用 8% 的 GPU 快速完成萬億參數大模型訓練

2024-01-08 12:12:44 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
美國橡樹嶺國家實驗室的Frontier是全球第一臺達到百億億次級(E級)超級計算機。也是目前全球最快的超級計算機。Frontier 超級計算機配備了9,472  Epyc 7A53 CPU 37,888  Radeon Instinct 37,888 GPU

橡樹嶺國家實驗室的研究人員在Frontier 超級計算機上訓練了一個 ChatGPT 大小的大型語言模型 (LLM),只需要其 37,888 個GPU 中的 3,072 個即可完成。該團隊發表了一篇研究論文,詳細介紹了它如何完成這一壯舉以及在此過程中面臨的挑戰。

image.png

然而,該團隊僅使用 3,072 個GPU 來訓練具有 1 萬億個參數的 LLM,并使用1,024 個 GPU 來訓練另一個具有1,750 億個參數的 LLM。

該論文指出,訓練如此大的LLM的關鍵挑戰是所需的內存量,至少為14 TB。這意味著需要使用多個具有 64GB VRAM 的MI250X GPU,但這帶來了一個新問題:并行性。在 LLM 上投入更多GPU 需要越來越好的通信才能有效地使用更多資源。否則,大部分或全部額外的 GPU 馬力將被浪費掉。

這篇研究論文深入探討了這些計算機工程師是如何做到的,他們迭代了Megatron-DeepSpeed 和 FSDP 等框架,以便培訓計劃在Frontier 上以最佳方式運行。最終,結果令人印象深刻——弱擴展效率為100%,這基本上意味著隨著工作負載大小的增加,更多的 GPU 被盡可能高效地使用。

同時,1750億參數 LLM 的強擴展效率略低,為89%,1 萬億參數 LLM 為87%。根據 Amdahl 定律,強擴展是指在不改變工作負載大小的情況下增加處理器數量,這往往是更高核心數量變得不那么有用的地方。考慮到他們使用了多少GPU,即使是 87% 也是一個不錯的結果。

然而,該團隊指出,在 Frontier 上實現這種效率存在一些問題,并指出“需要做更多的工作來探索AMD GPU 上的高效訓練性能,而 ROCm 平臺很少。正如該論文所說,這種規模的大多數機器學習都是在英偉達的CUDA軟硬件生態系統中完成的,相比之下,AMD英特爾的解決方案還不夠發達。當然,這樣的努力將促進這些生態系統的發展。

盡管如此,世界上最快的超級計算機仍然是 Frontier,它擁有全 AMD 硬件。排在第二位的是Aurora,其純英特爾硬件,包括GPU,盡管目前只有一半用于基準測試提交。Nvidia GPU 為第三快的超級計算機 Eagle 提供動力。如果AMD英特爾想要以這種方式保持排名,兩家公司將需要趕上英偉達的軟件解決方案。


關鍵詞: Frontier E級超算 LLM

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 国产麻豆传媒视频| 黄色三级网站免费| 欧美日韩国产另类一区二区三区| 99久在线观看| 日本叼嘿| 在线亚洲黄色| 免费黄色在线网站| 国产成+人+亚洲+欧美综合| 高h猛烈做哭bl壮汉受欧美| 国产aav| 久久精品国产精品亚洲婷婷| 我就色色综合网| 亚洲一区亚洲二区亚洲三区| 一区二区三区视频在线| 日本中文字幕不卡免费视频| 亚洲一级黄色毛片| 成人淫片免费视频95视频| 欧美大片一区| 国产一级αv片免费观看| 国产高清www免费视频| 特级一级毛片| 清纯唯美亚洲综合五月天| www视频在线播放| 国产污视频在线观看| 久久久久久免费观看| 欧美日中文字幕| 日韩在线看片中文字幕不卡| 亚洲精品国产精品乱码不卞| 1024免费观看| 99久久久精品免费观看国产| 九九精品热线免费观看6| 日本一级在线播放线观看视频| 午夜激情福利网| 六月丁香啪啪六月激情| 亚洲免费大全| 亚洲欧美日韩高清在线看| 成人人免费夜夜视频观看| 免费a网址| 极品欧美人体xxxx图片| 青青自拍| 免费在线亚洲|