世界最快E級超算僅使用 8% 的 GPU 快速完成萬億參數大模型訓練
2024-01-08 12:12:44 EETOP橡樹嶺國家實驗室的研究人員在Frontier 超級計算機上訓練了一個 ChatGPT 大小的大型語言模型 (LLM),只需要其 37,888 個GPU 中的 3,072 個即可完成。該團隊發表了一篇研究論文,詳細介紹了它如何完成這一壯舉以及在此過程中面臨的挑戰。
然而,該團隊僅使用 3,072 個GPU 來訓練具有 1 萬億個參數的 LLM,并使用1,024 個 GPU 來訓練另一個具有1,750 億個參數的 LLM。
該論文指出,訓練如此大的LLM的關鍵挑戰是所需的內存量,至少為14 TB。這意味著需要使用多個具有 64GB VRAM 的MI250X GPU,但這帶來了一個新問題:并行性。在 LLM 上投入更多GPU 需要越來越好的通信才能有效地使用更多資源。否則,大部分或全部額外的 GPU 馬力將被浪費掉。
這篇研究論文深入探討了這些計算機工程師是如何做到的,他們迭代了Megatron-DeepSpeed 和 FSDP 等框架,以便培訓計劃在Frontier 上以最佳方式運行。最終,結果令人印象深刻——弱擴展效率為100%,這基本上意味著隨著工作負載大小的增加,更多的 GPU 被盡可能高效地使用。
同時,1750億參數 LLM 的強擴展效率略低,為89%,1 萬億參數 LLM 為87%。根據 Amdahl 定律,強擴展是指在不改變工作負載大小的情況下增加處理器數量,這往往是更高核心數量變得不那么有用的地方。考慮到他們使用了多少GPU,即使是 87% 也是一個不錯的結果。
然而,該團隊指出,在 Frontier 上實現這種效率存在一些問題,并指出“需要做更多的工作來探索AMD GPU 上的高效訓練性能,而 ROCm 平臺很少。正如該論文所說,這種規模的大多數機器學習都是在英偉達的CUDA軟硬件生態系統中完成的,相比之下,AMD和英特爾的解決方案還不夠發達。當然,這樣的努力將促進這些生態系統的發展。
盡管如此,世界上最快的超級計算機仍然是 Frontier,它擁有全 AMD 硬件。排在第二位的是Aurora,其純英特爾硬件,包括GPU,盡管目前只有一半用于基準測試提交。Nvidia GPU 為第三快的超級計算機 Eagle 提供動力。如果AMD和英特爾想要以這種方式保持排名,兩家公司將需要趕上英偉達的軟件解決方案。