穿越小说完本,好看的历史书籍推荐,玄幻小说改编的电视剧

世界最快E級超算僅使用 8% 的 GPU 快速完成萬億參數大模型訓練

2024-01-08 12:12:44 EETOP

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

美國橡樹嶺國家實驗室的Frontier是全球第一臺達到百億億次級(E級)超級計算機。也是目前全球最快的超級計算機。Frontier 超級計算機配備了9,472 個 Epyc 7A53 CPU 和37,888 個 Radeon Instinct 37,888 個GPU。

橡樹嶺國家實驗室的研究人員在Frontier 超級計算機上訓練了一個 ChatGPT 大小的大型語言模型（LLM），只需要其 37,888 個GPU 中的 3,072 個即可完成。該團隊發表了一篇研究論文，詳細介紹了它如何完成這一壯舉以及在此過程中面臨的挑戰。

然而，該團隊僅使用 3,072 個GPU 來訓練具有 1 萬億個參數的 LLM，并使用1,024 個 GPU 來訓練另一個具有1,750 億個參數的 LLM。

該論文指出，訓練如此大的LLM的關鍵挑戰是所需的內存量，至少為14 TB。這意味著需要使用多個具有 64GB VRAM 的MI250X GPU，但這帶來了一個新問題：并行性。在 LLM 上投入更多GPU 需要越來越好的通信才能有效地使用更多資源。否則，大部分或全部額外的 GPU 馬力將被浪費掉。

這篇研究論文深入探討了這些計算機工程師是如何做到的，他們迭代了Megatron-DeepSpeed 和 FSDP 等框架，以便培訓計劃在Frontier 上以最佳方式運行。最終，結果令人印象深刻——弱擴展效率為100%，這基本上意味著隨著工作負載大小的增加，更多的 GPU 被盡可能高效地使用。

同時，1750億參數 LLM 的強擴展效率略低，為89%，1 萬億參數 LLM 為87%。根據 Amdahl 定律，強擴展是指在不改變工作負載大小的情況下增加處理器數量，這往往是更高核心數量變得不那么有用的地方。考慮到他們使用了多少GPU，即使是 87% 也是一個不錯的結果。

然而，該團隊指出，在 Frontier 上實現這種效率存在一些問題，并指出“需要做更多的工作來探索AMD GPU 上的高效訓練性能，而 ROCm 平臺很少。正如該論文所說，這種規模的大多數機器學習都是在英偉達的CUDA軟硬件生態系統中完成的，相比之下，AMD和英特爾的解決方案還不夠發達。當然，這樣的努力將促進這些生態系統的發展。

盡管如此，世界上最快的超級計算機仍然是 Frontier，它擁有全 AMD 硬件。排在第二位的是Aurora，其純英特爾硬件，包括GPU，盡管目前只有一半用于基準測試提交。Nvidia GPU 為第三快的超級計算機 Eagle 提供動力。如果AMD和英特爾想要以這種方式保持排名，兩家公司將需要趕上英偉達的軟件解決方案。

關鍵詞： Frontier E級超算 LLM