CUDA零成本遷移!摩爾線程推出首個全國產千卡千億模型訓練平臺
2023-12-20 11:56:43 EETOP摩爾線程大模型智算加速卡MTT S4000,采用第三代MUSA內核,單卡支持48GB顯存和768GB/s的顯存帶寬。基于摩爾線程自研MTLink1.0技術,MTT S4000可以支持多卡互聯,助力千億大模型的分布式計算加速。同時,MTT S4000提供先進的圖形渲染能力、視頻編解碼能力和超高清8K HDR顯示能力,助力AI計算、圖形渲染、多媒體等綜合應用場景的落地。尤為重要的是,借助摩爾線程自研MUSIFY開發工具,MTT S4000計算卡可以充分利用現有CUDA軟件生態,實現CUDA代碼零成本遷移到MUSA平臺。
分布式并行計算是實現AI大模型訓練的關鍵手段。摩爾線程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架,并融合了多種并行算法策略,包括數據并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優化。
目前,摩爾線程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。基于摩爾線程KUAE千卡集群,70B到130B參數的大模型訓練,線性加速比均可達到91%,算力利用率基本保持不變。以2000億訓練數據量為例,智源研究院700億參數Aquila2可在33天完成訓練;1300億參數規模的模型可在56天完成訓練。此外,摩爾線程KUAE千卡集群支持長時間連續穩定運行,支持斷點續訓,異步Checkpoint少于2分鐘。
摩爾線程KUAE千卡計算集群憑借高兼容性、高穩定性、高擴展性和高算力利用率等綜合優勢,將成為大模型訓練堅實可靠的先進基礎設施。