CUDA零成本遷移!摩爾線程推出首個全國產千卡千億模型訓練平臺
2023-12-20 11:56:43 EETOP摩爾線程大模型智算加速卡MTT S4000,采用第三代MUSA內核,單卡支持48GB顯存和768GB/s的顯存帶寬。基于摩爾線程自研MTLink1.0技術,MTT S4000可以支持多卡互聯(lián),助力千億大模型的分布式計算加速。同時,MTT S4000提供先進的圖形渲染能力、視頻編解碼能力和超高清8K HDR顯示能力,助力AI計算、圖形渲染、多媒體等綜合應用場景的落地。尤為重要的是,借助摩爾線程自研MUSIFY開發(fā)工具,MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實現(xiàn)CUDA代碼零成本遷移到MUSA平臺。
分布式并行計算是實現(xiàn)AI大模型訓練的關鍵手段。摩爾線程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優(yōu)化。
目前,摩爾線程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。基于摩爾線程KUAE千卡集群,70B到130B參數(shù)的大模型訓練,線性加速比均可達到91%,算力利用率基本保持不變。以2000億訓練數(shù)據(jù)量為例,智源研究院700億參數(shù)Aquila2可在33天完成訓練;1300億參數(shù)規(guī)模的模型可在56天完成訓練。此外,摩爾線程KUAE千卡集群支持長時間連續(xù)穩(wěn)定運行,支持斷點續(xù)訓,異步Checkpoint少于2分鐘。
摩爾線程KUAE千卡計算集群憑借高兼容性、高穩(wěn)定性、高擴展性和高算力利用率等綜合優(yōu)勢,將成為大模型訓練堅實可靠的先進基礎設施。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導體創(chuàng)芯網 快訊
相關文章