绝色狂妃仙魅小说,女人书籍排行榜,小说排行榜

CUDA零成本遷移！摩爾線程推出首個全國產千卡千億模型訓練平臺

2023-12-20 11:56:43 EETOP

點擊關注->創(chuàng)芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

摩爾線程官微12月19日發(fā)布消息，摩爾線程首個全國產千卡千億模型訓練平臺——摩爾線程KUAE智算中心揭幕儀式在北京成功舉辦，宣告國內首個以國產全功能GPU為底座的大規(guī)模算力集群正式落地。與此同時，摩爾線程聯(lián)合國內眾多合作伙伴發(fā)起并成立了“摩爾線程PES - KUAE智算聯(lián)盟”和“摩爾線程PES - 大模型生態(tài)聯(lián)盟”，共同夯實從智算基礎設施到大模型訓練與推理的國產大模型一體化生態(tài)，持續(xù)為我國大模型產業(yè)發(fā)展加速。

摩爾線程大模型智算加速卡MTT S4000，采用第三代MUSA內核，單卡支持48GB顯存和768GB/s的顯存帶寬。基于摩爾線程自研MTLink1.0技術，MTT S4000可以支持多卡互聯(lián)，助力千億大模型的分布式計算加速。同時，MTT S4000提供先進的圖形渲染能力、視頻編解碼能力和超高清8K HDR顯示能力，助力AI計算、圖形渲染、多媒體等綜合應用場景的落地。尤為重要的是，借助摩爾線程自研MUSIFY開發(fā)工具，MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài)，實現(xiàn)CUDA代碼零成本遷移到MUSA平臺。

分布式并行計算是實現(xiàn)AI大模型訓練的關鍵手段。摩爾線程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業(yè)界主流分布式框架，并融合了多種并行算法策略，包括數(shù)據(jù)并行、張量并行、流水線并行和ZeRO，且針對高效通信計算并行和Flash Attention做了額外優(yōu)化。

目前，摩爾線程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。基于摩爾線程KUAE千卡集群，70B到130B參數(shù)的大模型訓練，線性加速比均可達到91%，算力利用率基本保持不變。以2000億訓練數(shù)據(jù)量為例，智源研究院700億參數(shù)Aquila2可在33天完成訓練；1300億參數(shù)規(guī)模的模型可在56天完成訓練。此外，摩爾線程KUAE千卡集群支持長時間連續(xù)穩(wěn)定運行，支持斷點續(xù)訓，異步Checkpoint少于2分鐘。