重磅!華為昇騰384超節點真機首次線下展出!
2025-07-29 08:22:23 EETOP在7月26日-7月29日于上海世博展覽館H1-A301舉辦的WAIC(世界人工智能大會)上,華為首次展出昇騰384超節點,即Atlas 900 A3 SuperPoD,成為備受矚目的“鎮館之寶”,是業界目前最大規模的超節點。
昇騰384超節點打破了以CPU為中心的馮諾依曼架構,創新提出了對等計算架構,還將總線從服務器內部擴展到整機柜、甚至跨機柜,極大地改變了數據傳輸和處理的方式。
昇騰 384 超節點是華為推出的超節點技術,于 2025 年 5 月 23 日正式發布。以下是簡單介紹:
硬件架構
組成結構:由 12 個計算柜和 4 個總線柜構成,實現了業界最大規模的 384 卡高速總線互聯。
技術優勢
超低時延:單跳通信時延從 2 微秒降低到 200 納秒,降低了 10 倍。支持全局內存統一編址,具備更高效的內存語義通信能力,通過更低時延指令級內存語義通信,可滿足大模型訓練 / 推理中的小包通信需求,提升專家網絡小包數據傳輸及離散隨機訪存通信效率,是業界唯一突破 Decode 時延 15ms 的方案,能滿足實時深度思考下的用戶體驗需求。
超強性能:在昇騰超節點集群上,LLaMA 3 等千億稠密模型性能相比傳統集群提升 2.5 倍以上;在通信需求更高的 Qwen、DeepSeek 等多模態、MoE 模型上,性能提升可達 3 倍以上,較業界其他集群高出 1.2 倍,以 “一卡一專家、一卡一算子任務” 的靈活分配、并行推理,將算力有效使用率(MFU)提升 50% 以上。
擴展能力:通過高速網絡交換機組成 384 卡超節點,縱向擴展能力強大;參數面交換機最大支持 16 萬卡集群規模,橫向擴展能力也十分出色。可將 432 個超節點級聯成最高 16 萬卡的超大集群,為未來更大規模的模型演進提供了有力支撐。
存力提升:配合 PB 級虛擬顯存、跨節點 / 集群 DRAM 池等創新設計,KV Cache 傳輸帶寬提升 10 倍,輸出每個 Token 的時延降至 50ms。
應用場景
大模型訓練:為大模型訓練提供了強大的算力支持,如千億參數 MOE 模型等,能有效提升訓練效率,縮短訓練時間。
推理服務:基于大規模專家并行方案,通過多專家負載均衡和極致通信優化,實現高吞吐、高性能的推理服務,如硅基流動在 CloudMatrix 384 昇騰 AI 云服務上部署 DeepSeek-R1,在保證單用戶 20TPS 水平前提下,單卡 Decode 吞吐突破 1920Tokens/s。
多領域應用:已在多個行業得到應用,如新浪基于此讓“智慧小浪” 推理交付效率提升 50%+;中科院基于此自研模型訓練框架,快速構建 AI4S 科研大模型;科大訊飛基于此助力訊飛星火大模型極致推理性能等。