辰东全部小说,大主宰txt全集下载,好看的玄幻小说

重磅！華為昇騰384超節點真機首次線下展出！

2025-07-29 08:22:23 EETOP

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

在7月26日-7月29日于上海世博展覽館H1-A301舉辦的WAIC（世界人工智能大會）上，華為首次展出昇騰384超節點，即Atlas 900 A3 SuperPoD，成為備受矚目的“鎮館之寶”，是業界目前最大規模的超節點。

昇騰384超節點打破了以CPU為中心的馮諾依曼架構，創新提出了對等計算架構，還將總線從服務器內部擴展到整機柜、甚至跨機柜，極大地改變了數據傳輸和處理的方式。

昇騰 384 超節點是華為推出的超節點技術，于 2025 年 5 月 23 日正式發布。以下是簡單介紹：

硬件架構

組成結構：由 12 個計算柜和 4 個總線柜構成，實現了業界最大規模的 384 卡高速總線互聯。

互聯方式：創新性地將 384 顆昇騰 NPU 與 192 顆鯤鵬 CPU 通過 MatrixLink 高速網絡全對等互聯，形成單節點 “超級 AI 服務器”。

技術優勢

超大帶寬：超節點內任意兩個 AI 處理器之間通信帶寬相較于傳統架構提升 15 倍，有效解決了傳統服務器跨機帶寬低的問題，使集群內數據傳輸更加高效。

超低時延：單跳通信時延從 2 微秒降低到 200 納秒，降低了 10 倍。支持全局內存統一編址，具備更高效的內存語義通信能力，通過更低時延指令級內存語義通信，可滿足大模型訓練 / 推理中的小包通信需求，提升專家網絡小包數據傳輸及離散隨機訪存通信效率，是業界唯一突破 Decode 時延 15ms 的方案，能滿足實時深度思考下的用戶體驗需求。

超強性能：在昇騰超節點集群上，LLaMA 3 等千億稠密模型性能相比傳統集群提升 2.5 倍以上；在通信需求更高的 Qwen、DeepSeek 等多模態、MoE 模型上，性能提升可達 3 倍以上，較業界其他集群高出 1.2 倍，以 “一卡一專家、一卡一算子任務” 的靈活分配、并行推理，將算力有效使用率（MFU）提升 50% 以上。

擴展能力：通過高速網絡交換機組成 384 卡超節點，縱向擴展能力強大；參數面交換機最大支持 16 萬卡集群規模，橫向擴展能力也十分出色。可將 432 個超節點級聯成最高 16 萬卡的超大集群，為未來更大規模的模型演進提供了有力支撐。

存力提升：配合 PB 級虛擬顯存、跨節點 / 集群 DRAM 池等創新設計，KV Cache 傳輸帶寬提升 10 倍，輸出每個 Token 的時延降至 50ms。