99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

阿里云采用以太網取代英偉達NVlink,實現1.5萬個GPU互連!

2024-06-30 10:44:18 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

阿里云資深技術專家,網絡研究團隊負責人翟恩南通過GitHub分享了他的研究論文,揭示了阿里云服務提供商為其數據中心設計的用于大型語言模型(LLM)訓練的架構。這份PDF文檔題為《Alibaba HPN: A Data Center Network for Large Language Model Training》,詳細介紹了阿里巴巴如何使用以太網使其15,000GPU之間實現相互通信。

image.png


一般的云計算產生的都是穩定但較小的數據流,速度低于10 Gbps。而LLM訓練則會周期性地產生高達400 Gbps的數據突發流量。根據該論文,這種LLM訓練的特點使得傳統數據中心常用的負載均衡方案——等價多路徑(ECMP)容易出現哈希極化問題,導致流量分配不均等問題。

為避免這種情況,翟恩南和他的團隊開發了高性能網絡(HPN),采用了“2級雙平面架構”,減少了可能出現ECMP問題的次數,同時讓系統“能夠精確選擇能夠承載大流量的網絡路徑”。HPN還使用了ToR(Top of Rack))交換機,使它們能夠相互備份。這些交換機是LLM訓練中最常見的單點故障,需要GPU同步完成迭代。

每個主機 8 個 GPU,每個數據中心 1,875 個主機

阿里云將其數據中心劃分為主機,每個主機配備八個GPU。每個GPU都有其網絡接口卡(NIC),配備兩個端口,每個GPU-NIC系統稱為通道(rail)。主機還配備一個額外的NIC以連接到后端網絡。每個通道分別連接到兩個不同的ToR交換機,確保即使一個交換機故障也不會影響整個主機。

盡管放棄了用于主機間通信的NVlink,阿里云仍然在主機內網絡中使用了Nvidia的專有技術,因為主機內GPU之間的通信需要更大的帶寬。然而,由于通道之間的通信速度較慢,每歌主機提供的“專用400 Gbps RDMA網絡吞吐量,總帶寬達到3.2 Tbps”,足以最大化PCIe Gen5x16顯卡的帶寬。

阿里云還使用了一款51.2 Tb/sec的以太網單芯片ToR交換機,因為多芯片解決方案比單芯片交換機不穩定,故障率高四倍。然而,這些交換機運行時發熱量大,市面上沒有合適的散熱器能防止它們因過熱而關閉。因此,阿里自創了一種新的解決方案,即創建一個以更多支柱為中心的均熱板散熱器,以更有效地傳輸熱能。

翟恩南和他的團隊將在今年8月于澳大利亞悉尼舉行的SIGCOMM(數據通信特別興趣小組)會議上展示他們的工作。包括AMD、Intel、Google和Microsoft在內的多家公司都對這個項目感興趣,主要原因是這些公司聯手創建了Ultra Accelerator Link——一種旨在與NVlink競爭的開放標準互連集成系統。尤其是阿里云已經使用HPN超過八個月,這意味著該技術已經經過了實際驗證。

然而,HPN仍存在一些缺點,最大的缺點是其復雜的布線結構。每個主機有九個NIC,每個NIC連接到兩個不同的ToR交換機,這增加了插孔和端口混淆的可能性。盡管如此,這項技術據稱比NVlink更經濟,從而使任何建立數據中心的機構都能在設置成本上節省大量資金(甚至可能使其避免使用Nvidia技術,特別是在中美芯片戰中受到制裁的公司)。

圖片


關鍵詞: 阿里云 NVlink GPU

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 久久亚洲一级α片| 国产中文欧美| 在线观看一区二区三区四区| 日韩手机在线视频| 成人h免费观看视频| 欧美精品亚洲精品日韩一区| 看黄免费在线| 69男女囗交动态图视频| 国产一二三区四区乱码2021| 欧洲精品在线视频| 亚洲欧美一区二区三区二厂| 一级特黄特色的免费大片视频| 日韩在线 在线播放| 亚洲精品亚洲人成在线| 免费看一级视频| 国内精品视频在线播放| 国产视频一区二区在线观看| 黄色录像一级片| 992tv快乐视频在线啪啪免费| 精品久久久影院| 免费观看欧美成人1314色| 亚洲国产日韩在线观看| 91在线视频在线| 一级毛片a| 久久1024| 久草资源免费| 日韩在线精品| 手机国产精品一区二区| 亚洲精品一区二区三区国产 | 免费大片黄在线现看国语| 国产一级高清视频| 国产精品久久99| 鸥美黄色片| 俄罗斯女人与公拘i交酡| 黄色毛片国产| 黄频免费影院| 爽的毛片| 黄色片一级视频| 黄色片一级黄色片| 爱爱视频免费网站| 探花视频|