99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

瞄準五大方向持續(xù)攻關,構建AI網(wǎng)絡底座

2024-08-29 22:14:45 Linas Dauksa,是德科技產(chǎn)品營銷經(jīng)理
點擊關注->創(chuàng)芯網(wǎng)公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

如果企業(yè)擁有數(shù)據(jù)中心,需要關注的是人工智能AI)技術可能很快就會部署到數(shù)據(jù)中心。無論AI系統(tǒng)是一個聊天機器人,還是橫跨多個系統(tǒng)的自動化流程,亦或是對大型數(shù)據(jù)集的有效分析,這項新技術都有望加速和改善許多企業(yè)的業(yè)務模式。然而,AI的概念也可能會令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關AI網(wǎng)絡如何工作以及該技術面臨的獨特挑戰(zhàn)等五個方面的基本問題。  

GPU相當于AI計算機的“大腦”

簡單來說,AI計算機的大腦就是圖形處理器GPU)。過去,人們可能聽說過中央處理器CPU)是計算機的大腦。GPU 的優(yōu)勢在于,它是一個擅長進行數(shù)學計算的 CPU。當創(chuàng)建AI計算機或深度學習模型時,需要對其進行 “訓練”,這就要求對可能包含數(shù)十億個參數(shù)的數(shù)學矩陣方程進行求解。進行此種數(shù)學運算的最快方法是讓多組 GPU 在相同的工作負載上運行,即便如此,訓練AI模型也可能需要數(shù)周甚至數(shù)月的時間。AI模型創(chuàng)建后,會被遷移到前端計算機系統(tǒng),用戶可以向模型提問,這就是所謂的推理。

AI計算機集眾多GPU于一身

用于處理AI工作負載的最佳架構是在一個機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架,按照網(wǎng)絡層次結構連接所有 GPU。隨著所要解決的問題的復雜性增加,對 GPU 的需求也就越大,有些將要部署的解決方案可能會包含數(shù)千個 GPU 集群。這不難讓人聯(lián)想到數(shù)據(jù)中心里一排又一排密密麻麻的服務器機架,這種場景非常常見。

AI集群是一個小型網(wǎng)絡

在構建AI集群時,有必要將更多GPU連接起來,這樣它們才能協(xié)同工作。而GPU之間的連接可以通過創(chuàng)建微型計算機網(wǎng)絡的方式來實現(xiàn),讓GPUGPU之間能夠互相發(fā)送和接收數(shù)據(jù)。

圖片9.png 

1AI集群

1展示了一個AI集群,其中最下方的圓圈代表了GPU在執(zhí)行任務時的工作流程。將許多GPU連接到了機架頂部(ToR)的交換機。ToR 交換機還連接到了上圖頂部的骨干網(wǎng)絡中使用的交換機,這張圖充分描繪了需要集成眾多GPU時所采用的清晰網(wǎng)絡層次結構。

AI部署的瓶頸在于網(wǎng)絡

去年秋天,在OCP(開放計算項目)全球峰會上,與會者重點討論了新一代AI基礎設施。其中,來自邁威爾科技的Loi Nguyen充分闡述了由此出現(xiàn)的一個關鍵問題:網(wǎng)絡已經(jīng)成為新的瓶頸。

GPU在解決數(shù)學問題或者處理工作負載方面非常有效。這些系統(tǒng)完成任務的最快方法是讓所有 GPU并行計算、協(xié)同工作來處理相同的工作負載。要做到這一點,GPU需要獲取它們即將處理的信息,并且它們彼此之間可以互相進行通信。如果其中一個GPU沒有得到它所需的信息,或者需要更長的時間來輸出結果,那么所有其他GPU都必須等待,直到能夠一致協(xié)作來完成任務。

從技術角度來講,擁堵的網(wǎng)絡造成的數(shù)據(jù)包延遲或者數(shù)據(jù)包丟失可能會導致系統(tǒng)需要反復重新傳輸數(shù)據(jù)包,并顯著延長完成任務所需的時間。這意味著,可能會有價值數(shù)百萬或數(shù)千萬美元的 GPU閑置,從而影響最終的結果,當然也可能會影響希望通過利用AI技術獲得商機的企業(yè)的上市時間。

測試是成功運行AI網(wǎng)絡的關鍵

為了高效運行AI集群,用戶需要確保GPU得到充分利用,這樣才能較早地完成學習模型的訓練,并將其投入使用,實現(xiàn)投資回報最大化。這就需要對AI集群(圖2)的性能進行測試和基準測試。然而,這并不是一件輕而易舉的事兒,因為GPU和網(wǎng)絡架構之間有著千絲萬縷的聯(lián)系和諸多設置,它們需要在架構上實現(xiàn)互補,以滿足處理工作負載的需要。

 圖片10.png

2AI數(shù)據(jù)中心測試平臺及如何測試AI數(shù)據(jù)中心集群

這給AI網(wǎng)絡帶來了諸多挑戰(zhàn):

考慮到成本、設備的可用性、熟練的網(wǎng)絡 AI 工程師的時間、空間、功率和熱量等因素的限制,很難在實驗室中復刻完整的工作網(wǎng)絡。

在工作系統(tǒng)上執(zhí)行測試會降低工作系統(tǒng)可用的處理能力。

由于工作負載的類型以及數(shù)據(jù)集的規(guī)模大小和范圍可能大不相同,因此所要研究的問題也會難以重現(xiàn)。

深入洞察GPU之間的集體通信也頗具挑戰(zhàn)性。

應對上述挑戰(zhàn)的方法之一是,首先在實驗室環(huán)境中對所提出的設置的一個子集執(zhí)行測試,以便對JCT、整個AI集群所能達到的帶寬等關鍵參數(shù)進行基準測試,同時將這些參數(shù)與Fabric容量利用率以及內存緩沖區(qū)消耗情況進行比較。這種基準測試有助于找到GPU/工作負載的分布與網(wǎng)絡設計/設置之間的平衡點。當計算架構和網(wǎng)絡工程師對結果比較滿意時,他們就能夠將這些設置應用到執(zhí)行任務的工作系統(tǒng)中并且衡量新的結果是否理想。

小結

為了充分釋放AI的潛能,需要優(yōu)化AI網(wǎng)絡的設備和基礎架構。企業(yè)的研究實驗室和學術機構致力于對構建和運行高效AI網(wǎng)絡所涉及的各個層面進行分析,以解決在大型網(wǎng)絡上執(zhí)行任務所面臨的挑戰(zhàn)。尤其是在當前行業(yè)最佳實踐正不斷發(fā)生變化的情況下,形勢更是如此。只有采用這種可以反復驗證、高度協(xié)作的方法,業(yè)界才能實現(xiàn)可重復的測試,并靈活地嘗試各種“假設 ”場景,這是優(yōu)化AI網(wǎng)絡的基礎。

關于作者

圖片8.png

Linas Dauksa是德科技產(chǎn)品營銷經(jīng)理


關鍵詞: 瞄準 大方向 持續(xù)

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導體創(chuàng)芯網(wǎng) 快訊

全部評論

主站蜘蛛池模板: 欧美激情视频网址| 日韩高清一区二区| 私啪影院| 久久免费播放视频| 丰满大乳女啪啪中文字幕| 黄片毛片在线看| 国产在线视频在线| 免费一级毛片不卡不收费| 亚洲人成网站观看在线播放| 天天拍夜夜添久久精品中文| 91精品福利老司机在线观看| 午夜久久免影院欧洲| 九九精品视频在线观看九九| 91国在线啪精品一区| 国产精品亚洲专区一区| 欧美草| 亚洲视频影院| 久久久国产99久久国产一| 亚洲视频综合| 久久视频在线| 精品福利国产| 国产在视频线精品视频| 伊人这里只有精品| 日本在线网站| 亚洲专区视频| 久久99精品九九九久久婷婷| 精品国产高清a毛片无毒不卡| 国产高清在线精品一区二区| 免费亚洲一区| 日本欧美成人免费观看| 在线看片网站| 久久美| 黄色在线观看免费| 欧美综合激情网| 毛片无限看| 91久久综合| 久久中文字幕久久久久91| 福利一区二区三区视频在线观看| 国产成人yy免费视频| 在线观看亚洲精品国产| 九七在线视频|