99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

生成式AI推理加速的系統挑戰

2023-09-27 12:01:26 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
您深入了解生成式 AI 處理時,系統設計會帶來了很多挑戰接下來讓我們了解效率、功耗和內存問題是如何發揮作用的。

在不到一年的時間里,生成式人工智能通過OpenAI的ChatGPT(一種基于transformers的流行算法)獲得了全球聲譽和使用。基于transformers的算法可以學習對象不同元素(如句子或問題)之間的復雜交互,并將其轉換為類似人類的對話。

在transformers和其他大型語言模型(LLM)的推動下,軟件算法取得了飛速發展,但執行這些算法的處理硬件卻落后了。即使是最先進的算法處理器也不具備必要的性能,無法在一兩秒的時間內完成最新的 ChatGPT 查詢。

為了彌補性能上的不足,領先的半導體公司使用大量最好的硬件處理器構建系統。為此,他們在功耗、帶寬/延遲和成本之間進行了權衡。這種方法適用于算法訓練,但不適用于部署在邊緣設備上的推理。 

功耗挑戰

雖然訓練通常基于 fp32 或 fp64 浮點運算來生成大量數據,但對延遲要求并不嚴格。它的功耗高,成本也高。

推理過程則截然不同。推理通常是在 fp8 算法上進行的,它仍然會產生大量數據,但要求嚴格的延遲、低能耗和低成本。

模型訓練的解決方案來自計算農場。計算農場需要運行數天,使用大量電力,產生大量熱量,購置、安裝、運行和維護費用高昂。更糟糕的是,推理過程會碰壁,阻礙 GenAI 在邊緣設備上的普及。

推理過程則大不相同。推理通常在 fp8 算法上執行,該算法仍會產生大量數據,但需要關鍵延遲、低能耗和低成本。

模型訓練的解決方案來自計算場(computing farm)。需要運行數天,使用大量電力,產生大量熱量,購置、安裝、運行和維護費用高昂。更糟糕的是,推理過程會碰壁,阻礙 GenAI 在邊緣設備上的普及。

邊緣生成式人工智能推理技術現狀

用于 GenAI 推斷的成功硬件加速器必須滿足五個屬性:

  • 處理能力達到 petaflops 級,效率高(超過 50%)

  • 低延遲,在幾秒內提供查詢響應

  • 能耗控制在 50W/Petaflops 或以下

  • 與邊緣應用兼容的經濟實惠的成本

  • 現場可編程,可進行軟件更新或升級,避免在工廠進行硬件改造

現有的大多數硬件加速器都能滿足部分要求,但不能滿足所有要求。古老的 CPU 是最差的選擇,因為它的執行速度無法令人接受;GPU 的速度相當快,但功耗高,延遲不足(因此成為訓練的選擇);FPGA 在性能和延遲方面都有妥協。

完美的設備應該是定制/可編程的片上系統(SoC),設計用于執行基于transformers的算法以及其他類型的算法。它應支持適當的內存容量,以存儲嵌入 LLM 的海量數據,并可編程,以適應現場升級。

實現這一目標有兩個障礙:內存墻和 CMOS 設備的高能耗。

內存墻

半導體發展歷史的早期,人們觀察到處理器性能的進步被內存訪問速度進展緩慢所抵消。

隨著時間的推移,兩者之間的差距繼續分化,迫使處理器等待越來越長的時間讓內存提供數據。結果是處理器效率從完全 100% 利用率下降(圖 1)。

image.png

圖1.處理器性能的進步繼續受到內存高效傳輸數據能力的阻礙。圖片由VSORA提供

為了緩解效率的下降,業界設計了一種多級分層內存結構,在處理器附近采用更快、更昂貴的內存技術,用于多級緩存,從而最大限度地減少主內存較慢甚至較慢的外部內存的流量(圖 2)。

圖片

圖2.靠近處理器的多級分層內存結構包括多級緩存,可最大限度地減少主內存和外部內存較慢的流量。圖片由VSORA提供

CMOS IC的能耗

與直覺相反,CMOS IC的功耗主要是數據移動而不是數據處理。內存訪問的功耗比基于斯坦福大學Mark Horowitz教授領導的一項研究的基本數字邏輯計算消耗的能量高出幾個數量級(表1)。

圖片

表 1.這些表比較了簡單算術運算符與內存訪問的能耗。圖片由斯坦福大學提供

在使用整數運算時,加法器和乘法器的能耗不到 1 皮焦,而在處理浮點運算時,加法器和乘法器的能耗只有幾皮焦。相比之下,在高速緩存中訪問數據所耗費的能量則會躍升一個數量級,達到 20-100 皮焦,而在 DRAM 中訪問數據所耗費的能量則會躍升三個數量級,超過 1000 皮焦。

GenAI加速器是以數據移動為主導的設計的典型例子。

內存墻和能耗對延遲和效率的影響

生成式AI處理中內存墻和能耗的影響正變得難以控制。

在短短幾年內,ChatGPT 的基礎模型 GPT 就從 2019 年的 GPT-2 演進到 2020 年的 GPT-3,再到 2022 年的 GPT-3.5,直至目前的 GPT-4。每一代模型的規模和參數(權重、令牌和狀態)數量都有數量級的增長。

GPT-2 模型包含 15 億個參數,GPT-3 模型包含 1 750 億個參數,而最新的 GPT-4 模型則將參數數量增加到約 1.7 萬億個(官方數字尚未公布)。

這些參數的龐大數量不僅迫使內存容量達到 TB 級,而且在訓練/推理過程中同時高速訪問這些參數也將內存帶寬推高到數百 GB/秒,甚至 TB/秒。更糟糕的是,移動這些參數會消耗大量能源。

昂貴的硬件閑置

內存和處理器之間令人生畏的數據傳輸帶寬和明顯的功耗使處理器效率不堪重負。最近的分析表明,在尖端硬件上運行 GPT-4 的效率下降到 3% 左右。為運行這些算法而設計的昂貴硬件 97% 的時間都處于閑置狀態。

執行效率越低,執行相同任務所需的硬件就越多。例如,假設有兩個供應商可以滿足 1 Petaflops(1000 Teraflops)的需求。供應商(A 和 B)的處理效率不同,分別為 5%和 50%(表 2)。

那么供應商 A 只能提供 50 Teraflops 的有效處理能力,而非理論處理能力。供應商 B 將提供 500 Teraflops 的處理能力。要提供 1 petaflop 的有效計算能力,供應商 A 需要 20 個處理器,而供應商 B 只需要 2 個。

圖片

表 2.具有不同處理效率的兩個處理器供應商需要不同數量的處理器才能滿足1 Petaflops 的可用性能。圖片由VSORA提供

例如,硅谷一家初創公司計劃在其超級計算機數據中心使用 22,000 個 Nvidia H100 GPU。粗略計算,22000 個 H100 GPU 的價格為 8 億美元,這是其最新融資的大部分。這個數字還不包括基礎設施的其他成本、房地產、能源成本以及企業內部硬件總擁有成本(TCO)中的所有其他因素。

系統復雜性對延遲和效率的影響

另一個基于目前最先進的基因人工智能培訓加速器的例子將有助于說明這一關切。這家硅谷初創公司對GPT-4的配置將需要在HGX H100或DGX H100系統上以8組部署22,000個Nvidia H100 GPU,總共需要2,750個系統。

考慮到 GPT-4 包括 96 個解碼器,將它們映射到多個芯片上可能會減輕對延遲的影響。由于 GPT 結構允許順序處理,因此每個芯片分配一個解碼器,總共 96 個芯片,可能是一個合理的設置。

這種配置相當于 12x 個 HGX/DGX H100 系統,不僅會影響單個芯片之間的數據傳輸延遲,還會影響板卡之間和系統之間的數據傳輸延遲。使用增量transformers可以顯著降低處理復雜性,但需要處理和存儲狀態,這反過來又增加了需要處理的數據量。

最重要的是,前面提到的3%的實施效率是不現實的。當加上系統實現的影響以及相關的更長延遲時,實際應用中的實際效率將顯著下降。

從長遠來看,GPT-3.5 所需的數據量遠不及 GPT-4。從商業角度來看,使用類似 GPT-3 的復雜性比 GPT-4 更具吸引力。另一方面,GPT-4 更準確,如果可以解決硬件挑戰,它將成為首選。

最佳成本分析

讓我們把重點放在能夠處理大量查詢的系統的實施成本上,例如類似谷歌的每秒 10 萬次查詢量。

使用當前最先進的硬件,我們可以合理地假設,包括購置成本、系統運營和維護在內的總擁有成本約為 1 萬億美元。據統計,這大約相當于世界第八大經濟體意大利 2021 年國內生產總值(GDP)的一半。

ChatGPT 對每次查詢成本的影響使其具有商業挑戰性。摩根士丹利估計,2022 年谷歌搜索查詢(3.3 萬億次查詢)的每次查詢成本為 0.2 美分,被視為基準。同一分析指出,ChatGPT-3 的每次查詢成本在 3 美分到 14 美分之間,是基準成本的 15-70 倍。

尋找芯片架構解決方案

半導體行業正在狂熱地尋找解決成本/查詢挑戰的方法。雖然所有的嘗試都是受歡迎的,但解決方案必須來自一種新穎的芯片架構,這種架構將打破內存墻并大幅降低功耗。

本文由EETOP編譯自:allaboutcircuits


關鍵詞: 生成式AI OpenAI ChatGPT transformers

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 国产一区二区亚洲精品| 欧美日韩一区二区三区四区| 免费无遮挡十八女禁污污网站 | 青草国产| 高清欧美一区二区免费影视| 视频在线观看一区二区三区| 欧美毛片日韩一级在线| 老司机成人午夜精品福利视频| 一级女性全黄生活片免费| 我我色综合| 国产成人亚洲精品久久| 国产精品久久精品| 色屁屁在线| 久久国内| 婷婷伊人| 国产a∨一区二区三区香蕉小说| 故意坐公交忘穿内裤被挺进小说| 欧美一级在线全免费| 午夜性激福利免费观看| 51自拍视频| 九九热伊人| 性性影院在线观看| 色草在线| 一级黄色片免费观看| 人人爽人人拍| 91sao国产在线观看| 国产 欧美 日产久久| 午夜性刺激片免费观看成人| 2020年国产一国产一级毛卡片| 久久一本久综合久久爱| 高清一区高清二区视频| 免费中文字幕| 久久九九久精品国产| 日本九九视频| 搞黄视频免费| 欧美区一区二区三| 日本一级爽快片淫片高清| 性综合网| 91精品亚洲| 欧美全免费aaaaaa特黄在线| 日韩一区国产一级|