數據中心中的AI推理:打破效率與成本的權衡
2025-02-13 12:38:49 EETOP訓練和推理包括數據中心 AI 處理的兩個關鍵方面。了解兩者之間的區別,以及所涉及的成本效益問題。
在數據中心執行人工智能 (AI) 工作負載(圖 1)涉及兩個關鍵過程:訓練和推理。乍一看,這些過程似乎很相似 — 都涉及讀取數據、處理數據和生成輸出。仔細檢查會發現它們之間存在顯著差異。
以具有數千億甚至數萬億個參數的大型語言模型 (LLM) 為例,AI 模型的復雜性呈爆炸式增長,這推動了對訓練和推理的前所未有的計算需求。然而,它們的運營要求和優先事項卻大相徑庭。
訓練是一個計算量非常大的過程,需要 ExaFLOPS 的能力來分析和提取大量(通常是非結構化數據集)中的模式。此過程可能持續數周甚至數月,因為模型會進行迭代優化以實現高精度。
推理雖然對計算要求也很高,但通常在較小的規模上運行,通常以 PetaFLOPS 為單位。它的關注點更窄,將經過訓練的模型應用于特定任務,例如響應用戶查詢,使其更具針對性和簡化性。
對于訓練,準確性優先于速度。該過程涉及長時間運行,模型持續運行以微調輸出并減少幻覺的可能性。
另一方面,推理優先考慮速度。它必須幾乎即時提供結果以滿足用戶期望,響應時間通常以毫秒到幾秒鐘為單位。
延遲是訓練期間的次要問題,因為重點是獲得精確可靠的結果,而不是立竿見影的結果。
相反,推理依賴于低延遲來保持流暢的用戶體驗。高延遲響應可能會中斷交互,使延遲成為性能的關鍵指標。
訓練需要高精度,通常使用 fp32 或 fp64 等格式,以確保模型可靠并最大限度地減少錯誤。這種高精度水平需要強大的處理能力和連續運行。
Inference 通過為許多應用程序采用 fp8 等較低精度的格式來平衡準確性與效率。
這些格式顯著降低了計算需求,而不會影響有效結果所需的質量。
表 1 說明了五個關鍵屬性的這些區別,強調了訓練和推理如何優化性能、精度和效率,以滿足 AI 工作負載的獨特要求。
數據中心的巨大計算需求需要將一排排專用硬件安裝在堅固的重型機柜中,這些機柜旨在容納大型高性能系統。這些裝置會大規模消耗能源,通常以吉瓦為單位,這會產生大量熱量,并且需要大量的冷卻系統以及定期的專門維護,以確保最佳運行。
為 AI 處理量身定制的數據中心成本非常高。這些費用源于多種因素:購買尖端硬件、對設施建設的大量投資、由技術人員進行的定期維護以及全年 24/7 運行所需的無情能源消耗。
在訓練中,重點仍然是生成準確的模型,通常忽略了成本考慮。普遍的心態是“不惜一切代價完成工作”。
相比之下,推理對成本高度敏感。每次查詢的成本成為一個重要的指標,特別是對于每天管理數百萬甚至數十億個查詢的應用程序。麥肯錫 2022 年的一項分析說明了高吞吐量 AI 系統的制約因素。例如,Google 搜索每秒處理大約 100000 個查詢,為了保持經濟可行性,每個查詢的目標成本約為 0.002 USD。相比之下,ChatGPT-3 的每次查詢成本,雖然由于通用和專業用例的差異而無法直接比較,但估計每次查詢約為 0.03 美元,凸顯了達到 Google 級別查詢經濟性所需的效率差距。
電源效率是一個關鍵的平衡行為。雖然推理通常比訓練消耗更少的功率,但提高推理的能源效率可以顯著降低成本并減少對環境的影響。此領域的增強功能使數據中心能夠在現有能源限制內提供更強大的計算能力,或者通過減少冷卻和基礎設施要求來降低每個計算單元的成本。
這種形勢凸顯了對創新解決方案的迫切需求,這些解決方案必須超越傳統的計算效率和成本之間的權衡。通過應對這些挑戰,數據中心的下一代 AI 進步可以在性能、可擴展性和可持續性方面實現突破。
當前的數據中心 AI 加速器主要由圖形處理單元 (GPU) 提供支持,用于訓練和推理。雖然單個 GPU 設備可以提供 PetaFLOPS 規模的性能,但其設計架構(最初針對圖形加速進行了優化)難以滿足推理所需的延遲、功耗和成本效率的嚴格要求。
GPU 在訓練和推理中的可互換使用是問題的核心。盡管 GPU 具有計算能力,但無法達到經濟可擴展的 AI 解決方案所需的每次查詢成本基準。
GPU 可以提高數據處理性能,但不會提高數據移動吞吐量。差距源于基本的物理和技術限制:
導體中的能量耗散:當電力流過導體時,能量耗散是不可避免的。較長的導體會導致更大的能量損失,從而加劇效率低下。
Memory versus Logic Power Dissipation:該規則的推論假設 memory作耗散的能量可以達到用于處理數據的 logic 消耗的能量的 1,000 倍。這種差異被簡潔地描述為內存墻,它突出了內存和數據訪問策略創新以優化電源效率的必要性。
內存墻是指處理器性能和內存帶寬之間越來越大的差距,這一差距在過去 30 年中顯著擴大。這種不平衡會降低處理器效率,增加功耗并限制可擴展性。
一種常用的解決方案,隨著時間的推移而改進,包括通過引入多級分層緩存來緩沖處理器附近的內存通道。通過緩存經常訪問的數據,數據路徑顯著縮短,從而提高性能。
沿著內存層次結構向下移動,存儲結構從單個位可尋址寄存器過渡到緊密耦合的內存 (TCM)、暫存器內存和高速緩存。雖然這種進展會增加存儲容量,但也會降低執行速度,因為需要更多的周期來將數據移入和移出內存。
內存層次結構越深,對延遲的影響就越大,最終會降低處理器效率。
人工智能的內在潛力,特別是生成式人工智能,尤其是代理人工智能,受到記憶帶寬有限度的嚴重阻礙。雖然 GPU 是數據中心 AI 訓練的首選,但它們的效率因算法而異。例如,據報道,GPT-4 MoE(專家混合)的效率下降到僅 3-5%,但在 Llama3-7B 上可以達到 30% 左右。
在理想情況下,用 registers 替換 TCM、scratchpad memory 和 cache 將徹底改變性能。這種方法會將 hierarchical memory structure 轉換為單個大型高帶寬 memory,可在一個 clock cycle中直接訪問。
這樣的架構將提供高執行速度、低延遲和低功耗,同時最大限度地減少硅面積。至關重要的是,在處理過程中將新數據從外部存儲器加載到 registers 不會中斷系統吞吐量。
這種先進的設計有可能顯著提高處理器效率,特別是對于處理資源密集型任務。當前的 GPU 可能難以跟上,在處理超過 1 萬億個參數的 LLM 時可能會耗盡容量。然而,這種創新的內存架構確保了對類似高需求工作負載的無縫處理,提供卓越的性能,而不會出現阻礙傳統 GPU 設置的瓶頸。這一突破可能會重新定義復雜計算的處理方式,為 AI 及其他領域帶來新的可能性。
為了確保可擴展的 AI 解決方案,必須在原始計算能力和成本考慮之間取得平衡。到 2028 年,LLM 推理將主導數據中心工作負載的預測強調了這一挑戰。穆迪和貝萊德的分析師預測,生成式 AI 和自然語言處理的快速增長將推動數據中心基礎設施的大幅升級。
這種增長需要制定策略來減少對昂貴加速器的依賴,同時提高性能。專用集成電路 (ASIC) 和張量處理單元 (TPU) 等新興技術提供了一條充滿希望的前進道路。這些專用架構旨在優化推理工作負載,優先考慮延遲、功耗和成本方面的效率。
滿足 AI 推理的獨特需求需要硬件和系統設計的范式轉變。通過集成創新架構和重新構想支持軟件生態系統,數據中心可以克服計算效率和經濟可行性之間的傳統權衡。
隨著推理工作負載越來越多地塑造 AI 的未來,克服延遲和功耗方面的挑戰至關重要。通過專注于經濟高效和高性能的解決方案,該行業可以確保 AI 技術的可持續部署。這將為未來鋪平道路,讓 AI 驅動的洞察在全球范圍內都能獲得且負擔得起,從而實現變革性的實際應用。