?性能提高13倍、能耗降低10倍!谷歌DeepMind發表AI訓練新方法
2024-07-08 11:46:12 EETOPDeepMind的方法被稱為JEST,即聯合樣本選擇(joint example selection),與傳統的AI模型訓練技術截然不同。典型的訓練方法專注于單個數據點進行訓練和學習,而JEST則基于整個批次進行訓練。JEST方法首先創建一個較小的AI模型,用于從極高質量的來源中評估數據質量,并按質量對批次進行排名。然后,將這些評估結果與一個較大、質量較低的數據集進行比較。小型JEST模型確定最適合訓練的批次,然后根據小模型的發現對大型模型進行訓練。
這篇論文(arxiv.org/pdf/2406.17711)對研究中使用的過程和研究的未來進行了更全面的解釋。
DeepMind的研究人員在論文中明確指出,這種“引導數據選擇過程朝向較小、精心策劃的數據集的分布”的能力是JEST方法成功的關鍵。成功確實是對這項研究的恰當描述;DeepMind聲稱,“我們的方法在迭代次數減少多達13倍和計算量減少多達10倍的情況下,超越了最先進的模型。”
上圖顯示了 JEST 方法在速度和 FLOPS 效率方面如何超越 SigLIP(用于在圖像標題對上訓練模型的領先方法),以及與許多其他方法相比。(圖片來源:Google DeepMind、Evans 等)
當然,這個系統完全依賴于其訓練數據的質量,因為如果沒有高質量的人為策劃的數據集,啟動技術將失效。對于這個方法來說,“垃圾進,垃圾出”這句箴言再合適不過了,它試圖在訓練過程中“跳過”一些步驟。這使得JEST方法對于業余愛好者或業余AI開發者來說比大多數其他方法更難匹配,因為策劃初始最高級別訓練數據可能需要專家級的研究技能。
JEST研究的出現恰逢其時,因為科技行業和世界各國政府正開始討論人工智能的極高電力需求。2023年,AI工作負載消耗了約4.3GW電力,幾乎與塞浦路斯的年電力消耗相當。而且情況顯然沒有放緩的跡象:單個ChatGPT請求的電力成本是谷歌搜索的10倍,Arm的CEO估計到2030年AI將占據美國電網的四分之一。
是否以及如何在AI領域的大玩家中采用JEST方法還有待觀察。據報道,訓練GPT-4花費了1億美元,而未來更大的模型可能很快會達到十億美元的成本,因此各公司可能正在尋找方法以節省資金。希望JEST方法能夠在保持當前訓練生產率的同時,大大降低電力消耗,降低AI成本,幫助地球。然而,更有可能的是,資本機器將繼續保持高速運轉,利用JEST方法在最大功率下進行超快速訓練輸出。成本節約與輸出規模相比,誰將勝出?
芯片精品課程推薦