英偉達(dá)非唯一選擇:蘋果借助谷歌TPU成功訓(xùn)練大型模型!
2024-07-31 11:15:26 EETOP蘋果透露,它在開發(fā)最近發(fā)布的 Apple Intelligence 功能時并未使用 Nvidia 的硬件加速器。根據(jù)蘋果官方的研究論文(machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf),蘋果使用的是谷歌的 TPU 來處理訓(xùn)練數(shù)據(jù),背后支持 Apple Intelligence 基礎(chǔ)語言模型。
配備谷歌TPUv4和TPUv5芯片的系統(tǒng)在創(chuàng)建Apple Foundation Models(AFMs)過程中發(fā)揮了重要作用。這些模型,包括AFM-server和AFM-on-device模型,旨在為在線和離線Apple Intelligence功能提供支持,這些功能在 2024 年 6 月的全球開發(fā)者大會(WWDC)上得到了廣泛宣傳。
AFM-server 是蘋果最大的 LLM,因此它僅在線使用。根據(jù)最近發(fā)布的研究論文,蘋果的 AFM-server 在 8,192 個 TPUv4 芯片上訓(xùn)練,“分配為 8 × 1,024 芯片切片,這些切片通過數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)連接在一起。”預(yù)訓(xùn)練是一個三階段過程,首先使用 6.3T 的 tokens,然后是 1T 的 tokens,最后通過 100B 的 tokens 進(jìn)行上下文擴(kuò)展。
蘋果表示,用于訓(xùn)練其 AFMs 的數(shù)據(jù)包括從 Applebot 網(wǎng)絡(luò)爬蟲(遵循 robots.txt)收集的信息,以及各種經(jīng)過授權(quán)的“高質(zhì)量”數(shù)據(jù)集。它還利用了精心挑選的代碼、數(shù)學(xué)和公共數(shù)據(jù)集。
當(dāng)然,ARM-on-device 模型大幅縮減,但蘋果認(rèn)為其知識蒸餾技術(shù)已優(yōu)化了這個較小模型的性能和效率。論文揭示,AFM-on-device 是一個 3B 參數(shù)模型,從 6.4B 的服務(wù)器模型中蒸餾而來,后者在完整的 6.3T tokens 上訓(xùn)練。
與AFM-server的訓(xùn)練不同,谷歌的TPUv5集群被用于準(zhǔn)備ARM-on-device模型。論文透露,“AFM-on-device是在一個由2048個TPUv5p芯片組成的切片上進(jìn)行訓(xùn)練的。”
有趣的是,蘋果發(fā)布了如此詳細(xì)的論文,揭示了Apple Intelligence背后的技術(shù)和工藝。這家公司并不以透明度高而聞名,但似乎在努力給人留下深刻印象,以展示其在人工智能方面的實(shí)力,這或許是因?yàn)樗谶@個領(lǐng)域的起步相對較晚。
根據(jù)蘋果內(nèi)部測試,AFM-server 和 AFM-on-device 在指令跟隨、工具使用、寫作等基準(zhǔn)測試中表現(xiàn)出色。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章