特斯拉:晶圓級處理器+百萬核心超級計算機缺陷內核快速檢測
2025-06-08 11:16:27 EETOP在大規模處理器上檢測故障核心并將其禁用是一項挑戰,但特斯拉開發了其 Stress 工具。該工具不僅可以檢測 Dojo 處理器上易發生靜默數據損壞的核心,還能檢測擁有數百萬核心的 Dojo 集群中的此類核心,且無需讓它們脫機。這是一項極其重要的功能,因為特斯拉表示,單個靜默數據錯誤就可能毀掉一次耗時數周完成的完整訓練過程。
特斯拉的 Dojo 是目前地球上現存的兩大晶圓級處理器之一(另一個是Cerebras)。這些大規模晶圓級芯片使用一整片 300 毫米晶圓,這意味著不可能一次性創造出更大的計算能力塊。每個 Dojo 晶圓級處理器集成了多達 8850 個核心,但其中一些核心在部署后可能會引發靜默數據損壞(SDC),從而破壞大規模訓練運行的結果。
具體來說,特斯拉的 Dojo 晶圓上系統(system-on-wafer)處理器(特斯拉官方稱其為 Dojo Training Tile)采用 5*5 陣列共計 25 顆芯片,這些芯片放置在載體晶圓上,然后使用臺積電的集成扇出(InFO)技術進行晶圓級互連(InFO_SoW)互連。
鑒于 Dojo 訓練芯片(即大型晶圓級芯片)的極端復雜性,即使在制造過程中檢測有缺陷的裸片也并非易事,而當涉及靜默數據損壞(SDC)時,情況會變得更加復雜。
請記住,靜默數據損壞在所有類型的硬件上都不可避免,但 Dojo 處理器消耗 18,000 安培電流并散發出 15,000 瓦的功率,這一特性會對其產生影響。然而,所有核心都應按預期運行,否則特斯拉的 AI 訓練將變得更加復雜,因為數據損壞導致的單個錯誤就可能使數周的 AI 訓練成果付諸東流。
特斯拉將每個晶圓級 Dojo 處理器稱為 “訓練芯片”。每個訓練芯片集成了 25 個 645 平方毫米的 D1 “芯片”,這些芯片配備 354 個定制的 64 位 RISC-V 核心(特斯拉稱之為 “節點”,但為便于理解,我們將其稱為 “核心”),每個核心包含 1.25 MB 的用于數據和指令的 SRAM。這些核心以 5×5 的集群方式組織,并通過具有 10 TB/s 定向帶寬的機械網絡互連。
每個 D1 芯片還支持 4 TB/s 的片外帶寬。因此,每個 “訓練芯片” 集成了 8,850 個核心,支持 8 位、16 位、32 位或 64 位整數以及多種數據格式。特斯拉使用臺積電的 InFO_SoW 技術來封裝其晶圓級 Dojo 處理器。
為應對核心故障風險,特斯拉首先部署了差分模糊測試技術。最初的版本包括生成一組隨機指令,并將相同的指令序列發送到所有核心。執行后,通過比較輸出以發現不匹配之處。然而,由于主機與 Dojo 訓練芯片之間的通信開銷較大,該過程耗時過長。
為提高效率,特斯拉改進了方法,為每個核心分配了由 0.5 MB 隨機指令組成的唯一有效負載。核心不再與主機通信,而是從 Dojo 訓練芯片內的其他核心獲取有效負載并依次執行。這種內部數據交換利用了 Dojo 訓練芯片的高帶寬通信能力,使特斯拉能夠在更短的時間內測試約 4.4 GB 的指令。
特斯拉進一步改進了該方法,使核心能夠多次運行每個有效負載,且在運行之間無需重置狀態。這種技術為執行環境引入了額外的隨機性,能夠暴露那些可能被忽略的細微錯誤。據該公司稱,盡管執行次數增加,但與檢測可靠性的提升相比,速度下降微乎其微。
另一項改進源于通過異或(XOR)操作將寄存器值定期集成到指定的 SRAM 區域。在已知有缺陷的核心測試中,這種方法將識別有缺陷計算單元的概率提高了 10 倍,同時未導致顯著的性能下降。
特斯拉的方法不僅適用于 Dojo 訓練芯片層面或 Dojo 機柜層面(每個機柜集成 12 塊 Dojo 訓練芯片),還能在 Dojo 集群層面發揮作用,使該公司能夠從數百萬個活躍核心中精準定位故障核心。
報告顯示,一旦經過適當調試,Stress 監控系統能夠在 Dojo 集群中發現大量有缺陷的核心。不過,檢測時間的分布差異很大:大多數缺陷在每個核心執行 1 GB 至 100 GB 的有效負載指令后即可發現,對應運行時間從幾秒到幾分鐘不等;較難檢測的缺陷可能需要執行超過 1000 GB 的指令,即數小時的運行時間。
值得注意的是,特斯拉的 Stress 工具測試運行輕量級且完全在核心內部完成,允許其在后臺執行測試而無需核心脫機。顯然,只有被識別為故障的核心才會在后續被禁用,而且即使如此,每個 D1 裸片仍能容忍少數核心被禁用,而不影響整體功能。
特斯拉還提到,除了檢測故障核心外,Stress 工具還發現了一種罕見的設計層面缺陷,工程師通過軟件調整成功解決了該問題。在監控系統的大規模部署過程中,底層軟件層的多個問題也被發現并修正。
目前,Stress 工具已完全集成到運行中的 Dojo 集群中,用于在主動 AI 訓練期間對硬件健康狀況進行實時監控。該公司表示,通過這種監控觀察到的缺陷率與谷歌和 Meta 公布的數據相當,表明其監控工具和硬件性能與其他公司持平。
特斯拉現在計劃利用 Stress 工具獲取的數據,研究硬件因老化導致的長期性能退化。此外,該公司打算將該方法擴展到前硅測試階段和早期驗證工作流程中,以便在生產前就捕捉到上述故障 —— 盡管很難確切想象如何實現這一點,因為靜默數據損壞可能因硬件老化而發生。
開發和制造晶圓級處理器是一項極其復雜的任務,目前行業內只有兩家公司—— Cerebras(思 cerebras)和特斯拉 —— 完成了這一壯舉。與其他處理器一樣,這些設備也容易出現缺陷和性能退化;但特斯拉開發了無需核心脫機即可識別故障處理核心的獨特方法,這標志著重大進展。
為 Cerebras 和特斯拉制造這些巨型處理器的臺積電(TSMC)表示,未來幾年將有更多公司采用基于其 SoIC-SoW 技術的晶圓級設計。顯然,行業正在為此做準備并積累經驗 —— 盡管進展緩慢,但步伐堅定。