好看的小说君子以泽,盗墓笔记第二季,盗墓笔记全集

特斯拉：晶圓級處理器+百萬核心超級計算機缺陷內核快速檢測

2025-06-08 11:16:27 EETOP

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

在大規模處理器上檢測故障核心并將其禁用是一項挑戰，但特斯拉開發了其 Stress 工具。該工具不僅可以檢測 Dojo 處理器上易發生靜默數據損壞的核心，還能檢測擁有數百萬核心的 Dojo 集群中的此類核心，且無需讓它們脫機。這是一項極其重要的功能，因為特斯拉表示，單個靜默數據錯誤就可能毀掉一次耗時數周完成的完整訓練過程。

特斯拉的 Dojo 是目前地球上現存的兩大晶圓級處理器之一（另一個是Cerebras）。這些大規模晶圓級芯片使用一整片 300 毫米晶圓，這意味著不可能一次性創造出更大的計算能力塊。每個 Dojo 晶圓級處理器集成了多達 8850 個核心，但其中一些核心在部署后可能會引發靜默數據損壞（SDC），從而破壞大規模訓練運行的結果。

具體來說，特斯拉的 Dojo 晶圓上系統（system-on-wafer）處理器（特斯拉官方稱其為 Dojo Training Tile）采用 5*5 陣列共計 25 顆芯片，這些芯片放置在載體晶圓上，然后使用臺積電的集成扇出（InFO）技術進行晶圓級互連（InFO_SoW）互連。

大型處理器

鑒于 Dojo 訓練芯片（即大型晶圓級芯片）的極端復雜性，即使在制造過程中檢測有缺陷的裸片也并非易事，而當涉及靜默數據損壞（SDC）時，情況會變得更加復雜。

請記住，靜默數據損壞在所有類型的硬件上都不可避免，但 Dojo 處理器消耗 18,000 安培電流并散發出 15,000 瓦的功率，這一特性會對其產生影響。然而，所有核心都應按預期運行，否則特斯拉的 AI 訓練將變得更加復雜，因為數據損壞導致的單個錯誤就可能使數周的 AI 訓練成果付諸東流。

特斯拉將每個晶圓級 Dojo 處理器稱為 “訓練芯片”。每個訓練芯片集成了 25 個 645 平方毫米的 D1 “芯片”，這些芯片配備 354 個定制的 64 位 RISC-V 核心（特斯拉稱之為 “節點”，但為便于理解，我們將其稱為 “核心”），每個核心包含 1.25 MB 的用于數據和指令的 SRAM。這些核心以 5×5 的集群方式組織，并通過具有 10 TB/s 定向帶寬的機械網絡互連。
每個 D1 芯片還支持 4 TB/s 的片外帶寬。因此，每個 “訓練芯片” 集成了 8,850 個核心，支持 8 位、16 位、32 位或 64 位整數以及多種數據格式。特斯拉使用臺積電的 InFO_SoW 技術來封裝其晶圓級 Dojo 處理器。

需要適當維護

為應對核心故障風險，特斯拉首先部署了差分模糊測試技術。最初的版本包括生成一組隨機指令，并將相同的指令序列發送到所有核心。執行后，通過比較輸出以發現不匹配之處。然而，由于主機與 Dojo 訓練芯片之間的通信開銷較大，該過程耗時過長。
為提高效率，特斯拉改進了方法，為每個核心分配了由 0.5 MB 隨機指令組成的唯一有效負載。核心不再與主機通信，而是從 Dojo 訓練芯片內的其他核心獲取有效負載并依次執行。這種內部數據交換利用了 Dojo 訓練芯片的高帶寬通信能力，使特斯拉能夠在更短的時間內測試約 4.4 GB 的指令。

隨后的技術優化

特斯拉進一步改進了該方法，使核心能夠多次運行每個有效負載，且在運行之間無需重置狀態。這種技術為執行環境引入了額外的隨機性，能夠暴露那些可能被忽略的細微錯誤。據該公司稱，盡管執行次數增加，但與檢測可靠性的提升相比，速度下降微乎其微。

另一項改進源于通過異或（XOR）操作將寄存器值定期集成到指定的 SRAM 區域。在已知有缺陷的核心測試中，這種方法將識別有缺陷計算單元的概率提高了 10 倍，同時未導致顯著的性能下降。

不僅限于處理器層面

特斯拉的方法不僅適用于 Dojo 訓練芯片層面或 Dojo 機柜層面（每個機柜集成 12 塊 Dojo 訓練芯片），還能在 Dojo 集群層面發揮作用，使該公司能夠從數百萬個活躍核心中精準定位故障核心。

報告顯示，一旦經過適當調試，Stress 監控系統能夠在 Dojo 集群中發現大量有缺陷的核心。不過，檢測時間的分布差異很大：大多數缺陷在每個核心執行 1 GB 至 100 GB 的有效負載指令后即可發現，對應運行時間從幾秒到幾分鐘不等；較難檢測的缺陷可能需要執行超過 1000 GB 的指令，即數小時的運行時間。

值得注意的是，特斯拉的 Stress 工具測試運行輕量級且完全在核心內部完成，允許其在后臺執行測試而無需核心脫機。顯然，只有被識別為故障的核心才會在后續被禁用，而且即使如此，每個 D1 裸片仍能容忍少數核心被禁用，而不影響整體功能。

識別設計缺陷

特斯拉還提到，除了檢測故障核心外，Stress 工具還發現了一種罕見的設計層面缺陷，工程師通過軟件調整成功解決了該問題。在監控系統的大規模部署過程中，底層軟件層的多個問題也被發現并修正。

目前，Stress 工具已完全集成到運行中的 Dojo 集群中，用于在主動 AI 訓練期間對硬件健康狀況進行實時監控。該公司表示，通過這種監控觀察到的缺陷率與谷歌和 Meta 公布的數據相當，表明其監控工具和硬件性能與其他公司持平。

在硅后驗證和硅前驗證階段

特斯拉現在計劃利用 Stress 工具獲取的數據，研究硬件因老化導致的長期性能退化。此外，該公司打算將該方法擴展到前硅測試階段和早期驗證工作流程中，以便在生產前就捕捉到上述故障 —— 盡管很難確切想象如何實現這一點，因為靜默數據損壞可能因硬件老化而發生。

行業思考

開發和制造晶圓級處理器是一項極其復雜的任務，目前行業內只有兩家公司—— Cerebras（思 cerebras）和特斯拉 —— 完成了這一壯舉。與其他處理器一樣，這些設備也容易出現缺陷和性能退化；但特斯拉開發了無需核心脫機即可識別故障處理核心的獨特方法，這標志著重大進展。

為 Cerebras 和特斯拉制造這些巨型處理器的臺積電（TSMC）表示，未來幾年將有更多公司采用基于其 SoIC-SoW 技術的晶圓級設計。顯然，行業正在為此做準備并積累經驗 —— 盡管進展緩慢，但步伐堅定。

關鍵詞：特斯拉晶圓級處理器 Dojo Cerebras

EETOP 官方微信
創芯大講堂在線教育
半導體創芯網快訊

上一篇：臺灣地區薪酬排行：這家芯片公司人均11
下一篇：美《芯片安全法案》推進，黃仁勛：全力

全部評論

最新資訊

最熱資訊

99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线