99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

特斯拉:晶圓級處理器+百萬核心超級計算機缺陷內核快速檢測

2025-06-08 11:16:27 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

在大規模處理器上檢測故障核心并將其禁用是一項挑戰,但特斯拉開發了其 Stress 工具。該工具不僅可以檢測 Dojo 處理器上易發生靜默數據損壞的核心,還能檢測擁有數百萬核心的 Dojo 集群中的此類核心,且無需讓它們脫機。這是一項極其重要的功能,因為特斯拉表示,單個靜默數據錯誤就可能毀掉一次耗時數周完成的完整訓練過程。 

特斯拉的 Dojo 是目前地球上現存的兩大晶圓級處理器之一(另一個是Cerebras。這些大規模晶圓級芯片使用一整片 300 毫米晶圓,這意味著不可能一次性創造出更大的計算能力塊。每個 Dojo 晶圓級處理器集成了多達 8850 個核心,但其中一些核心在部署后可能會引發靜默數據損壞(SDC),從而破壞大規模訓練運行的結果。 

具體來說,特斯拉的 Dojo 晶圓上系統(system-on-wafer處理器(特斯拉官方稱其為 Dojo Training Tile)采用 5*5 陣列共計 25 芯片,這些芯片放置在載體晶圓上,然后使用臺積電的集成扇出(InFO)技術進行晶圓級互連(InFO_SoW)互連。

大型處理器

鑒于 Dojo 訓練芯片(即大型晶圓級芯片)的極端復雜性,即使在制造過程中檢測有缺陷的裸片也并非易事,而當涉及靜默數據損壞(SDC)時,情況會變得更加復雜。

請記住,靜默數據損壞在所有類型的硬件上都不可避免,但 Dojo 處理器消耗 18,000 安培電流并散發出 15,000 瓦的功率,這一特性會對其產生影響。然而,所有核心都應按預期運行,否則特斯拉的 AI 訓練將變得更加復雜,因為數據損壞導致的單個錯誤就可能使數周的 AI 訓練成果付諸東流。 

image.png

特斯拉將每個晶圓級 Dojo 處理器稱為 “訓練芯片”。每個訓練芯片集成了 25 個 645 平方毫米的 D1 “芯片”,這些芯片配備 354 個定制的 64 位 RISC-V 核心(特斯拉稱之為 “節點”,但為便于理解,我們將其稱為 “核心”),每個核心包含 1.25 MB 的用于數據和指令的 SRAM。這些核心以 5×5 的集群方式組織,并通過具有 10 TB/s 定向帶寬的機械網絡互連。
每個 D1 芯片還支持 4 TB/s 的片外帶寬。因此,每個 “訓練芯片” 集成了 8,850 個核心,支持 8 位、16 位、32 位或 64 位整數以及多種數據格式。特斯拉使用臺積電的 InFO_SoW 技術來封裝其晶圓級 Dojo 處理器

需要適當維護

為應對核心故障風險,特斯拉首先部署了差分模糊測試技術。最初的版本包括生成一組隨機指令,并將相同的指令序列發送到所有核心。執行后,通過比較輸出以發現不匹配之處。然而,由于主機與 Dojo 訓練芯片之間的通信開銷較大,該過程耗時過長。
為提高效率,特斯拉改進了方法,為每個核心分配了由 0.5 MB 隨機指令組成的唯一有效負載。核心不再與主機通信,而是從 Dojo 訓練芯片內的其他核心獲取有效負載并依次執行。這種內部數據交換利用了 Dojo 訓練芯片的高帶寬通信能力,使特斯拉能夠在更短的時間內測試約 4.4 GB 的指令。 

隨后的技術優化

特斯拉進一步改進了該方法,使核心能夠多次運行每個有效負載,且在運行之間無需重置狀態。這種技術為執行環境引入了額外的隨機性,能夠暴露那些可能被忽略的細微錯誤。據該公司稱,盡管執行次數增加,但與檢測可靠性的提升相比,速度下降微乎其微。 

另一項改進源于通過異或(XOR)操作將寄存器值定期集成到指定的 SRAM 區域。在已知有缺陷的核心測試中,這種方法將識別有缺陷計算單元的概率提高了 10 倍,同時未導致顯著的性能下降。

不僅限于處理器層面

特斯拉的方法不僅適用于 Dojo 訓練芯片層面或 Dojo 機柜層面(每個機柜集成 12 塊 Dojo 訓練芯片),還能在 Dojo 集群層面發揮作用,使該公司能夠從數百萬個活躍核心中精準定位故障核心。

圖片

報告顯示,一旦經過適當調試,Stress 監控系統能夠在 Dojo 集群中發現大量有缺陷的核心。不過,檢測時間的分布差異很大:大多數缺陷在每個核心執行 1 GB 至 100 GB 的有效負載指令后即可發現,對應運行時間從幾秒到幾分鐘不等;較難檢測的缺陷可能需要執行超過 1000 GB 的指令,即數小時的運行時間。 

值得注意的是,特斯拉的 Stress 工具測試運行輕量級且完全在核心內部完成,允許其在后臺執行測試而無需核心脫機。顯然,只有被識別為故障的核心才會在后續被禁用,而且即使如此,每個 D1 裸片仍能容忍少數核心被禁用,而不影響整體功能。

識別設計缺陷

特斯拉還提到,除了檢測故障核心外,Stress 工具還發現了一種罕見的設計層面缺陷,工程師通過軟件調整成功解決了該問題。在監控系統的大規模部署過程中,底層軟件層的多個問題也被發現并修正。 

目前,Stress 工具已完全集成到運行中的 Dojo 集群中,用于在主動 AI 訓練期間對硬件健康狀況進行實時監控。該公司表示,通過這種監控觀察到的缺陷率與谷歌和 Meta 公布的數據相當,表明其監控工具和硬件性能與其他公司持平。

在硅驗證和硅驗證階段

特斯拉現在計劃利用 Stress 工具獲取的數據,研究硬件因老化導致的長期性能退化。此外,該公司打算將該方法擴展到前硅測試階段和早期驗證工作流程中,以便在生產前就捕捉到上述故障 —— 盡管很難確切想象如何實現這一點,因為靜默數據損壞可能因硬件老化而發生。

行業思考

開發和制造晶圓級處理器是一項極其復雜的任務,目前行業內只有兩家公司—— Cerebras(思 cerebras)和特斯拉 —— 完成了這一壯舉。與其他處理器一樣,這些設備也容易出現缺陷和性能退化;但特斯拉開發了無需核心脫機即可識別故障處理核心的獨特方法,這標志著重大進展。 

 Cerebras 和特斯拉制造這些巨型處理器臺積電TSMC)表示,未來幾年將有更多公司采用基于其 SoIC-SoW 技術的晶圓級設計。顯然,行業正在為此做準備并積累經驗 —— 盡管進展緩慢,但步伐堅定。


關鍵詞: 特斯拉 晶圓級處理器 Dojo Cerebras

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 国产成人美女福利在线观看| 久久精品丝袜| 最近手机中文字幕无吗| blz在线成人免费视频| 欧美成人伊人久久综合网| 欧美日韩一级大片| 亚洲人成网国产最新在线| 亚洲欧美国产精品久久久| 91精品国产美女福到在线不卡| 亚洲色图在线观看| 亚洲国产小视频| 日韩黄色一级片| 久久久一区二区三区不卡| 日韩欧美国产高清| 久草视频在线看| 日韩高清在线不卡| 久久精品成人免费看| aaaaaaa一级毛片| 亚洲视频污| 日韩 亚洲 中文 图片 小说| 久久这里只有精品免费看青草| 手机看片中文字幕| 亚洲精品色图| 千百橹最新亚洲地址在线播放| 两个人看的www视频中文字幕| 国产青青视频| 婷婷资源综合| 国产精品视频一区二区三区不卡| 黄色变态网站| 国产精品7m凸凹视频分类大全| 国产三级精品三级在线专区91| 免费的黄色毛片| 欧美一级在线| 在线欧美三级| 日批日韩在线观看| 日本一级作爱片在线观看| 日韩一区二区视频在线观看| 一级做片爱性视频免费| 大片免费看| 亚洲色图1| 麻豆视频一区|