大主宰之灵路天蚕土豆,殿上欢,灵域

重大進展！攻克CUDA護城河又進一步！

2025-07-04 08:59:14 EETOP

點擊關注->創(chuàng)芯網(wǎng)公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

據(jù) Phoronix 報道，ZLUDA 是一款 CUDA 轉換層，去年險些停運，后被某匿名方救助。本周，該項目公布了最新進展，提及過去一個季度在技術上取得的穩(wěn)步進步以及團隊的擴充情況。該項目持續(xù)提升自身能力，旨在讓非英偉達顯卡也能運行 CUDA 工作負載，目前其重心更多放在人工智能領域，而非其他方面。不過，團隊已開始著手支持 32 位 PhysX，這是實現(xiàn)與基于 CUDA 的舊款游戲兼容的必要條件。

對 ZLUDA 項目而言，或許最重要的一點是，其開發(fā)團隊已從 1 名全職開發(fā)者擴充至 2 名。據(jù)最新消息，第二名開發(fā)者名為維奧萊特（Violet），加入尚不足一個月，卻已帶來了重要改進，尤其是通過 llm.c 項目推進了對大型語言模型（LLM）工作負載的支持。

32 位 PhysX

一位名為 @Groowy 的社區(qū)貢獻者開啟了 ZLUDA 支持 32 位 PhysX 的初步工作，他收集了詳細的 CUDA 日志，很快發(fā)現(xiàn)了若干漏洞。由于其中部分問題可能也會影響 64 位 CUDA 的功能，修復這些漏洞已被納入官方路線圖。然而，要完全實現(xiàn)對 32 位 PhysX 的支持，仍需開源貢獻者提供進一步的幫助。

與 LLM.c 的兼容性

ZLUDA 的開發(fā)者們正在開展一個名為 llm.c 的測試項目，這是一個小型示例程序，嘗試借助 CUDA 運行 GPT-2 模型。盡管該測試規(guī)模不大，但意義重大，因為這是 ZLUDA 首次嘗試同時處理常規(guī) CUDA 函數(shù)和 cuBLAS（快速數(shù)學運算庫）等特殊庫。

該測試程序會對 CUDA 函數(shù)進行 8186 次單獨調用，涉及 44 個不同的 API。起初，ZLUDA 在第一次調用時就會立即崩潰。多虧維奧萊特貢獻的多項更新，如今它能成功執(zhí)行到第 552 次調用才失敗。團隊已經(jīng)完成了 44 個所需函數(shù)中 16 個的支持工作，離成功運行整個測試又近了一步。一旦該測試成功，將有助于 ZLUDA 在未來支持像 PyTorch 這樣更大型的軟件。

提升 ZLUDA 的準確性

ZLUDA 的核心目標是讓標準 CUDA 程序能在非英偉達顯卡上運行，且盡可能與英偉達硬件的表現(xiàn)保持一致。這意味著每條指令的結果要么與英偉達硬件完全一致（精確到最后一位），要么在嚴格的數(shù)值公差范圍內。在進行重大代碼重置之前，舊版本的 ZLUDA 往往會為了追求其他方面而犧牲準確性，比如忽略某些指令修飾符或無法保持全精度。

當前版本在這方面已取得重大改進。為確保準確性，ZLUDA 運行 PTX “全面掃描” 測試 —— 這是一種利用英偉達的中間 GPU 語言進行的系統(tǒng)性檢查，旨在確認所有指令和修飾符組合在各種輸入情況下都能產(chǎn)生正確結果，這一方法此前從未被使用過。通過這些檢查，發(fā)現(xiàn)了若干編譯器缺陷，隨后均已得到解決。ZLUDA 承認，并非所有指令都已完成這種嚴格的驗證，但強調部分最復雜的情況（如 cvt 指令）現(xiàn)已確認達到位級精度。

完善日志功能

要讓任何基于 CUDA 的軟件在 ZLUDA 上運行 —— 無論是游戲、3D 應用程序還是機器學習框架，其基礎是獲取程序與 CUDA 交互的日志，其中包括跟蹤直接的 API 調用、CUDA 運行時（或驅動程序）未公開的部分，以及任何專用性能庫的使用情況。

在最近的更新中，ZLUDA 的日志系統(tǒng)得到了顯著升級。新的實現(xiàn)方式能捕捉到更多以往無法監(jiān)測到的活動，包括內部行為的詳細軌跡，例如 cuBLAS 如何依賴 cuBLASLt，以及 cuDNN 如何與底層驅動 API 交互。

運行時編譯器兼容性

現(xiàn)代 GPU 框架，如 CUDA、ROCm/HIP、ZLUDA 和 OpenCL，都需要在應用程序運行時動態(tài)編譯設備代碼，以確保舊款 GPU 程序無需修改原始代碼，就能在新一代硬件上正確編譯和執(zhí)行。

在 AMD 的 ROCm/HIP 生態(tài)系統(tǒng)中，這種即時編譯依賴于 comgr 庫（全稱為 ROCm-CompilerSupport），這是一個功能豐富的小型庫，可處理編譯、鏈接和反匯編等任務，在 Linux 和 Windows 系統(tǒng)上均能使用。

ROCm/HIP 6.4 版本發(fā)生了一次重大的應用程序二進制接口（ABI）變更：代表操作的數(shù)字代碼在新的 v3 ABI 中進行了重新排列。這導致 ZLUDA 意外調用了錯誤的操作 —— 例如，本應編譯卻嘗試鏈接，從而引發(fā)錯誤。在 Windows 系統(tǒng)上，情況更為糟糕，該庫聲稱是 2.9 版本，內部卻使用 v3 ABI，導致行為混亂。最近，ZLUDA 團隊已解決了這些問題。

關鍵詞： CUDA GPU 半導體