AI設(shè)計(jì)芯片:從Spec到RTL的進(jìn)展如何?IC設(shè)計(jì)師還能高枕無憂嗎?
2024-10-14 12:18:17 EETOP基于AI的RTL生成技術(shù)是否已經(jīng)成熟?
基準(zhǔn)測試
該領(lǐng)域已從早期的存在性證明的熱情,逐漸轉(zhuǎn)向更為穩(wěn)健的分析。一個(gè)很好的例子是最近在arXiv上發(fā)表的一篇論文:《重新審視VerilogEval:更新的大語言模型、上下文學(xué)習(xí)和從Spec到RTL任務(wù)》,該論文的多數(shù)作者來自英偉達(dá),另一位作者來自康奈爾大學(xué),稱得上是權(quán)威來源。
作者擴(kuò)展了他們在2023年創(chuàng)建的VerilogEval基準(zhǔn),用于評估基于LLM的Verilog生成器。原始工作研究了代碼補(bǔ)全任務(wù);而在這篇論文中,他們進(jìn)一步探討了如何從自然語言Spec生成模塊RTL。他們還描述了一種通過上下文學(xué)習(xí)(在提示中提供額外指導(dǎo))進(jìn)行提示調(diào)優(yōu)的機(jī)制。值得注意的是,針對代碼補(bǔ)全和從Spec到RTL的生成,他們提供了一種分類失敗類型的方法,這對于提示調(diào)優(yōu)可能很有幫助。
盡管沒有提到仿真測試平臺,作者們顯然使用了仿真器(Icarus Verilog),并討論了Verilog的編譯時(shí)和運(yùn)行時(shí)錯(cuò)誤,因此可以推測該基準(zhǔn)測試套件中包含了為每個(gè)測試開發(fā)的人工測試平臺。
分析
作者比較了從GPT-4模型到Mistral、Llama、CodeGemma、DeepSeek Coder和RTLCoder DeepSeek等一系列LLM的性能。有一點(diǎn)小小的困惑:他們提到的“溫度設(shè)置”與物理溫度無關(guān),而是LLM的一個(gè)隨機(jī)化因素。
首先,關(guān)于生成代碼評分的背景介紹。通常用于評估機(jī)器生成文本的評分方法稱為BLEU(雙語評估替代),旨在與人類評判的質(zhì)量/相似性指標(biāo)相關(guān)。雖然BLEU適用于自然語言翻譯,但并不完全適合代碼生成。功能正確性作為仿真中的測量指標(biāo)是一個(gè)更好的起點(diǎn)。
論文中的圖表和表格通過基準(zhǔn)測試套件的測試成功率來衡量,允許每個(gè)測試的RTL生成嘗試一次(pass@1),因此除了一次性改進(jìn)(1-shot)與初次生成(0-shot)之外,不允許進(jìn)行反復(fù)改進(jìn)。0-shot指從初始提示生成,1-shot指在初始提示的基礎(chǔ)上添加進(jìn)一步指導(dǎo)后的生成。表中的參數(shù)“n”用于管理估計(jì)中的方差——n越高,方差越低。
基準(zhǔn)測試套件中通過測試成功率(質(zhì)量)的范圍從不到10%到某些情況下高達(dá)60%。不出意料,較小的LLM模型表現(xiàn)不如較大的模型。最高成功率來自于參數(shù)量約為1萬億的GPT-4 Turbo和4050億參數(shù)的Llama 3.1。在同一模型中,代碼補(bǔ)全和從Spec到RTL的測試成功率大致相當(dāng)。在許多情況下,上下文學(xué)習(xí)/改進(jìn)的提示提升了生成質(zhì)量,盡管對于GPT-4 Turbo的從Spec到RTL生成以及Llama3 70B的提示優(yōu)化,實(shí)際上降低了質(zhì)量。
總結(jié)
無論是代碼補(bǔ)全還是從Spec到RTL的生成,這些準(zhǔn)確率表明RTL代碼生成仍在不斷發(fā)展中。我很好奇,入門級的RTL設(shè)計(jì)師在這些標(biāo)準(zhǔn)下的表現(xiàn)會如何。
此外,論文中沒有提到可綜合性或PPA的測試。(另一個(gè)較小的基準(zhǔn)測試RTLLM也研究了這些因素,其中PPA是在物理綜合中確定的——盡管細(xì)節(jié)較少。)
更普遍地說,我們也會好奇可讀性和可調(diào)試性如何。在此或許可以使用某種修改版的BLEU指標(biāo)來衡量與專家生成代碼相比的質(zhì)量,作為這些分?jǐn)?shù)的補(bǔ)充。
目前看來AI設(shè)計(jì)芯片還有很多路要走,不過看到這一領(lǐng)域的進(jìn)展仍然很有趣。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章