國外AI專家深度剖析：盛贊DeepSeek R1里程碑式成就！

2025-02-07 10:45:30 EETOP

點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

作者：Sebastian Raschka, PhD

本文介紹了構(gòu)建推理模型的四種主要方法，或者我們?nèi)绾卫猛评砉δ茉鰪?LLM。并詳細介紹了 DeepSeek R1 背后的方法。希望本文能提供有價值的見解。

2024年，大型語言模型(LLM)領(lǐng)域見證了日益專業(yè)化的趨勢。除了預(yù)訓(xùn)練和微調(diào)之外，我們還見證了從檢索增強生成模型（RAG）到代碼助手等專用應(yīng)用的興起。預(yù)計這一趨勢將在2025年加速，對領(lǐng)域和應(yīng)用特定的優(yōu)化（即“專業(yè)化”）給予更多重視。

階段 1-3 是開發(fā) LLM 的常見步驟。階段 4 專門針對特定用例使用 LLM。

推理模型的開發(fā)就是這些專業(yè)化之一。這意味著我們改進 LLM 以擅長處理最好通過中間步驟解決的復(fù)雜任務(wù)，例如謎題、高級數(shù)學(xué)和編碼挑戰(zhàn)。但是，此專業(yè)化并不能取代其他 LLM 應(yīng)用程序。因為將 LLM 轉(zhuǎn)換為推理模型也會引入某些弊端，我將在后面討論。

為了讓你對下文內(nèi)容有一個簡要的了解，在本文中，我將討論如下內(nèi)容：

解釋“推理模型”的含義
討論推理模型的優(yōu)缺點
概述DeepSeek R1背后的方法論
描述構(gòu)建和改進推理模型的四種主要方法
分享DeepSeek V3和R1發(fā)布后對大型語言模型前景的看法
提供在有限預(yù)算下開發(fā)推理模型的建議

希望這篇文章對你有所幫助，因為今年人工智能將繼續(xù)迅速發(fā)展！

我們?nèi)绾味x“推理模型”？

如果你從事 AI（或一般的機器學(xué)習(xí)）工作，你可能熟悉模糊且爭論不休的定義。“推理模型”一詞也不例外。最終，有人會在一篇論文中正式定義它，只是為了在下一篇文章中重新定義它，依此類推。
在本文中，我將“推理”定義為回答需要復(fù)雜、多步驟生成且包含中間步驟的問題的過程。例如，“法國的首都是什么？”這類事實型問答不涉及推理。相比之下，“如果一列火車以每小時60英里的速度行駛3小時，它會行駛多遠？”這類問題則需要一些簡單的推理。例如，它需要在得出答案之前識別出距離、速度和時間之間的關(guān)系。

普通的 LLM 可能只提供一個簡短的答案（如左圖所示），而推理模型通常包括揭示部分思維過程的中間步驟。（請注意，許多不是專門為推理任務(wù)開發(fā)的 LLM 也可以在他們的答案中提供中間推理步驟。)

大多數(shù)現(xiàn)代 LLM 都能夠進行基本推理，并且可以回答以下問題：“如果一列火車以 60 英里/小時的速度行駛 3 小時，它能行駛多遠？因此，今天，當(dāng)我們提到推理模型時，我們通常指的是擅長更復(fù)雜的推理任務(wù)的 LLM，例如解決謎題、謎語和數(shù)學(xué)證明。

此外，當(dāng)今大多數(shù)被標(biāo)記為推理模型的 LLM 都包含“思考”或“思考”過程作為其響應(yīng)的一部分。LLM 是否以及如何真正 “思考” 是一個單獨的討論。

推理模型中的中間步驟可以以兩種方式出現(xiàn)。首先，它們可能顯式包含在響應(yīng)中，如上圖所示。其次，一些推理 LLM（例如 OpenAI 的 o1）使用未向用戶顯示的中間步驟運行多次迭代。

“推理” 用于兩個不同的級別：1）處理輸入并通過多個中間步驟生成，以及 2）提供某種推理作為對用戶的響應(yīng)的一部分。

我們什么時候應(yīng)該使用推理模型？

現(xiàn)在我們已經(jīng)定義了推理模型，我們可以繼續(xù)討論更有趣的部分：如何構(gòu)建和改進用于推理任務(wù)的 LLM。但是，在深入研究技術(shù)細節(jié)之前，重要的是要考慮何時真正需要推理模型。

我們什么時候需要一個推理模型？推理模型旨在擅長復(fù)雜任務(wù)，例如解決難題、高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。但是，對于摘要、翻譯或基于知識的問答等更簡單的任務(wù)，它們不是必需的。事實上，對所有事情都使用推理模型可能效率低下且成本高昂。例如，推理模型通常使用起來更昂貴、更冗長，有時更容易因“過度思考”而出錯。這里也適用簡單的規(guī)則：為任務(wù)使用正確的工具（或 LLM 類型）。

下圖總結(jié)了推理模型的主要優(yōu)勢和局限性。

推理模型的主要優(yōu)點和缺點

DeepSeek 訓(xùn)練管道簡介

在下一節(jié)討論構(gòu)建和改進推理模型的四種主要方法之前，我想簡要概述 DeepSeek R1 管道，如 DeepSeek R1 技術(shù)報告中所述。本報告既是一個有趣的案例研究，也是開發(fā)推理 LLM 的藍圖。

請注意，DeepSeek 沒有發(fā)布單個 R1 推理模型，而是引入了三個不同的變體：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根據(jù)技術(shù)報告中的描述，我在下圖中總結(jié)了這些模型的開發(fā)過程。

DeepSeek 的開發(fā)過程 DeepSeek R1 技術(shù)報告中討論了三種不同的推理模型。

接下來，讓我們簡要回顧一下上圖所示的過程。下一節(jié)將介紹更多詳細信息，我們將討論構(gòu)建和改進推理模型的四種主要方法。

（1） DeepSeek-R1-Zero：該模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練 DeepSeek-V3 基礎(chǔ)模型。研究團隊使用具有兩種獎勵的強化學(xué)習(xí) （RL）對其進行訓(xùn)練。這種方法被稱為 “冷啟動” 訓(xùn)練，因為它不包括監(jiān)督微調(diào) （SFT）步驟，該步驟通常是通過人工反饋進行強化學(xué)習(xí) （RLHF）的一部分。

（2） DeepSeek-R1：這是 DeepSeek 的旗艦推理模型，基于 DeepSeek-R1-Zero 構(gòu)建。該團隊通過額外的 SFT 階段和進一步的 RL 訓(xùn)練進一步完善了它，改進了“冷啟動”R1-Zero 模型。

（3） DeepSeek-R1-Distill*：利用前面步驟生成的 SFT 數(shù)據(jù)，DeepSeek 團隊對 Qwen 和 Llama 模型進行了微調(diào)，以增強他們的推理能力。雖然不是傳統(tǒng)意義上的蒸餾，但這個過程涉及在更大的 DeepSeek-R1 671B 模型的輸出上訓(xùn)練較小的模型（Llama 8B 和 70B 以及 Qwen 1.5B-30B）。

構(gòu)建和改進推理模型的 4 種主要方法

在本節(jié)中，我將概述目前用于增強LLM推理能力和構(gòu)建專業(yè)推理模型的關(guān)鍵技術(shù)，如DeepSeek-R1、OpenAI的o1和o3等。

注意：o1 和 o3 的確切工作原理在 OpenAI 之外仍然未知。然而，有傳言稱它們結(jié)合了推理和訓(xùn)練技術(shù)。

1）推理時間擴展

提高 LLM 的推理能力（或任何一般能力）的一種方法是推理時擴展。該術(shù)語可以有多種含義，但在這種情況下，它是指在推理過程中增加計算資源以提高輸出質(zhì)量。

一個粗略的類比是，當(dāng)有更多時間思考復(fù)雜問題時，人類往往會產(chǎn)生更好的反應(yīng)。同樣，我們可以應(yīng)用一些技術(shù)，鼓勵 LLM 在生成答案時更多地 “思考”。（雖然，LLM 是否真的 “思考” 是一個不同的討論）

推理時間擴展的一種簡單方法是巧妙的提示工程。一個典型的例子是思維鏈（CoT）提示，其中輸入提示中包含 “think step by step” 等短語。這鼓勵模型生成中間推理步驟，而不是直接跳到最終答案，這通常（但并非總是）可以在更復(fù)雜的問題上產(chǎn)生更準確的結(jié)果。（請注意，將此策略用于更簡單的基于知識的問題是沒有意義的，例如“法國的首都是什么”，這又是一個很好的經(jīng)驗法則，可以找出推理模型對給定的輸入查詢是否有意義。

來自 2022 年大型語言模型的經(jīng)典 CoT 提示的一個例子是 Zero-Shot Reasoners 論文（https://arxiv.org/abs/2205.11916）

上述 CoT 方法可以被視為推理時間擴展，因為它通過生成更多輸出令牌使推理成本更高。

推理時間擴展的另一種方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票，我們讓 LLM 生成多個答案，我們通過多數(shù)票選擇正確答案。同樣，我們可以使用光束搜索和其他搜索算法來生成更好的響應(yīng)。

我強烈推薦以最佳方式擴展 LLM 測試時計算可能比我在之前值得注意的 2024 年 AI 研究論文（第二部分）文章

https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2

中描述的擴展模型參數(shù)論文更有效，以了解有關(guān)這些不同策略的更多詳細信息。

不同的基于搜索的方法依賴于基于流程獎勵的模型來選擇最佳答案。來自 LLM Test-Time Compute 論文的注釋圖 https://arxiv.org/abs/2408.03314

DeepSeek R1 技術(shù)報告指出，其模型不使用推理時間縮放。然而，這項技術(shù)通常是在 LLM 之上的應(yīng)用層實現(xiàn)的，因此 DeepSeek 有可能在他們的應(yīng)用中應(yīng)用它。

我懷疑 OpenAI 的 o1 和 o3 模型使用推理時間縮放，這可以解釋為什么與 GPT-4o 等模型相比，它們相對昂貴。除了推理時間擴展之外，o1 和 o3 可能使用類似于 DeepSeek R1 的 RL 管道進行訓(xùn)練。下面兩節(jié)將進一步介紹強化學(xué)習(xí)。

2）純強化學(xué)習(xí) （RL）

我個人在 DeepSeek R1 論文中的亮點之一是他們發(fā)現(xiàn)推理是純強化學(xué)習(xí) （RL）的一種行為。讓我們更詳細地探討一下這意味著什么。

如前所述，DeepSeek 開發(fā)了三種類型的 R1 模型。第一個 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基礎(chǔ)模型之上，這是他們于 2024 年 12 月發(fā)布的標(biāo)準預(yù)訓(xùn)練 LLM。與典型的 RL 管道不同，在 RL 之前應(yīng)用監(jiān)督微調(diào) （SFT），而 DeepSeek-R1-Zero 完全使用強化學(xué)習(xí)進行訓(xùn)練，沒有初始 SFT 階段，如下圖所示。

DeepSeek-R1-Zero 模型的開發(fā)過程。

盡管如此，這種 RL 過程類似于常用的 RLHF 方法，該方法通常應(yīng)用于偏好調(diào)整的 LLM。然而，如上所述，DeepSeek-R1-Zero 的主要區(qū)別在于它們跳過了指令優(yōu)化的監(jiān)督微調(diào) （SFT）階段。這就是為什么他們將其稱為“純”RL。（雖然，LLM 上下文中的 RL 與傳統(tǒng) RL 有很大不同，這是另一個話題。

對于獎勵，他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型，而是采用了兩種類型的獎勵：準確性獎勵和格式獎勵。

準確性獎勵使用 LeetCode 編譯器來驗證編碼答案，并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。
格式獎勵依賴于 LLM 評委來確保回答遵循預(yù)期的格式，例如在標(biāo)簽內(nèi)放置推理步驟。

令人驚訝的是，這種方法足以讓 LLM 培養(yǎng)基本的推理技能。研究人員觀察到一個“啊哈”時刻，盡管沒有經(jīng)過明確的訓(xùn)練，但模型開始生成推理軌跡作為其響應(yīng)的一部分，如下圖所示。

DeepSeek R1 技術(shù)報告（https://arxiv.org/abs/2501.12948）中的圖表顯示了 “Aha” 時刻的出現(xiàn)。

雖然 R1-Zero 不是一個性能最好的推理模型，但它確實通過生成中間的 “思考” 步驟來展示推理能力，如上圖所示。這證實了使用純 RL 開發(fā)推理模型是可能的，并且 DeepSeek 團隊是第一個演示（或至少發(fā)布）這種方法的人。

3）監(jiān)督微調(diào)和強化學(xué)習(xí) （SFT + RL）

接下來，我們來看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開發(fā)過程，它是構(gòu)建推理模型的藍圖。該模型在 DeepSeek-R1-Zero 的基礎(chǔ)上進行了改進，加入了額外的監(jiān)督微調(diào) （SFT）和強化學(xué)習(xí) （RL）來提高其推理性能。

請注意，實際上通常在 RL 之前包含一個 SFT 階段，如標(biāo)準 RLHF 管道中所示。OpenAI 的 o1 可能是使用類似的方法開發(fā)的。

DeepSeek-R1 模型的開發(fā)過程。

如上圖所示，DeepSeek 團隊使用 DeepSeek-R1-Zero 生成了他們所謂的“冷啟動”SFT 數(shù)據(jù)。術(shù)語“冷啟動”是指這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身沒有接受過任何監(jiān)督微調(diào) （SFT）數(shù)據(jù)的訓(xùn)練。

然后，DeepSeek 使用這些冷啟動 SFT 數(shù)據(jù)，通過指令微調(diào)來訓(xùn)練模型，然后是另一個強化學(xué)習(xí) （RL）階段。這個 RL 階段保留了 DeepSeek-R1-Zero 的 RL 流程中使用的相同準確性和格式獎勵。但是，他們添加了一致性獎勵以防止語言混合，當(dāng)模型在響應(yīng)中的多種語言之間切換時，就會發(fā)生這種情況。

RL 階段之后是另一輪 SFT 數(shù)據(jù)收集。在此階段，使用最新的模型檢查點生成 600K 思維鏈（CoT） SFT 示例，同時使用 DeepSeek-V3 基本模型創(chuàng)建另外 200K 基于知識的 SFT 示例。

然后將這些 600K + 200K SFT 樣品用于另一輪 RL。在這個階段，他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編碼問題進行準確性獎勵，而人類偏好標(biāo)簽則用于其他問題類型。

最終模型 DeepSeek-R1 的性能明顯優(yōu)于 DeepSeek-R1-Zero，這要歸功于額外的 SFT 和 RL 階段，如下表所示。

OpenAI A1 和 DeepSeek R1 模型的基準比較。來自 DeepSeek-R1 技術(shù)報告（https://arxiv.org/abs/2501.12948）的注釋圖。

4）純監(jiān)督微調(diào) （SFT）和蒸餾

到目前為止，我們已經(jīng)介紹了構(gòu)建和改進推理模型的三種關(guān)鍵方法：

1. 推理時擴展，一種無需訓(xùn)練或以其他方式修改底層模型即可提高推理能力的技術(shù)。

2. DeepSeek-R1-Zero 中的純強化學(xué)習(xí) （RL），它表明推理可以成為一種習(xí)得的行為，而無需監(jiān)督微調(diào)。

3. 監(jiān)督微調(diào) （SFT）加上 RL，這導(dǎo)致了 DeepSeek 的旗艦推理模型 DeepSeek-R1。

那么，還剩下什么呢？模型 “distillation”。

令人驚訝的是，DeepSeek 還發(fā)布了通過他們稱為蒸餾的過程訓(xùn)練的較小模型。但是，在 LLM 的上下文中，蒸餾不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上，在知識提煉中，較小的學(xué)生模型在較大的教師模型的 logits 和目標(biāo)數(shù)據(jù)集上進行訓(xùn)練。

相反，這里的蒸餾是指在由較大的 LLM 生成的 SFT 數(shù)據(jù)集上對較小的 LLM 進行指令微調(diào)，例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B）。具體來說，這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點。事實上，用于此蒸餾過程的 SFT 數(shù)據(jù)與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同，如上一節(jié)所述。

為了澄清這個過程，我在下圖中突出顯示了蒸餾部分。

DeepSeek-R1-Distill 模型的開發(fā)過程。

他們?yōu)槭裁匆_發(fā)這些蒸餾模型？在我看來，有兩個關(guān)鍵原因：

1. 模型越小，效率越高。這意味著它們的運行成本更低，但它們也可以在低端硬件上運行，這使得它們對許多像我這樣的研究人員和修補匠特別有趣。

2. 純 SFT 的案例研究。這些提煉的模型是一個有趣的基準，展示了純監(jiān)督微調(diào) （SFT）可以在沒有強化學(xué)習(xí)的情況下使模型走多遠。

下表將這些蒸餾模型的性能與其他流行的模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 進行了比較。

蒸餾模型與非蒸餾模型的基準比較。來自 DeepSeek-R1 技術(shù)報告（https://arxiv.org/abs/2501.12948）的注釋圖。

正如我們所看到的，提煉后的模型明顯弱于 DeepSeek-R1，但相對于 DeepSeek-R1-Zero 來說，它們卻出奇地強，盡管它小了幾個數(shù)量級。與 o1 mini 相比，這些型號的性能也很有趣（我懷疑 o1-mini 本身可能是 o1 的類似提煉版本）。

在以結(jié)論結(jié)束本節(jié)之前，還有一個有趣的比較值得一提。DeepSeek 團隊測試了 DeepSeek-R1-Zero 中看到的緊急推理行為是否也可以出現(xiàn)在較小的模型中。為了研究這個問題，他們將 DeepSeek-R1-Zero 的相同純 RL 方法直接應(yīng)用于 Qwen-32B。

該實驗的結(jié)果總結(jié)如下表所示，其中 QwQ-32B-Preview 作為基于 Qwen 團隊開發(fā)的 Qwen 2.5 32B 的參考推理模型（我認為訓(xùn)練細節(jié)從未披露過）。這種比較提供了一些額外的見解，即純 RL 是否可以單獨在比 DeepSeek-R1-Zero 小得多的模型中誘導(dǎo)推理能力。

5G1nsfwqpZyn0bTXyjetzhhGSu4f1BgEvCCAD3qnW9iaEh9fa7w/640?wx_fmt=jpeg&from=appmsg" data-type="jpeg" data-w="1080" height="408" sizes="100vw" width="1448" data-original-style="display: block;margin-right: auto;margin-left: auto;" data-index="15" src="http://www.xebio.com.cn/uploadfile/2025/0207/20250207104723822.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-fail="0" style="-webkit-tap-highlight-color: transparent; margin: 0px auto; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; vertical-align: bottom; height: auto !important; display: block; visibility: visible !important; width: 677px !important;"/>在較小的 32B 型號上比較蒸餾和 RL。來自 DeepSeek-R1 技術(shù)報告（https://arxiv.org/abs/2501.12948）的注釋圖。

有趣的是，結(jié)果表明，對于較小的模型，蒸餾比純 RL 有效得多。這與以下觀點一致：僅靠 RL 可能不足以在這種規(guī)模的模型中誘導(dǎo)強大的推理能力，而在處理小型模型時，基于高質(zhì)量推理數(shù)據(jù)的 SFT 可能是一種更有效的策略。

為了完整起見，在表中查看其他比較會很有用：

1. Qwen-32B 使用 SFT + RL 進行訓(xùn)練，類似于 DeepSeek-R1 的開發(fā)方式。這將有助于確定當(dāng) RL 與 SFT 聯(lián)合使用時，與純 RL 和純 SFT 相比，可以進行多少改善。

2. DeepSeek-V3 使用純 SFT 進行訓(xùn)練，類似于創(chuàng)建蒸餾模型的方式。這將允許直接比較以了解 RL + SFT 與純 SFT 相比的有效性。

結(jié)論

在本文中，我們探討了構(gòu)建和改進推理模型的四種不同策略：

1.推理時擴展不需要額外的訓(xùn)練，但會增加推理成本，隨著用戶數(shù)量或查詢量的增長，大規(guī)模部署的成本會更高。盡管如此，它仍然是提高已經(jīng)很強大的模型的性能的不費吹灰之力。我強烈懷疑 o1 利用了推理時間擴展，這有助于解釋為什么與 DeepSeek-R1 相比，它在每個令牌上的成本更高。

2. 純 RL 對于研究目的很有趣，因為它提供了將推理作為一種緊急行為的見解。然而，在實際模型開發(fā)中，RL + SFT 是首選方法，因為它會導(dǎo)致更強大的推理模型。我強烈懷疑 o1 也是使用 RL + SFT 訓(xùn)練的。更準確地說，我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎(chǔ)模型開始，但通過 RL + SFT 和推理時間縮放進行補償。

3. 如上所述，RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個很好的藍圖，展示了如何做到這一點。

4. 蒸餾是一種有吸引力的方法，尤其是對于創(chuàng)建更小、更高效的模型。然而，限制在于蒸餾不會推動創(chuàng)新或產(chǎn)生下一代推理模型。例如，蒸餾始終依賴于現(xiàn)有的、更強大的模型來生成監(jiān)督微調(diào) （SFT）數(shù)據(jù)。

我預(yù)計接下來會看到的一個有趣的方面是將 RL + SFT（方法 3）與推理時間縮放（方法 1）相結(jié)合。這可能是 OpenAI o1 正在做的事情，只是它可能基于比 DeepSeek-R1 更弱的基礎(chǔ)模型，這解釋了為什么 DeepSeek-R1 性能如此出色，同時在推理時保持相對便宜。

關(guān)于 DeepSeek R1 的想法

最近幾周，許多人詢問我對 DeepSeek-R1 模型的看法。簡而言之，我認為他們是一項了不起的成就。作為一名研究工程師，我特別欣賞詳細的技術(shù)報告，它提供了對他們方法的見解，我可以從中學(xué)習(xí)。

最吸引人的收獲之一是推理如何從純 RL 中成為一種行為。令人印象深刻的是，DeepSeek 在寬松的開源 MIT 許可證下開源了他們的模型，該許可證的限制甚至比 Meta 的 Llama 模型還要少。

它與 o1 相比如何？

DeepSeek-R1 比 o1 好嗎？我認為它們大致處于同一水平。然而，突出的是 DeepSeek-R1 在推理時效率更高。這表明DeepSeek可能在訓(xùn)練過程中投入了更多資源，而OpenAI可能更多地依賴于o1的推理時間擴展。

也就是說，很難直接比較 o1 和 DeepSeek-R1，因為 OpenAI 沒有透露太多關(guān)于 o1 的信息。例如，我們不知道：

o1 也是專家混合體（MoE）嗎？
o1 有多大？
o1是否只是GPT-4o的一個略微改進版本，僅進行了少量的RL+SFT訓(xùn)練，并大量依賴于推理時間擴展？

在不了解這些細節(jié)的情況下，直接比較仍然是蘋果與橙子的比較。

訓(xùn)練 DeepSeek-R1 的成本

另一個討論點是開發(fā) DeepSeek-R1 的成本。有些人提到了 ~600萬美元的訓(xùn)練成本，但他們可能將 DeepSeek-V3（去年 12 月發(fā)布的基本模型）和 DeepSeek-R1 混為一談。

600萬美元的估計值基于假設(shè)的每 GPU 小時 2 美元以及 DeepSeek-V3 最終訓(xùn)練運行所需的 GPU 小時數(shù)，這最初是在 2024 年 12 月討論的。

然而， DeepSeek 團隊從未透露過 R1 的確切 GPU 小時數(shù)或開發(fā)成本，因此任何成本估算都只是純粹的猜測。

無論哪種方式，最終 DeepSeek-R1 都是開放權(quán)重推理模型的一個重要里程碑，它在推理時的效率使其成為 OpenAI 的 o1 的有趣替代品。

在有限的預(yù)算下開發(fā)推理模型

開發(fā) DeepSeek-R1 級推理模型可能需要數(shù)十萬到數(shù)百萬美元，即使從像 DeepSeek-V3 這樣的輕量級基礎(chǔ)模型開始也是如此。對于預(yù)算有限的研究人員或工程師來說，這可能會讓人感到沮喪。

好消息：蒸餾可以走很長的路

幸運的是，模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團隊用他們的 R1 蒸餾模型證明了這一點，盡管比 DeepSeek-R1 小得多，但該模型實現(xiàn)了令人驚訝的強大推理性能。然而，即使是這種方法也并非完全便宜。他們的蒸餾過程使用了 800K SFT 樣品，這需要大量的計算。

有趣的是，就在DeepSeek-R1發(fā)布前幾天，我讀到了一篇關(guān)于Sky-T1的文章，這是一個引人入勝的項目，一個小團隊僅使用17,000個SFT樣本就訓(xùn)練了一個開放權(quán)重的320億參數(shù)模型。總成本是多少？僅450美元，這比大多數(shù)AI會議的注冊費還要低。

這個例子強調(diào)，雖然大規(guī)模訓(xùn)練仍然很昂貴，但規(guī)模較小、有針對性的微調(diào)工作仍然可以以一小部分成本產(chǎn)生令人印象深刻的結(jié)果。

圖來自“Sky-T1：在 450 美元內(nèi)訓(xùn)練您自己的 O1 預(yù)覽模型”一文，https://novasky-ai.github.io/posts/sky-t1/

根據(jù)他們的基準測試，Sky-T1 的性能與 o1 大致相當(dāng)，考慮到其較低的訓(xùn)練成本，這令人印象深刻。

預(yù)算有限的純 RL：TinyZero

雖然 Sky-T1 專注于模型蒸餾，但我也在“純 RL”領(lǐng)域遇到了一些有趣的工作。一個值得注意的例子是 TinyZero，這是一個復(fù)制 DeepSeek-R1-Zero 方法的 3B 參數(shù)模型（旁注：訓(xùn)練成本不到 30 美元）。

令人驚訝的是，即使只有 3B 參數(shù)，TinyZero 也表現(xiàn)出一些緊急自我驗證能力，這支持了推理可以通過純 RL 出現(xiàn)的觀點，即使在小模型中也是如此。

TinyZero 存儲庫提到研究報告仍在進行中，我肯定會密切關(guān)注更多細節(jié)。

來自 TinyZero 存儲庫（https://github.com/Jiayi-Pan/TinyZero）的圖，顯示該模型能夠進行自我驗證。

上面提到的兩個項目表明，即使預(yù)算有限，關(guān)于推理模型的有趣工作也是可能的。雖然這兩種方法都復(fù)制了 DeepSeek-R1 的方法，一種專注于純 RL （TinyZero），另一種專注于純 SFT （Sky-T1），但探索如何進一步擴展這些想法將非常有趣。

超越傳統(tǒng) SFT：旅程學(xué)習(xí)

我去年遇到的一種特別有趣的方法在論文 O1 Replication Journey：A Strategic Progress Report – Part 1 中進行了介紹。盡管標(biāo)題如此，但該論文實際上并沒有復(fù)制 o1。相反，它引入了一種不同的方法來改進蒸餾（純 SFT）工藝。

本文的關(guān)鍵思想是 “旅程學(xué)習(xí)” 作為 “捷徑學(xué)習(xí)” 的替代方案。

捷徑學(xué)習(xí)是指傳統(tǒng)的指令微調(diào)方法，其中僅使用正確的解決方案路徑來訓(xùn)練模型。
另一方面，旅程學(xué)習(xí)還包括不正確的解決方案路徑，允許模型從錯誤中學(xué)習(xí)。

這種方法與 TinyZero 的純 RL 訓(xùn)練中觀察到的自我驗證能力有點相關(guān)，但它側(cè)重于完全通過 SFT 改進模型。通過使模型暴露于不正確的推理路徑及其更正，旅程學(xué)習(xí)還可以增強自我糾正能力，從而可能使推理模型更加可靠。

與傳統(tǒng)的捷徑學(xué)習(xí)相反，歷程學(xué)習(xí)包括 SFT 數(shù)據(jù)中的錯誤解決方案路徑。O1 復(fù)制之旅中的注釋圖：戰(zhàn)略進展報告 – 第 1 部分（https://arxiv.org/abs/2410.18982）

這可能是未來工作的一個令人興奮的方向，特別是對于低預(yù)算的推理模型開發(fā)，其中基于 RL 的方法在計算上可能不切實際。

無論如何，目前在推理模型方面正在進行許多有趣的工作，我相信在接下來的幾個月里，我們將看到更多令人興奮的工作！

原文：

https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

關(guān)鍵詞： DeepSeek 國產(chǎn)GPU 摩爾線程

EETOP 官方微信
創(chuàng)芯大講堂在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

相關(guān)文章

上一篇：美媒：封殺DeepSeek，美國已毫無辦法！
下一篇：軟銀投資超越微軟！

全部評論

最新資訊

最熱資訊

99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线