99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

國外AI專家深度剖析:盛贊DeepSeek R1里程碑式成就!

2025-02-07 10:45:30 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

作者:Sebastian Raschka, PhD 

本文介紹了構建推理模型的四種主要方法,或者我們如何利用推理功能增強 LLM。并詳細介紹了 DeepSeek R1 背后的方法。希望本文能提供有價值的見解。
robot-5741488_640.jpg

2024年,大型語言模型(LLM)領域見證了日益專業化的趨勢。除了預訓練和微調之外,我們還見證了從檢索增強生成模型(RAG)到代碼助手等專用應用的興起。預計這一趨勢將在2025年加速,對領域和應用特定的優化(即“專業化”)給予更多重視。

圖片階段 1-3 是開發 LLM 的常見步驟。階段 4 專門針對特定用例使用 LLM。

推理模型的開發就是這些專業之一。這意味著我們改進 LLM 以擅長處理最好通過中間步驟解決的復雜任務,例如謎題、高級數學和編碼挑戰。但是,此專業化并不能取代其他 LLM 應用程序。因為將 LLM 轉換為推理模型也會引入某些弊端,我將在后面討論。

為了讓你對下文內容有一個簡要的了解,在本文中,我將討論如下內容:

  • 解釋“推理模型”的含義
  • 討論推理模型的優缺點
  • 概述DeepSeek R1背后的方法論
  • 描述構建和改進推理模型的四種主要方法
  • 分享DeepSeek V3和R1發布后對大型語言模型前景的看法
  • 提供在有限預算下開發推理模型的建議

希望這篇文章對你有所幫助,因為今年人工智能將繼續迅速發展!

我們如何定義“推理模型”?

如果你從事 AI(或一般的機器學習)工作,可能熟悉模糊且爭論不休的定義。“推理模型”一詞也不例外。最終,有人會在一篇論文中正式定義它,只是為了在下一篇文章中重新定義它,依此類推。

在本文中,我將“推理”定義為回答需要復雜、多步驟生成且包含中間步驟的問題的過程。例如,“法國的首都是什么?”這類事實型問答不涉及推理。相比之下,“如果一列火車以每小時60英里的速度行駛3小時,它會行駛多遠?”這類問題則需要一些簡單的推理。例如,它需要在得出答案之前識別出距離、速度和時間之間的關系。

圖片普通的 LLM 可能只提供一個簡短的答案(如左圖所示),而推理模型通常包括揭示部分思維過程的中間步驟。(請注意,許多不是專門為推理任務開發的 LLM 也可以在他們的答案中提供中間推理步驟。)

大多數現代 LLM 都能夠進行基本推理,并且可以回答以下問題:“如果一列火車以 60 英里/小時的速度行駛 3 小時,它能行駛多遠?因此,今天,當我們提到推理模型時,我們通常指的是擅長更復雜的推理任務的 LLM,例如解決謎題、謎語和數學證明。
此外,當今大多數被標記為推理模型的 LLM 都包含“思考”或“思考”過程作為其響應的一部分。LLM 是否以及如何真正 “思考” 是一個單獨的討論。
推理模型中的中間步驟可以以兩種方式出現。首先,它們可能顯式包含在響應中,如上圖所示。其次,一些推理 LLM(例如 OpenAI 的 o1)使用未向用戶顯示的中間步驟運行多次迭代。
圖片“推理” 用于兩個不同的級別:1) 處理輸入并通過多個中間步驟生成,以及 2) 提供某種推理作為對用戶的響應的一部分。

我們什么時候應該使用推理模型?

現在我們已經定義了推理模型,我們可以繼續討論更有趣的部分:如何構建和改進用于推理任務的 LLM。但是,在深入研究技術細節之前,重要的是要考慮何時真正需要推理模型。

我們什么時候需要一個推理模型? 推理模型旨在擅長復雜任務,例如解決難題、高級數學問題和具有挑戰性的編碼任務。但是,對于摘要、翻譯或基于知識的問答等更簡單的任務,它們不是必需的。事實上,對所有事情都使用推理模型可能效率低下且成本高昂。例如,推理模型通常使用起來更昂貴、更冗長,有時更容易因“過度思考”而出錯。這里也適用簡單的規則:為任務使用正確的工具(或 LLM 類型)。
下圖總結了推理模型的主要優勢和局限性。

圖片推理模型的主要優點和缺點

DeepSeek 訓練管道簡介

在下一節討論構建和改進推理模型的四種主要方法之前,我想簡要概述 DeepSeek R1 管道,如 DeepSeek R1 技術報告中所述。本報告既是一個有趣的案例研究,也是開發推理 LLM 的藍圖。

請注意,DeepSeek 沒有發布單個 R1 推理模型,而是引入了三個不同的變體:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根據技術報告中的描述,我在下圖中總結了這些模型的開發過程。

圖片DeepSeek 的開發過程 DeepSeek R1 技術報告中討論了三種不同的推理模型。

接下來,讓我們簡要回顧一下上圖所示的過程。下一節將介紹更多詳細信息,我們將討論構建和改進推理模型的四種主要方法。
(1) DeepSeek-R1-Zero:該模型基于 2024 年 12 月發布的 671B 預訓練 DeepSeek-V3 基礎模型。研究團隊使用具有兩種獎勵的強化學習 (RL) 對其進行訓練。這種方法被稱為 “冷啟動” 訓練,因為它不包括監督微調 (SFT) 步驟,該步驟通常是通過人工反饋進行強化學習 (RLHF) 的一部分。
(2) DeepSeek-R1:這是 DeepSeek 的旗艦推理模型,基于 DeepSeek-R1-Zero 構建。該團隊通過額外的 SFT 階段和進一步的 RL 訓練進一步完善了它,改進了“冷啟動”R1-Zero 模型。
(3) DeepSeek-R1-Distill*:利用前面步驟生成的 SFT 數據,DeepSeek 團隊對 Qwen 和 Llama 模型進行了微調,以增強他們的推理能力。雖然不是傳統意義上的蒸餾,但這個過程涉及在更大的 DeepSeek-R1 671B 模型的輸出上訓練較小的模型(Llama 8B 和 70B 以及 Qwen 1.5B-30B)。

構建和改進推理模型的 4 種主要方法

在本節中,我將概述目前用于增強LLM推理能力和構建專業推理模型的關鍵技術,如DeepSeek-R1、OpenAI的o1和o3等。

注意:o1 和 o3 的確切工作原理在 OpenAI 之外仍然未知。然而,有傳言稱它們結合了推理和訓練技術。

1) 推理時間擴展

提高 LLM 的推理能力(或任何一般能力)的一種方法是推理時擴展。該術語可以有多種含義,但在這種情況下,它是指在推理過程中增加計算資源以提高輸出質量。

一個粗略的類比是,當有更多時間思考復雜問題時,人類往往會產生更好的反應。同樣,我們可以應用一些技術,鼓勵 LLM 在生成答案時更多地 “思考”。(雖然,LLM 是否真的 “思考” 是一個不同的討論)
推理時間擴展的一種簡單方法是巧妙的提示工程。一個典型的例子是思維鏈 (CoT) 提示,其中輸入提示中包含 “think step by step” 等短語。這鼓勵模型生成中間推理步驟,而不是直接跳到最終答案,這通常(但并非總是)可以在更復雜的問題上產生更準確的結果。(請注意,將此策略用于更簡單的基于知識的問題是沒有意義的,例如“法國的首都是什么”,這又是一個很好的經驗法則,可以找出推理模型對給定的輸入查詢是否有意義。

圖片來自 2022 年大型語言模型的經典 CoT 提示的一個例子是 Zero-Shot Reasoners 論文 (https://arxiv.org/abs/2205.11916)

上述 CoT 方法可以被視為推理時間擴展,因為它通過生成更多輸出令牌使推理成本更高。
推理時間擴展的另一種方法是使用投票和搜索策略。一個簡單的例子是多數投票,我們讓 LLM 生成多個答案,我們通過多數票選擇正確答案。同樣,我們可以使用光束搜索和其他搜索算法來生成更好的響應。
我強烈推薦以最佳方式擴展 LLM 測試時計算可能比我在之前值得注意的 2024 年 AI 研究論文(第二部分)文章 
https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2
中描述的擴展模型參數論文更有效,以了解有關這些不同策略的更多詳細信息。

圖片不同的基于搜索的方法依賴于基于流程獎勵的模型來選擇最佳答案。來自 LLM Test-Time Compute 論文的注釋圖 https://arxiv.org/abs/2408.03314

DeepSeek R1 技術報告指出,其模型不使用推理時間縮放。然而,這項技術通常是在 LLM 之上的應用層實現的,因此 DeepSeek 有可能在他們的應用中應用它。
我懷疑 OpenAI 的 o1 和 o3 模型使用推理時間縮放,這可以解釋為什么與 GPT-4o 等模型相比,它們相對昂貴。除了推理時間擴展之外,o1 和 o3 可能使用類似于 DeepSeek R1 的 RL 管道進行訓練。下面兩節將進一步介紹強化學習。

2) 純強化學習 (RL)

我個人在 DeepSeek R1 論文中的亮點之一是他們發現推理是純強化學習 (RL) 的一種行為。讓我們更詳細地探討一下這意味著什么。

如前所述,DeepSeek 開發了三種類型的 R1 模型。第一個 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基礎模型之上,這是他們于 2024 年 12 月發布的標準預訓練 LLM。與典型的 RL 管道不同,在 RL 之前應用監督微調 (SFT),而 DeepSeek-R1-Zero 完全 使用強化學習進行訓練,沒有初始 SFT 階段,如下圖所示。

圖片DeepSeek-R1-Zero 模型的開發過程。

盡管如此,這種 RL 過程類似于常用的 RLHF 方法,該方法通常應用于偏好調整的 LLM。然而,如上所述,DeepSeek-R1-Zero 的主要區別在于它們跳過了指令優化的監督微調 (SFT) 階段。這就是為什么他們將其稱為“純”RL。(雖然,LLM 上下文中的 RL 與傳統 RL 有很大不同,這是另一個話題。
對于獎勵,他們沒有使用根據人類偏好訓練的獎勵模型,而是采用了兩種類型的獎勵:準確性獎勵和格式獎勵。

  • 準確性獎勵使用 LeetCode 編譯器來驗證編碼答案,并使用確定性系統來評估數學響應。
  • 格式獎勵依賴于 LLM 評委來確保回答遵循預期的格式,例如在 標簽內放置推理步驟。

令人驚訝的是,這種方法足以讓 LLM 培養基本的推理技能。研究人員觀察到一個“啊哈”時刻,盡管沒有經過明確的訓練,但模型開始生成推理軌跡作為其響應的一部分,如下圖所示。

圖片DeepSeek R1 技術報告 (https://arxiv.org/abs/2501.12948) 中的圖表顯示了 “Aha” 時刻的出現。

雖然 R1-Zero 不是一個性能最好的推理模型,但它確實通過生成中間的 “思考” 步驟來展示推理能力,如上圖所示。這證實了使用純 RL 開發推理模型是可能的,并且 DeepSeek 團隊是第一個演示(或至少發布)這種方法的人。

3) 監督微調和強化學習 (SFT + RL)

接下來,我們來看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開發過程,它是構建推理模型的藍圖。該模型在 DeepSeek-R1-Zero 的基礎上進行了改進,加入了額外的監督微調 (SFT) 和強化學習 (RL) 來提高其推理性能。

請注意,實際上通常在 RL 之前包含一個 SFT 階段,如標準 RLHF 管道中所示。OpenAI 的 o1 可能是使用類似的方法開發的。

圖片DeepSeek-R1 模型的開發過程。

如上圖所示,DeepSeek 團隊使用 DeepSeek-R1-Zero 生成了他們所謂的“冷啟動”SFT 數據。術語“冷啟動”是指這些數據是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身沒有接受過任何監督微調 (SFT) 數據的訓練。
然后,DeepSeek 使用這些冷啟動 SFT 數據,通過指令微調來訓練模型,然后是另一個強化學習 (RL) 階段。這個 RL 階段保留了 DeepSeek-R1-Zero 的 RL 流程中使用的相同準確性和格式獎勵。但是,他們添加了一致性獎勵以防止語言混合,當模型在響應中的多種語言之間切換時,就會發生這種情況。
RL 階段之后是另一輪 SFT 數據收集。在此階段,使用最新的模型檢查點生成 600K 思維鏈 (CoT) SFT 示例,同時使用 DeepSeek-V3 基本模型創建另外 200K 基于知識的 SFT 示例。
然后將這些 600K + 200K SFT 樣品用于另一輪 RL。在這個階段,他們再次使用基于規則的方法對數學和編碼問題進行準確性獎勵,而人類偏好標簽則用于其他問題類型。
最終模型 DeepSeek-R1 的性能明顯優于 DeepSeek-R1-Zero,這要歸功于額外的 SFT 和 RL 階段,如下表所示。

圖片OpenAI A1 和 DeepSeek R1 模型的基準比較。來自 DeepSeek-R1 技術報告 (https://arxiv.org/abs/2501.12948) 的注釋圖。

4) 純監督微調 (SFT) 和蒸餾

到目前為止,我們已經介紹了構建和改進推理模型的三種關鍵方法:

1. 推理時擴展,一種無需訓練或以其他方式修改底層模型即可提高推理能力的技術。
2. DeepSeek-R1-Zero 中的純強化學習 (RL),它表明推理可以成為一種習得的行為,而無需監督微調。
3. 監督微調 (SFT) 加上 RL,這導致了 DeepSeek 的旗艦推理模型 DeepSeek-R1。
那么,還剩下什么呢?模型 “distillation”。
令人驚訝的是,DeepSeek 還發布了通過他們稱為蒸餾的過程訓練的較小模型。但是,在 LLM 的上下文中,蒸餾不一定遵循深度學習中使用的經典知識蒸餾方法。傳統上,在知識提煉中,較小的學生模型在較大的教師模型的 logits 和目標數據集上進行訓練。
相反,這里的蒸餾是指在由較大的 LLM 生成的 SFT 數據集上對較小的 LLM 進行指令微調,例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B)。具體來說,這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點。事實上,用于此蒸餾過程的 SFT 數據與用于訓練 DeepSeek-R1 的數據集相同,如上一節所述。
為了澄清這個過程,我在下圖中突出顯示了蒸餾部分。

圖片DeepSeek-R1-Distill 模型的開發過程。

他們為什么要開發這些蒸餾模型?在我看來,有兩個關鍵原因:
1. 模型越小,效率越高。這意味著它們的運行成本更低,但它們也可以在低端硬件上運行,這使得它們對許多像我這樣的研究人員和修補匠特別有趣。
2. 純 SFT 的案例研究。這些提煉的模型是一個有趣的基準,展示了純監督微調 (SFT) 可以在沒有強化學習的情況下使模型走多遠。
下表將這些蒸餾模型的性能與其他流行的模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 進行了比較。

圖片蒸餾模型與非蒸餾模型的基準比較。來自 DeepSeek-R1 技術報告 (https://arxiv.org/abs/2501.12948) 的注釋圖。

正如我們所看到的,提煉后的模型明顯弱于 DeepSeek-R1,但相對于 DeepSeek-R1-Zero 來說,它們卻出奇地強,盡管它小了幾個數量級。與 o1 mini 相比,這些型號的性能也很有趣(我懷疑 o1-mini 本身可能是 o1 的類似提煉版本)。
在以結論結束本節之前,還有一個有趣的比較值得一提。DeepSeek 團隊測試了 DeepSeek-R1-Zero 中看到的緊急推理行為是否也可以出現在較小的模型中。為了研究這個問題,他們將 DeepSeek-R1-Zero 的相同純 RL 方法直接應用于 Qwen-32B。
該實驗的結果總結如下表所示,其中 QwQ-32B-Preview 作為基于 Qwen 團隊開發的 Qwen 2.5 32B 的參考推理模型(我認為訓練細節從未披露過)。這種比較提供了一些額外的見解,即純 RL 是否可以單獨在比 DeepSeek-R1-Zero 小得多的模型中誘導推理能力。

5G1nsfwqpZyn0bTXyjetzhhGSu4f1BgEvCCAD3qnW9iaEh9fa7w/640?wx_fmt=jpeg&from=appmsg" data-type="jpeg" data-w="1080" height="408" sizes="100vw" width="1448" data-original-style="display: block;margin-right: auto;margin-left: auto;" data-index="15" src="http://www.xebio.com.cn/uploadfile/2025/0207/20250207104723822.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-fail="0" style="-webkit-tap-highlight-color: transparent; margin: 0px auto; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; vertical-align: bottom; height: auto !important; display: block; visibility: visible !important; width: 677px !important;"/>在較小的 32B 型號上比較蒸餾和 RL。來自 DeepSeek-R1 技術報告 (https://arxiv.org/abs/2501.12948) 的注釋圖。

有趣的是,結果表明,對于較小的模型,蒸餾比純 RL 有效得多。這與以下觀點一致:僅靠 RL 可能不足以在這種規模的模型中誘導強大的推理能力,而在處理小型模型時,基于高質量推理數據的 SFT 可能是一種更有效的策略。
為了完整起見,在表中查看其他比較會很有用:
1. Qwen-32B 使用 SFT + RL 進行訓練,類似于 DeepSeek-R1 的開發方式。這將有助于確定當 RL 與 SFT 聯合使用時,與純 RL 和純 SFT 相比,可以進行多少改善。
2. DeepSeek-V3 使用純 SFT 進行訓練,類似于創建蒸餾模型的方式。這將允許直接比較以了解 RL + SFT 與純 SFT 相比的有效性。

結論

在本文中,我們探討了構建和改進推理模型的四種不同策略:

1.推理時擴展不需要額外的訓練,但會增加推理成本,隨著用戶數量或查詢量的增長,大規模部署的成本會更高。盡管如此,它仍然是提高已經很強大的模型的性能的不費吹灰之力。我強烈懷疑 o1 利用了推理時間擴展,這有助于解釋為什么與 DeepSeek-R1 相比,它在每個令牌上的成本更高。
2. 純 RL 對于研究目的很有趣,因為它提供了將推理作為一種緊急行為的見解。然而,在實際模型開發中,RL + SFT 是首選方法,因為它會導致更強大的推理模型。我強烈懷疑 o1 也是使用 RL + SFT 訓練的。更準確地說,我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎模型開始,但通過 RL + SFT 和推理時間縮放進行補償。
3. 如上所述,RL + SFT 是構建高性能推理模型的關鍵方法。DeepSeek-R1 是一個很好的藍圖,展示了如何做到這一點。
4. 蒸餾是一種有吸引力的方法,尤其是對于創建更小、更高效的模型。然而,限制在于蒸餾不會推動創新或產生下一代推理模型。例如,蒸餾始終依賴于現有的、更強大的模型來生成監督微調 (SFT) 數據。
我預計接下來會看到的一個有趣的方面是將 RL + SFT(方法 3)與推理時間縮放(方法 1)相結合。這可能是 OpenAI o1 正在做的事情,只是它可能基于比 DeepSeek-R1 更弱的基礎模型,這解釋了為什么 DeepSeek-R1 性能如此出色,同時在推理時保持相對便宜。

關于 DeepSeek R1 的想法

最近幾周,許多人詢問我對 DeepSeek-R1 模型的看法。簡而言之,我認為他們是一項了不起的成就。作為一名研究工程師,我特別欣賞詳細的技術報告,它提供了對他們方法的見解,我可以從中學習。

最吸引人的收獲之一是推理如何從純 RL 中成為一種行為。令人印象深刻的是,DeepSeek 在寬松的開源 MIT 許可證下開源了他們的模型,該許可證的限制甚至比 Meta 的 Llama 模型還要少。
它與 o1 相比如何?
DeepSeek-R1 比 o1 好嗎?我認為它們大致處于同一水平。然而,突出的是 DeepSeek-R1 在推理時效率更高這表明DeepSeek可能在訓練過程中投入了更多資源,而OpenAI可能更多地依賴于o1的推理時間擴展。
也就是說,很難直接比較 o1 和 DeepSeek-R1,因為 OpenAI 沒有透露太多關于 o1 的信息。例如,我們不知道:

  • o1 也是專家混合體 (MoE) 嗎?
  • o1 有多大?
  • o1是否只是GPT-4o的一個略微改進版本,僅進行了少量的RL+SFT訓練,并大量依賴于推理時間擴展?

在不了解這些細節的情況下,直接比較仍然是蘋果與橙子的比較。
訓練 DeepSeek-R1 的成本
另一個討論點是開發 DeepSeek-R1 的成本。有些人提到了 ~600萬美元的訓練成本,但他們可能將 DeepSeek-V3(去年 12 月發布的基本模型)和 DeepSeek-R1 混為一談。
600萬美元的估計值基于假設的每 GPU 小時 2 美元以及 DeepSeek-V3 最終訓練運行所需的 GPU 小時數,這最初是在 2024 年 12 月討論的。
然而, DeepSeek 團隊從未透露過 R1 的確切 GPU 小時數或開發成本,因此任何成本估算都只是純粹的猜測。
無論哪種方式,最終 DeepSeek-R1 都是開放權重推理模型的一個重要里程碑,它在推理時的效率使其成為 OpenAI 的 o1 的有趣替代品。

在有限的預算下開發推理模型

開發 DeepSeek-R1 級推理模型可能需要數十萬到數百萬美元,即使從像 DeepSeek-V3 這樣的輕量級基礎模型開始也是如此。對于預算有限的研究人員或工程師來說,這可能會讓人感到沮喪。

好消息:蒸餾可以走很長的路
幸運的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團隊用他們的 R1 蒸餾模型證明了這一點,盡管比 DeepSeek-R1 小得多,但該模型實現了令人驚訝的強大推理性能。然而,即使是這種方法也并非完全便宜。他們的蒸餾過程使用了 800K SFT 樣品,這需要大量的計算。
有趣的是,就在DeepSeek-R1發布前幾天,我讀到了一篇關于Sky-T1的文章,這是一個引人入勝的項目,一個小團隊僅使用17,000個SFT樣本就訓練了一個開放權重的320億參數模型。總成本是多少?僅450美元,這比大多數AI會議的注冊費還要低。
這個例子強調,雖然大規模訓練仍然很昂貴,但規模較小、有針對性的微調工作仍然可以以一小部分成本產生令人印象深刻的結果。

圖片圖來自“Sky-T1:在 450 美元內訓練您自己的 O1 預覽模型”一文,https://novasky-ai.github.io/posts/sky-t1/

根據他們的基準測試,Sky-T1 的性能與 o1 大致相當,考慮到其較低的訓練成本,這令人印象深刻。
預算有限的純 RL:TinyZero
雖然 Sky-T1 專注于模型蒸餾,但我也在“純 RL”領域遇到了一些有趣的工作。一個值得注意的例子是 TinyZero,這是一個復制 DeepSeek-R1-Zero 方法的 3B 參數模型(旁注:訓練成本不到 30 美元)。
令人驚訝的是,即使只有 3B 參數,TinyZero 也表現出一些緊急自我驗證能力,這支持了推理可以通過純 RL 出現的觀點,即使在小模型中也是如此。
TinyZero 存儲庫提到研究報告仍在進行中,我肯定會密切關注更多細節。

圖片來自 TinyZero 存儲庫 (https://github.com/Jiayi-Pan/TinyZero) 的圖,顯示該模型能夠進行自我驗證。

上面提到的兩個項目表明,即使預算有限,關于推理模型的有趣工作也是可能的。雖然這兩種方法都復制了 DeepSeek-R1 的方法,一種專注于純 RL (TinyZero),另一種專注于純 SFT (Sky-T1),但探索如何進一步擴展這些想法將非常有趣。
超越傳統 SFT:旅程學習
我去年遇到的一種特別有趣的方法在論文 O1 Replication Journey:A Strategic Progress Report – Part 1 中進行了介紹。盡管標題如此,但該論文實際上并沒有復制 o1。相反,它引入了一種不同的方法來改進蒸餾(純 SFT)工藝。
本文的關鍵思想是 “旅程學習” 作為 “捷徑學習” 的替代方案。

  • 捷徑學習是指傳統的指令微調方法,其中僅使用正確的解決方案路徑來訓練模型。
  • 另一方面,旅程學習還包括不正確的解決方案路徑,允許模型從錯誤中學習。

這種方法與 TinyZero 的純 RL 訓練中觀察到的自我驗證能力有點相關,但它側重于完全通過 SFT 改進模型。通過使模型暴露于不正確的推理路徑及其更正,旅程學習還可以增強自我糾正能力,從而可能使推理模型更加可靠。

圖片與傳統的捷徑學習相反,歷程學習包括 SFT 數據中的錯誤解決方案路徑。O1 復制之旅中的注釋圖:戰略進展報告 – 第 1 部分 (https://arxiv.org/abs/2410.18982)

這可能是未來工作的一個令人興奮的方向,特別是對于低預算的推理模型開發,其中基于 RL 的方法在計算上可能不切實際。
無論如何,目前在推理模型方面正在進行許多有趣的工作,我相信在接下來的幾個月里,我們將看到更多令人興奮的工作!
原文:
https://magazine.sebastianraschka.com/p/understanding-reasoning-llms


關鍵詞: DeepSeek 國產GPU 摩爾線程

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 亚洲精品第五页中文字幕| 日本高清另类videohd| 日本一本高清视频 | 国产欧美精品综合一区| 国产亚洲欧美在线观看的| 一及黄色片| 欧美三级真做在线观看| 国产成人精品美女在线| 欧美超高清xoxoxoxo| 亚洲青草视频| 日本色网址| 亚洲国产精品ⅴa在线观看| 欧美一级视屏| 国产日韩免费| 国产精品你懂的在线播放| 澳门麻豆传媒精东影业| 国产热久久精| 久久激情五月丁香伊人| 欧美视频一区二区| www.午夜视频| 久久免费精品一区二区| 日韩欧美在线观看视频一区二区 | 欧美天天射| 国产成人在线观看免费网站| 麻豆视传媒短视频网站-欢迎您| 亚洲高清一区二区三区久久| 久久久亚洲国产精品主播| 中文字幕制服| 亚色一区| 亚洲成a人片在线观| 国内精品一区二区三区东京| 久久草在线视频国产一| 欧美国产综合日韩一区二区| 手机在线观看亚洲国产精品| 一级特黄aa大片欧美网站| 亚洲国产精品第一区二区三区| 色黄网站aaaaaa级毛片| 国产成人亚洲合集青青草原精品| 免费国产成人| 亚洲 欧美 日韩 另类| 亚洲另类视频|