打開(kāi)網(wǎng)易新聞 查看精彩圖片

本文作者為Sebastian Raschka,一名機(jī)器學(xué)習(xí)和人工智能研究人員,在該領(lǐng)域擁有十多年的經(jīng)驗(yàn)。他非常熱衷于解釋復(fù)雜的技術(shù)概念和“從人工智能中奪走魔力”。

原文鏈接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

本文描述了構(gòu)建推理模型的主要四種方法,或我們?nèi)绾卧鰪?qiáng)LLMs的推理能力。

2024 年,LLM見(jiàn)證了越來(lái)越多的專(zhuān)業(yè)化。除了預(yù)訓(xùn)練和微調(diào)之外,我們還見(jiàn)證了從 RAG 到代碼助手的專(zhuān)用應(yīng)用興起。我預(yù)計(jì)這一趨勢(shì)將在 2025 年加速,對(duì)領(lǐng)域和應(yīng)用特定優(yōu)化(即“專(zhuān)業(yè)化”)的重視程度將更高。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

階段 1-3 是開(kāi)發(fā)LLMs的常見(jiàn)步驟。階段 4 專(zhuān)門(mén)針對(duì)LLMs的特定用例。

推理模型的開(kāi)發(fā)是這些專(zhuān)業(yè)化的之一。這意味著我們優(yōu)化LLMs以擅長(zhǎng)通過(guò)中間步驟解決的最佳復(fù)雜任務(wù),例如謎題、高級(jí)數(shù)學(xué)和編碼挑戰(zhàn)。然而,這種專(zhuān)業(yè)化并不取代其他LLM應(yīng)用。因?yàn)閷LM轉(zhuǎn)化為推理模型也引入了某些缺點(diǎn),我將在稍后討論。

為了給您簡(jiǎn)要地展示以下內(nèi)容,在本文中,我將:

1、解釋“推理模型”的含義

2、討論推理模型的優(yōu)缺點(diǎn)

3、概述 DeepSeek R1 背后的方法

4、描述構(gòu)建和改進(jìn)推理模型的主要四種方法

5、分享 DeepSeek V3 和 R1 發(fā)布后的LLM景觀觀點(diǎn)

6、提供在預(yù)算緊張的情況下開(kāi)發(fā)推理模型的技巧

如何定義“推理模型”?

如果您從事人工智能(或一般機(jī)器學(xué)習(xí))工作,您可能對(duì)模糊且爭(zhēng)議激烈的定義很熟悉。"推理模型"這一術(shù)語(yǔ)也不例外。最終,有人會(huì)在論文中正式定義它,但緊接著在下一次論文中又會(huì)重新定義,如此循環(huán)往復(fù)。

在這篇文章中,我將“推理”定義為回答需要復(fù)雜、多步驟生成并包含中間步驟的問(wèn)題的過(guò)程。例如,“法國(guó)的首都是哪里?”這樣的事實(shí)性問(wèn)題不涉及推理。相比之下,“如果一列火車(chē)以每小時(shí) 60 英里的速度行駛,行駛了 3 小時(shí),它會(huì)行駛多遠(yuǎn)?”這樣的問(wèn)題則需要一些簡(jiǎn)單的推理。例如,它需要識(shí)別距離、速度和時(shí)間之間的關(guān)系,才能得出答案。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一個(gè)常規(guī)的LLM可能只能提供一個(gè)簡(jiǎn)短的答案(如左圖所示),而推理模型通常包括中間步驟,揭示部分思維過(guò)程。(注意:許多未專(zhuān)門(mén)為推理任務(wù)開(kāi)發(fā)的LLMs在他們的答案中也可以提供中間推理步驟。)

大多數(shù)現(xiàn)代LLMs能夠進(jìn)行基本推理,并能回答諸如“如果一列火車(chē)以每小時(shí) 60 英里的速度行駛 3 小時(shí),它會(huì)行駛多遠(yuǎn)?”這樣的問(wèn)題。因此,今天當(dāng)我們提到推理模型時(shí),我們通常指的是LLMs,它們擅長(zhǎng)更復(fù)雜的推理任務(wù),例如解決謎題、謎語(yǔ)和數(shù)學(xué)證明。

此外,目前大多數(shù)被標(biāo)記為推理模型的LLMs都包括一個(gè)“思考”或“思維”過(guò)程作為其響應(yīng)的一部分。LLM是否以及如何真正“思考”是另一個(gè)話題的討論。

推理模型中的中間步驟可以以?xún)煞N方式出現(xiàn)。首先,它們可能被明確包含在響應(yīng)中,如圖中所示。其次,一些推理LLMs,例如 OpenAI 的 o1,運(yùn)行多次迭代,其中包含的中間步驟未向用戶(hù)展示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

"Reasoning" 在兩個(gè)不同的層面上使用:1)通過(guò)多個(gè)中間步驟處理輸入并生成;2)作為對(duì)用戶(hù)響應(yīng)的一部分提供某種推理。

我們應(yīng)該何時(shí)使用推理模型?

現(xiàn)在我們已經(jīng)定義了推理模型,我們可以繼續(xù)到更有趣的部分:如何構(gòu)建和改進(jìn)LLMs以用于推理任務(wù)。然而,在深入技術(shù)細(xì)節(jié)之前,考慮推理模型實(shí)際需要的時(shí)候是很重要的。

何時(shí)需要推理模型?推理模型旨在擅長(zhǎng)解決復(fù)雜任務(wù),如解謎、高級(jí)數(shù)學(xué)問(wèn)題和具有挑戰(zhàn)性的編碼任務(wù)。然而,對(duì)于摘要、翻譯或基于知識(shí)的問(wèn)答等簡(jiǎn)單任務(wù),它們并非必需。實(shí)際上,將推理模型用于一切可能會(huì)低效且昂貴。例如,推理模型通常使用成本更高,更冗長(zhǎng),有時(shí)由于“過(guò)度思考”而更容易出錯(cuò)。此外,這里也適用簡(jiǎn)單規(guī)則:為任務(wù)使用正確的工具(或類(lèi)型LLM)。

以下圖中總結(jié)了推理模型的關(guān)鍵優(yōu)勢(shì)和局限性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

推理模型的優(yōu)點(diǎn)和缺點(diǎn)。

一瞥 DeepSeek 訓(xùn)練流程

在下一節(jié)討論構(gòu)建和改進(jìn)推理模型的四種主要方法之前,我想簡(jiǎn)要概述 DeepSeek R1 流程,如 DeepSeek R1 技術(shù)報(bào)告所述。本報(bào)告既是一個(gè)有趣的案例研究,也是開(kāi)發(fā)推理LLMs的藍(lán)圖。

請(qǐng)注意,DeepSeek 沒(méi)有發(fā)布單個(gè) R1 推理模型,而是推出了三個(gè)不同的變體:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根據(jù)技術(shù)報(bào)告中的描述,我在下面的圖表中總結(jié)了這些模型的發(fā)展過(guò)程。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

開(kāi)發(fā)過(guò)程涉及 DeepSeeks 三種不同的推理模型,這些模型在 DeepSeek R1 技術(shù)報(bào)告中進(jìn)行了討論。

接下來(lái),讓我們簡(jiǎn)要回顧上圖所示的過(guò)程。更多細(xì)節(jié)將在下一節(jié)中介紹,我們將討論構(gòu)建和改進(jìn)推理模型的四種主要方法。

(1) DeepSeek-R1-Zero:本模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練 DeepSeek-V3 基礎(chǔ)模型。研究團(tuán)隊(duì)使用兩種類(lèi)型的獎(jiǎng)勵(lì),通過(guò)強(qiáng)化學(xué)習(xí)(RL)對(duì)其進(jìn)行訓(xùn)練。這種方法被稱(chēng)為“冷啟動(dòng)”訓(xùn)練,因?yàn)樗话ūO(jiān)督微調(diào)(SFT)步驟,而監(jiān)督微調(diào)通常是包含人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)的一部分。

(2) DeepSeek-R1:這是 DeepSeek 的旗艦推理模型,基于 DeepSeek-R1-Zero 構(gòu)建。團(tuán)隊(duì)通過(guò)額外的 SFT 階段和進(jìn)一步的 RL 訓(xùn)練對(duì)其進(jìn)行了進(jìn)一步優(yōu)化,提升了“冷啟動(dòng)”的 R1-Zero 模型。

(3) DeepSeek-R1-Distill*:使用前一步驟生成的 SFT 數(shù)據(jù),DeepSeek 團(tuán)隊(duì)對(duì) Qwen 和 Llama 模型進(jìn)行微調(diào)以增強(qiáng)其推理能力。雖然不是傳統(tǒng)意義上的蒸餾,但這個(gè)過(guò)程涉及在更大的 DeepSeek-R1 671B 模型輸出上訓(xùn)練較小的模型(Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

四種構(gòu)建和改進(jìn)推理模型的主要方法

在這一節(jié)中,我將概述目前用于增強(qiáng)LLMs推理能力的關(guān)鍵技術(shù),以及構(gòu)建 DeepSeek-R1、OpenAI 的 o1 和 o3 等專(zhuān)用推理模型的方法。

注意:o1 和 o3 的確切工作原理在 OpenAI 之外仍然未知。然而,據(jù)傳聞它們利用了推理和訓(xùn)練技術(shù)的結(jié)合。

1) 推理時(shí)縮放

一種提高LLM推理能力(或任何一般能力)的方法是推理時(shí)擴(kuò)展。這個(gè)術(shù)語(yǔ)可能有多種含義,但在這個(gè)上下文中,它指的是在推理過(guò)程中增加計(jì)算資源以提高輸出質(zhì)量。

一個(gè)粗略的類(lèi)比是人類(lèi)在有時(shí)間思考復(fù)雜問(wèn)題時(shí)往往能產(chǎn)生更好的回應(yīng)。同樣,我們可以應(yīng)用鼓勵(lì)LLM在生成答案時(shí)“思考”更多的技術(shù)。(盡管,LLMs是否真的“思考”是另一個(gè)話題。)

一種直接的推理時(shí)間縮放方法是巧妙的提示工程。一個(gè)經(jīng)典的例子是思維鏈(CoT)提示,其中在輸入提示中包含諸如“逐步思考”之類(lèi)的短語(yǔ)。這鼓勵(lì)模型生成中間推理步驟,而不是直接跳到最終答案,這在更復(fù)雜的問(wèn)題上往往(但不總是)能導(dǎo)致更準(zhǔn)確的結(jié)果。(請(qǐng)注意,對(duì)于像“法國(guó)的首都是什么”這樣的簡(jiǎn)單基于知識(shí)的問(wèn)題,采用這種策略是沒(méi)有意義的,這又是一個(gè)很好的經(jīng)驗(yàn)法則,用來(lái)判斷推理模型是否適用于你的給定輸入查詢(xún)。)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一個(gè) 2022 年大型語(yǔ)言模型經(jīng)典 CoT 提示的例子是《Zero-Shot Reasoners》論文(https://arxiv.org/abs/2205.11916)。

上述 CoT 方法可以看作是推理時(shí)間縮放,因?yàn)樗ㄟ^(guò)生成更多輸出標(biāo)記使推理更加昂貴。

另一種推理時(shí)間縮放的方法是使用投票和搜索策略。一個(gè)簡(jiǎn)單的例子是多數(shù)投票,我們生成多個(gè)答案,并通過(guò)多數(shù)投票選擇正確答案。同樣,我們可以使用束搜索和其他搜索算法來(lái)生成更好的響應(yīng)。

我強(qiáng)烈推薦我在 2024 年值得注意的人工智能研究論文(第二部分)文章中描述的《在測(cè)試時(shí)優(yōu)化縮放LLM計(jì)算可能比縮放模型參數(shù)更有效》這篇論文,更多關(guān)于這些不同策略的細(xì)節(jié)請(qǐng)參閱(https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

不同基于搜索的方法依賴(lài)于基于過(guò)程獎(jiǎng)勵(lì)的模型來(lái)選擇最佳答案。來(lái)自LLM 測(cè)試時(shí)計(jì)算論文的注釋圖,https://arxiv.org/abs/2408.03314

《DeepSeek R1 技術(shù)報(bào)告》指出,其模型不使用推理時(shí)縮放。然而,這項(xiàng)技術(shù)通常在 LLM 的應(yīng)用層實(shí)現(xiàn),因此 DeepSeek 可能在他們的應(yīng)用中應(yīng)用了這項(xiàng)技術(shù)。

我懷疑 OpenAI 的 o1 和 o3 模型使用了推理時(shí)縮放,這可以解釋為什么它們相對(duì)于 GPT-4o 等模型來(lái)說(shuō)相對(duì)昂貴。除了推理時(shí)縮放之外,o1 和 o3 可能還使用了類(lèi)似于 DeepSeek R1 所使用的 RL 管道進(jìn)行訓(xùn)練。下兩節(jié)將詳細(xì)介紹強(qiáng)化學(xué)習(xí)。

2) 純強(qiáng)化學(xué)習(xí)(RL)

我的個(gè)人亮點(diǎn)之一來(lái)自 DeepSeek R1 論文,他們發(fā)現(xiàn)推理作為純強(qiáng)化學(xué)習(xí)(RL)的行為出現(xiàn)。讓我們更詳細(xì)地探討這意味著什么。

如前所述,DeepSeek 開(kāi)發(fā)了三種類(lèi)型的 R1 模型。第一種,DeepSeek-R1-Zero,是在 DeepSeek-V3 基礎(chǔ)模型之上構(gòu)建的,這是他們?cè)?2024 年 12 月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練LLM。與典型的 RL 流水線不同,其中在 RL 之前應(yīng)用了監(jiān)督微調(diào)(SFT),DeepSeek-R1-Zero 完全使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,沒(méi)有初始的 SFT 階段,如圖下所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

The development process of DeepSeek-R1-Zero model.

DeepSeek-R1-Zero 模型的開(kāi)發(fā)過(guò)程。

盡管如此,這個(gè) RL 過(guò)程與常用的 RLHF 方法相似,通常應(yīng)用于偏好調(diào)整LLMs。(我在我的文章中詳細(xì)介紹了 RLHF,LLM 訓(xùn)練:RLHF 及其替代方案。)然而,如上所述,DeepSeek-R1-Zero 的關(guān)鍵區(qū)別在于它們跳過(guò)了指令微調(diào)(SFT)階段。這就是為什么他們稱(chēng)之為“純”RL。(盡管,LLMs 上下文中的 RL 與傳統(tǒng) RL 有顯著區(qū)別,這是另一個(gè)話題。)

為了獎(jiǎng)勵(lì),他們沒(méi)有使用基于人類(lèi)偏好的獎(jiǎng)勵(lì)模型,而是采用了兩種類(lèi)型的獎(jiǎng)勵(lì):準(zhǔn)確度獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。

  • 準(zhǔn)確性獎(jiǎng)勵(lì)使用 LeetCode 編譯器驗(yàn)證編碼答案,并使用確定性系統(tǒng)評(píng)估數(shù)學(xué)響應(yīng)。

  • 格式獎(jiǎng)勵(lì)依賴(lài)于一個(gè)LLM評(píng)委來(lái)確保響應(yīng)遵循預(yù)期的格式,例如將推理步驟放在標(biāo)簽內(nèi)。

令人驚訝的是,這種方法足以讓LLM發(fā)展基本的推理技能。研究人員觀察到“啊哈!”的時(shí)刻,模型開(kāi)始在其響應(yīng)中生成推理軌跡,盡管它并未被明確訓(xùn)練這樣做,如圖下所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一張來(lái)自 DeepSeek R1 技術(shù)報(bào)告(https://arxiv.org/abs/2501.12948)的圖表,展示了“啊哈”時(shí)刻的出現(xiàn)。

盡管 R1-Zero 不是一個(gè)表現(xiàn)優(yōu)異的推理模型,但它通過(guò)生成中間的“思考”步驟,如圖所示,展示了推理能力。這證實(shí)了使用純強(qiáng)化學(xué)習(xí)(RL)開(kāi)發(fā)推理模型是可能的,DeepSeek 團(tuán)隊(duì)是第一個(gè)(至少是第一個(gè)公開(kāi))展示這種方法的團(tuán)隊(duì)。

3) 監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(SFT + RL)

接下來(lái),讓我們看看 DeepSeek-R1 的發(fā)展,這是 DeepSeek 的旗艦推理模型,也是構(gòu)建推理模型的藍(lán)圖。該模型通過(guò)引入額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來(lái)提升其推理性能。

請(qǐng)注意,在 RL 之前包含 SFT 階段實(shí)際上是常見(jiàn)的,如標(biāo)準(zhǔn) RLHF 流程所示。OpenAI 的 o1 可能就是采用類(lèi)似方法開(kāi)發(fā)的。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek-R1 模型的開(kāi)發(fā)過(guò)程。

如上圖所示,DeepSeek 團(tuán)隊(duì)使用 DeepSeek-R1-Zero 生成他們所說(shuō)的“冷啟動(dòng)”SFT 數(shù)據(jù)。術(shù)語(yǔ)“冷啟動(dòng)”指的是這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身并未在任何監(jiān)督微調(diào)(SFT)數(shù)據(jù)上進(jìn)行過(guò)訓(xùn)練。

使用此冷啟動(dòng) SFT 數(shù)據(jù),DeepSeek 隨后通過(guò)指令微調(diào)訓(xùn)練模型,隨后進(jìn)入另一個(gè)強(qiáng)化學(xué)習(xí)(RL)階段。此 RL 階段保留了 DeepSeek-R1-Zero 的 RL 過(guò)程中使用的相同準(zhǔn)確性和格式獎(jiǎng)勵(lì)。然而,他們?cè)黾恿艘恢滦元?jiǎng)勵(lì),以防止在模型在多個(gè)語(yǔ)言之間切換時(shí)發(fā)生語(yǔ)言混合。

RL 階段之后,又進(jìn)行了一輪 SFT 數(shù)據(jù)收集。在這個(gè)階段,使用了最新的模型檢查點(diǎn)生成了 600K 思維鏈(CoT)SFT 示例,同時(shí)使用 DeepSeek-V3 基礎(chǔ)模型創(chuàng)建了額外的 200K 基于知識(shí)的 SFT 示例。

這些 60 萬(wàn)+20 萬(wàn) SFT 樣本隨后用于另一輪強(qiáng)化學(xué)習(xí)。在這個(gè)階段,他們?cè)俅问褂没谝?guī)則的算法來(lái)為數(shù)學(xué)和編碼問(wèn)題提供準(zhǔn)確性獎(jiǎng)勵(lì),而用于其他問(wèn)題類(lèi)型的是人類(lèi)偏好的標(biāo)簽。

最終模型 DeepSeek-R1 相較于 DeepSeek-R1-Zero,由于增加了 SFT 和 RL 階段,性能有顯著提升,如表下所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基準(zhǔn)比較 OpenAI A1 和 DeepSeek R1 模型。來(lái)自 DeepSeek-R1 技術(shù)報(bào)告的注釋圖(https://arxiv.org/abs/2501.12948)。

4) 純監(jiān)督微調(diào)(SFT)和蒸餾

截至目前,我們已涵蓋構(gòu)建和改進(jìn)推理模型的三個(gè)關(guān)鍵方法:

1. 推理時(shí)縮放,一種在不訓(xùn)練或修改底層模型的情況下提高推理能力的技巧。

2. 純強(qiáng)化學(xué)習(xí)(RL)如 DeepSeek-R1-Zero,它表明推理可以作為一種學(xué)習(xí)行為出現(xiàn),無(wú)需監(jiān)督微調(diào)。

3. 監(jiān)督微調(diào)(SFT)加強(qiáng)化學(xué)習(xí)(RL),導(dǎo)致了 DeepSeek-R1,DeepSeek 的旗艦推理模型。

所以,剩下的是什么?模型“蒸餾”。

令人驚訝的是,DeepSeek 還發(fā)布了通過(guò)他們稱(chēng)為蒸餾的過(guò)程訓(xùn)練的小型模型。然而,在 LLMs 的背景下,蒸餾并不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識(shí)蒸餾方法。傳統(tǒng)上,在知識(shí)蒸餾(如我在《機(jī)器學(xué)習(xí) Q 和 AI》一書(shū)的第 6 章中簡(jiǎn)要描述的),一個(gè)較小的學(xué)生模型在較大的教師模型的 logits 和目標(biāo)數(shù)據(jù)集上訓(xùn)練。

相反,這里的蒸餾指的是在更大的LLMs生成的 SFT 數(shù)據(jù)集上對(duì)較小的LLMs進(jìn)行指令微調(diào),例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B)。具體來(lái)說(shuō),這些更大的LLMs是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點(diǎn)。實(shí)際上,用于此蒸餾過(guò)程的 SFT 數(shù)據(jù)集與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同,如前所述。

為了闡明這個(gè)過(guò)程,我在下面的圖中突出了蒸餾部分。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek-R1-Distill 模型的開(kāi)發(fā)過(guò)程。

為什么他們開(kāi)發(fā)了這些蒸餾模型?在我看來(lái),有兩個(gè)關(guān)鍵原因:

1. 小型模型更高效。這意味著它們運(yùn)行成本更低,但也可以在低端硬件上運(yùn)行,這使得它們對(duì)許多像我這樣的研究人員和愛(ài)好者特別有趣。

2. 純 SFT 的一個(gè)案例研究。這些提煉出的模型作為一個(gè)有趣的基準(zhǔn),展示了純監(jiān)督微調(diào)(SFT)在無(wú)需強(qiáng)化學(xué)習(xí)的情況下可以將模型帶到多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基準(zhǔn)對(duì)比蒸餾模型與非蒸餾模型。來(lái)自 DeepSeek-R1 技術(shù)報(bào)告的注釋圖(https://arxiv.org/abs/2501.12948)。

如我們所見(jiàn),蒸餾模型在性能上明顯弱于 DeepSeek-R1,但相對(duì)于 DeepSeek-R1-Zero,它們的強(qiáng)度卻出人意料地高,盡管體積小得多。同時(shí),這些模型與 o1 mini 相比的表現(xiàn)也相當(dāng)引人注目(我懷疑 o1-mini 本身可能也是 o1 的一個(gè)類(lèi)似蒸餾版本)。

在結(jié)束本節(jié)之前,有一個(gè)有趣的比較值得一提。DeepSeek 團(tuán)隊(duì)測(cè)試了在 DeepSeek-R1-Zero 中觀察到的涌現(xiàn)推理行為是否也會(huì)出現(xiàn)在更小的模型中。為了研究這個(gè)問(wèn)題,他們直接將 DeepSeek-R1-Zero 中的相同純強(qiáng)化學(xué)習(xí)(RL)方法應(yīng)用于 Qwen-32B。

實(shí)驗(yàn)結(jié)果總結(jié)在下表中,其中 QwQ-32B-Preview 作為基于 Qwen 2.5 32B 的參考推理模型,由 Qwen 團(tuán)隊(duì)開(kāi)發(fā)(我認(rèn)為訓(xùn)練細(xì)節(jié)從未公開(kāi))。這次比較為是否僅純強(qiáng)化學(xué)習(xí)(RL)能夠誘導(dǎo)模型在 DeepSeek-R1-Zero 遠(yuǎn)小得多的模型中產(chǎn)生推理能力提供了額外的見(jiàn)解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基準(zhǔn)比較在較小的 32B 模型上的蒸餾和 RL。來(lái)自 DeepSeek-R1 技術(shù)報(bào)告的標(biāo)注圖(https://arxiv.org/abs/2501.12948)。

有趣的是,結(jié)果表明蒸餾在小型模型中比純強(qiáng)化學(xué)習(xí)更有效。這與這樣一個(gè)觀點(diǎn)相符,即僅強(qiáng)化學(xué)習(xí)可能不足以在如此規(guī)模的模型中誘導(dǎo)出強(qiáng)大的推理能力,而使用高質(zhì)量推理數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)(SFT)在處理小型模型時(shí)可能是一種更有效的策略。

為了完整性,在表格中看到更多的比較將是有用的:

1. 使用 SFT + RL 訓(xùn)練的 Qwen-32B,類(lèi)似于 DeepSeek-R1 的開(kāi)發(fā)方式。這有助于確定當(dāng) RL 與 SFT 結(jié)合時(shí),相比純 RL 和純 SFT,可以提升多少。

2. 使用純 SFT 訓(xùn)練的 DeepSeek-V3,類(lèi)似于蒸餾模型創(chuàng)建的方式。這將允許直接比較,以查看 RL + SFT 相對(duì)于純 SFT 的有效性。

結(jié)論

在這一節(jié)中,我們探討了四種構(gòu)建和改進(jìn)推理模型的不同策略:

1. 推理時(shí)縮放不需要額外的訓(xùn)練,但會(huì)增加推理成本,隨著用戶(hù)數(shù)量或查詢(xún)量的增加,大規(guī)模部署變得更加昂貴。然而,對(duì)于提高現(xiàn)有強(qiáng)大模型的性能來(lái)說(shuō),這仍然是不言而喻的。我強(qiáng)烈懷疑 o1 利用了推理時(shí)縮放,這有助于解釋為什么它在每個(gè)標(biāo)記上的成本比 DeepSeek-R1 更高。

2. 純粹的強(qiáng)化學(xué)習(xí)(RL)對(duì)研究目的來(lái)說(shuō)很有趣,因?yàn)樗峁┝岁P(guān)于推理作為涌現(xiàn)行為的見(jiàn)解。然而,在實(shí)際模型開(kāi)發(fā)中,RL + SFT 是首選方法,因?yàn)樗軐?dǎo)致更強(qiáng)的推理模型。我強(qiáng)烈懷疑 o1 也是使用 RL + SFT 進(jìn)行訓(xùn)練的。更準(zhǔn)確地說(shuō),我認(rèn)為 o1 從一個(gè)比 DeepSeek-R1 弱、更小的基礎(chǔ)模型開(kāi)始,但通過(guò) RL + SFT 和推理時(shí)間縮放進(jìn)行補(bǔ)償。

3. 如上所述,RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個(gè)展示如何實(shí)現(xiàn)這一點(diǎn)的良好藍(lán)圖。

4. 蒸餾是一種有吸引力的方法,尤其是用于創(chuàng)建更小、更高效的模型。然而,其局限性在于蒸餾不能推動(dòng)創(chuàng)新或產(chǎn)生下一代推理模型。例如,蒸餾始終依賴(lài)于現(xiàn)有的、更強(qiáng)的模型來(lái)生成監(jiān)督微調(diào)(SFT)數(shù)據(jù)。

一個(gè)我期待看到的有趣方面是將 RL + SFT(方法 3)與推理時(shí)縮放(方法 1)相結(jié)合。這很可能是 OpenAI o1 所做的事情,但它可能基于比 DeepSeek-R1 更弱的基模型,這解釋了為什么 DeepSeek-R1 在推理時(shí)表現(xiàn)如此出色,同時(shí)相對(duì)便宜。

關(guān)于 DeepSeek R1 的思考

在最近幾周,許多人向我詢(xún)問(wèn)我對(duì) DeepSeek-R1 模型的看法。簡(jiǎn)而言之,我認(rèn)為這是一項(xiàng)了不起的成就。作為一名研究工程師,我特別欣賞那份詳細(xì)的技術(shù)報(bào)告,它提供了我可以從中學(xué)習(xí)的方法論見(jiàn)解。

其中最令人著迷的收獲之一是推理如何從純強(qiáng)化學(xué)習(xí)(RL)中演變成為一種行為。而且,DeepSeek 在 MIT 許可下開(kāi)源他們的模型,這種許可比 Meta 的 Llama 模型限制更少,這令人印象深刻。

它與 o1 相比如何?

DeepSeek-R1 是否優(yōu)于 o1?我認(rèn)為它們大致在同一水平。然而,突出的是 DeepSeek-R1 在推理時(shí)間上更高效。這表明 DeepSeek 可能在訓(xùn)練過(guò)程中投入了更多,而 OpenAI 可能更依賴(lài)于 o1 的推理時(shí)間擴(kuò)展。

說(shuō)到這里,直接比較 o1 和 DeepSeek-R1 是有難度的,因?yàn)?OpenAI 并未透露太多關(guān)于 o1 的信息。例如,我們不知道:

  • o1 也是專(zhuān)家混合(MoE)嗎?

  • o1 有多大?

  • o1 只是 GPT-4o 的一個(gè)略微改進(jìn)版本,加上最小量的強(qiáng)化學(xué)習(xí)+微調(diào),以及僅在推理時(shí)間上進(jìn)行大規(guī)模擴(kuò)展嗎?

不知道這些細(xì)節(jié),直接比較仍然是蘋(píng)果和橙子的比較。

訓(xùn)練 DeepSeek-R1 的成本

另一個(gè)討論點(diǎn)是開(kāi)發(fā) DeepSeek-R1 的成本。有人提到大約 600 萬(wàn)美元的訓(xùn)練成本,但他們可能混淆了 DeepSeek-V3(去年 12 月發(fā)布的基座模型)和 DeepSeek-R1。

600 萬(wàn)美元的估計(jì)基于假設(shè)的每 GPU 小時(shí) 2 美元以及 DeepSeek-V3 最終訓(xùn)練運(yùn)行所需的 GPU 小時(shí)數(shù),這一話題最初是在 2024 年 12 月討論的。

然而,DeepSeek 團(tuán)隊(duì)從未披露 R1 的確切 GPU 小時(shí)數(shù)或開(kāi)發(fā)成本,因此任何成本估計(jì)都純粹是猜測(cè)。

無(wú)論哪種方式,最終 DeepSeek-R1 是開(kāi)放重量推理模型的一個(gè)重大里程碑,其在推理時(shí)間上的效率使其成為 OpenAI 的 o1 的一個(gè)有趣替代品。

在有限預(yù)算下開(kāi)發(fā)推理模型

開(kāi)發(fā)一個(gè) DeepSeek-R1 級(jí)別的推理模型可能需要數(shù)十萬(wàn)到數(shù)百萬(wàn)美元,即使是從像 DeepSeek-V3 這樣的開(kāi)放權(quán)重基礎(chǔ)模型開(kāi)始。這可能會(huì)讓預(yù)算有限的科研人員或工程師感到沮喪。

好消息:蒸餾可以走得很遠(yuǎn)

幸運(yùn)的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團(tuán)隊(duì)通過(guò)他們的 R1 蒸餾模型展示了這一點(diǎn),盡管這些模型比 DeepSeek-R1 小得多,但它們實(shí)現(xiàn)了令人驚訝的強(qiáng)大推理性能。然而,即使這種方法也不是完全便宜的。他們的蒸餾過(guò)程使用了 800K SFT 樣本,這需要大量的計(jì)算資源。

有趣的是,就在 DeepSeek-R1 發(fā)布的前幾天,我看到了一篇關(guān)于 Sky-T1 的文章,這是一個(gè)令人著迷的項(xiàng)目,一個(gè)小團(tuán)隊(duì)僅使用 17K SFT 樣本訓(xùn)練了一個(gè)開(kāi)放重量的 32B 模型。總成本?只需 450 美元,這還不到大多數(shù) AI 會(huì)議的注冊(cè)費(fèi)。

這個(gè)例子突出顯示,盡管大規(guī)模訓(xùn)練仍然昂貴,但較小的、有針對(duì)性的微調(diào)工作仍然可以在成本的一小部分內(nèi)產(chǎn)生令人印象深刻的成果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖來(lái)自“Sky-T1:450 美元內(nèi)訓(xùn)練自己的 O1 預(yù)覽模型”文章,https://novasky-ai.github.io/posts/sky-t1/

根據(jù)他們的基準(zhǔn),Sky-T1 的表現(xiàn)與 o1 大致相當(dāng),考慮到其低廉的訓(xùn)練成本,這令人印象深刻。

純預(yù)算下的純強(qiáng)化學(xué)習(xí):TinyZero

雖然 Sky-T1 專(zhuān)注于模型蒸餾,我也在“純強(qiáng)化學(xué)習(xí)”領(lǐng)域遇到了一些有趣的工作。一個(gè)值得注意的例子是 TinyZero,一個(gè)具有 30 億參數(shù)的模型,它復(fù)制了 DeepSeek-R1-Zero 方法(旁注:訓(xùn)練成本低于 30 美元)。

令人驚訝的是,即使只有 30 億個(gè)參數(shù),TinyZero 也展現(xiàn)出一些自驗(yàn)證的能力,這支持了通過(guò)純強(qiáng)化學(xué)習(xí)(RL)甚至在小模型中也能產(chǎn)生推理的觀點(diǎn)。

TinyZero 倉(cāng)庫(kù)提到,一份研究報(bào)告仍在進(jìn)行中,我肯定會(huì)密切關(guān)注更多細(xì)節(jié)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一張來(lái)自 TinyZero 倉(cāng)庫(kù)(https://github.com/Jiayi-Pan/TinyZero)的圖表顯示該模型能夠進(jìn)行自我驗(yàn)證。(看到基礎(chǔ)模型對(duì)此的反應(yīng)將會(huì)很有趣。)

上述提到的兩個(gè)項(xiàng)目表明,即使在有限的預(yù)算下,進(jìn)行推理模型的有意思的工作也是可能的。雖然這兩種方法都復(fù)制了 DeepSeek-R1 的方法,一個(gè)專(zhuān)注于純強(qiáng)化學(xué)習(xí)(TinyZero),另一個(gè)專(zhuān)注于純強(qiáng)化學(xué)習(xí)(Sky-T1),但探索這些想法如何進(jìn)一步擴(kuò)展將是非常有趣的。

超越傳統(tǒng) SFT:旅程學(xué)習(xí)(Journey Learning)

去年我遇到的一個(gè)特別有趣的方法在論文《O1 復(fù)制之旅:戰(zhàn)略進(jìn)展報(bào)告——第一部分》中有描述。盡管標(biāo)題如此,這篇論文實(shí)際上并沒(méi)有復(fù)制 o1。相反,它介紹了一種不同的方法來(lái)改進(jìn)蒸餾(純 SFT)過(guò)程。

論文中的關(guān)鍵思想是“旅程學(xué)習(xí)”,作為“捷徑學(xué)習(xí)”的替代方案。

  • 快捷學(xué)習(xí)指的是在指令微調(diào)中的傳統(tǒng)方法,其中模型僅使用正確解決方案路徑進(jìn)行訓(xùn)練。

  • 旅程學(xué)習(xí),另一方面,也包括錯(cuò)誤解決方案路徑,使模型能夠從錯(cuò)誤中學(xué)習(xí)。

這種方法與 TinyZero 純強(qiáng)化學(xué)習(xí)訓(xùn)練中觀察到的自我驗(yàn)證能力有關(guān),但側(cè)重于通過(guò) SFT 完全改進(jìn)模型。通過(guò)讓模型接觸錯(cuò)誤的推理路徑及其糾正,旅程學(xué)習(xí)也可能加強(qiáng)自我糾正能力,從而可能使推理模型更加可靠。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

旅程學(xué)習(xí),與傳統(tǒng)捷徑學(xué)習(xí)相反,包括 SFT 數(shù)據(jù)中的錯(cuò)誤解決方案路徑。O1 復(fù)制旅程注釋圖:戰(zhàn)略進(jìn)展報(bào)告——第一部分(https://arxiv.org/abs/2410.18982)

這可能是未來(lái)工作的一個(gè)令人興奮的方向,尤其是對(duì)于低成本推理模型開(kāi)發(fā),其中基于強(qiáng)化學(xué)習(xí)的方法可能在計(jì)算上不切實(shí)際。

無(wú)論如何,目前推理模型方面正在進(jìn)行許多有趣的工作,我確信在接下來(lái)的幾個(gè)月里我們將看到更多令人興奮的工作!

| |