機(jī)器之心報(bào)道

機(jī)器之心編輯部

近日,Deepseek R1 等一系列推理大語(yǔ)言模型已成為 2025 年最熱門(mén)的話題之一。在過(guò)去的幾周里,研究人員推出了許多改進(jìn)推理的新策略,包括擴(kuò)展簡(jiǎn)單測(cè)試 - 時(shí)間規(guī)模化(S1)、關(guān)聯(lián)思維鏈(Chain of Associated thoughts)、Inner Transformer 等方法。

不僅如此,還有來(lái)自騰訊實(shí)驗(yàn)室的研究人員探索了 Thoughts Are All Over the Place,通過(guò)衡量不正確答案中的 token 效率來(lái)鼓勵(lì)模型對(duì)每條推理路徑進(jìn)行更深入的探索;來(lái)自美國(guó)馬里蘭大學(xué)和橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合提出了 Recurrent Block,通過(guò)重復(fù)調(diào)用同一個(gè)循環(huán)體的方式,在推理階段可以迭代任意多次;以及來(lái)自美國(guó) Zoom 視頻通訊公司的研究團(tuán)隊(duì)提出了 Chain of Draft(CoD),基于更接近人類(lèi)推理的提示策略提出了草稿圖,這是一種優(yōu)先考慮效率和推理的提示詞策略。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

目前大語(yǔ)言模型推理技術(shù)研究雖在細(xì)分領(lǐng)域取得突破,但研究路徑分散、成果碎片化,缺少推理模型發(fā)展研究現(xiàn)狀的總結(jié),因此系統(tǒng)性總結(jié)成破局關(guān)鍵。

前統(tǒng)計(jì)學(xué)教授,現(xiàn) AI/ML 研究員 Sebastian Raschka 在綜述《The State of LLM Reasoning Models》中探討并總結(jié)了推理 LLM 的最新研究進(jìn)展,特別關(guān)注自 DeepSeek R1 發(fā)布以來(lái)出現(xiàn)的推理時(shí)間計(jì)算擴(kuò)展。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

原文地址:https://magazine.sebastianraschka.com/p/state-of-llm-reasoning-and-inference-scaling

順帶一提,Sebastian Raschka 前段時(shí)間還曾寫(xiě)過(guò)另一篇與推理模型相關(guān)的長(zhǎng)篇博客,感興趣的讀者可訪問(wèn)《Sebastian Raschka:關(guān)于 DeepSeek R1 和推理模型,我有幾點(diǎn)看法》。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

首先該文章簡(jiǎn)要介紹了什么是 LLM 推理模型?

打開(kāi)網(wǎng)易新聞 查看精彩圖片

相較于僅分享最終答案的簡(jiǎn)單問(wèn)答式 LLM 不同,推理模型是一種通過(guò)生成中間步驟或顯式「思維」過(guò)程來(lái)解決多步驟問(wèn)題的 LLM。其核心突破在于模擬人類(lèi)思維過(guò)程,主要呈現(xiàn)三大特征:

  • 過(guò)程透明化:通過(guò)思維鏈(CoT)等技術(shù),將問(wèn)題拆解為可解釋的推理步驟,使模型決策路徑可視化。
  • 計(jì)算動(dòng)態(tài)化:采用測(cè)試時(shí)間擴(kuò)展(Test-Time Scaling)等策略在推理階段動(dòng)態(tài)分配更多計(jì)算資源處理復(fù)雜子問(wèn)題。
  • 訓(xùn)練強(qiáng)化:結(jié)合強(qiáng)化學(xué)習(xí)(如 RLHF)、對(duì)抗訓(xùn)練等方法,利用高難度推理任務(wù)數(shù)據(jù)集(如 MATH、CodeContests)進(jìn)行微調(diào),提升符號(hào)推理與邏輯連貫性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通過(guò)我們?nèi)粘:?Deepseek 的交流可以看到,推理模型明確的展示了其思維過(guò)程,結(jié)合實(shí)際應(yīng)用場(chǎng)景中來(lái)看,這有助于我們理解模型的決策過(guò)程,這在需要高度信任的應(yīng)用場(chǎng)景中尤為重要,比如醫(yī)療診斷或金融投資。

那么如何提高大模型推理的推理能力呢?

文章表示一般來(lái)說(shuō)有兩種核心策略:

  1. 增加訓(xùn)練計(jì)算,即通過(guò)擴(kuò)展訓(xùn)練數(shù)據(jù)量、強(qiáng)化學(xué)習(xí)或針對(duì)特定任務(wù)的微調(diào)來(lái)增強(qiáng)模型能力;
  2. 增加推理計(jì)算,也稱(chēng)為推理時(shí)間擴(kuò)展或測(cè)試時(shí)間擴(kuò)展,即在模型生成輸出時(shí)分配更多計(jì)算資源,允許模型 “思考更長(zhǎng)時(shí)間” 或執(zhí)行更復(fù)雜的推理步驟。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如上圖所示,研究人員分別通過(guò)訓(xùn)練時(shí)間計(jì)算或測(cè)試時(shí)間計(jì)算來(lái)改進(jìn)推理。值得注意的是,雖然這兩種策略可以獨(dú)立使用,但實(shí)際應(yīng)用中,LLM 的推理能力優(yōu)化通常需要結(jié)合兩者。

具體來(lái)說(shuō),通過(guò)大量訓(xùn)練計(jì)算(如使用強(qiáng)化學(xué)習(xí)或?qū)iT(mén)數(shù)據(jù)集的深度微調(diào))來(lái)提升模型的基礎(chǔ)能力,同時(shí)通過(guò)增加推理計(jì)算(如動(dòng)態(tài)擴(kuò)展推理步驟或執(zhí)行額外計(jì)算)來(lái)進(jìn)一步增強(qiáng)其在復(fù)雜任務(wù)中的表現(xiàn)。

這種聯(lián)合策略的使用能夠顯著提升 LLM 在數(shù)學(xué)推導(dǎo)、代碼生成等,促進(jìn)了 LLM 在多步推理的任務(wù)中的準(zhǔn)確性和可靠性。

推理模型的主要類(lèi)別

為了深入探究推理模型的開(kāi)發(fā)過(guò)程,作者在綜述中還列舉了一些增強(qiáng)模型推理能力的主要方法:

  • 推理時(shí)間計(jì)算擴(kuò)展
  • 純強(qiáng)化學(xué)習(xí)
  • 強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)
  • 監(jiān)督微調(diào)和模型提煉

從圖中能夠清晰看到,無(wú)論是采用純強(qiáng)化學(xué)習(xí)方法,還是將強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合,亦或是單純運(yùn)用監(jiān)督學(xué)習(xí)方法,模型通常都會(huì)生成較長(zhǎng)的響應(yīng)內(nèi)容,其中涵蓋了推理的中間步驟以及詳細(xì)解釋。然而,推理成本是與響應(yīng)長(zhǎng)度呈正相關(guān)的,這就意味著,上述這些訓(xùn)練方法本質(zhì)上與推理時(shí)間擴(kuò)展密切相關(guān)。

針對(duì)這一問(wèn)題,這篇綜述聚焦于推理時(shí)間擴(kuò)展的研究,著重探討了那些明確調(diào)節(jié)生成 token 的技術(shù),包括通過(guò)額外的采樣策略、自我校正機(jī)制等方法。這些技術(shù)通過(guò)不同的優(yōu)化方式,直接作用于推理時(shí)間擴(kuò)展這一關(guān)鍵維度,從而顯著提升計(jì)算效率。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

推理時(shí)間計(jì)算擴(kuò)展方法

在該綜述里,廣泛涵蓋了測(cè)試時(shí)擴(kuò)展、訓(xùn)練時(shí)擴(kuò)展、推理時(shí)擴(kuò)展以及推理計(jì)算時(shí)間擴(kuò)展等多個(gè)方面的內(nèi)容。目前而言,最簡(jiǎn)單直接的推理時(shí)間擴(kuò)展方法即通過(guò)增加推理過(guò)程中的計(jì)算資源來(lái)改善 LLM 的推理。其背后改善推理效果的原理,可做如下形象類(lèi)比:當(dāng)給予人類(lèi)更多思考時(shí)間時(shí),他們會(huì)給出更好的反應(yīng),同理,LLM 可以通過(guò)鼓勵(lì)在生成過(guò)程中進(jìn)行更多「思考」的技術(shù)來(lái)改進(jìn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

提示詞工程也是一種方法,如思維鏈 (CoT) 提示,其中 “逐步思考” 等短語(yǔ)指導(dǎo)模型生成中間推理步驟。這提高了復(fù)雜問(wèn)題的準(zhǔn)確性,但對(duì)于簡(jiǎn)單的事實(shí)查詢而言是不必要的。并且,由于 CoT 提示會(huì)促使模型生成更多的 tokens,這實(shí)際上會(huì)增加推理成本。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了上述提到的增加計(jì)算資源、提示詞工程方法外,還有另一種方法即涉及到投票和搜索策略,例如多數(shù)投票或波束搜索,這些策略通過(guò)選擇最佳輸出來(lái)優(yōu)化響應(yīng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

1.「s1:簡(jiǎn)單測(cè)試 - 時(shí)間規(guī)?;?/strong>

  • 論文標(biāo)題:s1: Simple test-time scaling
  • 代碼地址: https://arxiv.org/pdf/2501.19393

在推理時(shí)間計(jì)算擴(kuò)展研究前沿,2025 年 1 月由斯坦福大學(xué)的研究團(tuán)隊(duì)提出的《Simple Test-Time Scaling》引入了「wait」token 機(jī)制。具體而言,當(dāng)我們希望模型在某個(gè)問(wèn)題上花費(fèi)更多測(cè)試階段的計(jì)算資源,會(huì)抑制思考結(jié)束詞中分隔符的生成,而是在模型當(dāng)前的推理過(guò)程中追加「wait」token,以鼓勵(lì)模型進(jìn)行更多探索。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

并且,該研究中的預(yù)算強(qiáng)制技術(shù)(budget forcing)的主要機(jī)制包含以下兩個(gè)方面:

  • 強(qiáng)制結(jié)束推理:當(dāng)模型生成超過(guò)預(yù)設(shè)的「思考」token 數(shù)量時(shí),模型的思考過(guò)程被強(qiáng)制結(jié)束。
  • 延長(zhǎng)推理時(shí)間:如果希望模型在解決問(wèn)題時(shí)花費(fèi)更多的計(jì)算預(yù)算,則不生成「結(jié)束思考」token,而是在當(dāng)前的推理結(jié)果上附加多個(gè)「wait」token,這樣模型可以繼續(xù)思考。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

可以確保模型在推理過(guò)程中使用特定計(jì)算預(yù)算的控制機(jī)制。通過(guò)控制模型的推理時(shí)間或步驟數(shù),支持更有效的推理和錯(cuò)誤更正。

Test-Time Scaling 技術(shù)的核心在于通過(guò)動(dòng)態(tài)調(diào)配計(jì)算資源進(jìn)行「臨場(chǎng)特訓(xùn)」,使得模型在遇到具體問(wèn)題時(shí)能夠展現(xiàn)出驚人的推理能力。這種技術(shù)突破解決了傳統(tǒng) AI 模型訓(xùn)練成本高、能源消耗大、創(chuàng)新門(mén)檻高等問(wèn)題。

詳見(jiàn)機(jī)器之心報(bào)道《訓(xùn)練 1000 樣本就能超越 o1,李飛飛等人畫(huà)出 AI 擴(kuò)展新曲線》。

2.「測(cè)試偏好優(yōu)化框架」

  • 論文標(biāo)題:Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
  • 代碼地址: https://arxiv.org/pdf/2501.12895

?Test-Time Preference Optimization(TPO)?是一種新的框架,其核心目標(biāo)在于使 LLM 在推理過(guò)程中快速對(duì)齊人類(lèi)偏好,而無(wú)需重新訓(xùn)練模型參數(shù)。在每次迭代時(shí),模型會(huì)按以下步驟執(zhí)行操作:

  • 針對(duì)給定的提示生成多個(gè)響應(yīng)
  • 運(yùn)用獎(jiǎng)勵(lì)模型對(duì)響應(yīng)進(jìn)行評(píng)分,以選擇得分最高和最低的響應(yīng)作為 “選定” 和 “拒絕” 響應(yīng)
  • 提示模型比較和批評(píng) “選定” 和 “拒絕” 響應(yīng)
  • 通過(guò)將批評(píng)轉(zhuǎn)換為文本建議來(lái)更新原始模型響應(yīng),從而優(yōu)化輸出

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通過(guò)執(zhí)行上述迭代步驟,模型能夠不斷汲取每次迭代的經(jīng)驗(yàn)教訓(xùn),逐步修正原始響應(yīng)中不符合人類(lèi)偏好的部分,使 LLM 的輸出更加貼合人類(lèi)的期望和需求。

3.「思緒萬(wàn)千」

  • 論文標(biāo)題:Thoughts Are All Over the Place:On the Under thinking of o1-Like LLMs
  • 代碼地址: https://arxiv.org/pdf/2501.18585

研究團(tuán)隊(duì)發(fā)現(xiàn)了一種稱(chēng)為「underthinking(思考不足)」的現(xiàn)象,即推理模型頻繁在推理路徑之間切換,而不是完全專(zhuān)注于探索有希望的路徑,這降低了解決問(wèn)題的準(zhǔn)確性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了解決這個(gè)「思考不足」問(wèn)題,研究人員引入了一種稱(chēng)為思維轉(zhuǎn)換懲罰 (TIP) 的策略,該策略修改了思維轉(zhuǎn)換 token 的邏輯,以阻止過(guò)早的推理路徑轉(zhuǎn)換。且實(shí)驗(yàn)研究證明該方法不需要模型微調(diào),并且在實(shí)驗(yàn)中提高了在多個(gè)高難度測(cè)試集上的準(zhǔn)確性。

4.「用推理時(shí)間計(jì)算換取對(duì)抗魯棒性」

  • 論文標(biāo)題:Trading Inference-Time Compute for Adversarial Robustness
  • 代碼地址: https://arxiv.org/pdf/2501.18841

該研究顯示在眾多情況下,延長(zhǎng)推理時(shí)間計(jì)算能夠提高推理 LLM 的對(duì)抗魯棒性,進(jìn)而降低成功攻擊的概率。與傳統(tǒng)的對(duì)抗訓(xùn)練不同,這種方法不需要任何特殊訓(xùn)練,也不需要事先了解特定的攻擊類(lèi)型,具有顯著的便捷性和通用性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

然而,這種方法也并非在所有場(chǎng)景中都能發(fā)揮理想效果。例如,在涉及策略模糊性或者可被利用漏洞的環(huán)境里,該方法改進(jìn)是有限的。此外,推理改進(jìn)的魯棒性增加可能會(huì)被「Think Less」和「Nerd Sniping」等新攻擊策略所削弱。

5.「聯(lián)想思維鏈」

  • 論文標(biāo)題:CoAT: Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning
  • 代碼地址: https://arxiv.org/pdf/2502.02390

Chain-of-Associated-Thoughts(CoAT)框架?是一種用于增強(qiáng)大型語(yǔ)言模型推理能力的新方法,該框架巧妙地將蒙特卡洛樹(shù)搜索(MCTS)算法與關(guān)聯(lián)記憶機(jī)制相結(jié)合,通過(guò)結(jié)構(gòu)化探索與自適應(yīng)學(xué)習(xí),有效擴(kuò)展了大型語(yǔ)言模型的搜索空間。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

CoAT 框架的核心工作原理如下:

  • 蒙特卡洛樹(shù)搜索(MCTS)?:MCTS 算法用于結(jié)構(gòu)化探索,幫助模型在決策過(guò)程中進(jìn)行多步驟的推理。
  • 關(guān)聯(lián)記憶機(jī)制?:一種用于集成新的關(guān)鍵信息的動(dòng)態(tài)機(jī)制,能夠根據(jù)上下文和推理過(guò)程中的需要,不斷更新和補(bǔ)充相關(guān)信息,從而增強(qiáng)模型的自適應(yīng)學(xué)習(xí)能力。

通過(guò)將 MCTS 的結(jié)構(gòu)化探索與關(guān)聯(lián)記憶的動(dòng)態(tài)學(xué)習(xí)緊密結(jié)合,CoAT 顯著擴(kuò)展了大型語(yǔ)言模型的搜索空間,提升了其在復(fù)雜推理任務(wù)中的表現(xiàn)?。

6.「自我回溯以促進(jìn)推理」

  • 論文標(biāo)題:Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
  • 代碼地址: https://www.arxiv.org/pdf/2502.04404

來(lái)自南京大學(xué)的研究團(tuán)隊(duì)提出了一種通過(guò)自我回溯(self-back tracking)來(lái)提升語(yǔ)言模型推理能力的方法,這種方法的核心思想是讓語(yǔ)言模型在解決具體問(wèn)題時(shí),先從宏觀角度進(jìn)行抽象,然后再回到細(xì)節(jié)層面進(jìn)行具體推理。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

該方法包含兩個(gè)主要步驟:

  • 抽象階段?:模型首先被要求回答一個(gè)更一般的問(wèn)題,這個(gè)問(wèn)題是對(duì)原始具體問(wèn)題的抽象。
  • 推理階段?:基于抽象階段得到的一般結(jié)論,模型再回到具體問(wèn)題上進(jìn)行推理,從而得出最終的答案。

實(shí)驗(yàn)結(jié)果顯示,在 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))問(wèn)題、知識(shí)問(wèn)答以及多跳推理任務(wù)等場(chǎng)景中,這種自我回溯方法的效果顯著優(yōu)于傳統(tǒng)的思維鏈(CoT)方法。

7.「基于深度循環(huán)隱空間推理」

  • 論文標(biāo)題:Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
  • 代碼地址: https://arxiv.org/pdf/2502.05171

在提升模型推理能力的探索中,研究人員并未遵循生成更多 token 以改進(jìn)推理的常規(guī)思路,而是提出了一個(gè)通過(guò)在潛在空間中迭代循環(huán)深度塊來(lái)擴(kuò)展推理時(shí)間計(jì)算的模型。這個(gè)深度塊的功能類(lèi)似于 RNN 中的隱藏狀態(tài),它允許模型改進(jìn)其推理而不需要更長(zhǎng)的 token 輸出。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)還進(jìn)一步將一個(gè)概念驗(yàn)證模型進(jìn)行了擴(kuò)展,使其具備 35 億參數(shù)和 8000 億 token。在推理基準(zhǔn)測(cè)試中,該擴(kuò)展后的模型展現(xiàn)出了顯著的性能提升,部分情況下其計(jì)算負(fù)載效果甚至可與擁有 500 億參數(shù)的模型相媲美。

不過(guò),一個(gè)關(guān)鍵短板在于該模型缺少清晰明確的推理步驟。對(duì)于用戶和研究人員而言,清晰的推理步驟能夠極大地提升模型的人類(lèi)可解釋性。而這恰恰是思維鏈方法的一項(xiàng)主要優(yōu)勢(shì)所在。

8.「1B LLM 可以超越 405B LLM 嗎?」

  • 論文標(biāo)題:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
  • 代碼地址: https://arxiv.org/pdf/2502.06703

在提升大型語(yǔ)言模型(LLM)推理能力的相關(guān)研究中,許多推理時(shí)間擴(kuò)展技術(shù)依賴(lài)于采樣,這需要過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 來(lái)選擇最佳解決方案。這篇研究成果就對(duì)推理時(shí)間計(jì)算擴(kuò)展與 PRM、問(wèn)題難度之間的相互作用展開(kāi)了系統(tǒng)分析。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究人員開(kāi)發(fā)了一種計(jì)算優(yōu)化擴(kuò)展策略,該策略可適應(yīng) PRM、策略模型和任務(wù)復(fù)雜性的選擇。實(shí)驗(yàn)結(jié)果表明,通過(guò)正確的推理時(shí)間擴(kuò)展方法,1B 參數(shù)模型可以勝過(guò)缺乏推理時(shí)間擴(kuò)展的 405B Llama 3 模型。

同樣地,研究還展示了配備推理時(shí)間擴(kuò)展技術(shù)的 7B 模型不僅能夠超越 DeepSeek-R1,還能保持更高的效率。這些發(fā)現(xiàn)凸顯了推理時(shí)間擴(kuò)展對(duì)于大語(yǔ)言模型(LLM)性能提升的顯著作用,其中具有正確推理計(jì)算預(yù)算的小型 LLM 可以勝過(guò)更大的模型。

9.「重新思考計(jì)算最優(yōu)測(cè)試時(shí)間擴(kuò)展」

  • 論文標(biāo)題:Learning to Reason from Feedback at Test-Time
  • 代碼地址: https://arxiv.org/pdf/2502.15771

區(qū)別于前幾種成果的思路,該研究的核心在于通過(guò)推理時(shí)動(dòng)態(tài)調(diào)整大語(yǔ)言模型(LLM)的權(quán)重參數(shù),使其能夠從錯(cuò)誤中學(xué)習(xí),而無(wú)需將失敗的嘗試存儲(chǔ)在提示(prompt)中,從而避免了高昂的成本。與傳統(tǒng)的通過(guò)將先前的嘗試添加到上下文中進(jìn)行順序修正或盲目生成新答案的并行采樣不同,該方法在推理時(shí)直接更新模型的權(quán)重。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為實(shí)現(xiàn)這一目標(biāo),研究者提出了 OpTune,這是一種小型、可訓(xùn)練的優(yōu)化器,能夠根據(jù)模型在先前嘗試中犯的錯(cuò)誤更新模型的權(quán)重。這意味著模型會(huì)記住它做錯(cuò)了什么,而無(wú)需在提示 / 上下文中保留錯(cuò)誤的答案。這種方法不僅提高了模型的自我修正能力,還顯著降低了推理過(guò)程中的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。

10.「推理時(shí)間計(jì)算在大型語(yǔ)言模型(LLM)推理和規(guī)劃中的應(yīng)用」

  • 論文標(biāo)題:Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights
  • 代碼地址: https://www.arxiv.org/pdf/2502.12521

針對(duì)推理和規(guī)劃任務(wù)的各種推理時(shí)間計(jì)算擴(kuò)展技術(shù)進(jìn)行了基準(zhǔn)測(cè)試,該文章重點(diǎn)分析了它們?cè)谟?jì)算成本和性能之間的權(quán)衡。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在具體的實(shí)驗(yàn)里,研究人員評(píng)估了多種技術(shù),例如思維鏈、思維樹(shù)和推理規(guī)劃,涉及算術(shù)、邏輯、常識(shí)、算法推理和規(guī)劃等 11 個(gè)任務(wù),細(xì)致地覆蓋了多個(gè)領(lǐng)域的推理和規(guī)劃場(chǎng)景。

實(shí)驗(yàn)結(jié)果表明,雖然擴(kuò)展推理時(shí)間計(jì)算可以改善推理,但沒(méi)有一種技術(shù)在所有任務(wù)中始終優(yōu)于其他技術(shù)。這也側(cè)面說(shuō)明了目前在不同的推理和規(guī)劃任務(wù)中,還需要根據(jù)具體情況靈活選擇合適的推理時(shí)間計(jì)算擴(kuò)展技術(shù),以在計(jì)算成本和性能之間找到最佳平衡。

11.「內(nèi)部思維 Transformer」

  • 論文標(biāo)題:Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
  • 代碼地址: https://arxiv.org/pdf/2502.13842

面對(duì)需要處理復(fù)雜推理的關(guān)鍵 token 時(shí),大型語(yǔ)言模型(LLM)在參數(shù)約束下會(huì)出現(xiàn)固有的性能瓶頸。針對(duì)這個(gè)問(wèn)題,內(nèi)部思維 Transformer (The Inner Thinking Transformer,ITT) 的解決思路是在推理過(guò)程中動(dòng)態(tài)分配更多計(jì)算資源。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

具體而言,ITT 通過(guò)自適應(yīng)路由 token(Adaptive Token Routing)動(dòng)態(tài)分配計(jì)算資源,通過(guò)殘差思考連接迭代地優(yōu)化表征,讓這些困難的 token 多次通過(guò)同一層進(jìn)行額外處理,從而使得 ITT 能夠在不增加參數(shù)的情況下對(duì)關(guān)鍵的 token 進(jìn)行更深入的處理。

12.「突破性框架 S*」

  • 論文標(biāo)題:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
  • 代碼地址: https://arxiv.org/pdf/2408.03314

傳統(tǒng)的代碼生成模型往往依賴(lài)于更大的參數(shù)量來(lái)提升性能。但是,新提出的 S * 框架通過(guò)一種巧妙的方式,讓小模型也能發(fā)揮出大模型的實(shí)力。這個(gè)框架主要包含兩個(gè)關(guān)鍵創(chuàng)新:

  • 混合擴(kuò)展策略:結(jié)合了并行采樣和順序調(diào)試,大幅提升了代碼生成的覆蓋率
  • 自適應(yīng)選擇機(jī)制:通過(guò)智能生成測(cè)試用例來(lái)區(qū)分不同的代碼方案,并通過(guò)實(shí)際執(zhí)行結(jié)果來(lái)選擇最佳答案

打開(kāi)網(wǎng)易新聞 查看精彩圖片

S* 是一個(gè)兩階段混合測(cè)試時(shí)縮放框架,由生成和選擇階段組成,如下圖所示。它通過(guò)迭代調(diào)試擴(kuò)展并行采樣與順序采樣以提高覆蓋率,并在選擇過(guò)程中采用自適應(yīng)輸入合成來(lái)增強(qiáng)選擇準(zhǔn)確性,在整個(gè)過(guò)程中利用執(zhí)行結(jié)果。不同階段的效果示例可以在下圖中找到。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 階段 1 :在生成階段,模型 S* 生成多個(gè)代碼解決方案,并使用問(wèn)題提示詞中提供的執(zhí)行結(jié)果和測(cè)試用例迭代細(xì)化它們。(1) 模型生成多個(gè)候選解決方案。(2) 每個(gè)解決方案都在公共測(cè)試用例(預(yù)定義的輸入輸出對(duì))上執(zhí)行。(3) 如果解決方案失?。ㄝ敵霾徽_或崩潰),模型會(huì)分析執(zhí)行結(jié)果(錯(cuò)誤、輸出)并修改代碼以改進(jìn)它。(4) 此改進(jìn)過(guò)程不斷迭代,直到模型找到通過(guò)測(cè)試用例的解決方案。
  • 階段 2:在選擇階段,S* 在生成 N 個(gè)候選解決方案后,下一步是識(shí)別最佳解決方案。(1) 模型比較兩個(gè)都通過(guò)公開(kāi)測(cè)試的解決方案。(2) 生成的測(cè)試用例,它使用合成的測(cè)試用例來(lái)指導(dǎo)選擇。(3) 將新的測(cè)試輸入并在其上運(yùn)行兩個(gè)解決方案。(4) 如果一個(gè)解決方案產(chǎn)生正確的輸出而另一個(gè)失敗,則模型會(huì)選擇更好的解決方案。(5) 如果兩種解決方案的表現(xiàn)相同,模型將隨機(jī)選擇其中一個(gè)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

S* 框架的效果非常不錯(cuò),其在模型性能提升方面展現(xiàn)了顯著優(yōu)勢(shì):

  • 小模型逆襲:在 S* 框架加持下,Qwen2.5-7B 模型的性能表現(xiàn)超越其原生 Qwen2.5-32B 版本,實(shí)現(xiàn)了 10.7% 的性能躍升,充分展現(xiàn)了小模型在優(yōu)化框架下的巨大潛力。
  • 性能突破:GPT-4o-mini 模型在集成 S* 框架后,性能表現(xiàn)超越了 o1-preview 版本,提升幅度達(dá)到 3.7%,成功突破了原有性能天花板。
  • 頂尖追平:通過(guò) S 框架的優(yōu)化,DeepSeek-R1-Distill-Qwen-32B 模型的性能達(dá)到 85.7%,與當(dāng)前業(yè)界領(lǐng)先的 o1-high 模型(88.5%)僅相差 2.8 個(gè)百分點(diǎn),展現(xiàn)出極強(qiáng)的競(jìng)爭(zhēng)力。

這些成果充分證明了 S * 框架在模型性能優(yōu)化方面的卓越能力,為 AI 模型的發(fā)展開(kāi)辟了新的可能性。

13.「草稿鏈 Chain of Draft」

  • 論文標(biāo)題:Chain of Draft: Thinking Faster by Writing Less
  • 代碼地址: https://arxiv.org/pdf/2502.18600

研究人員觀察到,思維鏈 (CoT) 之類(lèi)的技術(shù)在大語(yǔ)言模型 (LLM) 推理任務(wù)上通常會(huì)生成冗長(zhǎng)的分步解釋?zhuān)祟?lèi)通常依賴(lài)于僅捕獲基本信息的簡(jiǎn)潔草稿。

受此啟發(fā),他們提出了 Chain of Draft (CoD),這是一種通過(guò)生成最少但信息豐富的中間步驟來(lái)減少冗長(zhǎng)的提示策略。因此從本質(zhì)上講,它是一種推理時(shí)間擴(kuò)展方法,通過(guò)生成更少的 token 來(lái)提高推理時(shí)間擴(kuò)展的效率。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)結(jié)果表明,CoD 的提示長(zhǎng)度幾乎與標(biāo)準(zhǔn)提示相當(dāng),但其準(zhǔn)確性卻與思維鏈(CoT)提示不相上下。推理模型的一大優(yōu)勢(shì)在于用戶可以通過(guò)閱讀推理過(guò)程來(lái)學(xué)習(xí)并更好地評(píng)估和信任模型的響應(yīng)。雖然 CoD 在一定程度上削弱了這一優(yōu)勢(shì),但它在無(wú)需冗長(zhǎng)中間步驟的場(chǎng)景中展現(xiàn)出巨大潛力 —— 它不僅能夠顯著加快生成速度,還能保持 CoT 的準(zhǔn)確性。因此 CoD 為高效推理提供了一種更具實(shí)用性的解決方案。

詳見(jiàn)機(jī)器之心報(bào)道《全新 CoD 顛覆推理范式,準(zhǔn)確率接近但 token 消耗成倍降低》。

14.「更好的反饋和編輯模型 Better Feedback and Edit Models」

  • 論文標(biāo)題:Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
  • 代碼地址: https://arxiv.org/pdf/2503.04378

許多擴(kuò)展推理時(shí)間推理的技術(shù)依賴(lài)于具有可驗(yàn)證答案的任務(wù)(如可以檢查的數(shù)學(xué)和代碼),這使得它們很難應(yīng)用于寫(xiě)作和一般問(wèn)題解決等開(kāi)放式任務(wù)。

為了解決可驗(yàn)證答案的這種限制,研究人員開(kāi)發(fā)了一個(gè)系統(tǒng),其中一個(gè)模型生成初始響應(yīng),另一個(gè)模型提供反饋「反饋模型」,第三個(gè)模型根據(jù)該反饋改進(jìn)響應(yīng)「編輯模型」。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了確保這些模型的有效性,研究人員使用大量人工注釋的響應(yīng)和反饋數(shù)據(jù)集來(lái)訓(xùn)練這些專(zhuān)門(mén)的 “反饋” 和 “編輯” 模型。然后,這些模型通過(guò)在推理時(shí)間內(nèi)生成更好的反饋和進(jìn)行更有效的編輯來(lái)幫助改進(jìn)響應(yīng)。

總結(jié)

可以看到,現(xiàn)有的許多推理模型技術(shù)包括簡(jiǎn)單的基于 token 的干預(yù)措施到復(fù)雜的基于搜索和優(yōu)化策略,它們的核心目標(biāo)是增加推理計(jì)算量,甚至可以讓相對(duì)較小的模型實(shí)現(xiàn)顯著的改進(jìn)。這表明推理策略可以幫助縮小較小、更具成本效益的模型與較大模型之間的性能差距。

成本警告

盡管推理時(shí)間擴(kuò)展能夠顯著提升模型性能,但其帶來(lái)的推理成本增加是一個(gè)不容忽視的問(wèn)題。因此,在實(shí)際應(yīng)用中,開(kāi)發(fā)者需要在「使用具備大量推理擴(kuò)展的小模型」與「訓(xùn)練更大模型但減少或不進(jìn)行推理擴(kuò)展」之間進(jìn)行權(quán)衡。這種權(quán)衡必須基于數(shù)學(xué)計(jì)算,并結(jié)合模型的實(shí)際使用量來(lái)評(píng)估。

舉例來(lái)說(shuō),使用重度推理時(shí)間縮放的 o1 模型實(shí)際上仍然比可能不使用推理時(shí)間縮放的更大的 GPT-4.5 模型稍微便宜一些。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

然而,推理時(shí)間擴(kuò)展并非萬(wàn)能之策。盡管像蒙特卡羅樹(shù)搜索、自我回溯和動(dòng)態(tài)深度縮放等技術(shù),雖能顯著提升推理性能,但效果仍取決于具體任務(wù)及其難度。正如早期一篇論文所指出的,沒(méi)有哪種推理時(shí)計(jì)算擴(kuò)展技術(shù)能在所有任務(wù)中都表現(xiàn)最佳。

此外,許多此類(lèi)方法為提升推理能力而犧牲了響應(yīng)延遲,而較慢的響應(yīng)延遲可能會(huì)影響用戶體驗(yàn),甚至讓部分用戶感到厭煩。

展望未來(lái)

基于上述研究成果,未來(lái)大家可能將看到更多「圍繞通過(guò)推理時(shí)間計(jì)算擴(kuò)展進(jìn)行推理」研究的兩個(gè)主要分支的論文:

  • 純粹以開(kāi)發(fā)超越基準(zhǔn)的最佳模型為中心的研究。
  • 關(guān)注在不同推理任務(wù)之間平衡成本和性能權(quán)衡的研究。

推理時(shí)計(jì)算擴(kuò)展的優(yōu)勢(shì)在于,它可以應(yīng)用于任何現(xiàn)有的大語(yǔ)言模型,使其在特定任務(wù)上表現(xiàn)得更為出色。

在 DeepSeek R1 發(fā)布之后,行業(yè)出現(xiàn)了一個(gè)引人注目的趨勢(shì),即「按需思考」。各家公司紛紛競(jìng)相為其產(chǎn)品增添推理功能,以提升模型在復(fù)雜任務(wù)中的表現(xiàn)。

作者表示:還有一個(gè)值得關(guān)注的發(fā)展動(dòng)態(tài),大多數(shù)大語(yǔ)言模型(LLM)提供商開(kāi)始為用戶提供啟用或禁用「思考」功能的選項(xiàng)。目前該機(jī)制并未公開(kāi),不過(guò)它可能與具備回?fù)芡评頃r(shí)間計(jì)算擴(kuò)展的是同一模型。

總體而言,無(wú)論是借助推理時(shí)間計(jì)算擴(kuò)展,還是訓(xùn)練時(shí)間計(jì)算擴(kuò)展來(lái)添加推理能力,這一趨勢(shì)都是 2025 年大語(yǔ)言模型發(fā)展向前邁出的重要一步。

最后,可以預(yù)計(jì)隨著時(shí)間的推移推理將不再被視作可選或特殊的功能,而是會(huì)成為一種標(biāo)準(zhǔn)配置,就如同如今指令微調(diào)或基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)調(diào)整模型已成為原始預(yù)訓(xùn)練模型的常規(guī)操作一樣。