本文系統(tǒng)回顧了長(zhǎng)思維鏈在推理大模型中的核心作用,梳理其發(fā)展脈絡(luò)并構(gòu)建了貫穿理論與實(shí)踐的系統(tǒng)框架。通過(guò)分析900篇文獻(xiàn),首次明確區(qū)分長(zhǎng)短思維鏈在結(jié)構(gòu)、能力與反饋機(jī)制上的本質(zhì)差異,提出“深度推理、廣泛探索、可行反思”三大核心能力模型,進(jìn)而解析六類(lèi)關(guān)鍵推理現(xiàn)象及其底層機(jī)制。更進(jìn)一步,本文總結(jié)了當(dāng)前主流的長(zhǎng)思維鏈優(yōu)化策略,涵蓋格式設(shè)計(jì)、自我學(xué)習(xí)、反饋細(xì)化與外部引導(dǎo)等路徑,并展望其在多模態(tài)、跨語(yǔ)言、智能體互動(dòng)及安全保障等方向的未來(lái)潛力。

論文標(biāo)題: Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 論文主頁(yè): https://long-cot.github.io/ 論文地址: https://arxiv.org/pdf/2503.09567 Github 倉(cāng)庫(kù): https://github.com/LightChen233/Awesome-Long-Chain-of-Thought-Reasoning一、邁向推理時(shí)代
近年來(lái),大模型(Large Language Models, LLMs)在數(shù)學(xué)、編程等復(fù)雜任務(wù)上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表現(xiàn)尤為亮眼。但它們?yōu)楹稳绱藦?qiáng)大呢?核心在于長(zhǎng)鏈思維(Long Chain-of-Thought, Long CoT)—— 通過(guò)更深入的推理、更廣泛的探索,以及更強(qiáng)的自我反思,使大模型能夠高效解決復(fù)雜問(wèn)題。
然而,長(zhǎng)思維鏈仍然缺乏系統(tǒng)性研究,甚至面臨諸多未解之謎:
長(zhǎng)鏈思維究竟如何提升模型能力?與短鏈思維(Short CoT)的核心區(qū)別是什么?
“推理擴(kuò)展性”(Test-Time Scaling)是關(guān)鍵突破,還是帶來(lái)了 “過(guò)度思考”(Overthinking)?
長(zhǎng)思維鏈有哪些未來(lái)的研究方向?
填補(bǔ)研究空白,建立統(tǒng)一視角:最全長(zhǎng)思維鏈綜述,來(lái)了!
在這篇綜述中,該論文首先厘清長(zhǎng)思維鏈(Long CoT)與短思維鏈(Short CoT)的本質(zhì)區(qū)別,提出新的推理范式分類(lèi)框架,明確它們?cè)谕评砩疃?、探索范圍和反饋機(jī)制上的差異,并為不同任務(wù)的推理需求提供系統(tǒng)性認(rèn)知。
隨后,該論文深入拆解 長(zhǎng)思維鏈的三大關(guān)鍵特性,即深度推理、廣泛探索和可行性反思,揭示其如何在提升推理能力的同時(shí),也帶來(lái)了計(jì)算開(kāi)銷(xiāo)、冗余推理等挑戰(zhàn)。
該論文進(jìn)一步探討 長(zhǎng)思維鏈相關(guān)的核心推理現(xiàn)象,如過(guò)度思考(Overthinking)、推理擴(kuò)展性(Test-Time Scaling)以及 AI 的 “頓悟時(shí)刻”(Aha Moment),分析這些現(xiàn)象如何影響模型的推理效率和答案質(zhì)量,并討論其可能的優(yōu)化方案。
最后,該論文展望長(zhǎng)思維鏈的未來(lái)發(fā)展方向,包括多模態(tài)推理的融合、推理效率的優(yōu)化以及知識(shí)增強(qiáng)技術(shù)等多個(gè)未來(lái)研究方向展望,以進(jìn)一步提升推理大模型的推理能力和實(shí)際應(yīng)用價(jià)值。通過(guò)這篇綜述,該論文希望建立統(tǒng)一的研究視角,推動(dòng)長(zhǎng)思維鏈研究走向更深入的理論探索與更高效的實(shí)踐落地。

圖 2:長(zhǎng)思維鏈和思維鏈之間的差異具有三個(gè)關(guān)鍵特征:深度的推理,適當(dāng)?shù)姆此己蛷V泛的探索。此外,長(zhǎng)思維鏈整合了所有這些特征以實(shí)現(xiàn)更好的邏輯效果。
在大模型推理演化的過(guò)程中,如圖 2 所示,長(zhǎng)思維鏈(Long CoT)與短思維鏈(Short CoT)代表了兩種截然不同的推理范式。短思維鏈以淺層、線(xiàn)性的推理方式快速得出結(jié)論,邏輯路徑短,探索性低,適用于結(jié)構(gòu)清晰、解答明確的問(wèn)題。而長(zhǎng)思維鏈則強(qiáng)調(diào)深度推理、廣泛探索和可行性反思,允許模型在更復(fù)雜的邏輯網(wǎng)絡(luò)中展開(kāi)深入分析,發(fā)現(xiàn)隱藏關(guān)系,并優(yōu)化推理路徑。
短思維鏈的推理方式邏輯節(jié)點(diǎn)數(shù)量有限,主要依賴(lài)順序推理,且?guī)缀醪粫?huì)回溯或檢驗(yàn)先前的推理路徑。在數(shù)學(xué)、編程等需要邏輯推導(dǎo)的任務(wù)中,短思維鏈往往難以應(yīng)對(duì)復(fù)雜問(wèn)題,而長(zhǎng)思維鏈則可以通過(guò)擴(kuò)展推理深度和增加探索空間,提高解題能力。形式上,長(zhǎng)思維鏈放寬了傳統(tǒng) 短思維鏈在推理節(jié)點(diǎn)數(shù)量、并行探索能力以及回溯調(diào)整方面的限制,使得模型能夠在更大的問(wèn)題空間中尋找最佳解。
三、長(zhǎng)思維鏈具備三大核心特性使其推理能力遠(yuǎn)超短思維鏈
深度推理(Deep Reasoning):短思維鏈只能處理有限數(shù)量的邏輯節(jié)點(diǎn),適用于較簡(jiǎn)單的問(wèn)題,而 長(zhǎng)思維鏈允許推理路徑大幅擴(kuò)展,涵蓋更多層次的邏輯關(guān)系,從而解決復(fù)雜的多步推理問(wèn)題。數(shù)學(xué)推理、符號(hào)邏輯推導(dǎo)等領(lǐng)域?qū)@一能力有極高需求。
廣泛探索(Extensive Exploration):短思維鏈僅限于固定的邏輯路徑,往往導(dǎo)致推理過(guò)于單一,而 長(zhǎng)思維鏈通過(guò)拓展邏輯分支、并行探索多個(gè)可能解,能夠大幅提高推理的穩(wěn)健性和準(zhǔn)確度。這種能力在具有多種可能解或需要跨領(lǐng)域推理的任務(wù)中尤為重要。
可行性反思(Feasible Reflection):短思維鏈的推理過(guò)程不可回溯,一旦出錯(cuò)很難修正,而 長(zhǎng)思維鏈能夠在推理過(guò)程中反思、校驗(yàn)先前的邏輯步驟,結(jié)合反饋機(jī)制優(yōu)化推理路徑,減少推理錯(cuò)誤,提升整體推理質(zhì)量。
四、長(zhǎng)思維鏈現(xiàn)象分析六大推理現(xiàn)象

圖 3:對(duì)長(zhǎng)思維鏈外部行為六個(gè)經(jīng)典現(xiàn)象的分析:(a)當(dāng)前推理大模型為何會(huì)產(chǎn)生長(zhǎng)思維鏈;(b)當(dāng)前長(zhǎng)思維鏈系統(tǒng)的推理邊界及其局限性;(c)當(dāng)超出推理大模型的推理邊界時(shí),過(guò)度思考可能導(dǎo)致的性能衰退;(d)測(cè)試階段擴(kuò)展方法的應(yīng)用及其擴(kuò)展規(guī)律與局限性;(e)使用過(guò)程中的獎(jiǎng)勵(lì)模型與結(jié)果獎(jiǎng)勵(lì)模型效果對(duì)比;(f)“頓悟” 時(shí)刻的探索及其潛在原因。
研究表明,長(zhǎng)思維鏈通過(guò)多種方式增強(qiáng)了推理大模型的推理能力,主要表現(xiàn)為六大核心推理現(xiàn)象:
長(zhǎng)思維鏈涌現(xiàn)現(xiàn)象:研究發(fā)現(xiàn),長(zhǎng)思維鏈在模型預(yù)訓(xùn)練階段已被潛在編碼,可通過(guò)上下文示例(contextual examples)或特定提示詞進(jìn)行激活。進(jìn)一步地,一些工作發(fā)現(xiàn)大模型能夠直接通過(guò)強(qiáng)化學(xué)習(xí)(RL)直接高效的激發(fā)出長(zhǎng)思維鏈的能力。
推理邊界(Reasoning Boundary)現(xiàn)象:推理大模型的推理能力并非無(wú)限擴(kuò)展,而是在超出一定復(fù)雜度閾值后迅速下降,稱(chēng)之為 “推理邊界”,并發(fā)現(xiàn)突破推理邊界會(huì)導(dǎo)致推理錯(cuò)誤累積,從而降低整體性能。
過(guò)度思考(Overthinking)現(xiàn)象:隨著推理鏈的增加,模型性能在某個(gè)點(diǎn)之前持續(xù)提高,但超過(guò)該點(diǎn)后,錯(cuò)誤率反而上升。例如,過(guò)長(zhǎng)的推理鏈可能導(dǎo)致 “雪球效應(yīng)”(snowball errors),即前期推理錯(cuò)誤不斷累積,最終影響結(jié)果可靠性。而一些研究者認(rèn)為過(guò)度思考是由于推理長(zhǎng)度超過(guò)了其推理邊界導(dǎo)致的。
推理擴(kuò)展性(Inference Test-Time Scaling)現(xiàn)象:推理路徑的擴(kuò)展可分為垂直擴(kuò)展(Vertical Scaling)和并行擴(kuò)展(Parallel Scaling),但兩者均存在上限。例如,并行擴(kuò)展雖然可以增加答案的多樣性,但并不能超過(guò)最優(yōu)驗(yàn)證策略的限制。-過(guò)程獎(jiǎng)勵(lì) vs. 結(jié)果獎(jiǎng)勵(lì)的訓(xùn)練差異現(xiàn)象:強(qiáng)化學(xué)習(xí)優(yōu)化推理路徑時(shí),過(guò)程獎(jiǎng)勵(lì)模型(PRM)能提供更精細(xì)的獎(jiǎng)勵(lì)反饋,而結(jié)果獎(jiǎng)勵(lì)模型(ORM)依賴(lài)最終答案進(jìn)行優(yōu)化,雖然收斂更快,但難以提供中間推理的細(xì)粒度優(yōu)化信息。但二者在數(shù)據(jù)質(zhì)量接近的情況下,理論上沒(méi)有較大的性能差異。
頓悟時(shí)刻(Aha Moment)現(xiàn)象:某些情況下,模型在推理過(guò)程中會(huì)經(jīng)歷突如其來(lái)的認(rèn)知突破。研究表明,基于規(guī)則的強(qiáng)化學(xué)習(xí)(rule-based RL)可以有效觸發(fā)這一現(xiàn)象,使得大模型在無(wú)監(jiān)督的情況下進(jìn)行自我反思和推理優(yōu)化。
深度推理(Deep Reasoning)是長(zhǎng)思維鏈的核心能力,它決定了推理大模型在處理復(fù)雜推理任務(wù)時(shí)的表現(xiàn)。然而,缺乏足夠的推理深度會(huì)導(dǎo)致模型在高難度任務(wù)上的性能下降。當(dāng)前的研究主要從推理格式(Deep Reasoning Format)和推理學(xué)習(xí)(Deep Reasoning Learning)兩方面入手,通過(guò)優(yōu)化推理結(jié)構(gòu)和訓(xùn)練方法,使推理大模型能夠更高效地執(zhí)行深度推理。
5.1 深度推理格式:優(yōu)化推理結(jié)構(gòu)的多種路徑
長(zhǎng)思維鏈的推理能力依賴(lài)于三種主要的推理格式:

圖 4:深度推理格式主要分為三類(lèi):自然語(yǔ)言、結(jié)構(gòu)化語(yǔ)言與潛在空間推理(進(jìn)一步細(xì)分為基于 token、向量和管理器驅(qū)動(dòng)的潛在推理)
自然語(yǔ)言推理(Natural Language Reasoning):自然語(yǔ)言推理是最直觀(guān)的推理方式,允許模型自由組織邏輯鏈,提高推理的可解釋性。
結(jié)構(gòu)化語(yǔ)言推理(Structured Language Reasoning):結(jié)構(gòu)化語(yǔ)言推理主要依賴(lài)代碼或符號(hào)邏輯進(jìn)行更精準(zhǔn)的邏輯推理。
潛在空間推理(Latent Space Reasoning):潛在空間推理通過(guò)在隱空間執(zhí)行推理計(jì)算,提高推理效率和連貫性,主要包括三種方法:(1)基于 Token 的潛在推理:使用 “推理 Token” 或 “思維 Token” 引導(dǎo)大模型進(jìn)行隱式推理。(2)基于向量的潛在推理:使用 “思維向量(Thought Vectors)” 在不同層次間傳播推理狀態(tài),使推理更加動(dòng)態(tài)和穩(wěn)健。(3)基于管理器的潛在推理:通過(guò) “推理管理器(Reasoning Manager)” 優(yōu)化推理鏈的動(dòng)態(tài)控制,提高推理效率。
提升推理大模型的深度推理能力,需要結(jié)合模仿學(xué)習(xí)(Imitation Learning)和自學(xué)習(xí)(Self-Learning)兩種方法,使模型能夠在復(fù)雜推理任務(wù)中更好地泛化和優(yōu)化。

圖 5:深度推理學(xué)習(xí)的不同策略,包括:(a) 深度推理模仿學(xué)習(xí),即模仿來(lái)自高級(jí)深度推理系統(tǒng)(如高級(jí)推理大模型、MCTS 等)產(chǎn)生的數(shù)據(jù),通過(guò)監(jiān)督微調(diào)訓(xùn)練推理模型;(b) 深度推理自我學(xué)習(xí),即通過(guò)隱式獎(jiǎng)勵(lì)驅(qū)動(dòng)的基于偏好的強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)推理模型的自我改進(jìn)與優(yōu)化。 5.2.1 深度推理模仿(Imitation Learning)
模仿學(xué)習(xí)通過(guò)監(jiān)督微調(diào)(SFT),讓模型從人類(lèi)、先進(jìn)推理大模型或擴(kuò)展采樣策略中學(xué)習(xí)推理模式:
模仿人類(lèi)推理:使用高質(zhì)量的人工標(biāo)注數(shù)據(jù)訓(xùn)練 推理大模型,直接模仿人類(lèi)行為進(jìn)行深度推理。
模仿先進(jìn)推理大模型推理:利用先進(jìn)的推理大模型作為教師模型訓(xùn)練不會(huì)深度推理的學(xué)生小模型,更加快速地升數(shù)學(xué)推理能力。
模仿擴(kuò)展采樣:結(jié)合擴(kuò)展搜索策略?xún)?yōu)化推理路徑,例如采用 MCTS 或者大量結(jié)果采樣搜索優(yōu)化推理,使模型更好地適應(yīng)面向深度推理的長(zhǎng)思維鏈任務(wù)。
自學(xué)習(xí)允許模型自主優(yōu)化推理過(guò)程,主要采用強(qiáng)化學(xué)習(xí)(RL)和樹(shù)搜索(MCTS)方法:
直接采樣自學(xué)習(xí):采用直接對(duì)大模型自身進(jìn)行采樣,從而進(jìn)行自我學(xué)習(xí)。
樹(shù)搜索采樣自學(xué)習(xí):通過(guò) MCTS 等方法對(duì)大模型進(jìn)行有指導(dǎo)的樹(shù)搜索采樣,提高推理的深度,優(yōu)化 長(zhǎng)思維鏈生成過(guò)程。
在 長(zhǎng)思維鏈推理中,可行性反思(Feasible Reflection)是確保邏輯鏈條準(zhǔn)確性的重要機(jī)制,它涉及對(duì)推理過(guò)程的反饋(Feedback)和改進(jìn)(Refinement)。反饋機(jī)制提供評(píng)估,幫助模型識(shí)別和修正錯(cuò)誤,而改進(jìn)機(jī)制則允許模型基于反饋進(jìn)行調(diào)整,以提高推理質(zhì)量。

圖 6:可行反思的反饋能力框架包括總體反饋與過(guò)程反饋兩種形式??傮w反饋包括:結(jié)果獎(jiǎng)勵(lì)模型(以數(shù)值形式進(jìn)行反饋、基于規(guī)則的正確性判斷機(jī)制,以及基于推理大模型的總體評(píng)價(jià)模型。過(guò)程反饋則包含:以數(shù)值形式提供反饋的過(guò)程獎(jiǎng)勵(lì)模型,以及基于推理大模型的逐步評(píng)價(jià)模型。此外,過(guò)程反饋還可結(jié)合操作系統(tǒng)環(huán)境、真實(shí)環(huán)境或圖形界面環(huán)境等進(jìn)行交互式評(píng)估。 6.1 反饋(Feedback):從整體到過(guò)程的優(yōu)化
反饋是長(zhǎng)思維鏈推理優(yōu)化的關(guān)鍵環(huán)節(jié),它可以用于驗(yàn)證邏輯正確性、提高模型穩(wěn)定性,并減少錯(cuò)誤累積。
6.1.1 整體反饋(Overall Feedback):全局優(yōu)化推理質(zhì)量
整體反饋關(guān)注推理鏈條的最終結(jié)果,而非每一步的細(xì)節(jié)。它常用于強(qiáng)化學(xué)習(xí)(RL)中的獎(jiǎng)勵(lì)建模,以提升推理大模型的推理能力,主要包括:
結(jié)果獎(jiǎng)勵(lì)模型(ORM):采用獎(jiǎng)勵(lì)模型評(píng)估推理結(jié)果,或者通過(guò)自一致性?xún)?yōu)化獎(jiǎng)勵(lì)反饋,獲得數(shù)值化的結(jié)果獎(jiǎng)勵(lì)分?jǐn)?shù)。
規(guī)則提?。≧ule Extraction):規(guī)則反饋可提供高準(zhǔn)確度的結(jié)果校正,例如 STaR、ReST 和 ReFT 框架表明,數(shù)學(xué)問(wèn)題中基于規(guī)則的反饋比 ORM 更有效。
批判性反饋模型(Critic Models):這類(lèi)方法利用大模型自我反思(Self-Reflection)機(jī)制進(jìn)行自我批判,提供文本化結(jié)果獎(jiǎng)勵(lì),提高推理效率。
過(guò)程反饋關(guān)注推理的中間步驟,通常可以增強(qiáng)強(qiáng)化學(xué)習(xí)(RL)或蒙特卡洛樹(shù)搜索(MCTS)的優(yōu)化,主要包括:
過(guò)程獎(jiǎng)勵(lì)模型(PRM):PRM 通過(guò) SFT 或者 DPO 訓(xùn)練一個(gè)面向過(guò)程的獎(jiǎng)勵(lì)打分器,提供基于步驟的數(shù)值化獎(jiǎng)勵(lì)信號(hào)。
批判性反饋模型(Critic Models):允許 LLM 在推理過(guò)程中對(duì)推理過(guò)程與結(jié)果進(jìn)行動(dòng)態(tài)評(píng)估與調(diào)整,優(yōu)化推理路徑,提供更通用的步驟級(jí)文本化反饋信號(hào)。
由于整體反饋和過(guò)程反饋各具優(yōu)勢(shì),研究者提出了結(jié)合兩者的混合方法,進(jìn)行雙重反饋優(yōu)化,提高推理連貫性。
6.2 改進(jìn)(Refinement):優(yōu)化推理路徑的關(guān)鍵手段
在反饋機(jī)制的基礎(chǔ)上,改進(jìn)(Refinement)進(jìn)一步幫助推理大模型糾正錯(cuò)誤、優(yōu)化推理路徑,從而提升推理能力?,F(xiàn)有研究主要采用三種方法:

圖 7:細(xì)化方法主要分為三類(lèi):(a) 基于提示的改進(jìn)生成,通過(guò)構(gòu)造合適的提示策略,引導(dǎo)模型進(jìn)行可行的反思過(guò)程并產(chǎn)出修正答案;(b) 基于監(jiān)督微調(diào)的改進(jìn)模仿,利用來(lái)自高級(jí)推理大模型的細(xì)化示例,通過(guò)監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行微調(diào);(c) 基于強(qiáng)化學(xué)習(xí)的改進(jìn)學(xué)習(xí),模型根據(jù)反饋信號(hào)(如獎(jiǎng)勵(lì))對(duì)自身生成的修正進(jìn)行優(yōu)化,逐步學(xué)會(huì)自我改進(jìn)推理與輸出。
基于提示的改進(jìn)(Prompt-Based Refinement):該方法通過(guò) LLM 生成初始推理,再利用自身的反饋迭代優(yōu)化。
基于監(jiān)督微調(diào)的改進(jìn)(SFT-Based Refinement):SFT 方法通過(guò)從先進(jìn) LLMs 或人工標(biāo)注數(shù)據(jù)中學(xué)習(xí)推理改進(jìn)方式,提升推理大模型反思能力。
基于強(qiáng)化學(xué)習(xí)的改進(jìn)(RL-Based Refinement):RL 方法允許推理大模型在推理過(guò)程中自適應(yīng)調(diào)整推理路徑,減少對(duì)人工標(biāo)注數(shù)據(jù)的依賴(lài)。
探索能力是 長(zhǎng)思維鏈推理的關(guān)鍵,使推理大模型能夠在復(fù)雜問(wèn)題空間中進(jìn)行策略性分支和迭代優(yōu)化。研究表明,假設(shè)分支和基于反思的錯(cuò)誤回溯是突破線(xiàn)性推理路徑局限的重要方法。當(dāng)前研究主要關(guān)注探索規(guī)?;?、內(nèi)部探索、外部探索,以提高模型的推理質(zhì)量和適應(yīng)性。

圖 8:推理測(cè)試階段的兩種常見(jiàn)擴(kuò)展策略示意圖,包括:(a) 縱向擴(kuò)展:通過(guò)延長(zhǎng)模型的長(zhǎng)鏈?zhǔn)剿季S過(guò)程以增強(qiáng)推理能力,但受限于大語(yǔ)言模型的推理邊界,最終可能難以突破性能瓶頸。(b) 橫向擴(kuò)展:通過(guò)增加采樣次數(shù)生成多個(gè)推理結(jié)果,并結(jié)合自一致性、自驗(yàn)證等機(jī)制進(jìn)行結(jié)果驗(yàn)證與整合,從而提升輸出的整體質(zhì)量,但其性能上限仍不超過(guò) Pass@k 指標(biāo)所代表的理論最優(yōu)水平。7.1 探索規(guī)?;‥xploration Scaling):優(yōu)化推理長(zhǎng)度與廣度
探索規(guī)?;荚跀U(kuò)展推理大模型的推理能力,提高任務(wù)求解效率。
7.1.1 垂直擴(kuò)展(Vertical Scaling)
通過(guò)延長(zhǎng)推理路徑增加推理深度,如推理時(shí)擴(kuò)展(Test-time Scaling)優(yōu)化計(jì)算資源以提升推理效果。此外,隱空間擴(kuò)展(Latent Space Scaling)在注意力跨度限制下,利用遞歸計(jì)算增強(qiáng)推理深度。
7.1.2 并行擴(kuò)展(Parallel Scaling)
采用多次推理采樣結(jié)合驗(yàn)證機(jī)制,以篩選最優(yōu)推理路徑。
探索驗(yàn)證優(yōu)化方面,最早地,自一致性(Self-Consistency)方法就可通過(guò)多輪推理采樣及多數(shù)投票機(jī)制優(yōu)化答案選擇,而一些工作通過(guò)進(jìn)一步引入細(xì)粒度自一致性(Fine-grained Self-Consistency)結(jié)合逐步驗(yàn)證機(jī)制(Step-wise Verification),有效減少推理驗(yàn)證錯(cuò)誤的累積。
探索路徑優(yōu)化方面,短路徑多樣化采樣(Diverse Short-path Sampling)方法通過(guò)優(yōu)化采樣溫度和跨語(yǔ)言推理拓展,提高探索的多樣性和泛化能力。

圖 9:用于優(yōu)化內(nèi)部探索的兩類(lèi)主要方法:(a) 強(qiáng)化學(xué)習(xí)策略:通過(guò)參考模型與價(jià)值模型輔助,結(jié)合獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)勢(shì)聚合,從而提升策略模型的輸出質(zhì)量,實(shí)現(xiàn)策略?xún)?yōu)化。(b) 獎(jiǎng)勵(lì)策略:根據(jù)模型輸出設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制,包括規(guī)則驅(qū)動(dòng)獎(jiǎng)勵(lì),例如使用正則匹配或測(cè)試用例打分;以及模型驅(qū)動(dòng)獎(jiǎng)勵(lì),基于如和 PRM 等評(píng)價(jià)模型生成獎(jiǎng)勵(lì),以提升強(qiáng)化學(xué)習(xí)性能。7.2 內(nèi)部自主探索(Internal Exploration):強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理優(yōu)化
內(nèi)部自主探索強(qiáng)調(diào)通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)和獎(jiǎng)勵(lì)策略(Reward Strategies),使推理大模型能夠自主優(yōu)化推理策略,提高泛化能力和探索深度。
7.2.1 強(qiáng)化學(xué)習(xí)策略
主要分為:
基于獎(jiǎng)勵(lì)模型的 RL:如 Proximal Policy Optimization(PPO)和 Group Relative Policy Optimization(GRPO)基于獎(jiǎng)勵(lì)模型或獎(jiǎng)勵(lì)策略從而完成策略?xún)?yōu)化,提升推理能力;
無(wú)獎(jiǎng)勵(lì)模型 RL:采用 DPO 風(fēng)格或者規(guī)則抽取的獎(jiǎng)勵(lì)計(jì)算方案,通過(guò)明確的規(guī)則獎(jiǎng)勵(lì)反饋,提高策略學(xué)習(xí)的穩(wěn)定性。
獎(jiǎng)勵(lì)策略的優(yōu)化是強(qiáng)化學(xué)習(xí)中的關(guān)鍵,包括正確性獎(jiǎng)勵(lì)(Correctness Rewarding)、格式獎(jiǎng)勵(lì)(Format Rewarding)和規(guī)模獎(jiǎng)勵(lì)(Scaling Rewarding)。正確性獎(jiǎng)勵(lì)通過(guò)提高答案準(zhǔn)確性引導(dǎo)模型優(yōu)化推理路徑,格式獎(jiǎng)勵(lì)確保推理過(guò)程符合規(guī)范,而規(guī)模獎(jiǎng)勵(lì)則鼓勵(lì)更長(zhǎng)的推理鏈條,但研究表明過(guò)度擴(kuò)展可能導(dǎo)致低效推理。
為了展示當(dāng)前主流獎(jiǎng)勵(lì)策略在各類(lèi)基準(zhǔn)測(cè)試中的表現(xiàn),表 5 總結(jié)了不同方法在 GSM8K、AIME 2024、MATH500 等數(shù)據(jù)集上的性能對(duì)比,能夠直觀(guān)體現(xiàn)策略設(shè)計(jì)對(duì)推理能力的影響。

表 5:不同內(nèi)部探索方法在多個(gè)基準(zhǔn)測(cè)試上的性能表現(xiàn),主要按 AIME 2024 排序。“-” 表示論文未報(bào)告該得分。7.3 外部引導(dǎo)探索(External Exploration):結(jié)合外部系統(tǒng)增強(qiáng)推理能力
外部引導(dǎo)探索結(jié)合人類(lèi)或外部系統(tǒng),提高推理大模型的探索能力和推理質(zhì)量。
7.3.1 人類(lèi)驅(qū)動(dòng)探索(Human-driven Exploration)
依賴(lài)于預(yù)設(shè)的推理結(jié)構(gòu),如 Tree-of-Thought(ToT)采用樹(shù)狀推理結(jié)構(gòu)增強(qiáng)復(fù)雜任務(wù)求解能力,而 Forest-of-Thought(FoT)結(jié)合多棵推理樹(shù)提高探索的全面性。
7.3.2 模型驅(qū)動(dòng)探索(Model-driven Exploration)
通過(guò)自適應(yīng)搜索結(jié)構(gòu)和反饋機(jī)制進(jìn)行優(yōu)化,探索路徑優(yōu)化方法包括束搜索(Beam Search)、A* 搜索(A* Search)和蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search, MCTS),提升搜索效率和推理質(zhì)量。

圖 11:外部探索策略根據(jù)過(guò)程管理角色的不同可分為兩類(lèi):(a) 人類(lèi)驅(qū)動(dòng)的探索:由人工設(shè)定的提示詞與固定流程控制推理過(guò)程,探索結(jié)構(gòu)通常為線(xiàn)性、樹(shù)狀或圖狀,但路徑固定、缺乏適應(yīng)性。(b) 模型驅(qū)動(dòng)的探索:由模型主導(dǎo)進(jìn)行探索,具備反思與自適應(yīng)搜索能力,采用動(dòng)態(tài)結(jié)構(gòu)并結(jié)合 Beam、A*、MCTS 等搜索邏輯與多種反饋機(jī)制(如 PRM、Critic、Advantage、Q-Value、Verifier)來(lái)實(shí)現(xiàn)更靈活且高效的深度推理。八、前沿研究與未來(lái)方向
長(zhǎng)思維鏈正在不斷拓展其應(yīng)用邊界,推動(dòng)多模態(tài)、跨語(yǔ)言、智能體、效率優(yōu)化、知識(shí)增強(qiáng)及安全性方面的研究發(fā)展。未來(lái)的探索方向主要涵蓋以下六個(gè)關(guān)鍵領(lǐng)域:

圖 11:長(zhǎng)思維鏈的未來(lái)發(fā)展方向包括:(a) 多模態(tài)長(zhǎng)思維鏈:融合多種模態(tài)的輸入與輸出(如圖像、文字、公式等),增強(qiáng)推理表現(xiàn)力與適應(yīng)性;(b) 多語(yǔ)言長(zhǎng)思維鏈:支持跨語(yǔ)言推理與應(yīng)用,提升模型的多語(yǔ)種通用性;(c) 具身智能與代理型長(zhǎng)思維鏈:通過(guò)引入具身交互機(jī)制,提升模型在真實(shí)環(huán)境中的推理與行動(dòng)能力;(d) 高效長(zhǎng)思維鏈:優(yōu)化推理路徑與效率,加快思維鏈生成速度;(e) 知識(shí)增強(qiáng)型長(zhǎng)思維鏈:引入外部知識(shí)庫(kù)豐富推理過(guò)程,提高準(zhǔn)確性與解釋性;(f) 安全性保障的長(zhǎng)思維鏈:強(qiáng)化推理過(guò)程中的可靠性,避免產(chǎn)生有害或誤導(dǎo)性的輸出,確保倫理合規(guī)。
8.1 多模態(tài)長(zhǎng)思維鏈(Multimodal Long CoT)
多模態(tài)推理的研究聚焦于將長(zhǎng)思維鏈擴(kuò)展至圖像、視頻、音頻等多種數(shù)據(jù)模態(tài),以提升模型對(duì)復(fù)雜任務(wù)的理解和推理能力。研究方向主要包括:
多模態(tài)提示(Prompting):改進(jìn)視覺(jué) LLMs 的上下文描述能力,并結(jié)合自反饋優(yōu)化推理長(zhǎng)度與準(zhǔn)確性。
多模態(tài)蒸餾(Imitation):利用數(shù)據(jù)蒸餾策略訓(xùn)練模型,使其能夠模仿長(zhǎng)思維鏈過(guò)程,提高復(fù)雜問(wèn)題求解能力。
基于獎(jiǎng)勵(lì)模型的推理探索(Reward Model-Based Exploration):通過(guò)獎(jiǎng)勵(lì)模型優(yōu)化推理過(guò)程,在探索和訓(xùn)練階段提升多模態(tài)推理能力。
主要挑戰(zhàn)包括如何有效融合視覺(jué)信息輔助邏輯推理,以及如何優(yōu)化長(zhǎng)思維鏈的推理長(zhǎng)度和測(cè)試時(shí)擴(kuò)展能力。
8.2 多語(yǔ)言長(zhǎng)思維鏈(Multilingual Long CoT)
盡管推理大模型在英語(yǔ)領(lǐng)域取得了顯著進(jìn)展,但要實(shí)現(xiàn)真正的通用智能,多語(yǔ)言推理能力仍需進(jìn)一步增強(qiáng)。當(dāng)前研究主要集中在:
跨語(yǔ)言提示(Multilingual Prompting):使用通用模板提示,促進(jìn)不同語(yǔ)言間的邏輯推理能力對(duì)齊。
多語(yǔ)言訓(xùn)練(Multilingual Training):采用監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,提升低資源語(yǔ)言的推理一致性。
測(cè)試時(shí)擴(kuò)展(Test-Time Scaling):利用多語(yǔ)言樹(shù)搜索(Tree Search)等方法,在推理過(guò)程中動(dòng)態(tài)選擇最佳語(yǔ)言,提升泛化能力。
未來(lái)挑戰(zhàn)包括跨語(yǔ)言知識(shí)遷移及低資源語(yǔ)言的推理能力優(yōu)化,以確保多語(yǔ)言推理在不同文化背景下的一致性。
8.3 長(zhǎng)思維鏈助力智能體與具身智能(Long CoT for Agentic & Embodied AI)
智能體與具身智能系統(tǒng)不僅僅需要通過(guò)長(zhǎng)思維鏈進(jìn)行任務(wù)推理,還需要在動(dòng)態(tài)環(huán)境中通過(guò)不斷與環(huán)境交互,逐步調(diào)整和優(yōu)化長(zhǎng)思維鏈,修正推理路徑并實(shí)現(xiàn)有效的目標(biāo)導(dǎo)向行為。當(dāng)前的研究方向主要集中在以下幾個(gè)方面:
基于樹(shù)搜索的推理增強(qiáng):通過(guò)引入樹(shù)搜索算法(如 MCTS),對(duì)推理過(guò)程進(jìn)行優(yōu)化,智能體和具身機(jī)器人能夠結(jié)合長(zhǎng)思維鏈,更加高效地探索狀態(tài)空間,逐步逼近最優(yōu)解。
環(huán)境交互優(yōu)化:智能體和具身機(jī)器人通過(guò)與環(huán)境的互動(dòng),不斷更新歷史記憶,并根據(jù)動(dòng)態(tài)變化的環(huán)境進(jìn)行自適應(yīng)調(diào)整長(zhǎng)思維鏈的推理內(nèi)容。
多智能體協(xié)作:為了應(yīng)對(duì)更復(fù)雜的任務(wù),一些研究正在探索多個(gè)能夠進(jìn)行長(zhǎng)思維鏈推理的高級(jí)智能體和具身機(jī)器人協(xié)同工作以提高工作效率。通過(guò)多智能體之間的信息共享與長(zhǎng)思維鏈推理協(xié)作,共同解決單一智能體難以應(yīng)對(duì)的挑戰(zhàn)。
主要挑戰(zhàn)包括在不確定環(huán)境中保持決策穩(wěn)健性,以及在多智能體協(xié)作過(guò)程中優(yōu)化推理效率。
8.4 高效長(zhǎng)思維鏈(Efficient Long CoT)
長(zhǎng)思維鏈的深度、探索性和反思機(jī)制往往導(dǎo)致推理過(guò)程冗長(zhǎng),因此優(yōu)化推理速度成為關(guān)鍵問(wèn)題。當(dāng)前研究方向包括:
推理鏈壓縮(Direct Compression):通過(guò)剪枝、跳步或直接預(yù)測(cè)減少冗余推理過(guò)程,提高推理效率。
隱藏空間推理(Hidden Space Reasoning):在潛空間中執(zhí)行推理,避免顯式解碼,以減少計(jì)算資源消耗。
未來(lái)挑戰(zhàn)包括如何構(gòu)建自適應(yīng)推理策略,使模型能夠根據(jù)任務(wù)復(fù)雜性動(dòng)態(tài)調(diào)整推理深度,并探索更高效的推理格式,如多模態(tài)或隱變量推理。
8.5 知識(shí)增強(qiáng)長(zhǎng)思維鏈(Knowledge-Augmented Long CoT)
盡管推理大模型具有強(qiáng)大的推理能力,但在某些專(zhuān)業(yè)領(lǐng)域仍然存在知識(shí)空白,因此結(jié)合外部知識(shí)庫(kù)成為關(guān)鍵研究方向:
檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG):動(dòng)態(tài)結(jié)合知識(shí)檢索與文檔推理,以提升復(fù)雜任務(wù)的求解能力。
模型知識(shí)注入(Model Knowledge Injection):在 SFT 或 RL 訓(xùn)練過(guò)程中引入外部知識(shí),以提升專(zhuān)業(yè)領(lǐng)域的推理表現(xiàn),如醫(yī)學(xué)推理任務(wù)。
主要挑戰(zhàn)在于如何有效地將更多外部知識(shí)融入到長(zhǎng)思維鏈的推理過(guò)程,并開(kāi)發(fā)可擴(kuò)展的知識(shí)存儲(chǔ)與檢索機(jī)制,以確保實(shí)時(shí)更新和知識(shí)一致性。
8.6 長(zhǎng)思維鏈的安全性(Safety in Long CoT)
長(zhǎng)思維鏈雖然提升了模型的推理能力,但也增加了潛在的安全風(fēng)險(xiǎn),例如誤導(dǎo)性信息和有害內(nèi)容的生成。當(dāng)前研究主要關(guān)注:
推理攻擊(長(zhǎng)思維鏈 Attack):研究發(fā)現(xiàn)長(zhǎng)思維鏈可能使模型更易受到錯(cuò)誤推理或不安全輸出的影響,例如 "OverThink 攻擊" 和 "迭代混亂攻擊"。
安全優(yōu)化(長(zhǎng)思維鏈 Safety Improvement):引入動(dòng)態(tài)安全提示、偏見(jiàn)檢測(cè)、強(qiáng)化學(xué)習(xí)等方法,以減少有害輸出的概率,提高模型的可靠性。
未來(lái)挑戰(zhàn)包括如何平衡推理能力與安全性,防止長(zhǎng)思維鏈導(dǎo)致的認(rèn)知過(guò)載,同時(shí)確保推理的可解釋性和可控性,以應(yīng)對(duì)潛在的對(duì)抗性攻擊。
九、總結(jié)
本文系統(tǒng)回顧了長(zhǎng)思維鏈在推理大模型中的核心作用,梳理了其從提出到發(fā)展的關(guān)鍵脈絡(luò)。該論文通過(guò) 900 篇參考文獻(xiàn),構(gòu)建了一個(gè)貫穿理論與實(shí)踐的系統(tǒng)性框架,首次清晰地區(qū)分長(zhǎng)思維鏈與短思維鏈在推理結(jié)構(gòu)、思維能力與反饋機(jī)制上的本質(zhì)差異,提出 “深度推理、廣泛探索、可行反思” 三大核心能力模型,并據(jù)此解析了六大關(guān)鍵推理現(xiàn)象(如推理邊界、過(guò)度思考、頓悟時(shí)刻等),闡釋其底層機(jī)制與行為表現(xiàn)。
更重要的是,該論文不僅僅停留在現(xiàn)象描述,而是進(jìn)一步展開(kāi)了方法論總結(jié),全面整理了當(dāng)前主流的長(zhǎng)思維鏈優(yōu)化策略,包括基于格式設(shè)計(jì)的深度推理、基于模仿與自學(xué)習(xí)的能力提升、基于反饋與獎(jiǎng)勵(lì)的過(guò)程細(xì)化、基于強(qiáng)化學(xué)習(xí)與外部引導(dǎo)的探索機(jī)制等,并展望了多模態(tài)、跨語(yǔ)言、智能體交互、效率優(yōu)化、知識(shí)增強(qiáng)與安全保障等未來(lái)研究方向。
來(lái)源: 公眾號(hào)【機(jī)器之心】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀(guān)看!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線(xiàn)500+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線(xiàn)上交流活動(dòng),不定期舉辦技術(shù)人線(xiàn)下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專(zhuān)業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶(hù)啟發(fā)更大的文章,做原創(chuàng)性?xún)?nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。
關(guān)于我“門(mén)”
將門(mén)是一家以專(zhuān)注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
熱門(mén)跟貼