
首次提出了覆蓋全面、多層次、可擴(kuò)展的四維正交分析框架,系統(tǒng)解構(gòu)TTS技術(shù)。
作者丨張啟源 呂福源
當(dāng)訓(xùn)練成本飆升、數(shù)據(jù)枯竭,如何繼續(xù)激發(fā)大模型潛能?
隨著大模型訓(xùn)練成本急劇攀升、優(yōu)質(zhì)數(shù)據(jù)逐漸枯竭,推理階段擴(kuò)展(Test-Time Scaling, TTS) 迅速成為后預(yù)訓(xùn)練時(shí)代的關(guān)鍵突破口。與傳統(tǒng)的“堆數(shù)據(jù)、堆參數(shù)”不同,TTS 通過(guò)在推理階段動(dòng)態(tài)分配算力,使同一模型變得更高效、更智能——這一技術(shù)路徑在 OpenAI-o1 和 DeepSeek-R1 的實(shí)踐中已初顯威力。
在數(shù)學(xué)、編程等硬核任務(wù)上,TTS 表現(xiàn)亮眼;而在開(kāi)放問(wèn)答、多模態(tài)理解乃至復(fù)雜規(guī)劃等場(chǎng)景中,它同樣展現(xiàn)出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角與評(píng)估框架。
最近,來(lái)自香港城市大學(xué)、McGill、人大高瓴、香港中文大學(xué)、Salesforce 等機(jī)構(gòu)的研究者聯(lián)合發(fā)布了首篇系統(tǒng)性的 Test-Time Scaling 領(lǐng)域綜述:
《What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models》

論文鏈接:
https://arxiv.org/pdf/2503.24235
論文亮點(diǎn)概覽:
本篇Survey首次提出了一個(gè)覆蓋全面、多層次、可擴(kuò)展的四維正交分析框架
What to scale:擴(kuò)什么?CoT長(zhǎng)度、樣本數(shù)、路徑深度還是內(nèi)在狀態(tài)?
How to scale:怎么擴(kuò)?Prompt、Search、RL,還是Mixture-of-Models?
Where to scale:在哪擴(kuò)?數(shù)學(xué)、代碼、開(kāi)放問(wèn)答、多模態(tài)……
How well to scale:擴(kuò)得怎樣?準(zhǔn)確率、效率、控制性、可擴(kuò)展性……
在這個(gè)框架下,作者系統(tǒng)梳理了當(dāng)前的主流TTS技術(shù)路線(xiàn),包括:
并行策略(Self-Consistency / Best-of-N)
逐步演化(STaR / Self-Refine)
搜索推理(Tree-of-Thought / MCTS)
內(nèi)在優(yōu)化(DeepSeek-R1 / OpenAI-o1)
基于這一框架,作者系統(tǒng)性地梳理了現(xiàn)有文獻(xiàn),實(shí)現(xiàn)了三大核心貢獻(xiàn):
文獻(xiàn)解析:通過(guò)結(jié)構(gòu)化分析方法,清晰界定各項(xiàng)研究的創(chuàng)新邊界與價(jià)值定位;
路徑提煉:總結(jié)出推理階段擴(kuò)展技術(shù)的三大發(fā)展方向:計(jì)算資源動(dòng)態(tài)優(yōu)化、推理過(guò)程增強(qiáng)和多模態(tài)任務(wù)適配;
實(shí)踐指導(dǎo):針對(duì)數(shù)學(xué)推理、開(kāi)放問(wèn)答等典型場(chǎng)景,提供具體可操作的技術(shù)選型建議。
與同類(lèi)綜述相比,本文特別注重實(shí)用價(jià)值,不僅系統(tǒng)評(píng)估了不同TTS策略的性?xún)r(jià)比,還前瞻性地探討了該技術(shù)的未來(lái)演進(jìn)方向,包括輕量化部署、持續(xù)學(xué)習(xí)融合等潛在突破點(diǎn)。
1
研究背景
2024年上半年,已有研究者指出:盡管Scaling Law依然有效,但面對(duì)人類(lèi)可用數(shù)據(jù)枯竭和模型參數(shù)消耗嚴(yán)重的問(wèn)題,其發(fā)展速度將被迫減緩。這一判斷后來(lái)得到了OpenAI前首席科學(xué)家 Ilya Sutskever 的印證——他在NeurIPS 2024演講中明確提出"pretraining as we know it will end"。在此背景下,當(dāng)模型已掌握人類(lèi)世界的全部知識(shí)后,如何更充分地激發(fā)其解決問(wèn)題的能力,便成為后續(xù)研究的核心議題。
人類(lèi)認(rèn)知機(jī)制為我們提供了重要啟示:面對(duì)復(fù)雜問(wèn)題時(shí),深度思考與系統(tǒng)規(guī)劃往往能帶來(lái)更優(yōu)的解決方案。受此啟發(fā),研究者提出在模型推理階段動(dòng)態(tài)分配額外計(jì)算資源以提升性能。有趣的是,多項(xiàng)實(shí)驗(yàn)觀測(cè)到了類(lèi)似于“擴(kuò)展法則”的趨勢(shì):推理階段增加計(jì)算開(kāi)銷(xiāo)會(huì)帶來(lái)持續(xù)的性能提升。這一現(xiàn)象催生了推理階段擴(kuò)展(Test-Time Scaling, TTS)技術(shù),其核心是通過(guò)漸進(jìn)式計(jì)算資源分配來(lái)激發(fā)模型的潛在智能。
近期,o1和R1等先進(jìn)推理模型的卓越表現(xiàn),不僅驗(yàn)證了TTS技術(shù)的有效性,更推動(dòng)其成為增強(qiáng)大語(yǔ)言模型(LLM)推理能力的關(guān)鍵范式。研究表明,TTS在保持模型參數(shù)和與訓(xùn)練成本不變的前提下,能顯著提升復(fù)雜任務(wù)的解決能力,展現(xiàn)出廣闊的應(yīng)用前景。

圖1:預(yù)訓(xùn)練擴(kuò)展和推理階段擴(kuò)展的示意。
盡管TTS研究呈現(xiàn)爆發(fā)式增長(zhǎng),該領(lǐng)域仍面臨三大關(guān)鍵挑戰(zhàn):
1)方法論碎片化:缺乏統(tǒng)一框架整合現(xiàn)有成果;
2)評(píng)估標(biāo)準(zhǔn)缺失:難以客觀比較不同方法的優(yōu)劣;
3)發(fā)展規(guī)律模糊:尚未識(shí)別出技術(shù)演進(jìn)的內(nèi)在一致性。
為填補(bǔ)這一空白,本文提出了一項(xiàng)關(guān)于 TTS 的全面綜述,構(gòu)建了一個(gè)分層且可擴(kuò)展的分析框架,以系統(tǒng)化地梳理現(xiàn)有方法、整理研究進(jìn)展,并為未來(lái)發(fā)展提供指導(dǎo)。
2
框架介紹
作者提出的框架從四個(gè)正交維度系統(tǒng)解構(gòu)TTS技術(shù):
1、What to Scale(擴(kuò)展什么)- 界定推理過(guò)程中需要擴(kuò)展的具體對(duì)象,包括:
Parallel Scaling(并行擴(kuò)展):并行生成多個(gè)輸出,然后將其匯總為最終答案,從而提高測(cè)試時(shí)間性能;
Sequential Scaling(序列擴(kuò)展):根據(jù)中間步驟明確指導(dǎo)后面的計(jì)算;
Hybrid Scaling(混合擴(kuò)展):利用了并行和順序擴(kuò)展的互補(bǔ)優(yōu)勢(shì);
Internal Scaling(內(nèi)生擴(kuò)展):在模型內(nèi)部參數(shù)范圍內(nèi)自主決定分配多少計(jì)算量進(jìn)行推理,而非外部人類(lèi)指導(dǎo)策略。
其中,作者為每一個(gè)擴(kuò)展的形式,都進(jìn)行了一些經(jīng)典工作的介紹,從而豐富了對(duì)于擴(kuò)展策略的外延描述,例如:在并行擴(kuò)展中作者根據(jù)得到覆蓋性的來(lái)源分為兩個(gè)更小的類(lèi)別,在單個(gè)模型上的反復(fù)采樣和多個(gè)模型的采樣。
2、How to Scale(怎么擴(kuò)展)- 歸納實(shí)現(xiàn)擴(kuò)展的核心技術(shù)路徑:
訓(xùn)練階段方法:監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)(RL)等
推理階段技術(shù):刺激策略(Stimulation)、驗(yàn)證技術(shù)(Verification)、搜索方法(Search)、集成技術(shù)(Aggregation)
這個(gè)章節(jié)是重點(diǎn)章節(jié),作者收錄并整理了大量的經(jīng)典的和最前沿的技術(shù),例如在訓(xùn)練階段中的強(qiáng)化學(xué)習(xí)技術(shù),伴隨R1而大火,因此在短短兩個(gè)月內(nèi)涌現(xiàn)出大量的工作,作者將它們盡數(shù)收入,同時(shí)分成基于獎(jiǎng)勵(lì)模型和不需獎(jiǎng)勵(lì)模型兩類(lèi);對(duì)于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(fù)(Self-Repetition)、模型混合(mixture-of-model)四類(lèi)。
3、Where to Scale(在哪里擴(kuò)展)- 明確技術(shù)適用的任務(wù)場(chǎng)景與數(shù)據(jù)集特性。
作者在這里提出盡管TTS的推出和驗(yàn)證是在某一類(lèi)特定的推理任務(wù)上得到成功的,可是已經(jīng)有足夠多的工作開(kāi)始顯現(xiàn)出TTS是一種通用地能夠提升在多樣任務(wù)的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類(lèi)進(jìn)行分類(lèi),一方面強(qiáng)調(diào)了TTS在越來(lái)越多樣、越來(lái)越先進(jìn)的推理任務(wù)中有很明顯的效果,另一方面也不斷跟蹤TTS在更多通用任務(wù)上應(yīng)用的效果。值得注意的是,作者整理出一個(gè)評(píng)測(cè)基準(zhǔn)的表格,方便更多研究者直接從中去選擇合適自己的基準(zhǔn)。
4、How Well to Scale(效果怎么樣)- 建立多維評(píng)估體系:
在當(dāng)下,TTS已經(jīng)不僅是一個(gè)提高任務(wù)準(zhǔn)確率的策略,當(dāng)它成為一個(gè)新的值得被研究的核心策略時(shí),對(duì)TTS的要求會(huì)更加多元化,這也是未來(lái)研究的主題。作者認(rèn)為之后對(duì)TTS的優(yōu)化重點(diǎn)將不僅僅局限在準(zhǔn)確率的提升,是在于如何提高效率、增強(qiáng)魯棒性和消除偏見(jiàn)等。

圖2:作者提出的TTS框架,包括what, how, where 和 how well to scale。
作者不僅在每個(gè)維度下提供細(xì)粒度子類(lèi)劃分,還配套標(biāo)注了代表性研究工作(如圖1所示),使分類(lèi)體系兼具理論完備性和實(shí)踐指導(dǎo)價(jià)值。這一結(jié)構(gòu)化的基礎(chǔ)使得后續(xù)研究可以無(wú)縫地融入作者的分類(lèi)體系,更清晰地展現(xiàn)其貢獻(xiàn)。
為了更好的理解what to scale中的并行擴(kuò)展,序列擴(kuò)展,結(jié)合擴(kuò)展和內(nèi)生擴(kuò)展,作者用一張清晰的示意圖進(jìn)行形象化的展示,同時(shí),在圖中使用how to scale的技術(shù)來(lái)組成不同的擴(kuò)展策略,很好地示意了兩個(gè)維度如何結(jié)合在一起。

圖3:從what to scale 到 how to scale。
3
實(shí)踐特色
作者強(qiáng)調(diào)本篇 Survey 以實(shí)用為原則,具體包括:使用所提出的框架分析文獻(xiàn),以及整理操作指南。
文獻(xiàn)解析:為了幫助研究者系統(tǒng)性地剖析每項(xiàng)工作,作者設(shè)計(jì)了一個(gè)分析表格,通過(guò)將文獻(xiàn)貢獻(xiàn)對(duì)應(yīng)到框架的四個(gè)維度(What/How/Where/How Well),以清晰地解構(gòu)該工作。這種結(jié)構(gòu)化分析方法不僅能清晰展現(xiàn)各研究的核心創(chuàng)新,更能有效揭示潛在的技術(shù)突破方向。

表1:在現(xiàn)有文獻(xiàn)中進(jìn)行推理擴(kuò)展時(shí)常用的組合方式。
操作指南:另一個(gè)潛在的亮點(diǎn)是持續(xù)收集 TTS 開(kāi)發(fā)中的實(shí)用操作指南,而這些操作指南將以問(wèn)答的形式展現(xiàn)。作者期待這些問(wèn)答是具體的、現(xiàn)實(shí)的、一線(xiàn)的,因此,作者期待這篇Survey將維持開(kāi)放性,邀請(qǐng)更多在一線(xiàn)研究的學(xué)者來(lái)參與這項(xiàng)操作指南的收錄和編寫(xiě)。下面是作者現(xiàn)階段的操作指南的內(nèi)容和風(fēng)格。

4
挑戰(zhàn)與未來(lái)
本文總結(jié)了 TTS 當(dāng)前面臨的四大挑戰(zhàn):
并行擴(kuò)展的智能性不足:如何避免重復(fù)、低效的采樣,真正覆蓋多樣的解空間?
逐步推理中的誤差積累:能否構(gòu)建“邊推理邊驗(yàn)證”的機(jī)制,減少中間錯(cuò)誤的放大?
混合策略仍待統(tǒng)一框架:多模型、多策略如何協(xié)同運(yùn)作,適應(yīng)復(fù)雜現(xiàn)實(shí)任務(wù)?
內(nèi)生推理尚缺可控性:推理路徑隱式展開(kāi),難以追蹤與調(diào)節(jié)資源消耗。
論文還指出,目前常見(jiàn)的技術(shù)如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻(xiàn)尚不清晰,值得深入探索,例如:SFT真的不如RL更泛化嗎?R1的時(shí)代下SFT的角色是什么?什么樣的Reward Modeling更加高效?等等
此外未來(lái)TTS的發(fā)展重點(diǎn)包括:1. 統(tǒng)一評(píng)估指標(biāo)(準(zhǔn)確率 vs 計(jì)算開(kāi)銷(xiāo));2. 拓展到金融、醫(yī)學(xué)等真實(shí)場(chǎng)景;3. 構(gòu)建具備自適應(yīng)推理能力的通用智能體。
推理擴(kuò)展策略正引領(lǐng) AI 推理范式轉(zhuǎn)變:讓模型在“用”的時(shí)候持續(xù)變強(qiáng)。
作者也歡迎更多在推理擴(kuò)展研究一線(xiàn)的學(xué)者加入這項(xiàng)工作的共建,一起推動(dòng) TTS 成為推動(dòng) AGI 的關(guān)鍵基建!他們會(huì)在貢獻(xiàn)小節(jié)和作者列表中增加提供深刻見(jiàn)解的學(xué)者。作者期待這個(gè)Survey可以成為推理擴(kuò)展研究的小型社區(qū),讓這里充滿(mǎn)開(kāi)放的見(jiàn)解。

更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

UCL強(qiáng)化學(xué)習(xí)派:汪軍與他的學(xué)生們

為什么中國(guó)只有一個(gè) DeepSeek?

為什么是梁文鋒做出了DeepSeek?
熱門(mén)跟貼