打開網(wǎng)易新聞 查看精彩圖片

首次提出了覆蓋全面、多層次、可擴展的四維正交分析框架,系統(tǒng)解構(gòu)TTS技術(shù)。

作者丨張啟源 呂福源

當訓練成本飆升、數(shù)據(jù)枯竭,如何繼續(xù)激發(fā)大模型潛能?

隨著大模型訓練成本急劇攀升、優(yōu)質(zhì)數(shù)據(jù)逐漸枯竭,推理階段擴展(Test-Time Scaling, TTS) 迅速成為后預(yù)訓練時代的關(guān)鍵突破口。與傳統(tǒng)的“堆數(shù)據(jù)、堆參數(shù)”不同,TTS 通過在推理階段動態(tài)分配算力,使同一模型變得更高效、更智能——這一技術(shù)路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已初顯威力。

在數(shù)學、編程等硬核任務(wù)上,TTS 表現(xiàn)亮眼;而在開放問答、多模態(tài)理解乃至復雜規(guī)劃等場景中,它同樣展現(xiàn)出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角與評估框架。

最近,來自香港城市大學、McGill、人大高瓴、香港中文大學、Salesforce 等機構(gòu)的研究者聯(lián)合發(fā)布了首篇系統(tǒng)性的 Test-Time Scaling 領(lǐng)域綜述:

《What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models》

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:
https://arxiv.org/pdf/2503.24235

論文亮點概覽:

本篇Survey首次提出了一個覆蓋全面、多層次、可擴展的四維正交分析框架

  1. What to scale:擴什么?CoT長度、樣本數(shù)、路徑深度還是內(nèi)在狀態(tài)?

  2. How to scale:怎么擴?Prompt、Search、RL,還是Mixture-of-Models?

  3. Where to scale:在哪擴?數(shù)學、代碼、開放問答、多模態(tài)……

  4. How well to scale:擴得怎樣?準確率、效率、控制性、可擴展性……

在這個框架下,作者系統(tǒng)梳理了當前的主流TTS技術(shù)路線,包括:

  • 并行策略(Self-Consistency / Best-of-N)

  • 逐步演化(STaR / Self-Refine)

  • 搜索推理(Tree-of-Thought / MCTS)

  • 內(nèi)在優(yōu)化(DeepSeek-R1 / OpenAI-o1)

基于這一框架,作者系統(tǒng)性地梳理了現(xiàn)有文獻,實現(xiàn)了三大核心貢獻:

  1. 文獻解析:通過結(jié)構(gòu)化分析方法,清晰界定各項研究的創(chuàng)新邊界與價值定位;

  2. 路徑提煉:總結(jié)出推理階段擴展技術(shù)的三大發(fā)展方向:計算資源動態(tài)優(yōu)化、推理過程增強和多模態(tài)任務(wù)適配;

  3. 實踐指導:針對數(shù)學推理、開放問答等典型場景,提供具體可操作的技術(shù)選型建議。

與同類綜述相比,本文特別注重實用價值,不僅系統(tǒng)評估了不同TTS策略的性價比,還前瞻性地探討了該技術(shù)的未來演進方向,包括輕量化部署、持續(xù)學習融合等潛在突破點。

1

研究背景

2024年上半年,已有研究者指出:盡管Scaling Law依然有效,但面對人類可用數(shù)據(jù)枯竭和模型參數(shù)消耗嚴重的問題,其發(fā)展速度將被迫減緩。這一判斷后來得到了OpenAI前首席科學家 Ilya Sutskever 的印證——他在NeurIPS 2024演講中明確提出"pretraining as we know it will end"。在此背景下,當模型已掌握人類世界的全部知識后,如何更充分地激發(fā)其解決問題的能力,便成為后續(xù)研究的核心議題。

人類認知機制為我們提供了重要啟示:面對復雜問題時,深度思考與系統(tǒng)規(guī)劃往往能帶來更優(yōu)的解決方案。受此啟發(fā),研究者提出在模型推理階段動態(tài)分配額外計算資源以提升性能。有趣的是,多項實驗觀測到了類似于“擴展法則”的趨勢:推理階段增加計算開銷會帶來持續(xù)的性能提升。這一現(xiàn)象催生了推理階段擴展(Test-Time Scaling, TTS)技術(shù),其核心是通過漸進式計算資源分配來激發(fā)模型的潛在智能。

近期,o1和R1等先進推理模型的卓越表現(xiàn),不僅驗證了TTS技術(shù)的有效性,更推動其成為增強大語言模型(LLM)推理能力的關(guān)鍵范式。研究表明,TTS在保持模型參數(shù)和與訓練成本不變的前提下,能顯著提升復雜任務(wù)的解決能力,展現(xiàn)出廣闊的應(yīng)用前景。

打開網(wǎng)易新聞 查看精彩圖片

圖1:預(yù)訓練擴展和推理階段擴展的示意。

盡管TTS研究呈現(xiàn)爆發(fā)式增長,該領(lǐng)域仍面臨三大關(guān)鍵挑戰(zhàn):

1)方法論碎片化:缺乏統(tǒng)一框架整合現(xiàn)有成果;

2)評估標準缺失:難以客觀比較不同方法的優(yōu)劣;

3)發(fā)展規(guī)律模糊:尚未識別出技術(shù)演進的內(nèi)在一致性。

為填補這一空白,本文提出了一項關(guān)于 TTS 的全面綜述,構(gòu)建了一個分層且可擴展的分析框架,以系統(tǒng)化地梳理現(xiàn)有方法、整理研究進展,并為未來發(fā)展提供指導。

2

框架介紹

作者提出的框架從四個正交維度系統(tǒng)解構(gòu)TTS技術(shù):

1、What to Scale(擴展什么)- 界定推理過程中需要擴展的具體對象,包括:

  • Parallel Scaling(并行擴展):并行生成多個輸出,然后將其匯總為最終答案,從而提高測試時間性能;

  • Sequential Scaling(序列擴展):根據(jù)中間步驟明確指導后面的計算;

  • Hybrid Scaling(混合擴展):利用了并行和順序擴展的互補優(yōu)勢;

  • Internal Scaling(內(nèi)生擴展):在模型內(nèi)部參數(shù)范圍內(nèi)自主決定分配多少計算量進行推理,而非外部人類指導策略。

其中,作者為每一個擴展的形式,都進行了一些經(jīng)典工作的介紹,從而豐富了對于擴展策略的外延描述,例如:在并行擴展中作者根據(jù)得到覆蓋性的來源分為兩個更小的類別,在單個模型上的反復采樣和多個模型的采樣。

2、How to Scale(怎么擴展)- 歸納實現(xiàn)擴展的核心技術(shù)路徑:

  • 訓練階段方法:監(jiān)督微調(diào)(SFT)、強化學習(RL)等

  • 推理階段技術(shù):刺激策略(Stimulation)、驗證技術(shù)(Verification)、搜索方法(Search)、集成技術(shù)(Aggregation)

這個章節(jié)是重點章節(jié),作者收錄并整理了大量的經(jīng)典的和最前沿的技術(shù),例如在訓練階段中的強化學習技術(shù),伴隨R1而大火,因此在短短兩個月內(nèi)涌現(xiàn)出大量的工作,作者將它們盡數(shù)收入,同時分成基于獎勵模型和不需獎勵模型兩類;對于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(Self-Repetition)、模型混合(mixture-of-model)四類。

3、Where to Scale(在哪里擴展)- 明確技術(shù)適用的任務(wù)場景與數(shù)據(jù)集特性。

作者在這里提出盡管TTS的推出和驗證是在某一類特定的推理任務(wù)上得到成功的,可是已經(jīng)有足夠多的工作開始顯現(xiàn)出TTS是一種通用地能夠提升在多樣任務(wù)的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類進行分類,一方面強調(diào)了TTS在越來越多樣、越來越先進的推理任務(wù)中有很明顯的效果,另一方面也不斷跟蹤TTS在更多通用任務(wù)上應(yīng)用的效果。值得注意的是,作者整理出一個評測基準的表格,方便更多研究者直接從中去選擇合適自己的基準。

4、How Well to Scale(效果怎么樣)- 建立多維評估體系:

在當下,TTS已經(jīng)不僅是一個提高任務(wù)準確率的策略,當它成為一個新的值得被研究的核心策略時,對TTS的要求會更加多元化,這也是未來研究的主題。作者認為之后對TTS的優(yōu)化重點將不僅僅局限在準確率的提升,是在于如何提高效率、增強魯棒性和消除偏見等。

打開網(wǎng)易新聞 查看精彩圖片

圖2:作者提出的TTS框架,包括what, how, where 和 how well to scale。

作者不僅在每個維度下提供細粒度子類劃分,還配套標注了代表性研究工作(如圖1所示),使分類體系兼具理論完備性和實踐指導價值。這一結(jié)構(gòu)化的基礎(chǔ)使得后續(xù)研究可以無縫地融入作者的分類體系,更清晰地展現(xiàn)其貢獻。

為了更好的理解what to scale中的并行擴展,序列擴展,結(jié)合擴展和內(nèi)生擴展,作者用一張清晰的示意圖進行形象化的展示,同時,在圖中使用how to scale的技術(shù)來組成不同的擴展策略,很好地示意了兩個維度如何結(jié)合在一起。

打開網(wǎng)易新聞 查看精彩圖片

圖3:從what to scale 到 how to scale。

3

實踐特色

作者強調(diào)本篇 Survey 以實用為原則,具體包括:使用所提出的框架分析文獻,以及整理操作指南。

文獻解析:為了幫助研究者系統(tǒng)性地剖析每項工作,作者設(shè)計了一個分析表格,通過將文獻貢獻對應(yīng)到框架的四個維度(What/How/Where/How Well),以清晰地解構(gòu)該工作。這種結(jié)構(gòu)化分析方法不僅能清晰展現(xiàn)各研究的核心創(chuàng)新,更能有效揭示潛在的技術(shù)突破方向。

打開網(wǎng)易新聞 查看精彩圖片

表1:在現(xiàn)有文獻中進行推理擴展時常用的組合方式。

操作指南:另一個潛在的亮點是持續(xù)收集 TTS 開發(fā)中的實用操作指南,而這些操作指南將以問答的形式展現(xiàn)。作者期待這些問答是具體的、現(xiàn)實的、一線的,因此,作者期待這篇Survey將維持開放性,邀請更多在一線研究的學者來參與這項操作指南的收錄和編寫。下面是作者現(xiàn)階段的操作指南的內(nèi)容和風格。

打開網(wǎng)易新聞 查看精彩圖片

4

挑戰(zhàn)與未來

本文總結(jié)了 TTS 當前面臨的四大挑戰(zhàn):

  1. 并行擴展的智能性不足:如何避免重復、低效的采樣,真正覆蓋多樣的解空間?

  2. 逐步推理中的誤差積累:能否構(gòu)建“邊推理邊驗證”的機制,減少中間錯誤的放大?

  3. 混合策略仍待統(tǒng)一框架:多模型、多策略如何協(xié)同運作,適應(yīng)復雜現(xiàn)實任務(wù)?

  4. 內(nèi)生推理尚缺可控性:推理路徑隱式展開,難以追蹤與調(diào)節(jié)資源消耗。

論文還指出,目前常見的技術(shù)如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻尚不清晰,值得深入探索,例如:SFT真的不如RL更泛化嗎?R1的時代下SFT的角色是什么?什么樣的Reward Modeling更加高效?等等

此外未來TTS的發(fā)展重點包括:1. 統(tǒng)一評估指標(準確率 vs 計算開銷);2. 拓展到金融、醫(yī)學等真實場景;3. 構(gòu)建具備自適應(yīng)推理能力的通用智能體。

推理擴展策略正引領(lǐng) AI 推理范式轉(zhuǎn)變:讓模型在“用”的時候持續(xù)變強。

作者也歡迎更多在推理擴展研究一線的學者加入這項工作的共建,一起推動 TTS 成為推動 AGI 的關(guān)鍵基建!他們會在貢獻小節(jié)和作者列表中增加提供深刻見解的學者。作者期待這個Survey可以成為推理擴展研究的小型社區(qū),讓這里充滿開放的見解。

打開網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點擊下方關(guān)注:

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

打開網(wǎng)易新聞 查看精彩圖片

UCL強化學習派:汪軍與他的學生們

打開網(wǎng)易新聞 查看精彩圖片

為什么中國只有一個 DeepSeek?

打開網(wǎng)易新聞 查看精彩圖片

為什么是梁文鋒做出了DeepSeek?

打開網(wǎng)易新聞 查看精彩圖片