小交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

o1/o3帶火的推理計(jì)算Scaling,原來(lái)谷歌早在今年8月就曾探討過(guò)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

當(dāng)時(shí),來(lái)自斯坦福、牛津以及谷歌DeepMind的團(tuán)隊(duì)提出通過(guò)重復(fù)采樣來(lái)擴(kuò)展推理計(jì)算量——

結(jié)果在編碼任務(wù)中將性能最多提高40%。

他們發(fā)現(xiàn)小模型通過(guò)生成多種答案/樣本,其任務(wù)表現(xiàn)可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過(guò)重復(fù)采集5個(gè)樣本,性能優(yōu)于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來(lái)自于無(wú)限猴子定理。

一只猴子在打字機(jī)鍵盤(pán)上隨機(jī)敲擊鍵盤(pán)無(wú)限長(zhǎng)的時(shí)間,幾乎肯定會(huì)打出任何給定的文本。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而在大模型的語(yǔ)境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復(fù)采樣程序,首先通過(guò)大模型中采樣,為給定的問(wèn)題生成許多候選解。

其次再選擇特定領(lǐng)域的驗(yàn)證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復(fù)采樣的有效性取決于兩個(gè)關(guān)鍵特性。

  • 覆蓋率,隨著樣本數(shù)量的增加,我們可以利用生成的任何樣本解決多少問(wèn)題。
  • 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識(shí)別出正確的樣本?

他們關(guān)注的是yes or no的任務(wù),在這些任務(wù)中,答案可以直接被打分為對(duì)或者錯(cuò),主要指標(biāo)是成功率——即能夠解決問(wèn)題的比例。

通過(guò)重復(fù)采樣,考慮這樣一種設(shè)置,即模型在嘗試解決問(wèn)題時(shí)可以生成許多候選解。

因此,成功率既受到為許多問(wèn)題生成正確樣本的能力(即覆蓋率)的影響,也受到識(shí)別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數(shù)學(xué)和編程任務(wù):GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結(jié)果顯示,在多個(gè)任務(wù)和模型中,覆蓋率隨樣本數(shù)量增加而提升,在某些情況下,重復(fù)采樣可使較弱模型超越單樣本性能更好的強(qiáng)模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問(wèn)題時(shí)。隨著樣本數(shù)量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來(lái)自GSM8K和MATH的數(shù)學(xué)單詞問(wèn)題時(shí),Llama-3模型的覆蓋率在10,000個(gè)樣本的情況下增長(zhǎng)到95%以上。

有趣的是,log(覆蓋率)與樣本數(shù)之間的關(guān)系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數(shù)呈近似對(duì)數(shù)線性增長(zhǎng),超過(guò)幾個(gè)數(shù)量級(jí)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在不同參數(shù)量、不同模型以及后訓(xùn)練水平(基礎(chǔ)模型和微調(diào)模型)下,都顯示通過(guò)重復(fù)采樣Scaling推理時(shí)間計(jì)算,覆蓋率都有一致的提升。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標(biāo),以LIama-3為例。

計(jì)算公式如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數(shù)量衡量)和覆蓋率。當(dāng)FLOPs預(yù)算固定時(shí),在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)比API成本,當(dāng)采樣較多時(shí),開(kāi)源 DeepSeek-Coder-V2-Instruct 模型可以達(dá)到與閉源模型GPT-4o相同的問(wèn)題解決率,而價(jià)格僅為后者的三分之一。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

有趣的是,他們發(fā)現(xiàn)對(duì)于大多數(shù)任務(wù)和模型,覆蓋率與樣本數(shù)之間的關(guān)系可以用指數(shù)冪律來(lái)模擬。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

因此總結(jié),這篇文章以重復(fù)采樣為軸心,在推理時(shí)擴(kuò)展計(jì)算量,從而提高模型性能。

在一系列模型和任務(wù)中,重復(fù)采樣可以顯著提高使用任何生成樣本解決問(wèn)題的比例(即覆蓋率)。當(dāng)可以識(shí)別出正確的解決方案時(shí)(通過(guò)自動(dòng)驗(yàn)證工具或其他驗(yàn)證算法),重復(fù)采樣可以在推理過(guò)程中放大模型的能力。

與使用較強(qiáng)、較昂貴的模型進(jìn)行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來(lái)自斯坦福牛津谷歌

這篇論文是來(lái)自斯坦福、牛津大學(xué)以及谷歌DeepMind團(tuán)隊(duì)。TogetherAI提供計(jì)算支持。

其中可以看到有谷歌杰出科學(xué)家Quoc V. Le。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

有網(wǎng)友表示,這有點(diǎn)像更簡(jiǎn)單的靜態(tài)版o3。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

o3在評(píng)價(jià)器的指導(dǎo)下,通過(guò)回溯動(dòng)態(tài)搜索程序空間,而這種方法則依賴于靜態(tài)采樣和事后評(píng)價(jià)(投票、獎(jiǎng)勵(lì)模型等)。兩者都能擴(kuò)展推理計(jì)算,但O3的適應(yīng)性更強(qiáng)。
o3會(huì)反復(fù)探索解決方案,不斷完善路徑,而重復(fù)采樣會(huì)并行生成輸出,沒(méi)有反饋回路。如何取舍?o3的計(jì)算密集度更高,但在需要結(jié)構(gòu)化推理的任務(wù)中表現(xiàn)出色。這種方法在編碼/數(shù)學(xué)方面更具成本效益。

不過(guò)也有網(wǎng)友指出了背后的局限性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

我們不能一味地增加采樣數(shù)量來(lái)提高性能。在某些時(shí)候,模型會(huì)出現(xiàn)停滯,生成的樣本也會(huì)開(kāi)始重復(fù)。
無(wú)論成本如何,都有一個(gè)極限,一個(gè)模型無(wú)法超越的最大思維水平。

參考鏈接:
[1]https://arxiv.org/abs/2407.21787
[2]https://x.com/_philschmid/status/1870396154241843312
[3]https://x.com/rohanpaul_ai/status/1834446350810849510