“我們這篇論文可能是目前唯一一篇在推理模型能力上詳細(xì)告訴大家到底花了多少錢的論文?!?/strong>上??萍即髮W(xué) 95 后本科校友、美國(guó)南加州大學(xué)博士生王上上告訴 DeepTech。

近日,他和所在團(tuán)隊(duì)打造出一系列名為 Tina 的小型推理模型,在其中一個(gè)數(shù)據(jù)集上的后訓(xùn)練成本和評(píng)估成本僅為 9 美元,成本相比之前降低 99.6%。而從頭開始復(fù)現(xiàn)本次研究中的全部實(shí)驗(yàn)和內(nèi)容,大約需要 526 美元的成本。
通過高效的訓(xùn)練流程,他和所在團(tuán)隊(duì)實(shí)現(xiàn)了最小化的占用空間,并且只需要極少的硬件資源和預(yù)算資源??偟膩?lái)說(shuō),Tina 的主要貢獻(xiàn)在于讓開發(fā)由強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)驅(qū)動(dòng)的推理模型變得更加大眾化。
研究中,他們?cè)趶?qiáng)化學(xué)習(xí)中進(jìn)行了參數(shù)更新,以及使用低秩自適應(yīng)(LoRA,Low-Rank Adaptation)技術(shù),通過在一個(gè) 15 億參數(shù)的模型上結(jié)合低秩自適應(yīng)與強(qiáng)化學(xué)習(xí),讓 Tina 的性能得以媲美那些規(guī)模遠(yuǎn)超于它的推理模型。
更加重要的是,所需要的計(jì)算后訓(xùn)練成本僅有現(xiàn)有最優(yōu)(SOTA,State Of The Art)模型所需成本的一小部分。在 AIME24 上,Tina 最多能將推理性能提升 20% 以上,Pass@1 準(zhǔn)確率達(dá)到 43.33%,這揭示了通過低秩自適應(yīng)進(jìn)行高效強(qiáng)化學(xué)習(xí)推理的驚人效果。
王上上告訴 DeepTech:“目前所有開源方法的花費(fèi)都非常高,當(dāng)前最佳模型的最高花費(fèi)可能達(dá)到三四千美元。但是,大部分實(shí)驗(yàn)室沒有這么多經(jīng)費(fèi)去做這樣單純的實(shí)驗(yàn)。因此,我們的主要出發(fā)點(diǎn)旨在降低消耗,用更省錢的方式為模型帶來(lái)推理能力?!?/p>
在訓(xùn)練模型時(shí),王上上等人并不是完整地訓(xùn)練原有模型,而是額外增加一小部分從而讓模型變強(qiáng),再把這一部分整合到原有模型以后就會(huì)變得非常厲害。這樣一來(lái)無(wú)需在平臺(tái)上存兩個(gè)模型,只需要存一個(gè)模型即可,因此使用時(shí)存儲(chǔ)成本會(huì)得到極大降低,從而非常適用于小微型創(chuàng)業(yè)企業(yè)和學(xué)術(shù)級(jí)實(shí)驗(yàn)室。
他舉例稱:“有一家公司對(duì)于我們的成果很感興趣,這家公司的業(yè)務(wù)是將 AI 模型部署在邊緣設(shè)備,他認(rèn)為我們的技術(shù)占內(nèi)存小、能耗小,這也側(cè)面說(shuō)明了我們的研究符合業(yè)界需求?!?/p>
與此同時(shí),“Tina”這一名稱也體現(xiàn)了對(duì)于極簡(jiǎn)主義和效率的追求,亦與高成本效益的小型推理模型的內(nèi)涵相匹配?!爱?dāng)時(shí)我們就想能不能用比較可愛、比較平易近人的方式命名論文,以便讓大家更容易接受,于是使用了‘Tina’這一名字。”王上上表示。

復(fù)現(xiàn)最佳 Tina 檢查點(diǎn)成本僅 9 美元
研究中,王上上等人沒有并采用 Qwen-7B/32B、QwQ-32B-preview 這些擁有數(shù)百億參數(shù)的模型,而是將注意力轉(zhuǎn)向小型模型。為此,他們使用了有著 15 億參數(shù)的 DeepSeek-R1-Distill-Qwen-1.5B。
他們先是從一個(gè)基礎(chǔ)模型開始,由于其特定的譜系(DeepSeek/Qwen)和蒸餾過程,因此與同等大小的通用預(yù)訓(xùn)練模型相比,這一基礎(chǔ)模型具有更強(qiáng)的初始推理能力。
正是這一戰(zhàn)略起點(diǎn)讓他們能夠更加嚴(yán)格地評(píng)估強(qiáng)化學(xué)習(xí)所帶來(lái)的增量推理增強(qiáng)效果,從而能在有一個(gè)更有競(jìng)爭(zhēng)力的基線上,來(lái)分離和衡量技術(shù)本身的有效性。更重要的是,選擇這樣的架構(gòu)能夠大幅降低計(jì)算成本和經(jīng)濟(jì)門檻。
值得注意的是,本次使用的低秩自適應(yīng)方法只需訓(xùn)練極少的新參數(shù),就能修改模型的行為,從而能夠以更具性價(jià)比低實(shí)現(xiàn)推理能力。
通過此,王上上等人做出了以下三項(xiàng)主要成果:
首先,其證明在與基于相同基礎(chǔ)模型構(gòu)建的、且經(jīng)過全參數(shù)訓(xùn)練的 SOTA 基線模型相比時(shí),Tina 模型的性能更具競(jìng)爭(zhēng)力,在某些情況下甚至更優(yōu),最佳 Tina 模型在 AIME24 上的性能甚至能被提高 20% 以上,Pass@1 準(zhǔn)確率則能達(dá)到 43.33%。

其次,基于他們對(duì)于 Tina 后訓(xùn)練階段的觀察,其提出了如下假設(shè):低秩自適應(yīng)方法的有效性和效率,源于其在強(qiáng)化學(xué)習(xí)環(huán)境下能夠快速適應(yīng)推理格式,同時(shí)還能保留基礎(chǔ)模型知識(shí),這一過程比全參數(shù)訓(xùn)練的深度知識(shí)整合更具計(jì)算效率。此前曾有研究表明:小模型也能實(shí)現(xiàn)有效推理,而大模型能夠存儲(chǔ)更廣泛的世界知識(shí)。這一區(qū)別表明,通過專注于適應(yīng)輸出格式本身,就能讓模型的推理能力得到顯著提升。為了驗(yàn)證這一點(diǎn),他們?cè)趶?qiáng)化學(xué)習(xí)環(huán)境中專門訓(xùn)練了低秩自適應(yīng)參數(shù)。
再次,他們實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)推理的民主化,本次方法不僅可以被復(fù)現(xiàn)而且極具成本效益,這將使更多人在無(wú)需耗費(fèi)大量 GPU 的前提下就能探索強(qiáng)化學(xué)習(xí)技術(shù)。

實(shí)際支出遠(yuǎn)遠(yuǎn)低于原定上限
王上上表示,其所使用的訓(xùn)練代碼庫(kù)主要基于 OpenR1,OpenR1 是 DeepSeekR1 的完全開源復(fù)現(xiàn),結(jié)合了 Accelerate 和 Trl 庫(kù)以及 DeepSpeed ZeRO 優(yōu)化。
在訓(xùn)練超參數(shù)時(shí),他們通過復(fù)制 OpenR1 和 OpenRS 中的關(guān)鍵參數(shù)來(lái)開始參數(shù)選擇,并在實(shí)驗(yàn)中特意采用了默認(rèn)參數(shù)配置或推薦超參數(shù)配置。
在訓(xùn)練硬件上,為了最大限度地減少硬件占用空間,他們通過限制 vLLM 的 GPU 內(nèi)存使用量,將強(qiáng)化學(xué)習(xí)訓(xùn)練過程和 vLLM 部署在相同的兩個(gè) GPU 上,這樣一來(lái)就能利用兩個(gè) GPU 之間的數(shù)據(jù)并行性。雖然在兩個(gè) GPU 上同時(shí)運(yùn)行推理和訓(xùn)練,可能會(huì)導(dǎo)致實(shí)際訓(xùn)練時(shí)間比使用專用推理 GPU 的設(shè)置更長(zhǎng),但是它能極大地降低硬件需求。
在訓(xùn)練預(yù)算上,其所使用的英偉達(dá) L40S GPU 可以通過商業(yè)云平臺(tái)訪問。在撰寫此次論文時(shí),每 GPU 小時(shí)的費(fèi)用約為 1 美元,其中包含 300GB 的存儲(chǔ)空間。低秩自適應(yīng)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過程非常高效,單個(gè)強(qiáng)化學(xué)習(xí)步驟通常不到一分鐘即可完成。在累計(jì)六項(xiàng)推理基準(zhǔn)測(cè)試中,評(píng)估一個(gè)模型檢查點(diǎn)平均需要 1 個(gè)英偉達(dá) L40S GPU 訓(xùn)練小時(shí)。為了控制成本,他們將實(shí)驗(yàn)運(yùn)行的最大保守預(yù)算設(shè)為 100 美元,這一預(yù)算涵蓋了從訓(xùn)練、到評(píng)估以及雜項(xiàng)任務(wù)的所有階段。而在實(shí)驗(yàn)中,他們發(fā)現(xiàn)實(shí)際的支出遠(yuǎn)遠(yuǎn)低于這一上限。

幾乎所有 Tina 模型均顯著優(yōu)于基線平均分?jǐn)?shù)
在最終展示 Tina 的表現(xiàn)之前,需要與現(xiàn)有 SOTA 推理模型進(jìn)行公平且可靠的對(duì)比。為了減輕一些混雜因素的影響,所有基線評(píng)估均利用了與 vLLM 推理引擎集成的 lighteval 框架,以便實(shí)現(xiàn)高效生成。為了與 OpenR1 等已有工作保持可比性,他們讓硬件配置保持固定,即均使用兩個(gè)英偉達(dá) L40S GPU,并在所有評(píng)估的基線模型中使用一套標(biāo)準(zhǔn)化的 vLLM 推理參數(shù)。與此同時(shí),所有分?jǐn)?shù)均為零樣本 pass@1 性能。
隨后,他們通過六項(xiàng)基準(zhǔn)測(cè)試來(lái)比較 Tina 模型和基線模型的推理能力。所有實(shí)驗(yàn)均使用基于低秩自適應(yīng)的強(qiáng)化學(xué)習(xí)方法,并針對(duì) DeepSeek-R1-Distill-Qwen-1.5B 模型進(jìn)行最小參數(shù)更新的后訓(xùn)練,以便評(píng)估模型的推理能力。
盡管使用參數(shù)高效調(diào)優(yōu)會(huì)面臨著固有的資源限制,但是依然可以實(shí)現(xiàn)顯著的推理性能,正因此 Tina 模型與基線模型的性能相當(dāng),甚至優(yōu)于后者。
對(duì)于每個(gè) Tina 模型,王上上都報(bào)告了完整的訓(xùn)練程度,既報(bào)告了在一個(gè)周期內(nèi)所占預(yù)定義訓(xùn)練步驟的百分比,也報(bào)告了在每個(gè)任務(wù)上取得的百分比分?jǐn)?shù)。
結(jié)果發(fā)現(xiàn):所有 Tina 模型均表現(xiàn)出顯著的推理能力,平均得分在 48.16% 至 50.60% 之間。幾乎所有 Tina 模型的表現(xiàn)都顯著優(yōu)于相應(yīng)的基線平均分?jǐn)?shù),這表明參數(shù)高效強(qiáng)化學(xué)習(xí)能夠顯著提升性能。其中,Tina-Open-RS2 模型取得了 50.60% 的最高平均表現(xiàn)。
事實(shí)上,這些結(jié)果是在訓(xùn)練時(shí)長(zhǎng)極為有限的情況下取得的,僅占完整訓(xùn)練周期的 19% 至 57%。這些結(jié)果有力佐證了本次研究的核心假設(shè):即通過定向使用低秩自適應(yīng)與強(qiáng)化學(xué)習(xí),能在小型語(yǔ)言模型中高效且經(jīng)濟(jì)地訓(xùn)練出強(qiáng)大的推理能力。

低秩自適應(yīng)的“少即是多”
研究中,他們還進(jìn)行了基于低秩自適應(yīng)的“少即是多”強(qiáng)化學(xué)習(xí)。為了理解低秩自適應(yīng)為何能通過強(qiáng)化學(xué)習(xí)促進(jìn)有效且高效的推理改進(jìn),他們分析了訓(xùn)練計(jì)算量與性能之間的關(guān)系以及訓(xùn)練動(dòng)態(tài)。
如下圖所示,將推理性能與近似訓(xùn)練浮點(diǎn)運(yùn)算次數(shù)(FLOPs,F(xiàn)loating Point Operations)進(jìn)行對(duì)比,全參數(shù)訓(xùn)練方案與基于低秩自適應(yīng)的訓(xùn)練方案形成了鮮明對(duì)比。

研究中,他們發(fā)現(xiàn)在推理得分上,基于低秩自適應(yīng)的 Tina 模型可以與完全微調(diào)的基線模型相媲美,甚至更優(yōu)。同時(shí),在某些情況下所需的訓(xùn)練浮點(diǎn)運(yùn)算次數(shù)要少幾個(gè)數(shù)量級(jí)。
其還觀察到,在低秩自適應(yīng)模型中,增加訓(xùn)練計(jì)算量反而會(huì)對(duì)性能產(chǎn)生負(fù)面影響,這一特點(diǎn)與全參數(shù)模型相反,同時(shí)這一結(jié)果也凸顯了“計(jì)算量減少,性能提升”的現(xiàn)象。
王上上認(rèn)為,低秩自適應(yīng)之所以在此場(chǎng)景中表現(xiàn)出色,是因?yàn)榈椭茸赃m應(yīng)非常擅長(zhǎng)在參數(shù)變化極小的情況下學(xué)習(xí)這些結(jié)構(gòu)和風(fēng)格模式,因此所需的浮點(diǎn)運(yùn)算次數(shù)非常少。同時(shí),由于低秩自適應(yīng)僅僅修改了一小部分權(quán)重,所以它能在很大程度上保留基礎(chǔ)模型豐富的預(yù)訓(xùn)練知識(shí)。
由此可見,低秩自適應(yīng)能夠高效地教會(huì)模型如何將其現(xiàn)有知識(shí)轉(zhuǎn)化為有效的推理軌跡,從而無(wú)需像大量全參數(shù)更新那樣,需要進(jìn)行代價(jià)高昂的概念學(xué)習(xí)或程序?qū)W習(xí)。
當(dāng)問及王上上他所在課題組的 GPU 資源情況,他表示:“相比國(guó)內(nèi)我們并沒有擁有太多 GPU,這也是我們做 Tina 的一個(gè)主要出發(fā)點(diǎn)。在國(guó)外就算是非常厲害的學(xué)校也只有個(gè)別組的 GPU 資源會(huì)特別充裕,大多數(shù)課題組的 GPU 資源都很有限。所以我們認(rèn)為從大眾情況考慮,在做實(shí)驗(yàn)和做訓(xùn)練時(shí)還是要采用低功耗的方式?!?/p>
他繼續(xù)表示:“Tina 是我們大項(xiàng)目中的第一步。未來(lái),我們將繼續(xù)研究為什么 Tina 的推理能力能這么好,只有這樣才能更安心地使用 AI 技術(shù)和 AI 模型。”
參考資料:
相關(guān)論文:https://arxiv.org/pdf/2504.15777
相關(guān)代碼:https://github.com/shangshang-wang/Tina
訓(xùn)練日志:https://wandb.ai/upup-ashton-wang-usc/Tina
運(yùn)營(yíng)/排版:何晨龍
熱門跟貼