
新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】南加州大學(xué)團(tuán)隊只用9美元,就能在數(shù)學(xué)基準(zhǔn)測試AIME 24上實現(xiàn)超過20%的推理性能提升,效果好得離譜!而其核心技術(shù)只需LoRA+強化學(xué)習(xí),用極簡路徑實現(xiàn)超高性價比后訓(xùn)練。
只用9美元,在數(shù)學(xué)基準(zhǔn)測試AIME 24上,實現(xiàn)了超過20%的推理性能提升!
來自南加州大學(xué)(University of Southern California,USC)的研究團(tuán)隊,基于LoRA的強化學(xué)習(xí)(RL)訓(xùn)練了1.5B推理模型——
這種極簡的方法訓(xùn)練出的模型不僅能與當(dāng)前最先進(jìn)的強化學(xué)習(xí)推理模型相媲美,有時甚至超越它們,即便它們是基于相同底座模型構(gòu)建的。

論文鏈接:https://arxiv.org/abs/2504.15777
在AIME 24推理任務(wù)中,最好的新模型實現(xiàn)了超過20%的性能提升,達(dá)到了43%的Pass@1準(zhǔn)確率,而訓(xùn)練和評估的總成本僅為9美元!
在X上,19歲獲得博士學(xué)位、AI初創(chuàng)的CEO「少年天才」Tanishq Mathew Abraham推薦了此論文,已有數(shù)萬瀏覽。

X用戶Omar則表示:新方法令人激動,是金融科技的燈塔!完美契合金融科技的增長需求!

Tina:利用LoRA的微型推理模型
開源的微型推理模型Tina算法系列,結(jié)合了三大關(guān)鍵技術(shù)。
強大而輕量級的基礎(chǔ)模型:所有的Tina模型都基于DeepSeek-R1-Distill-Qwen-1.5B構(gòu)建而成,在極小的計算資源占用下展現(xiàn)出色能力。
參數(shù)高效后訓(xùn)練微調(diào)(Parameter-efficient post-training):在強化學(xué)習(xí)(RL)階段,采用低秩適應(yīng)(LoRA)技術(shù),顯著降低了計算成本,同時不減推理性能。實際上,與全參數(shù)微調(diào)相比,有時甚至能提升模型的推理性能!
精選的數(shù)據(jù)集:在精簡而高質(zhì)量的數(shù)據(jù)集上,全部Tina模型都進(jìn)行后訓(xùn)練微調(diào),進(jìn)一步降低了整個流程的計算復(fù)雜度。

開源推理模型時間線:開源「推理復(fù)制品」(reasonging replicas)旨在復(fù)現(xiàn)高級推理模型的性能
效果好得邪門!
與使用相同基礎(chǔ)模型的SOTA模型對比,Tina模型不僅具備競爭力,有時甚至還能超越它們——
而所需成本卻只是它們的零頭!
簡單來說,就是:更少的算力,帶來了更高的性能!
下圖1展示了Tina模型最佳checkpoint和基準(zhǔn)模型的比較結(jié)果,其中推理性能(reasoning performance)表示在AIME24/25、AMC23、MATH500、GPQA和Minerva上的平均得分。

圖1:Tina模型與基準(zhǔn)模型的整體比較
只經(jīng)過極少量的后訓(xùn)練,Tina模型在性能上就比基礎(chǔ)模型提升了超過20%,并且在表現(xiàn)最好的checkpoint上,在AIME24基準(zhǔn)測試中,取得了43%的Pass@1成績。

在六個推理任務(wù)上,Tina模型與相應(yīng)的全參數(shù)訓(xùn)練的最先進(jìn)(SOTA)模型之間的性能比較
而且,復(fù)現(xiàn)表現(xiàn)最佳Tina檢查點只需花費9美元,若從頭開始復(fù)現(xiàn)實驗的全部過程,成本也僅為526美元!

計算成本分解,以美元($)為單位進(jìn)行衡量
在多個開源推理數(shù)據(jù)集上,研究者驗證了這一發(fā)現(xiàn),并對學(xué)習(xí)率、LoRA的秩以及強化學(xué)習(xí)算法進(jìn)行了消融實驗。
總體來看,研究者發(fā)現(xiàn)Tina的性能在這些因素上都比較穩(wěn)定,表現(xiàn)出較強的穩(wěn)健性。

在六個推理任務(wù)上,對Tina模型的變體進(jìn)行性能評估
此外,研究者特意使用了固定的超參數(shù),避免了超參數(shù)調(diào)優(yōu)所帶來的成本,并進(jìn)一步減少了計算開銷。
但為什么呢?
初步的猜想
那么,為什么使用LoRA+強化學(xué)習(xí)在推理任務(wù)中會如此高效且效果顯著呢?
在Tina模型的計算擴(kuò)展行為以及訓(xùn)練動態(tài)中,研究者發(fā)現(xiàn)了一些有趣的模式。
觀察一:在LoRA模型中,訓(xùn)練所使用的計算量增加反而會降低模型性能,這與全參數(shù)模型的表現(xiàn)相反。
這一發(fā)現(xiàn)揭示了一個現(xiàn)象:「更少的計算,反而能帶來更好的性能」。

Tina模型與基線模型在推理任務(wù)上的性能比較,同時對比了它們的訓(xùn)練計算復(fù)雜度(以FLOPs為單位)
觀察2:在訓(xùn)練大多數(shù)Tina模型時,研究者注意到與問題格式相關(guān)的指標(biāo)(如格式獎勵、答案長度),會在訓(xùn)練過程中發(fā)生顯著變化,而這種變化在準(zhǔn)確性相關(guān)的指標(biāo)上并不明顯。
有趣的是,性能最佳的checkpoint,往往出現(xiàn)在這些格式指標(biāo)發(fā)生變化的時候。

基于LoRA的強化學(xué)習(xí)中的階段轉(zhuǎn)
根據(jù)這些觀察,研究者提出了關(guān)于基于LoRA的強化學(xué)習(xí)后訓(xùn)練方法有效性的假設(shè):
Tina訓(xùn)練方法之所以有效且高效,是因為LoRA能夠迅速調(diào)整模型,讓模型適應(yīng)強化學(xué)習(xí)所獎勵的推理結(jié)構(gòu),同時保留基礎(chǔ)模型的大部分原有知識。
作者介紹
王上上(Shangshang Wang)

王上上(Shangshang Wang),目前是南加大的計算機(jī)科學(xué)和人工智能專業(yè)一年級博士生。
在上??萍即髮W(xué),他完成了計算機(jī)科學(xué)的本科和碩士學(xué)位。
他的研究興趣包括大語言模型(LLM)推理、測試時計算效率、人工智能在科學(xué)中的應(yīng)用(Ai4science)、強化學(xué)習(xí)(RL)和帶約束的優(yōu)化算法(例如多臂老虎機(jī)問題)。
參考資料:
https://arxiv.org/abs/2504.15777
https://shangshangwang.notion.site/tina
熱門跟貼