打開(kāi)網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】南加州大學(xué)團(tuán)隊(duì)只用9美元,就能在數(shù)學(xué)基準(zhǔn)測(cè)試AIME 24上實(shí)現(xiàn)超過(guò)20%的推理性能提升,效果好得離譜!而其核心技術(shù)只需LoRA+強(qiáng)化學(xué)習(xí),用極簡(jiǎn)路徑實(shí)現(xiàn)超高性價(jià)比后訓(xùn)練。

只用9美元,在數(shù)學(xué)基準(zhǔn)測(cè)試AIME 24上,實(shí)現(xiàn)了超過(guò)20%的推理性能提升!

來(lái)自南加州大學(xué)(University of Southern California,USC)的研究團(tuán)隊(duì),基于LoRA的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練了1.5B推理模型——

這種極簡(jiǎn)的方法訓(xùn)練出的模型不僅能與當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)推理模型相媲美,有時(shí)甚至超越它們,即便它們是基于相同底座模型構(gòu)建的。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://arxiv.org/abs/2504.15777

在AIME 24推理任務(wù)中,最好的新模型實(shí)現(xiàn)了超過(guò)20%的性能提升,達(dá)到了43%的Pass@1準(zhǔn)確率,而訓(xùn)練和評(píng)估的總成本僅為9美元

在X上,19歲獲得博士學(xué)位、AI初創(chuàng)的CEO「少年天才」Tanishq Mathew Abraham推薦了此論文,已有數(shù)萬(wàn)瀏覽。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

X用戶Omar則表示:新方法令人激動(dòng),是金融科技的燈塔!完美契合金融科技的增長(zhǎng)需求!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Tina:利用LoRA的微型推理模型

開(kāi)源的微型推理模型Tina算法系列,結(jié)合了三大關(guān)鍵技術(shù)。

  1. 強(qiáng)大而輕量級(jí)的基礎(chǔ)模型:所有的Tina模型都基于DeepSeek-R1-Distill-Qwen-1.5B構(gòu)建而成,在極小的計(jì)算資源占用下展現(xiàn)出色能力。

  2. 參數(shù)高效后訓(xùn)練微調(diào)(Parameter-efficient post-training):在強(qiáng)化學(xué)習(xí)(RL)階段,采用低秩適應(yīng)(LoRA)技術(shù),顯著降低了計(jì)算成本,同時(shí)不減推理性能。實(shí)際上,與全參數(shù)微調(diào)相比,有時(shí)甚至能提升模型的推理性能!

  3. 精選的數(shù)據(jù)集:在精簡(jiǎn)而高質(zhì)量的數(shù)據(jù)集上,全部Tina模型都進(jìn)行后訓(xùn)練微調(diào),進(jìn)一步降低了整個(gè)流程的計(jì)算復(fù)雜度。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

開(kāi)源推理模型時(shí)間線:開(kāi)源「推理復(fù)制品」(reasonging replicas)旨在復(fù)現(xiàn)高級(jí)推理模型的性能

效果好得邪門!

與使用相同基礎(chǔ)模型的SOTA模型對(duì)比,Tina模型不僅具備競(jìng)爭(zhēng)力,有時(shí)甚至還能超越它們——

所需成本卻只是它們的零頭!

簡(jiǎn)單來(lái)說(shuō),就是:更少的算力,帶來(lái)了更高的性能!

下圖1展示了Tina模型最佳checkpoint和基準(zhǔn)模型的比較結(jié)果,其中推理性能(reasoning performance)表示在AIME24/25、AMC23、MATH500、GPQA和Minerva上的平均得分。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1:Tina模型與基準(zhǔn)模型的整體比較

只經(jīng)過(guò)極少量的后訓(xùn)練,Tina模型在性能上就比基礎(chǔ)模型提升了超過(guò)20%,并且在表現(xiàn)最好的checkpoint上,在AIME24基準(zhǔn)測(cè)試中,取得了43%的Pass@1成績(jī)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在六個(gè)推理任務(wù)上,Tina模型與相應(yīng)的全參數(shù)訓(xùn)練的最先進(jìn)(SOTA)模型之間的性能比較

而且,復(fù)現(xiàn)表現(xiàn)最佳Tina檢查點(diǎn)只需花費(fèi)9美元,若從頭開(kāi)始復(fù)現(xiàn)實(shí)驗(yàn)的全部過(guò)程,成本也僅為526美元!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

計(jì)算成本分解,以美元($)為單位進(jìn)行衡量

在多個(gè)開(kāi)源推理數(shù)據(jù)集上,研究者驗(yàn)證了這一發(fā)現(xiàn),并對(duì)學(xué)習(xí)率、LoRA的秩以及強(qiáng)化學(xué)習(xí)算法進(jìn)行了消融實(shí)驗(yàn)

總體來(lái)看,研究者發(fā)現(xiàn)Tina的性能在這些因素上都比較穩(wěn)定,表現(xiàn)出較強(qiáng)的穩(wěn)健性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在六個(gè)推理任務(wù)上,對(duì)Tina模型的變體進(jìn)行性能評(píng)估

此外,研究者特意使用了固定的超參數(shù),避免了超參數(shù)調(diào)優(yōu)所帶來(lái)的成本,并進(jìn)一步減少了計(jì)算開(kāi)銷。

但為什么呢?

初步的猜想

那么,為什么使用LoRA+強(qiáng)化學(xué)習(xí)在推理任務(wù)中會(huì)如此高效且效果顯著呢?

在Tina模型的計(jì)算擴(kuò)展行為以及訓(xùn)練動(dòng)態(tài)中,研究者發(fā)現(xiàn)了一些有趣的模式。

觀察一:在LoRA模型中,訓(xùn)練所使用的計(jì)算量增加反而會(huì)降低模型性能,這與全參數(shù)模型的表現(xiàn)相反。

這一發(fā)現(xiàn)揭示了一個(gè)現(xiàn)象:更少的計(jì)算,反而能帶來(lái)更好的性能」。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Tina模型與基線模型在推理任務(wù)上的性能比較,同時(shí)對(duì)比了它們的訓(xùn)練計(jì)算復(fù)雜度(以FLOPs為單位)

觀察2:在訓(xùn)練大多數(shù)Tina模型時(shí),研究者注意到與問(wèn)題格式相關(guān)的指標(biāo)(如格式獎(jiǎng)勵(lì)、答案長(zhǎng)度),會(huì)在訓(xùn)練過(guò)程中發(fā)生顯著變化,而這種變化在準(zhǔn)確性相關(guān)的指標(biāo)上并不明顯。

有趣的是,性能最佳的checkpoint,往往出現(xiàn)在這些格式指標(biāo)發(fā)生變化的時(shí)候

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基于LoRA的強(qiáng)化學(xué)習(xí)中的階段轉(zhuǎn)

根據(jù)這些觀察,研究者提出了關(guān)于基于LoRA的強(qiáng)化學(xué)習(xí)后訓(xùn)練方法有效性的假設(shè):

Tina訓(xùn)練方法之所以有效且高效,是因?yàn)長(zhǎng)oRA能夠迅速調(diào)整模型,讓模型適應(yīng)強(qiáng)化學(xué)習(xí)所獎(jiǎng)勵(lì)的推理結(jié)構(gòu),同時(shí)保留基礎(chǔ)模型的大部分原有知識(shí)。

作者介紹

王上上(Shangshang Wang)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

王上上(Shangshang Wang),目前是南加大的計(jì)算機(jī)科學(xué)和人工智能專業(yè)一年級(jí)博士生。

在上??萍即髮W(xué),他完成了計(jì)算機(jī)科學(xué)的本科和碩士學(xué)位。

他的研究興趣包括大語(yǔ)言模型(LLM)推理、測(cè)試時(shí)計(jì)算效率、人工智能在科學(xué)中的應(yīng)用(Ai4science)、強(qiáng)化學(xué)習(xí)(RL)和帶約束的優(yōu)化算法(例如多臂老虎機(jī)問(wèn)題)。

參考資料:

https://arxiv.org/abs/2504.15777

https://shangshangwang.notion.site/tina