打開(kāi)網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:劉欣

在人工智能領(lǐng)域,語(yǔ)言模型的發(fā)展日新月異,推理能力作為語(yǔ)言模型的核心競(jìng)爭(zhēng)力之一,一直是研究的焦點(diǎn),許多的 AI 前沿人才對(duì) AI 推理的效率進(jìn)行研究。

高昂的計(jì)算成本和復(fù)雜的硬件需求一直是制約 AI 推理技術(shù)廣泛應(yīng)用的瓶頸。

你是否想過(guò),如何在資源有限的情況下,讓語(yǔ)言模型擁有強(qiáng)大的推理能力呢?

近日,南加州大學(xué)的團(tuán)隊(duì)發(fā)表了一篇名為 「Tina: Tiny Reasoning Models via LoRA」的論文,給出了令人眼前一亮的答案。

SophontAI 的 CEO Tanishq Abraham 博士還在 X 上轉(zhuǎn)推了這篇論文。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • Notion 博客: https://shangshangwang.notion.site/tina
  • 代碼倉(cāng)庫(kù): https://github.com/shangshang-wang/Tina
  • 訓(xùn)練日志: https://wandb.ai/upup-ashton-wang-usc/Tina
  • 模型權(quán)重及檢查點(diǎn): https://huggingface.co/Tina-Yi
  • 論文地址:https://arxiv.org/abs/2504.15777

團(tuán)隊(duì)將「小型」 模型架構(gòu)以及通過(guò)基于 LoRA 的強(qiáng)化學(xué)習(xí)這兩個(gè)要素整合后發(fā)布了Tina(通過(guò) LoRA 的微型推理模型)系列模型,該系列模型以極低的成本實(shí)現(xiàn)了出色的推理性能

Tina(通過(guò) LoRA 的微型推理模型)系列模型不僅擁有高效強(qiáng)化學(xué)習(xí)推理的驚人效果,還可以快速推理格式適應(yīng)假說(shuō)、使強(qiáng)化學(xué)習(xí)推理更具普適性。團(tuán)隊(duì)提供了一種可復(fù)現(xiàn)且極具成本效益的方法,使更多人能夠參與到強(qiáng)化學(xué)習(xí)技術(shù)的探索中,而無(wú)需大量計(jì)算資源。

值得注意的是,復(fù)現(xiàn)表現(xiàn)最佳的 Tina 模型檢查點(diǎn)的成本僅為 9 美元,而從頭開(kāi)始復(fù)現(xiàn)研究的所有實(shí)驗(yàn)以及本文中展示的全部?jī)?nèi)容的成本為 526 美元。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在當(dāng)前人工智能技術(shù)飛速發(fā)展的背景下,Tina 模型的出現(xiàn)無(wú)疑為行業(yè)帶來(lái)了一股清新的空氣。它不僅展示了在有限資源下實(shí)現(xiàn)高效推理的可能性,也為未來(lái)的 AI 應(yīng)用開(kāi)發(fā)提供了新的思路和方向。

接下來(lái),讓我們深入了解 Tina 模型的創(chuàng)新之處及其背后的研究細(xì)節(jié)。

Tina

基于低秩自適應(yīng)(LoRA)的微型推理模型

Tina 通過(guò)在強(qiáng)化學(xué)習(xí)(采用類(lèi)似 GRPO 的算法)過(guò)程中運(yùn)用低秩自適應(yīng)(LoRA)技術(shù),對(duì) DeepSeek-R1-Distill-Qwen-1.5B 基礎(chǔ)模型進(jìn)行后訓(xùn)練而創(chuàng)建的一系列模型。「Tiny」(微型)這一名稱(chēng)體現(xiàn)了在整個(gè)框架中對(duì)極簡(jiǎn)主義和高效性的刻意追求。這不僅包括微型的基礎(chǔ)模型架構(gòu)、LoRA 實(shí)現(xiàn)的微小參數(shù)更新,還延伸到極小的整體資源占用。通過(guò)利用可獲取的開(kāi)源數(shù)據(jù)集和代碼庫(kù)構(gòu)建高效的訓(xùn)練流程,并僅需極少的硬件和預(yù)算資源,團(tuán)隊(duì)實(shí)現(xiàn)了最小化的資源占用。

訓(xùn)練流程:基線模型與數(shù)據(jù)集

為便于進(jìn)行有意義的比較和精確的消融實(shí)驗(yàn),tuandui 使用公開(kāi)可用的推理模型的數(shù)據(jù)集和設(shè)置,通過(guò)強(qiáng)化學(xué)習(xí)對(duì) Tina 模型進(jìn)行后訓(xùn)練。所有 Tina 模型和基線模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作為基礎(chǔ)模型檢查點(diǎn),并使用其默認(rèn)的開(kāi)源權(quán)重。

  • STILL-3-1.5B-preview 是一個(gè)經(jīng)過(guò)深思熟慮的推理模型,它通過(guò)對(duì)精心整理的包含 3.3 萬(wàn)個(gè)推理軌跡的數(shù)據(jù)集進(jìn)行迭代強(qiáng)化學(xué)習(xí)而開(kāi)發(fā)出來(lái)。這些數(shù)據(jù)源自數(shù)學(xué)競(jìng)賽,涵蓋了 MATH、NuminaMathCoT 和 AIME(1983 - 2023)中的問(wèn)題。Tina-STILL-3-1.5B-preview 使用相同的數(shù)據(jù)集和獎(jiǎng)勵(lì)流程。
  • DeepScaleR-1.5B-Preview 專(zhuān)注于通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行長(zhǎng)上下文數(shù)學(xué)推理,它在大約 4 萬(wàn)個(gè)從 AIME、AMC、OMNI-MATH 和 STILL 數(shù)據(jù)集提取的問(wèn)題 - 答案對(duì)上進(jìn)行訓(xùn)練。Tina-DeepScaleR-1.5B-Preview 使用該數(shù)據(jù)集并沿用其獎(jiǎng)勵(lì)設(shè)計(jì)。
  • Open-RS1/2/3 是 Open-RS 項(xiàng)目中探索 15 億參數(shù)模型推理性能的三個(gè)模型,均通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練。所有 Open-RS 模型都在從 s1(即 Open-S1)和 DeepScaleR(即 Open-DeepScaleR)數(shù)據(jù)集進(jìn)一步精選的小型高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練。Tina 模型(Tina-Open-RS1/2/3)復(fù)制了這些設(shè)置,使用相同的數(shù)據(jù)分割和獎(jiǎng)勵(lì)框架。

訓(xùn)練設(shè)置:基礎(chǔ)設(shè)施與預(yù)算

訓(xùn)練代碼庫(kù):團(tuán)隊(duì)的實(shí)現(xiàn)基于 OpenR1,這是對(duì) DeepSeek-R1 的完全開(kāi)源復(fù)現(xiàn),它結(jié)合了 Accelerate 和 Trl 庫(kù)以及 DeepSpeed ZeRO 優(yōu)化。其目的是透明地復(fù)現(xiàn)和擴(kuò)展用于提升語(yǔ)言模型推理能力的強(qiáng)化學(xué)習(xí)方法,尤其側(cè)重于通過(guò)可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)使模型行為與面向推理的目標(biāo)保持一致。團(tuán)隊(duì)的方法繼承了其框架、訓(xùn)練工具和獎(jiǎng)勵(lì)接口。

訓(xùn)練超參數(shù):團(tuán)隊(duì)從復(fù)現(xiàn) OpenR1 和 OpenRS 的關(guān)鍵參數(shù)開(kāi)始進(jìn)行參數(shù)選擇。對(duì)于本文中展示的所有實(shí)驗(yàn),團(tuán)隊(duì)特意采用了這些研究中提供的默認(rèn)或推薦超參數(shù)配置。在不同的實(shí)驗(yàn)運(yùn)行中,這些設(shè)置基本保持不變。對(duì)于 Tina 的主要結(jié)果,每個(gè)任務(wù)僅調(diào)整獎(jiǎng)勵(lì)函數(shù)參數(shù);對(duì)于消融研究,僅改變所研究的特定因素(例如學(xué)習(xí)率、LoRA 秩 /alpha 值、強(qiáng)化學(xué)習(xí)算法)。這種方法有意避免了針對(duì)特定設(shè)置進(jìn)行高成本的超參數(shù)搜索過(guò)程,確保調(diào)優(yōu)開(kāi)銷(xiāo)可忽略不計(jì),并專(zhuān)注于基于 LoRA 的強(qiáng)化學(xué)習(xí)核心方法的有效性。

訓(xùn)練硬件:團(tuán)隊(duì)低成本方法的一個(gè)關(guān)鍵要素是盡量減少硬件需求。雖然像 GRPO 這樣的分布式強(qiáng)化學(xué)習(xí)訓(xùn)練算法通常使用三個(gè)或更多 GPU 會(huì)更有優(yōu)勢(shì)(例如,專(zhuān)門(mén)用一個(gè) GPU 運(yùn)行 vLLM 等推理引擎以加快樣本生成),但團(tuán)隊(duì)特意采用僅使用兩個(gè) NVIDIA L40S GPU 的最小化設(shè)置。為實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)通過(guò)限制 vLLM 的 GPU 內(nèi)存使用,將強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程和 vLLM 放在相同的兩個(gè) GPU 上。訓(xùn)練本身通過(guò)兩個(gè) GPU 進(jìn)行數(shù)據(jù)并行。雖然在兩個(gè) GPU 上同時(shí)運(yùn)行推理和訓(xùn)練與使用專(zhuān)用推理 GPU 的設(shè)置相比,可能會(huì)延長(zhǎng)實(shí)際訓(xùn)練時(shí)間,但它顯著降低了硬件要求。

訓(xùn)練預(yù)算:團(tuán)隊(duì)使用的 NVIDIA L40S GPU 可通過(guò)商業(yè)云平臺(tái)獲取,根據(jù)撰寫(xiě)本文時(shí)觀察到的價(jià)格,每 GPU 小時(shí)約 1 美元,包括 300GB 存儲(chǔ)。團(tuán)隊(duì)基于 LoRA 的模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程非常高效,在這種硬件上,單個(gè)強(qiáng)化學(xué)習(xí)步驟通常在一分鐘內(nèi)即可完成。在本文六個(gè)推理基準(zhǔn)測(cè)試套件中評(píng)估一個(gè)模型檢查點(diǎn)平均需要約 1 個(gè) L40S GPU 小時(shí)。為確保成本可控,團(tuán)隊(duì)最初為每次完整的實(shí)驗(yàn)運(yùn)行設(shè)定了 100 美元的保守最大預(yù)算,涵蓋從訓(xùn)練到評(píng)估以及其他雜項(xiàng)任務(wù)的所有階段。如表 1 所示,團(tuán)隊(duì)的實(shí)際支出明顯低于這個(gè)上限。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通過(guò)低秩自適應(yīng)(LoRA)實(shí)現(xiàn)的高效強(qiáng)化學(xué)習(xí)推理效果

實(shí)驗(yàn)第一階段:基線模型重新評(píng)估

在展示 Tina 模型的性能之前,與現(xiàn)有的最優(yōu)推理模型進(jìn)行公平可靠的比較至關(guān)重要。值得注意的是,文獻(xiàn)中相關(guān)模型的性能分?jǐn)?shù)往往源于使用不同框架(例如 verl、lighteval、lm-eval-harness)和不一致的推理設(shè)置(如不同的生成超參數(shù)或不同數(shù)量的 GPU)進(jìn)行的評(píng)估。這些差異會(huì)顯著影響報(bào)告的指標(biāo),造成潛在的不一致性,阻礙模型之間進(jìn)行可靠的比較。

為了減少這些混雜因素的影響,在本文中,團(tuán)隊(duì)使用單一、一致的方法對(duì)關(guān)鍵基線模型進(jìn)行了全面的重新評(píng)估。本文中報(bào)告的所有基線評(píng)估均使用集成了 vLLM 推理引擎的 lighteval 框架,以實(shí)現(xiàn)高效生成。為了與 OpenR1 等先前工作具有可比性,團(tuán)隊(duì)保持固定的硬件配置(兩個(gè) L40S GPU),并對(duì)所有評(píng)估的基線模型應(yīng)用一組標(biāo)準(zhǔn)化的 vLLM 推理參數(shù)。所有分?jǐn)?shù)均為零樣本單次通過(guò)率(Pass@1)性能。這種一致的重新評(píng)估協(xié)議所產(chǎn)生的結(jié)果如表 2 所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

特別地,團(tuán)隊(duì)在具有挑戰(zhàn)性的六個(gè)基準(zhǔn)測(cè)試中評(píng)估了 Tina 模型和基線模型的推理能力,這些基準(zhǔn)測(cè)試主要聚焦于數(shù)學(xué)和科學(xué)推理:

  • AIME24/25 包含 30 道來(lái)自 2024/2025 年美國(guó)數(shù)學(xué)邀請(qǐng)賽的高中水平數(shù)學(xué)問(wèn)題,涵蓋代數(shù)、幾何、數(shù)論和組合數(shù)學(xué)。每個(gè)問(wèn)題都需要精確的多步推理。
  • AMC23 包括 2023 年美國(guó)數(shù)學(xué)競(jìng)賽中的 40 道問(wèn)題,涵蓋邏輯和符號(hào)操作任務(wù)。
  • MATH500 是一個(gè)包含 500 道競(jìng)賽數(shù)學(xué)問(wèn)題的基準(zhǔn)測(cè)試,這些問(wèn)題來(lái)自各種來(lái)源,涵蓋不同難度級(jí)別,通常需要多步推導(dǎo)和計(jì)算。
  • GPQA Diamond,以下簡(jiǎn)稱(chēng) GPQA,由 198 道博士水平的科學(xué)問(wèn)題組成,涵蓋生物學(xué)、化學(xué)和物理學(xué)。每個(gè)問(wèn)題都是選擇題,有一些具有迷惑性的選項(xiàng)。
  • Minerva 包括 272 道定量推理問(wèn)題,通常處于本科水平。這些問(wèn)題涵蓋多個(gè) STEM 領(lǐng)域,包括物理學(xué)、生物學(xué)、化學(xué)和經(jīng)濟(jì)學(xué),通常需要數(shù)學(xué)建?;蛴?jì)算步驟,例如根據(jù)反應(yīng)數(shù)據(jù)計(jì)算酶動(dòng)力學(xué)。

實(shí)驗(yàn)第二階段:Tina 模型評(píng)估

下面展示 Tina 模型的核心評(píng)估結(jié)果。這些實(shí)驗(yàn)評(píng)估了通過(guò)基于 LoRA 的強(qiáng)化學(xué)習(xí)對(duì) DeepSeek-R1-Distill-Qwen-1.5B 進(jìn)行極少參數(shù)更新后的推理能力。表 3 中的結(jié)果表明,通過(guò)這種方式可以高效地實(shí)現(xiàn)顯著的推理性能提升,使模型在資源受限的參數(shù)高效調(diào)優(yōu)情況下,仍能與相關(guān)基線模型競(jìng)爭(zhēng),甚至超越它們。

表 3 總結(jié)了五個(gè)不同的 Tina 模型在六個(gè)推理任務(wù)中的性能:AIME24/25、AMC23、MATH500、GPQA 和 Minerva。對(duì)于每個(gè) Tina 模型,團(tuán)隊(duì)報(bào)告了完成的訓(xùn)練程度(以 1 個(gè)預(yù)定義訓(xùn)練周期內(nèi)的訓(xùn)練步驟百分比表示)以及在每個(gè)任務(wù)上獲得的分?jǐn)?shù)百分比。結(jié)果有力地證明了經(jīng)濟(jì)高效的基于 LoRA 的強(qiáng)化學(xué)習(xí)策略的有效性。

所有 Tina 模型都展現(xiàn)出顯著的推理能力,平均分?jǐn)?shù)在 48.16% 到 50.60% 之間。值得注意的是,幾乎所有 Tina 模型的平均分?jǐn)?shù)都明顯超過(guò)了相應(yīng)的基線模型,這表明通過(guò)高效的參數(shù)強(qiáng)化學(xué)習(xí)帶來(lái)了顯著的改進(jìn)。Tina-Open-RS2 模型的平均性能最高,達(dá)到 50.60%。此外,這些出色的結(jié)果是在極短的訓(xùn)練時(shí)間內(nèi)取得的,僅為完整訓(xùn)練周期的 19% 到 57%,凸顯了 Tina 方法的效率和快速適應(yīng)性。

這些發(fā)現(xiàn)有力地支持了我們的核心假設(shè):通過(guò)有針對(duì)性地應(yīng)用 LoRA 和強(qiáng)化學(xué)習(xí),可以在小型語(yǔ)言模型中有效且經(jīng)濟(jì)地培養(yǎng)強(qiáng)大的推理能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)第三階段:Tina 消融變體實(shí)驗(yàn)

為了更好地理解在所提出的低成本框架中影響 Tina 模型性能和效率的因素,團(tuán)隊(duì)進(jìn)行了一系列消融研究。這些研究系統(tǒng)地探究了關(guān)鍵設(shè)計(jì)選擇和超參數(shù)的影響,包括基礎(chǔ)訓(xùn)練數(shù)據(jù)集、LoRA 更新的學(xué)習(xí)率、LoRA 適配器的秩以及所采用的具體強(qiáng)化學(xué)習(xí)算法。在每項(xiàng)研究中,通常會(huì)改變一個(gè)因素,同時(shí)保持其他因素不變,這些因素通?;谥饕獙?shí)驗(yàn)或初步運(yùn)行中確定的高性能配置。表 4 總結(jié)的結(jié)果為研究深入了解這種經(jīng)濟(jì)高效方法的穩(wěn)健性和敏感性提供了有價(jià)值的見(jiàn)解。

訓(xùn)練數(shù)據(jù)集的影響:表 4 的第一部分突出了用于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)集的影響。研究比較了七個(gè)不同的數(shù)據(jù)集,其規(guī)模差異很大(從約 1400 個(gè)到 9.4 萬(wàn)個(gè)樣本不等)。引人注目的是,在僅有 7000 個(gè)示例的精簡(jiǎn)數(shù)據(jù)集上訓(xùn)練的 Tina-Open-RS 模型,獲得了最高的平均分?jǐn)?shù)(50.60%)。這一結(jié)果超過(guò)了在大得多的數(shù)據(jù)集上訓(xùn)練的模型,例如在 9.37 萬(wàn)個(gè)樣本上訓(xùn)練的 Tina-OpenR1(平均分?jǐn)?shù)為 49.26%)。這一觀察結(jié)果有力地支持了團(tuán)隊(duì) 「微型」的核心前提,并反映出數(shù)據(jù)集的質(zhì)量和多樣性比數(shù)據(jù)規(guī)模更為重要的觀點(diǎn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

關(guān)于低秩自適應(yīng)(LoRA)高效性的假設(shè)

快速格式適應(yīng)

基于 LoRA 的強(qiáng)化學(xué)習(xí):少即是多

為了理解為什么 LoRA 能夠通過(guò)強(qiáng)化學(xué)習(xí)有效且高效地提升推理能力,研究分析了訓(xùn)練計(jì)算量與性能之間的關(guān)系,以及訓(xùn)練動(dòng)態(tài)。如圖 3 所示,繪制推理性能與近似訓(xùn)練浮點(diǎn)運(yùn)算次數(shù)(FLOPs)的關(guān)系圖,可明顯看出全參數(shù)訓(xùn)練和基于 LoRA 的訓(xùn)練機(jī)制之間的差異。

首先,基于 LoRA 的 Tina 模型在推理得分上可與完全微調(diào)的基線模型相媲美,甚至在某些情況下更優(yōu),同時(shí)所需的訓(xùn)練浮點(diǎn)運(yùn)算次數(shù)(在某些情況下)比基線模型低幾個(gè)數(shù)量級(jí)。在 LoRA 模型中,增加訓(xùn)練計(jì)算量反而會(huì)對(duì)性能產(chǎn)生負(fù)面影響,這與全參數(shù)模型形成鮮明對(duì)比。這一觀察結(jié)果凸顯了「更少計(jì)算量可帶來(lái)更高性能」 的現(xiàn)象。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這一發(fā)現(xiàn)支持了關(guān)于 LoRA 如何實(shí)現(xiàn)如此卓越效率的假設(shè),這與 「學(xué)習(xí)結(jié)構(gòu) / 格式,保留知識(shí)」 的原則相關(guān)。團(tuán)隊(duì)認(rèn)為,LoRA 在這種情況下表現(xiàn)出色是因?yàn)橥评韽?qiáng)化學(xué)習(xí)高度獎(jiǎng)勵(lì)模型以特定、可驗(yàn)證的格式或結(jié)構(gòu)生成輸出的能力(例如,逐步推理鏈)。LoRA 似乎能夠通過(guò)極少的參數(shù)變化高效地學(xué)習(xí)這些結(jié)構(gòu)和風(fēng)格模式,因此所需的浮點(diǎn)運(yùn)算次數(shù)極少。同時(shí),由于 LoRA 僅修改極少部分的權(quán)重,它在很大程度上保留了基礎(chǔ)模型的大量預(yù)訓(xùn)練知識(shí)。

因此,LoRA 有效地教會(huì)模型如何將其現(xiàn)有知識(shí)組織成有效的推理過(guò)程,而不是像大規(guī)模全參數(shù)更新那樣,可能需要對(duì)概念或程序進(jìn)行高成本的重新學(xué)習(xí)。假設(shè)這種對(duì)結(jié)構(gòu)適應(yīng)的關(guān)注使 Tina 能夠以最小的計(jì)算投入實(shí)現(xiàn)高推理性能。

基于 LoRA 的強(qiáng)化學(xué)習(xí)中的階段轉(zhuǎn)變

通過(guò)分析訓(xùn)練日志,對(duì)基于 LoRA 的強(qiáng)化學(xué)習(xí)機(jī)制有了進(jìn)一步的認(rèn)識(shí)。如圖 4 所示,在各種 Tina 模型的訓(xùn)練過(guò)程中,出現(xiàn)了一種明顯的模式,該圖展示了不同 Tina 模型運(yùn)行時(shí)的準(zhǔn)確率獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)和完成長(zhǎng)度隨訓(xùn)練步驟的變化情況。團(tuán)隊(duì)持續(xù)觀察到,在大多數(shù) Tina 模型中,與格式相關(guān)的指標(biāo)(格式獎(jiǎng)勵(lì),第二行;完成長(zhǎng)度,第三行)在訓(xùn)練過(guò)程中存在一個(gè)階段轉(zhuǎn)變或轉(zhuǎn)折點(diǎn)。在這個(gè)轉(zhuǎn)變點(diǎn)附近(由綠色垂直虛線表示),格式獎(jiǎng)勵(lì)通常會(huì)達(dá)到峰值或出現(xiàn)不穩(wěn)定,而完成長(zhǎng)度往往會(huì)在可能反轉(zhuǎn)趨勢(shì)之前達(dá)到最小值。

值得注意的是,在準(zhǔn)確率獎(jiǎng)勵(lì)圖(第一行)中,這種在格式和長(zhǎng)度指標(biāo)上相對(duì)明顯的轉(zhuǎn)變通常并沒(méi)有對(duì)應(yīng)的明顯轉(zhuǎn)折點(diǎn)。在整個(gè)訓(xùn)練過(guò)程中,準(zhǔn)確率獎(jiǎng)勵(lì)通常呈現(xiàn)出更平緩的波動(dòng)或更緩慢的變化趨勢(shì),與格式轉(zhuǎn)變沒(méi)有明顯的對(duì)應(yīng)拐點(diǎn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

另一個(gè)關(guān)鍵觀察結(jié)果是最佳性能出現(xiàn)的時(shí)間:在留出的評(píng)估中產(chǎn)生最高推理準(zhǔn)確率的最佳檢查點(diǎn),始終出現(xiàn)在格式指標(biāo)觀察到的階段轉(zhuǎn)變點(diǎn)之前或附近(由紅色垂直虛線表示)?;跍?zhǔn)確率和基于格式的指標(biāo)之間的這種解耦表明,基于 LoRA 的強(qiáng)化學(xué)習(xí)過(guò)程迅速優(yōu)化了模型遵循格式得分和長(zhǎng)度約束所獎(jiǎng)勵(lì)的結(jié)構(gòu)和風(fēng)格元素的能力。隨后的轉(zhuǎn)變點(diǎn)可能表明這種結(jié)構(gòu)優(yōu)化達(dá)到飽和、變得不穩(wěn)定,或者可能以其他方式(例如過(guò)度限制或擴(kuò)展長(zhǎng)度)開(kāi)始損害生成質(zhì)量。

在格式驅(qū)動(dòng)的轉(zhuǎn)變之前達(dá)到峰值推理準(zhǔn)確率這一事實(shí)意味著,雖然學(xué)習(xí)正確的輸出格式至關(guān)重要,并且通過(guò) LoRA 可以高效實(shí)現(xiàn),但僅進(jìn)一步推動(dòng)以格式為中心的優(yōu)化并不一定能帶來(lái)更好的推理效果,甚至可能有害。這進(jìn)一步支持了研究假設(shè),即 LoRA 主要通過(guò)學(xué)習(xí)有效推理所需的形式來(lái)高效地調(diào)整模型。

結(jié)論與局限性

研究團(tuán)隊(duì)提出 Tina 模型,以證明可以高效且有效地將推理能力融入語(yǔ)言模型。Tina 的主要貢獻(xiàn)在于讓更多人能夠參與基于強(qiáng)化學(xué)習(xí)的推理模型開(kāi)發(fā)。通過(guò)在 15 億參數(shù)的基礎(chǔ)模型上結(jié)合 LoRA 和強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了與大得多的模型相媲美的推理性能,而這一切僅在約 9 美元的計(jì)算預(yù)算內(nèi)完成。這一成果促使團(tuán)隊(duì)思考使這種極簡(jiǎn)主義方法成為可能的因素,以及它們未來(lái)可能的發(fā)展方向。

盡管取得了令人鼓舞的結(jié)果,但這項(xiàng)工作也存在一定的局限性:

  • 基礎(chǔ)模型規(guī)模:實(shí)驗(yàn)主要圍繞 15 億參數(shù)的模型展開(kāi)。雖然展示了成本效益,但對(duì)于復(fù)雜的多步推理問(wèn)題,這個(gè)「微型」 模型所能達(dá)到的絕對(duì)推理上限,自然可能低于更大的模型。
  • 推理任務(wù)范圍:評(píng)估主要集中在數(shù)學(xué)和形式邏輯推理基準(zhǔn)測(cè)試(AIME、AMC、MATH、GPQA、Minerva)上。所學(xué)推理技能在其他領(lǐng)域(如編碼)的有效性和可遷移性,還有待進(jìn)一步研究。
  • 超參數(shù)優(yōu)化:有意采用已有的配置,盡量減少超參數(shù)調(diào)整成本。雖然這體現(xiàn)了方法的某種穩(wěn)健性,但通過(guò)進(jìn)一步調(diào)整超參數(shù),特別是針對(duì) LoRA、強(qiáng)化學(xué)習(xí)算法和目標(biāo)推理任務(wù)之間的相互作用進(jìn)行調(diào)整,可能會(huì)帶來(lái)性能的進(jìn)一步提升。