速覽熱門論文
1. AI 比你懂足球!上海交大團(tuán)隊推出 SoccerAgent
2. 清華黃高團(tuán)隊新作:“零”數(shù)據(jù)強(qiáng)化 AI 推理
3. 20 秒生成 4 分鐘音樂,階躍星辰開源音樂生成基礎(chǔ)模型
4. 微軟提出長上下文推理擴(kuò)展方法 RetroInfer
5. TEMPURA:增強(qiáng)視覺語言模型的時間理解能力
6. 綜述:大語言模型推理引擎
7. 綜述:LLM 低精度訓(xùn)練方法、挑戰(zhàn)和機(jī)遇
1. AI 比你懂足球!上海交大團(tuán)隊推出 SoccerAgent
人工智能(AI)驅(qū)動的足球理解技術(shù)取得了快速發(fā)展,但現(xiàn)有研究主要集中在孤立或狹隘的任務(wù)上。為了填補(bǔ)這一空白,上海交通大學(xué)團(tuán)隊提出了一個全面的足球理解框架。
具體來說,他們做出了以下貢獻(xiàn):(1)構(gòu)建了 SoccerWiki,這是首個大規(guī)模多模態(tài)足球知識庫,整合了有關(guān)球員、球隊、裁判和場地的領(lǐng)域知識,實(shí)現(xiàn)了知識驅(qū)動推理;(2)提出了 SoccerBench,這是一個規(guī)模更大、更全面的足球特定基準(zhǔn),通過自動管道和人工驗(yàn)證,在 13 個不同的理解任務(wù)中提供了約 10K 個標(biāo)準(zhǔn)化多模態(tài)(文本、圖像、視頻)多選 QA 對;(3)推出了 SoccerAgent,這是一個多 agent 系統(tǒng),可以通過協(xié)作推理分解復(fù)雜的足球問題,利用來自 SoccerWiki 的專業(yè)領(lǐng)域知識,實(shí)現(xiàn)魯棒的性能;(4)在 SoccerBench 上對 SOTA MLLM 進(jìn)行的評估和消融,突出了 SoccerAgent 的更強(qiáng)性能。

論文鏈接:https://arxiv.org/abs/2505.03735
2. 清華黃高團(tuán)隊新作:“零”數(shù)據(jù)強(qiáng)化 AI 推理
可驗(yàn)證獎勵強(qiáng)化學(xué)習(xí)(RLVR)通過直接從基于結(jié)果的獎勵中學(xué)習(xí),在增強(qiáng)大語言模型(LLM)的推理能力方面已顯示出一定的潛力。最近的 RLVR 研究在零樣本設(shè)置下進(jìn)行,避免了在標(biāo)注推理過程中的監(jiān)督,但仍依賴于人工收集的問題和答案進(jìn)行訓(xùn)練。人類制作的高質(zhì)量示例的稀缺性引發(fā)了人們對依賴人工監(jiān)督的長期可擴(kuò)展性的擔(dān)憂,而這一挑戰(zhàn)在語言模型預(yù)訓(xùn)練領(lǐng)域已經(jīng)較為明顯。此外,在人工智能超越人類智能的假想未來,人類提供的任務(wù)可能會為超級智能系統(tǒng)提供有限的學(xué)習(xí)潛力。
為了解決這些問題,清華大學(xué)自動化系副教授黃高團(tuán)隊及其合作者提出了一個全新 RLVR 范式——Absolute Zero。在這種范式中,單個模型學(xué)會提出能夠最大限度提高自身學(xué)習(xí)進(jìn)度的任務(wù),并通過解決這些任務(wù)提高推理能力,而無需依賴任何外部數(shù)據(jù)?;诖耍麄冞€提出了 Absolute Zero Reasoner(AZR),其通過使用代碼執(zhí)行器驗(yàn)證所提出的代碼推理任務(wù)和驗(yàn)證答案,從而自我進(jìn)化其訓(xùn)練課程和推理能力,是一個可驗(yàn)證獎勵的統(tǒng)一來源,可用于指導(dǎo)開放式且 grounded 的學(xué)習(xí)。

盡管 AZR 完全是在沒有外部數(shù)據(jù)的情況下進(jìn)行訓(xùn)練的,但它在編碼和數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)了總體 SOTA 性能,超過了依賴于數(shù)以萬計的域內(nèi)人類編輯示例的現(xiàn)有零樣本設(shè)置模型。此外,他們還證明了 AZR 可以有效地應(yīng)用于不同規(guī)模的模型,且兼容各種模型類別。
論文鏈接:http://arxiv.org/abs/2505.03335
3. 20 秒生成 4 分鐘音樂,階躍星辰開源音樂生成基礎(chǔ)模型
Ace Studio 和階躍星辰團(tuán)隊提出了一個開源音樂生成基礎(chǔ)模型 ACE-Step,它克服了現(xiàn)有方法的主要局限性,并通過整體架構(gòu)設(shè)計實(shí)現(xiàn)了 SOTA 性能。
當(dāng)前的方法面臨著生成速度、音樂連貫性和可控性之間的固有權(quán)衡。例如,基于 LLM 的模型(如 Yue、SongGen)在抒情對齊方面表現(xiàn)出色,但在推理速度慢和結(jié)構(gòu)缺陷方面存在問題。另一方面,擴(kuò)散模型(如 DiffRhythm)盡管可以加快合成速度,但往往缺乏長程結(jié)構(gòu)一致性。
ACE-Step 通過將基于擴(kuò)散的生成與 Sana 的深度壓縮自動編碼器(DCAE)和輕量級線性 transformer 相結(jié)合,彌補(bǔ)了這一不足。它進(jìn)一步利用 MERT 和 m-hubert,在訓(xùn)練過程中對齊語義表征(REPA),從而實(shí)現(xiàn)快速收斂。因此,ACE-Step 在 A100 GPU 上只需 20 秒就能合成長達(dá) 4 分鐘的音樂,比基于 LLM 的基線快 15 倍,同時在旋律、和聲和節(jié)奏指標(biāo)方面實(shí)現(xiàn)了更好的音樂連貫性和歌詞對齊。此外,ACE-Step 還保留了細(xì)粒度的聲學(xué)細(xì)節(jié),實(shí)現(xiàn)了高級控制機(jī)制,如聲音克隆、歌詞編輯、混音和音軌生成(如 lyric2vocal 和 singing2accompaniment)。

研究團(tuán)隊表示,他們希望為音樂人工智能建立一個基礎(chǔ)模型,而不是建立另一個端到端文本到音樂的管道:一個快速、通用、高效而靈活的架構(gòu),使在其基礎(chǔ)上訓(xùn)練子任務(wù)變得容易。
項目地址:https://ace-step.github.io/
4. 微軟提出長上下文推理擴(kuò)展方法 RetroInfer
大語言模型(LLM)的上下文長度不斷增加,給高效推理帶來了挑戰(zhàn),這主要是由于 GPU 內(nèi)存和帶寬限制造成的。
為此,微軟團(tuán)隊提出了 RetroInfer,它將鍵值(KV)緩存重新概念化為矢量存儲系統(tǒng),利用固有的注意力稀疏性加速長上下文 LLM 推理。它的核心是波浪指數(shù),這是一種 Attention-aWare VEctor 指數(shù),可以通過三方注意力近似、有精度限制的注意力估計和分段聚類等技術(shù),高效、準(zhǔn)確地檢索關(guān)鍵 token。作為補(bǔ)充,波緩沖器可協(xié)調(diào) KV 緩存位置,并在 GPU 和 CPU 之間重疊計算和數(shù)據(jù)傳輸,以維持高吞吐量。

之前基于稀疏性的方法在 token 選擇和硬件協(xié)調(diào)方面面臨困難,與之不同的是,RetroInfer 能夠在不影響模型準(zhǔn)確性的情況下提供更優(yōu)的性能。對長上下文基準(zhǔn)的實(shí)驗(yàn)表明,在 GPU 內(nèi)存限制范圍內(nèi),與全注意力相比,速度最多可提高 4.5 倍;當(dāng) KV 緩存擴(kuò)展到 CPU 內(nèi)存時,與稀疏注意力基準(zhǔn)相比,速度最多可提高 10.5 倍,同時還能保持全注意力級的準(zhǔn)確性。
論文鏈接:https://arxiv.org/abs/2505.02922
5. TEMPURA:增強(qiáng)視覺語言模型的時間理解能力
對于視覺語言模型來說,理解視頻中的因果事件關(guān)系和實(shí)現(xiàn)精細(xì)的時間 grounding 仍然是一項挑戰(zhàn)?,F(xiàn)有方法要么壓縮視頻 token 以降低時間分辨率,要么將視頻視為未分割的流,從而模糊了細(xì)粒度的事件邊界,限制了因果依賴關(guān)系的建模。
為此,來自華盛頓大學(xué)的研究團(tuán)隊及其合作者提出了一個兩階段訓(xùn)練框架——TEMPURA,其可以增強(qiáng)視頻的時間理解能力。TEMPURA 首先從有效的填充技術(shù)中汲取靈感,應(yīng)用掩碼事件預(yù)測推理來重建缺失事件,并從密集的事件標(biāo)注中逐步生成因果解釋。然后,TEMPURA 學(xué)習(xí)執(zhí)行視頻分割和密集字幕,將視頻分解為非重疊事件,并進(jìn)行詳細(xì)的時間戳對齊描述。他們在 VER 上對 TEMPURA 進(jìn)行了訓(xùn)練,VER 是一個大型數(shù)據(jù)集,包括 100 萬個訓(xùn)練實(shí)例和 50 萬個具有時間對齊事件描述和結(jié)構(gòu)化推理步驟的視頻。

在時間 grounding 和亮點(diǎn)檢測基準(zhǔn)上進(jìn)行的實(shí)驗(yàn)表明,TEMPURA 的表現(xiàn)優(yōu)于其他基準(zhǔn)模型,證實(shí)了結(jié)合因果推理與細(xì)粒度時間分割可以提高視頻理解能力。
論文鏈接:https://arxiv.org/abs/2505.01583
6. 綜述:大語言模型推理引擎
大語言模型(LLM)被廣泛應(yīng)用于聊天機(jī)器人、代碼生成器和搜索引擎中。思維鏈、復(fù)雜推理和 agent 服務(wù)等工作負(fù)載通過重復(fù)調(diào)用模型大大增加了推理成本。為了降低成本,人們采用了并行、壓縮和緩存等優(yōu)化方法,但由于服務(wù)需求各不相同,很難選擇合適的方法。最近,專門的 LLM 推理引擎已成為將優(yōu)化方法集成到面向服務(wù)的基礎(chǔ)設(shè)施中的關(guān)鍵組件。然而,目前仍缺乏對推理引擎的系統(tǒng)研究。
為此,來自韓國電子部品研究院和韓國電子通信研究院的研究團(tuán)隊對 25 個開源和商業(yè)推理引擎進(jìn)行了全面評估。他們從易用性、易部署性、通用支持、可擴(kuò)展性以及對吞吐量和延遲感知計算的適用性等方面考察了每個推理引擎,也通過研究每個推理引擎所支持的優(yōu)化技術(shù)來探索其設(shè)計目標(biāo)。他們還評估了開源推理引擎生態(tài)系統(tǒng)的成熟度,并處理了商業(yè)解決方案的性能和成本政策。此外,他們也概述了未來的研究方向,包括支持基于 LLM 的復(fù)雜服務(wù)、支持各種硬件和增強(qiáng)安全性,為研究人員和開發(fā)人員選擇和設(shè)計優(yōu)化的 LLM 推斷引擎提供指導(dǎo)。

論文鏈接:https://arxiv.org/abs/2505.01658
7. 綜述:LLM 低精度訓(xùn)練方法、挑戰(zhàn)和機(jī)遇
訓(xùn)練大語言模型(LLM)所需的大量硬件資源對效率和可擴(kuò)展性構(gòu)成了障礙。為了緩解這一挑戰(zhàn),低精度訓(xùn)練技術(shù)被廣泛采用,從而提高了訓(xùn)練效率。然而,低精度訓(xùn)練涉及多個組件,如權(quán)重、激活和梯度,每個組件都可以用不同的數(shù)字格式表示。由此產(chǎn)生的多樣性造成了低精度訓(xùn)練研究的碎片化,使研究人員很難對該領(lǐng)域有一個統(tǒng)一的認(rèn)識。
為此,來自北京理工大學(xué)的研究團(tuán)隊及其合作者全面回顧了現(xiàn)有的低精度訓(xùn)練方法。為了系統(tǒng)地組織這些方法,他們根據(jù)其基礎(chǔ)數(shù)值格式將其分為三個主要類別,這是影響硬件兼容性、計算效率和讀者參考便利性的關(guān)鍵因素。這些類別是(1)基于固定點(diǎn)數(shù)和整數(shù)的方法,(3)基于浮點(diǎn)的方法,以及(3)基于自定義格式的方法。此外,他們還討論了量化感知訓(xùn)練方法,這些方法與前向傳播過程中的低精度訓(xùn)練方法有很多相似之處。最后,他們強(qiáng)調(diào)了幾個有望推動這一領(lǐng)域發(fā)展的研究方向。

論文鏈接:https://arxiv.org/abs/2505.01043
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
熱門跟貼