速覽熱門論文
1.首次!AI 生成論文通過同行評審
2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的
3.研究發(fā)現(xiàn):推理模型根本「無需思考」
4.Liquid:語言模型是可擴展的、統(tǒng)一多模態(tài)生成器
1.首次!AI 生成論文通過同行評審
在這項工作中,Sakana AI 團隊推出了 The AI Scientist-v2,這是一個端到端的 agent 系統(tǒng),能夠生成首篇完全由 AI 生成并通過同行評審的研討會論文。
該系統(tǒng)可以迭代地提出科學(xué)假設(shè)、設(shè)計和執(zhí)行實驗、分析和可視化數(shù)據(jù),并自主撰寫科學(xué)手稿。與上一代相比,The AI Scientist-v2 消除了對人類編寫的代碼模板的依賴,在不同的機器學(xué)習領(lǐng)域有效地進行了泛化,并利用了由專門的實驗管理器 agent 管理的漸進 agentic 樹搜索方法。此外,他們還集成了視覺語言模型(VLM)反饋回路,用于迭代完善圖表的內(nèi)容和美感,從而增強了人工智能審閱器組件。

他們通過向同行評審的 ICLR 研討會提交三份完全自主的稿件,對 AI Scientist-v2 進行了評估。值得注意的是,其中一篇稿件獲得了足夠高的分數(shù),超過了人類接受稿件的平均門檻,這代表完全由人工智能生成的論文首次成功通過同行評審。
論文鏈接:https://arxiv.org/abs/2504.08066
2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的
大語言模型(LLM)是根據(jù)不斷增長的 token 預(yù)算進行預(yù)訓(xùn)練的,其假設(shè)是更好的預(yù)訓(xùn)練性能可以轉(zhuǎn)化為更好的下游模型。
在這項工作中,來自卡內(nèi)基梅隆大學(xué)的研究團隊及其合作者對這一假設(shè)提出了質(zhì)疑,并證明擴展預(yù)訓(xùn)練會使模型更難微調(diào),從而導(dǎo)致最終性能下降。他們將這種現(xiàn)象稱為災(zāi)難性過度訓(xùn)練(catastrophic overtraining)。例如,根據(jù) 3T token 預(yù)訓(xùn)練的指令微調(diào) OLMo-1B 模型在多個標準 LLM 基準上的性能比其 2.3T token 對應(yīng)模型差 2% 以上。

通過對照實驗和理論分析,他們發(fā)現(xiàn),災(zāi)難性過度訓(xùn)練源于預(yù)訓(xùn)練參數(shù)對修改(包括但不限于微調(diào))的廣泛敏感性的系統(tǒng)性增加。這一研究結(jié)果要求對預(yù)訓(xùn)練設(shè)計進行嚴格的重新評估,以考慮模型的下游適應(yīng)性。
論文鏈接:https://arxiv.org/abs/2503.19206
3.研究發(fā)現(xiàn):推理模型根本「無需思考」
通過在生成過程中加入明確、冗長的“思考”過程,大語言模型(LLM)可以提高自身的推理能力。
在這項工作中,加州大學(xué)伯克利分校團隊質(zhì)疑了這種明確的思考是否有必要。通過使用 DeepSeek-R1-Distill-Qwen 算法,他們發(fā)現(xiàn)通過簡單的提示(即 NoThinking)繞過思考過程,可以達到令人驚訝的效果。如果控制 token 數(shù)量,NoThinking 在 7 個具有挑戰(zhàn)性的推理數(shù)據(jù)集(包括數(shù)學(xué)問題求解、形式化定理證明和編碼)中的表現(xiàn)均優(yōu)于 Thinking,尤其是在低預(yù)算環(huán)境下,例如,在 700 個 token 的 ACM 23 中,NoThinking 的表現(xiàn)為 51.3 vs. 28.9。值得注意的是,隨著 k 的增加,NoThinking 的性能在 pass@k 上更具競爭力。

基于這一觀察結(jié)果,他們證明了使用 NoThinking 獨立生成 N 個輸出并將其聚合的并行擴展方法非常有效。在聚合時,他們會使用特定任務(wù)驗證器,或者采用簡單的 best-of-N 策略,如基于置信度的選擇。他們的方法優(yōu)于一系列使用 Thinking 的基線方法,可與具有更長延遲(高達 9 倍)的 Thinking 相媲美。
論文鏈接:https://arxiv.org/abs/2504.09858
4.Liquid:語言模型是可擴展的、統(tǒng)一多模態(tài)生成器
在這項工作中,來自華中科技大學(xué)、字節(jié)跳動和香港大學(xué)的研究團隊提出了一種自回歸生成方法——Liquid,其通過將圖像標 token 為離散代碼,并在視覺和語言的共享特征空間內(nèi)學(xué)習這些代碼嵌入以及文本 token,從而將視覺理解和生成無縫整合在一起。與以往的多模態(tài)大語言模型(MLLM)不同,Liquid 利用單個大語言模型(LLM)實現(xiàn)了這一整合,從而消除了對外部預(yù)訓(xùn)練視覺嵌入(如 CLIP)的需求。

Liquid 首次發(fā)現(xiàn)了一個 scaling law,即隨著模型規(guī)模的增大,視覺和語言任務(wù)的統(tǒng)一訓(xùn)練不可避免地會帶來性能下降。此外,統(tǒng)一的 token 空間還能使視覺生成和理解任務(wù)相互促進,有效消除早期模型中的干擾。
研究表明,現(xiàn)有的 LLM 可以作為 Liquid 的基座,在多模態(tài)能力上好于 Chameleon 的同時,還能節(jié)省 100 倍的訓(xùn)練成本,并保持與主流 LLM(如 LLAMA2)相當?shù)恼Z言性能。Liquid 在視覺語言和純文本任務(wù)中的表現(xiàn)也優(yōu)于 SD v2.1 和 SD-XL(在 MJHQ-30K 上的 FID 為 5.47)。
論文鏈接:https://arxiv.org/abs/2412.04332
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
熱門跟貼