
新智元報(bào)道
編輯:桃子 好困
【新智元導(dǎo)讀】一年一度ICLR 2025杰出論文開(kāi)獎(jiǎng)!普林斯頓、UBC、中科大NUS等團(tuán)隊(duì)的論文拔得頭籌,還有Meta團(tuán)隊(duì)「分割一切」SAM 2摘得榮譽(yù)提名。
剛剛,ICLR 2025杰出論文出爐了!
今年共有三篇杰出論文獲獎(jiǎng),還有3篇獲榮譽(yù)提名獎(jiǎng)。值得一提的是,斬獲杰出論文的學(xué)者,都是華人一作。

分別是,OpenAI研究員漆翔宇(普林斯頓博士畢業(yè))、不列顛哥倫比亞大學(xué)Yi Ren、新加坡國(guó)立大學(xué)Junfeng Fang和中科大Houcheng Jiang。

這一次,ICLR委員會(huì)通過(guò)兩階段嚴(yán)苛選拔,從眾多優(yōu)秀論文中,精挑細(xì)選出最終獲獎(jiǎng)研究。
他們從36篇候選池開(kāi)始,這些論文是由領(lǐng)域主席推薦或在評(píng)審中獲得了極高的評(píng)分。
委員會(huì)成員首先進(jìn)行了初步評(píng)審,篩選出入圍名單。隨后,所有成員再?gòu)睦碚撘?jiàn)解、實(shí)際影響、精湛的寫(xiě)作和實(shí)驗(yàn)的嚴(yán)謹(jǐn)性等因素對(duì)論文進(jìn)行排名。
最終,由項(xiàng)目主席確認(rèn)獲獎(jiǎng)名單。
接下來(lái),一起看看都有哪些論文摘桂冠。
杰出論文
論文1:Safety Alignment Should be Made More Than Just a Few Tokens Deep
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson
機(jī)構(gòu):普林斯頓大學(xué),Google DeepMind

論文地址:https://openreview.net/pdf?id=6Mxhg9PtDE
當(dāng)前,大模型的安全對(duì)齊存在顯著的脆弱性。簡(jiǎn)單的攻擊,甚至是無(wú)害的微調(diào),都可能破解對(duì)齊的模型。
普林斯頓聯(lián)手谷歌DeepMind研究注意到,許多這些脆弱性都與一個(gè)共同的根本問(wèn)題有關(guān):安全對(duì)齊可能采取捷徑,即對(duì)齊主要僅調(diào)整模型生成分布的前幾個(gè)輸出token。
他們將這一問(wèn)題統(tǒng)一稱(chēng)為「淺層安全對(duì)齊」(Shallow Safety Alignment)。
論文中,作者通過(guò)案例研究解釋了「淺層安全對(duì)齊」為何存在,并展示了這一問(wèn)題如何普遍導(dǎo)致近期發(fā)現(xiàn)的LLM多個(gè)脆弱性,包括對(duì)抗性后綴攻擊、前置填充攻擊、解碼參數(shù)攻擊和微調(diào)攻擊。

這項(xiàng)研究關(guān)鍵貢獻(xiàn)在于,展示了「淺層安全對(duì)齊」這一統(tǒng)一概念,如何為緩解這些脆弱性指明有前景的研究方向。
研究證明,深化安全對(duì)齊,使其超越前幾個(gè)token,可以顯著提高對(duì)一些常見(jiàn)攻擊的魯棒性。
作者還設(shè)計(jì)了一個(gè)正則化的微調(diào)目標(biāo),通過(guò)約束初始token的更新,使安全對(duì)齊在微調(diào)攻擊中更具持久性。
總體而言,團(tuán)隊(duì)主張未來(lái)的安全對(duì)齊,應(yīng)不僅僅局限于前幾個(gè)token的深度。
論文2:Learning Dynamics of LLM Finetuning
作者:Yi Ren, Danica J. Sutherland
機(jī)構(gòu):不列顛哥倫比亞大學(xué)

論文地址:https://openreview.net/pdf?id=tPNHOoZFl9
這項(xiàng)來(lái)自UBC團(tuán)隊(duì)的研究,通過(guò)「學(xué)習(xí)動(dòng)態(tài)」(Learning Dynamics)的視角,揭開(kāi)了大模型微調(diào)的神秘面紗。
「學(xué)習(xí)動(dòng)態(tài)」是指,訓(xùn)練過(guò)程中特定樣本學(xué)習(xí),如何影響模型對(duì)其他樣本的預(yù)測(cè)。
論文中,作者研究了大模型在不同類(lèi)型微調(diào)過(guò)程中的學(xué)習(xí)動(dòng)態(tài),通過(guò)分析影響如何在不同潛在響應(yīng)之間逐步累積的分解。
對(duì)此,他們還提出了一個(gè)理解ML學(xué)習(xí)系統(tǒng)行為的強(qiáng)大工具。

在微調(diào)過(guò)程中,一個(gè)常見(jiàn)的問(wèn)題是模型可能會(huì)出現(xiàn)「幻覺(jué)」。研究發(fā)現(xiàn),特定類(lèi)型的幻覺(jué)會(huì)在微調(diào)后可能會(huì)被增強(qiáng)。
比如,模型可能在回答問(wèn)題A時(shí),錯(cuò)誤地使用了為問(wèn)題B準(zhǔn)備的短語(yǔ)或事實(shí);又或者,模型在生成響應(yīng)時(shí)可能反復(fù)使用相似的簡(jiǎn)單短語(yǔ)。
研究人員還擴(kuò)展了框架,并揭示了一個(gè)有趣現(xiàn)象「擠壓效應(yīng)」,解釋在離線策略直接偏好優(yōu)化(DPO)中觀察到特征,即運(yùn)行DPO時(shí)間過(guò)長(zhǎng)甚至?xí)蛊谕妮敵鲎兊貌荒敲纯赡堋?/p>
此外,新框架還提供了關(guān)于在線策略DPO及其他變體優(yōu)勢(shì)來(lái)源的見(jiàn)解。
論文3:AlphaEdit: Null-Space Constrained Model Editing for Language Models
作者:Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua
機(jī)構(gòu):新加坡國(guó)立大學(xué),中國(guó)科學(xué)技術(shù)大學(xué)

論文地址:https://openreview.net/pdf?id=HvSytvg3Jh
大模型常常出現(xiàn)「幻覺(jué)」,生成不正確或過(guò)時(shí)的知識(shí)。
因此,NUS聯(lián)手中科大團(tuán)隊(duì)提出了模型編輯方法——AlphaEdit,通過(guò)調(diào)整模型參數(shù),針對(duì)性地更新知識(shí)。
目前,模型編輯的主流方法是「定位后編輯」(Locate-then-Edit)。這一方法受限定位對(duì)特定知識(shí)點(diǎn)有影響力的參數(shù),然后通過(guò)引入擾動(dòng)(perturbation)對(duì)其進(jìn)行編輯。
雖然這種方法在許多場(chǎng)景中有效,但當(dāng)前研究表明,這種擾動(dòng)不可避免地會(huì)干擾LLM中原有的保留知識(shí),特別是在順序編輯場(chǎng)景中。

AlphaEdit給出了一個(gè)簡(jiǎn)單卻高效的解決方案。
也就是,在將擾動(dòng)應(yīng)用于參數(shù)之前,將其投影到保留知識(shí)的零空間(Null Space)上。
研究證明,這種投影確保編輯后的LLM在查詢(xún)保留知識(shí)時(shí),輸出保持不變,從而緩解了知識(shí)干擾問(wèn)題。
在包括Llama3、GPT2XL、GPT-J在內(nèi)的多種LLM上的廣泛實(shí)驗(yàn)表明,AlphaEdit通過(guò)僅添加一行用于投影的代碼,使大多數(shù)定位后編輯方法的性能平均提升了36.7%。
榮譽(yù)提名
論文1:Data Shapley in One Training Run
作者:Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia
機(jī)構(gòu):普林斯頓大學(xué),加利福尼亞大學(xué)伯克利分校,弗吉尼亞理工大學(xué)

論文地址:https://openreview.net/pdf?id=HD6bWcj87Y
傳統(tǒng)的Data Shapley為機(jī)器學(xué)習(xí)中的數(shù)據(jù)貢獻(xiàn)提供了一個(gè)有原則的框架,但它要求對(duì)不同的數(shù)據(jù)子集重新訓(xùn)練模型,無(wú)法應(yīng)用在規(guī)模更大的模型上。
此外,這種基于重新訓(xùn)練的定義無(wú)法在特定模型訓(xùn)練過(guò)程中過(guò)評(píng)估數(shù)據(jù)的貢獻(xiàn),而這在實(shí)際中往往是關(guān)注的重點(diǎn)。
在這篇論文中,團(tuán)隊(duì)提出了一種全新的概念——In-Run Data Shapley,它不需要重新訓(xùn)練模型,就能針對(duì)特定模型的數(shù)據(jù)貢獻(xiàn)進(jìn)行評(píng)估。
具體來(lái)說(shuō),In-Run Data Shapley會(huì)計(jì)算每次梯度更新迭代的Shapley值,并在整個(gè)訓(xùn)練過(guò)程中累積這些值。通過(guò)多種技術(shù)的結(jié)合,In-Run Data Shapley可以有效擴(kuò)展到基礎(chǔ)模型的規(guī)模。
與標(biāo)準(zhǔn)模型訓(xùn)練相比,In-Run Data Shapley增加的運(yùn)行時(shí)間開(kāi)銷(xiāo)可以忽略不計(jì)。這一顯著的效率提升使得在基礎(chǔ)模型預(yù)訓(xùn)練階段進(jìn)行數(shù)據(jù)歸因成為可能。
最后,團(tuán)隊(duì)通過(guò)幾個(gè)案例研究闡述了對(duì)預(yù)訓(xùn)練數(shù)據(jù)貢獻(xiàn)的新見(jiàn)解,并討論這些觀察對(duì)生成式AI及預(yù)訓(xùn)練數(shù)據(jù)策劃的版權(quán)問(wèn)題的影響。
論文2:SAM 2: Segment Anything in Images and Videos
作者:Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman R?dle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer
機(jī)構(gòu):Meta FAIR

論文地址:https://openreview.net/pdf?id=Ha6RTeWMd0
「分割一切2.0」(Segment Anything Model 2,SAM 2)是一個(gè)用于解決圖像和視頻中的可提示視覺(jué)分割問(wèn)題的基礎(chǔ)模型。它基于簡(jiǎn)單的Transformer架構(gòu)打造,并通過(guò)流式記憶來(lái)支持實(shí)時(shí)視頻處理。
與此同時(shí),團(tuán)隊(duì)還構(gòu)建了一個(gè)數(shù)據(jù)引擎,通過(guò)用戶(hù)交互提升模型和數(shù)據(jù)的表現(xiàn),收集了迄今為止最大的視頻分割數(shù)據(jù)集。
相比于前代模型,SAM 2不僅準(zhǔn)確度更高,而且在視頻分割任務(wù)中的交互次數(shù)減少了3倍,在圖像分割任務(wù)中的速度提升了6倍。
論文3:Faster Cascades via Speculative Decoding
作者:Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar
機(jī)構(gòu):Google Research,Google DeepMind,Mistral AI

論文地址:https://openreview.net/pdf?id=vo9t20wsmd
級(jí)聯(lián)模型和推測(cè)解碼法,是提高語(yǔ)言模型推理效率的兩種常見(jiàn)方法。
這兩種方法都通過(guò)交替使用兩個(gè)模型來(lái)實(shí)現(xiàn),但其機(jī)制基本不同:
前者的延遲規(guī)則在輸入「困難」時(shí)才調(diào)用較大的模型,而推測(cè)解碼法主要通過(guò)并行評(píng)分模式,進(jìn)行推測(cè)執(zhí)行來(lái)調(diào)用較大的模型。
這些機(jī)制提供了不同的好處:從經(jīng)驗(yàn)來(lái)看,級(jí)聯(lián)在成本與質(zhì)量之間提供了良好的平衡,通常甚至超越了大型模型;而推測(cè)級(jí)聯(lián)則顯著提升了速度,同時(shí)保證質(zhì)量中立。
論文中,谷歌和Mistral AI團(tuán)隊(duì)結(jié)合了這兩種方法的優(yōu)勢(shì),設(shè)計(jì)出了全新的「推測(cè)級(jí)聯(lián)」(Speculative Cascades)。
他們?yōu)椤竿茰y(cè)級(jí)聯(lián)」設(shè)計(jì)了最優(yōu)延遲規(guī)則,并使用插件近似方法來(lái)實(shí)現(xiàn)該最優(yōu)規(guī)則。
為了驗(yàn)證新方法實(shí)力,研究人員在 Gemma和T5模型上進(jìn)行測(cè)試,結(jié)果表明,相較于級(jí)聯(lián)模型和推測(cè)解碼法,「推測(cè)級(jí)聯(lián)」在成本質(zhì)量權(quán)衡上表現(xiàn)出顯著的優(yōu)勢(shì)。
參考資料:
https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/
熱門(mén)跟貼