
新智元報(bào)道
編輯:桃子 好困
【新智元導(dǎo)讀】頂會(huì)論文評(píng)審,AI立大功!ICLR 2025首次大規(guī)模引入AI參與審稿,最終有12222條建議被審稿人采納,89%情況下提升了評(píng)審質(zhì)量。詳細(xì)30頁報(bào)告,揭秘AI在頂會(huì)審稿的驚人潛力。
你的審稿意見,可能是AI幫忙寫的!
去年10月,ICLR 2025正式開啟審稿周期,甚至欽定大模型參與評(píng)審。
那么,AI參與的審稿如何了?
今天,ICLR正式公布了AI智能體參與這屆審稿的結(jié)果——12222條建議被審稿人采納,極大提高了評(píng)審的質(zhì)量。

他們還公開了詳細(xì)的30頁報(bào)告,介紹了整個(gè)實(shí)驗(yàn)中AI在學(xué)術(shù)評(píng)審中的巨大潛力。

論文地址:https://arxiv.org/abs/2504.09737
研究中,得出了幾個(gè)關(guān)鍵結(jié)果:
12,222 條具體建議被采納,26.6%審稿人根據(jù)AI的建議更新了評(píng)審
LLM反饋在89%的情況下提高了審稿質(zhì)量。
接受LLM反饋并接收的審稿人,審稿意見平均增加80個(gè)字,便可提供更豐富反饋
顯著提升Rebuttal期間的討論活躍度,更加深入有效,作者Rebuttal和審稿人回應(yīng)篇幅均有增加
在最終論文的錄用結(jié)果方面,反饋組和對(duì)照組之間沒有顯著差異。AI智能體優(yōu)化了作者與審稿人之間的討論,這一結(jié)果與其設(shè)計(jì)目標(biāo)一致。

AI參與審稿,首次被頂會(huì)認(rèn)可
ICLR是當(dāng)前許多AI頂會(huì)中,唯一一個(gè)允許AI參與審稿的會(huì)議。此前,CVPR 2025還曾發(fā)布政策,明令禁止用LLM參與審稿。
那么,ICLR組委會(huì)為何會(huì)采納AI建議呢?

要知道,同行評(píng)審是研究和創(chuàng)新的關(guān)鍵要素。
然而,隨著論文投稿量(尤其是在AI頂會(huì)上)的迅速增長,同行評(píng)審面臨著日益嚴(yán)峻的壓力。
低質(zhì)量的反饋不僅讓作者們不滿與日俱增,還影響了學(xué)術(shù)交流效率。在2023年ACL上,作者們指出12.9%的評(píng)審質(zhì)量不佳,主要原因便是這些模糊、流于表面的批評(píng)。
此外,審稿人被分配到專業(yè)領(lǐng)域之外的論文,以及高拒稿率導(dǎo)致同一篇論文被反復(fù)評(píng)審等問題,都讓同行評(píng)審系統(tǒng)承受著更大壓力。
如何去提升評(píng)審質(zhì)量,也就成為了學(xué)術(shù)界關(guān)注的熱點(diǎn)。
一些審稿人不免會(huì)借助LLM幫自己分擔(dān)壓力。據(jù)估計(jì),ICLR 2024上,約10.6%的審稿人利用LLM輔助完成評(píng)審。
據(jù)統(tǒng)計(jì),ICLR每年提交的論文數(shù)量逐年增加,2025年共收到11,603投稿,同比增長61%。ICLR 2024同比增長47%。

去年,為了提升審稿質(zhì)量,ICLR 2025為每位審稿人僅分配了最多3篇論文。

不僅如此,他們引入了「評(píng)審反饋智能體」(Review Feedback Agent),讓AI去識(shí)別審查中的問題,并向?qū)徃迦朔答伕倪M(jìn)。

AI智能體就審稿中可能存在的三類問題,提供建議:
鼓勵(lì)審稿人改寫含糊的評(píng)論,讓其對(duì)作者更具可操作性;
突出文章中可能已經(jīng)回答了審稿人一些問題的部分;
在評(píng)審中,發(fā)現(xiàn)并處理不專業(yè)、不恰當(dāng)?shù)难哉摗?/p>

在這項(xiàng)實(shí)驗(yàn)中,反饋智能體利用多個(gè)LLM,為審稿人提供針對(duì)其評(píng)審內(nèi)容的優(yōu)化建議。
這些建議經(jīng)過精心設(shè)計(jì),聚焦于提升評(píng)審信息量、清晰度、可操作性。
為了確保反饋的可靠性,團(tuán)隊(duì)還引入了基于LLM的可靠性測試(Reliability Tests),對(duì)AI反饋的特定屬性進(jìn)行評(píng)估,確保其質(zhì)量。
42.3%評(píng)審,AI都有參與
這項(xiàng)試點(diǎn)研究,由ICLR聯(lián)手OpenReview在今年頂會(huì)審稿中全面鋪開。
他們以Claude Sonnet 3.5為核心模型,構(gòu)建了一個(gè)由5個(gè)大語言模型協(xié)作的系統(tǒng),用以生成高質(zhì)量反饋。
如上所述,ICLR今年共收到11,603份投稿,每份投稿平均分配給4位審稿人。
審稿人需按1-10分的等級(jí)評(píng)分,并根據(jù)以下維度對(duì)論文進(jìn)行評(píng)價(jià):合理性(soundness)、表述(presentation)、貢獻(xiàn)(contribution)、評(píng)分(rating)和置信度(confidence)。
在2024年10月15日-11月12日的四周內(nèi),AI智能體為18,946份隨機(jī)選取的ICLR評(píng)審(占ICLR 2025總評(píng)審量42.3%)提供了反饋。
ICLR 2025共收到11,553篇獨(dú)立論文的44,831份有效評(píng)審。最終,約有50%的評(píng)審隨機(jī)選中以接收反饋。
有不到8%的被選中評(píng)審最終未收到反饋,原因有二:其中2,692份評(píng)審本身質(zhì)量已經(jīng)很高,無需反饋;另有829份評(píng)審,其生成的反饋未能通過可靠性測試。

平均每份評(píng)審?fù)ㄟ^整個(gè)處理流程大約耗時(shí)1分鐘,成本約為50美分。平均而言,每份收到反饋的評(píng)審會(huì)包含3-4條反饋意見,最少1條,最多17條
生成的反饋主要聚焦于減少模糊和缺乏依據(jù)的評(píng)論,同時(shí)亦處理內(nèi)容誤解和不專業(yè)的表述。
評(píng)審期間,審稿人可以選擇忽略LLM的反饋(標(biāo)記為「未更新」)或據(jù)此修改評(píng)審(標(biāo)記為「已更新」)。該系統(tǒng)完全不會(huì)進(jìn)行任何直接更改。
實(shí)驗(yàn)結(jié)果
17%審稿人更新,評(píng)審平均增加80詞
如下圖所示,收到反饋的評(píng)審,比未收到反饋的評(píng)審更新可能性高17%。
早提交評(píng)審的審稿人,要比晚提交的更可能更新,這表明更有條理、更投入的審稿人更傾向于根據(jù)反饋提供修改意見。

評(píng)審長度分析顯示,所有組的最終評(píng)審長度均增加。
反饋組平均比對(duì)照組多增加約14個(gè)詞,但因部分反饋組未更新或未實(shí)際收到反饋,效應(yīng)量偏低。
收到反饋后更新評(píng)審的,長度顯著增加(平均80詞),遠(yuǎn)超未更新組(平均增加2詞)。
這表明,更新者更傾向于實(shí)質(zhì)性編輯,加入更多細(xì)節(jié)。

12222條AI建議被采納
通過Claude Sonnet 3.5分析5,031份評(píng)審(共18,322條反饋)中,發(fā)現(xiàn)89%評(píng)審者至少采納了一條反饋,占收到反饋評(píng)審者的23.6%。
總體而言,估計(jì)共有12,222條反饋項(xiàng)被采納并融入了修訂后的評(píng)審意見中。

分析還顯示,反饋數(shù)量少的審稿人更可能采納全部反饋,平均采納率為69.3%,即收到3條反饋的審稿人平均采納2條。

為了評(píng)估采納反饋評(píng)審是否清晰、具體、可操作,團(tuán)隊(duì)邀請兩名AI研究人員對(duì)100個(gè)樣本對(duì)(初始與修改后評(píng)審)進(jìn)行盲偏好評(píng)估。
結(jié)果顯示,89%修改后評(píng)審更受偏好,表明了采納反饋顯著提升了評(píng)審質(zhì)量。
作者審稿人參與度更高了
接下來,研究人員還分析了「被選中接收反饋」對(duì)反駁過程以及論文錄用率的影響。
反駁期為2024年11月12日至12月4日,作者可回應(yīng)評(píng)審評(píng)論并修改論文。

結(jié)果顯示,反饋組(審稿人接收反饋)的論文,其作者反駁篇幅比對(duì)照組長6%(約48詞),表明作者參與度更高。
另一方面,反饋組審稿人回應(yīng)反駁的回復(fù)比對(duì)照組長5.5%(約6詞),且修改評(píng)分的比例更高(31.7% vs 30.6%),審稿人參與度提升。
反饋評(píng)論聚類分析
最后,研究者對(duì)AI智能體提供的69,836條反饋進(jìn)行了聚類分析,以探究反饋類型。
結(jié)果顯示,大多數(shù)反饋針對(duì)審稿意見的模糊評(píng)論,旨在使其更具體、可操作、論證充分。
反饋較少涉及「內(nèi)容誤解」,因模型需絕對(duì)確信誤解并引用論文原文,避免了「幻覺」輸出。
此外,采納率分析表明,17.7%的反饋被采納。

參考資料:
https://blog.iclr.cc/2025/04/15/leveraging-llm-feedback-to-enhance-review-quality/
熱門跟貼