就在剛剛,NeurIPS 2024最佳論文出爐!
4篇獲獎(jiǎng)論文中,有3篇為華人一作,分別來(lái)自北大、新國(guó)立、廈大清華等。
據(jù)了解,NeurIPS 2024將于12月10日(星期二)至12月15日(星期日)在溫哥華舉辦。
和去年相比,今年能夠獲獎(jiǎng)的難度再次升級(jí)——
本屆共收到15671篇有效論文投稿,比去年又增長(zhǎng)了27%,但最后接收率僅有25.8%(去年為26.1%),大概4043篇左右。
接下來(lái),快來(lái)康康獲獎(jiǎng)?wù)撐挠心男┌伞?/p>
兩篇最佳論文(Best Paper)
1、《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
(視覺(jué)自回歸建模:通過(guò)Next-Scale預(yù)測(cè)生成可擴(kuò)展圖像)
本文由北京大學(xué)、字節(jié)跳動(dòng)研究者共同完成。
論文核心提出了一種新的圖像生成框架Visual Autoregressive modeling (VAR),首次使基于GPT風(fēng)格的自回歸模型在圖像生成任務(wù)中超越了擴(kuò)散模型,并驗(yàn)證了VAR模型的可擴(kuò)展性和零樣本泛化能力。
具體而言,論文引入了一種多尺度的自回歸策略。與傳統(tǒng)的按像素或token順序生成圖像的方法不同,VAR模型通過(guò)從低到高分辨的多尺度token圖進(jìn)行自回歸生成,每一尺度的token圖都依賴于前一尺度的結(jié)果。
這種方法的一個(gè)關(guān)鍵優(yōu)勢(shì)是,它能夠顯著減少生成高分辨率圖像時(shí)所需的自回歸步驟,從而降低了計(jì)算復(fù)雜度,提高了生成速度。
最終,VAR模型在ImageNet數(shù)據(jù)集上的驗(yàn)證表明,它能顯著超越現(xiàn)有的自回歸模型和一些擴(kuò)散模型,并且還表現(xiàn)出了視覺(jué)生成領(lǐng)域的Scaling Laws。
2、《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》
(隨機(jī)泰勒導(dǎo)數(shù)估計(jì)器:任意微分算子的有效攤銷)
本文由新加坡國(guó)立大學(xué)、 Sea AI Lab研究者共同完成,論文一作為Zekun Shi。
論文核心介紹了一種名為Stochastic Taylor Derivative Estimator (STDE)的高效算法,用于優(yōu)化包含高維和高階微分算子的神經(jīng)網(wǎng)絡(luò)損失函數(shù),特別是在物理信息神經(jīng)網(wǎng)絡(luò)(PINNs)中。
具體而言,研究展示了如何通過(guò)正確構(gòu)造單變量高階AD輸入切線(input tangent),有效地對(duì)多元函數(shù)的任意階導(dǎo)數(shù)張量進(jìn)行任意收縮,這可用于有效地隨機(jī)化任何微分算子。
當(dāng)應(yīng)用于PINNs時(shí),與使用一階AD進(jìn)行隨機(jī)化相比,本文方法提供了1000倍以上的速度提升和30倍以上的內(nèi)存減少,而且現(xiàn)在可以在單個(gè)NVIDIA A100 GPU上,8分鐘內(nèi)解決100萬(wàn)維的偏微分方程(PDEs)。
總之,這項(xiàng)工作開(kāi)啟了在大規(guī)模問(wèn)題中使用高階微分算子的可能性。
兩篇Best Paper Runner-up
(Best Paper Runner-up通常授予在某個(gè)領(lǐng)域表現(xiàn)杰出但未能獲得最佳論文的研究工作,大眾通常認(rèn)為其水平代表亞軍)
1、《Not All Tokens Are What You Need for Pretraining》
(并非所有token都是預(yù)訓(xùn)練所需的)
本文由廈門大學(xué)、清華大學(xué)、微軟研究者共同完成,論文共同一作為Zhenghao Lin和Zhibin Gou(茍志斌)。
論文核心提出了一種新的名為RHO-1的語(yǔ)言模型預(yù)訓(xùn)練方法,它挑戰(zhàn)了傳統(tǒng)的預(yù)訓(xùn)練方法,即對(duì)所有訓(xùn)練tokens應(yīng)用下一個(gè)token預(yù)測(cè)損失。其主要觀點(diǎn)是,并非所有語(yǔ)料庫(kù)中的tokens對(duì)于語(yǔ)言模型訓(xùn)練都同等重要。
通過(guò)分析不同tokens的訓(xùn)練動(dòng)態(tài),論文發(fā)現(xiàn)不同tokens的損失模式存在差異,并且有些tokens的損失減少是顯著的,而有些則不然。
基于這些發(fā)現(xiàn),論文引入了一種稱為選擇性語(yǔ)言建模(Selective Language Modeling, SLM)的新方法。SLM通過(guò)使用一個(gè)參考模型對(duì)tokens進(jìn)行評(píng)分,然后只對(duì)評(píng)分較高的tokens進(jìn)行訓(xùn)練,從而選擇性地訓(xùn)練有用的tokens。
這種方法在15B OpenWebMath語(yǔ)料庫(kù)上的持續(xù)預(yù)訓(xùn)練中,使得RHO-1在9個(gè)數(shù)學(xué)任務(wù)上的少數(shù)樣本準(zhǔn)確率(few-shot accuracy)實(shí)現(xiàn)了高達(dá)30%的絕對(duì)提升。在MATH數(shù)據(jù)集上,經(jīng)過(guò)微調(diào)后,RHO-1的1B和7B模型分別達(dá)到了40.6%和51.8%的準(zhǔn)確率,僅使用了DeepSeekMath所需預(yù)訓(xùn)練tokens的3%。
此外,在對(duì)80B通用token進(jìn)行持續(xù)預(yù)訓(xùn)練時(shí),RHO-1在15個(gè)不同任務(wù)上實(shí)現(xiàn)了6.8%的平均提升,數(shù)據(jù)效率和語(yǔ)言模型預(yù)訓(xùn)練的性能都得到了提升。
不僅如此,論文還展示了SLM在數(shù)學(xué)和通用領(lǐng)域的有效性,并通過(guò)實(shí)驗(yàn)和分析強(qiáng)調(diào)了在大語(yǔ)言模型預(yù)訓(xùn)練過(guò)程中考慮token級(jí)別的重要性。
2、《Guiding a Diffusion Model with a Bad Version of Itself》
(使用擴(kuò)散模型的一個(gè)糟糕版本引導(dǎo)其自身)
本文由英偉達(dá)和阿爾托大學(xué)共同完成,論文一作為Tero Karras。
論文核心提出了一種名為自引導(dǎo)(autoguidance)的方法,通過(guò)使用主模型自身的一個(gè)較小、較少訓(xùn)練的版本作為引導(dǎo)模型,來(lái)提高圖像生成質(zhì)量。
論文指出,常見(jiàn)的無(wú)分類器引導(dǎo)方法是使用無(wú)條件模型來(lái)引導(dǎo)條件模型,這樣既能實(shí)現(xiàn)更好的提示詞對(duì)齊,也能得到更高質(zhì)量的圖像,但代價(jià)是多變程度下降。而自引導(dǎo)方法通過(guò)引導(dǎo)模型的不完美性,能夠在不減少多樣性的情況下提高圖像質(zhì)量。
實(shí)驗(yàn)表明,這能顯著提升ImageNet生成效果。論文使用公開(kāi)可用的網(wǎng)絡(luò),為64×64分辨率下的生成創(chuàng)造了1.01的FID記錄,為512×512創(chuàng)造了1.25的FID記錄。此外,該方法也適用于無(wú)條件擴(kuò)散模型,可極大提高其質(zhì)量。
最后,感興趣的家人們可以進(jìn)一步查閱原論文~
熱門跟貼