久久av喷吹av高潮av萌白,色婷婷激情网站,51porm国内自拍视频是什么,久久超碰少妇人妻,97视频在线在线播放

就在剛剛，NeurIPS 2024最佳論文出爐！

4篇獲獎(jiǎng)論文中，有3篇為華人一作，分別來(lái)自北大、新國(guó)立、廈大清華等。

據(jù)了解，NeurIPS 2024將于12月10日（星期二）至12月15日（星期日）在溫哥華舉辦。

和去年相比，今年能夠獲獎(jiǎng)的難度再次升級(jí)——

本屆共收到15671篇有效論文投稿，比去年又增長(zhǎng)了27%，但最后接收率僅有25.8%（去年為26.1%），大概4043篇左右。

接下來(lái)，快來(lái)康康獲獎(jiǎng)?wù)撐挠心男┌伞?/p>

兩篇最佳論文（Best Paper）

1、《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
（視覺(jué)自回歸建模：通過(guò)Next-Scale預(yù)測(cè)生成可擴(kuò)展圖像）

本文由北京大學(xué)、字節(jié)跳動(dòng)研究者共同完成。

論文核心提出了一種新的圖像生成框架Visual Autoregressive modeling (VAR)，首次使基于GPT風(fēng)格的自回歸模型在圖像生成任務(wù)中超越了擴(kuò)散模型，并驗(yàn)證了VAR模型的可擴(kuò)展性和零樣本泛化能力。

具體而言，論文引入了一種多尺度的自回歸策略。與傳統(tǒng)的按像素或token順序生成圖像的方法不同，VAR模型通過(guò)從低到高分辨的多尺度token圖進(jìn)行自回歸生成，每一尺度的token圖都依賴于前一尺度的結(jié)果。

這種方法的一個(gè)關(guān)鍵優(yōu)勢(shì)是，它能夠顯著減少生成高分辨率圖像時(shí)所需的自回歸步驟，從而降低了計(jì)算復(fù)雜度，提高了生成速度。

最終，VAR模型在ImageNet數(shù)據(jù)集上的驗(yàn)證表明，它能顯著超越現(xiàn)有的自回歸模型和一些擴(kuò)散模型，并且還表現(xiàn)出了視覺(jué)生成領(lǐng)域的Scaling Laws。

2、《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》
（隨機(jī)泰勒導(dǎo)數(shù)估計(jì)器：任意微分算子的有效攤銷）

本文由新加坡國(guó)立大學(xué)、 Sea AI Lab研究者共同完成，論文一作為Zekun Shi。

論文核心介紹了一種名為Stochastic Taylor Derivative Estimator (STDE)的高效算法，用于優(yōu)化包含高維和高階微分算子的神經(jīng)網(wǎng)絡(luò)損失函數(shù)，特別是在物理信息神經(jīng)網(wǎng)絡(luò)（PINNs）中。

具體而言，研究展示了如何通過(guò)正確構(gòu)造單變量高階AD輸入切線（input tangent），有效地對(duì)多元函數(shù)的任意階導(dǎo)數(shù)張量進(jìn)行任意收縮，這可用于有效地隨機(jī)化任何微分算子。

當(dāng)應(yīng)用于PINNs時(shí)，與使用一階AD進(jìn)行隨機(jī)化相比，本文方法提供了1000倍以上的速度提升和30倍以上的內(nèi)存減少，而且現(xiàn)在可以在單個(gè)NVIDIA A100 GPU上，8分鐘內(nèi)解決100萬(wàn)維的偏微分方程（PDEs）。

總之，這項(xiàng)工作開(kāi)啟了在大規(guī)模問(wèn)題中使用高階微分算子的可能性。

兩篇Best Paper Runner-up

（Best Paper Runner-up通常授予在某個(gè)領(lǐng)域表現(xiàn)杰出但未能獲得最佳論文的研究工作，大眾通常認(rèn)為其水平代表亞軍）

1、《Not All Tokens Are What You Need for Pretraining》
（并非所有token都是預(yù)訓(xùn)練所需的）

本文由廈門大學(xué)、清華大學(xué)、微軟研究者共同完成，論文共同一作為Zhenghao Lin和Zhibin Gou（茍志斌）。

論文核心提出了一種新的名為RHO-1的語(yǔ)言模型預(yù)訓(xùn)練方法，它挑戰(zhàn)了傳統(tǒng)的預(yù)訓(xùn)練方法，即對(duì)所有訓(xùn)練tokens應(yīng)用下一個(gè)token預(yù)測(cè)損失。其主要觀點(diǎn)是，并非所有語(yǔ)料庫(kù)中的tokens對(duì)于語(yǔ)言模型訓(xùn)練都同等重要。

通過(guò)分析不同tokens的訓(xùn)練動(dòng)態(tài)，論文發(fā)現(xiàn)不同tokens的損失模式存在差異，并且有些tokens的損失減少是顯著的，而有些則不然。

基于這些發(fā)現(xiàn)，論文引入了一種稱為選擇性語(yǔ)言建模（Selective Language Modeling, SLM）的新方法。SLM通過(guò)使用一個(gè)參考模型對(duì)tokens進(jìn)行評(píng)分，然后只對(duì)評(píng)分較高的tokens進(jìn)行訓(xùn)練，從而選擇性地訓(xùn)練有用的tokens。

這種方法在15B OpenWebMath語(yǔ)料庫(kù)上的持續(xù)預(yù)訓(xùn)練中，使得RHO-1在9個(gè)數(shù)學(xué)任務(wù)上的少數(shù)樣本準(zhǔn)確率（few-shot accuracy）實(shí)現(xiàn)了高達(dá)30%的絕對(duì)提升。在MATH數(shù)據(jù)集上，經(jīng)過(guò)微調(diào)后，RHO-1的1B和7B模型分別達(dá)到了40.6%和51.8%的準(zhǔn)確率，僅使用了DeepSeekMath所需預(yù)訓(xùn)練tokens的3%。

此外，在對(duì)80B通用token進(jìn)行持續(xù)預(yù)訓(xùn)練時(shí)，RHO-1在15個(gè)不同任務(wù)上實(shí)現(xiàn)了6.8%的平均提升，數(shù)據(jù)效率和語(yǔ)言模型預(yù)訓(xùn)練的性能都得到了提升。

不僅如此，論文還展示了SLM在數(shù)學(xué)和通用領(lǐng)域的有效性，并通過(guò)實(shí)驗(yàn)和分析強(qiáng)調(diào)了在大語(yǔ)言模型預(yù)訓(xùn)練過(guò)程中考慮token級(jí)別的重要性。

2、《Guiding a Diffusion Model with a Bad Version of Itself》
（使用擴(kuò)散模型的一個(gè)糟糕版本引導(dǎo)其自身）

本文由英偉達(dá)和阿爾托大學(xué)共同完成，論文一作為Tero Karras。

論文核心提出了一種名為自引導(dǎo)（autoguidance）的方法，通過(guò)使用主模型自身的一個(gè)較小、較少訓(xùn)練的版本作為引導(dǎo)模型，來(lái)提高圖像生成質(zhì)量。

論文指出，常見(jiàn)的無(wú)分類器引導(dǎo)方法是使用無(wú)條件模型來(lái)引導(dǎo)條件模型，這樣既能實(shí)現(xiàn)更好的提示詞對(duì)齊，也能得到更高質(zhì)量的圖像，但代價(jià)是多變程度下降。而自引導(dǎo)方法通過(guò)引導(dǎo)模型的不完美性，能夠在不減少多樣性的情況下提高圖像質(zhì)量。

實(shí)驗(yàn)表明，這能顯著提升ImageNet生成效果。論文使用公開(kāi)可用的網(wǎng)絡(luò)，為64×64分辨率下的生成創(chuàng)造了1.01的FID記錄，為512×512創(chuàng)造了1.25的FID記錄。此外，該方法也適用于無(wú)條件擴(kuò)散模型，可極大提高其質(zhì)量。