衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
謝賽寧十年前被NeurIPS(當(dāng)時(shí)還叫NIPS)拒收的論文,剛在今年獲得了AISTATS 2025年度時(shí)間檢驗(yàn)獎(jiǎng)。
這篇論文就是《Deeply-Supervised Nets》(DSN,深度監(jiān)督網(wǎng)絡(luò)),2014年9月掛上arXiv。
時(shí)間匆匆,十一年過去,屬于是真·時(shí)間檢驗(yàn)了。

它提出的中間層監(jiān)督思想被謝賽寧后續(xù)作品REPA(Representation Alignment)和U-REPA(U-Net Representation Alignment)等繼承并發(fā)展,展示出從單一模型優(yōu)化到跨模型知識(shí)遷移的演進(jìn)。
而后兩者在深度學(xué)習(xí)、擴(kuò)散模型深化發(fā)展的這兩年間,影響頗深。
“恭喜!”“當(dāng)之無愧!”
AISTATS官宣其獲獎(jiǎng)的推文下面,業(yè)界大佬齊聚,一片祝賀之聲。


當(dāng)初,這篇論文被AISTATS接收。
然而在謝賽寧本人的轉(zhuǎn)發(fā)推文中,我們知道另一重內(nèi)幕——
這篇論文最初投稿給NeurIPS。雖然拿下8/8/7高分,但仍然被該頂會(huì)拒絕了。
他表示:
- 那次挫折一直縈繞在我心頭,困擾著我……

十一年前,拿到8/8/7高分卻被拒
補(bǔ)充下背景信息——
《Deeply-Supervised Nets》是謝賽寧攻讀博士學(xué)位期間提交的第一篇論文。
他是共同一作之一,另一位共同一作是現(xiàn)在的谷歌研究科學(xué)家Chen-Yu Lee。
該項(xiàng)目通訊作者是清華校友、馬爾獎(jiǎng)獲得者,現(xiàn)UCSD的計(jì)算機(jī)科學(xué)與工程系教授屠卓文。他也是謝賽寧和Chen-Yu Lee的博導(dǎo)。

這篇論文提出了DSN(深度監(jiān)督網(wǎng)絡(luò))方法,旨在解決深度學(xué)習(xí)中隱藏層特征學(xué)習(xí)的問題,提升分類性能。
當(dāng)時(shí)的深度學(xué)習(xí)已經(jīng)開始再次發(fā)展,在圖像分類和語音識(shí)別領(lǐng)域卓有成效。
不過,它仍然面臨諸多問題,比如隱藏層特征的透明度和判別力降低、梯度消失或爆炸導(dǎo)致訓(xùn)練困難、對(duì)算法行為缺乏數(shù)學(xué)理解、依賴大量訓(xùn)練數(shù)據(jù)以及訓(xùn)練時(shí)手動(dòng)調(diào)參復(fù)雜等等。
研究團(tuán)隊(duì)基于觀察發(fā)現(xiàn),在高判別力特征上訓(xùn)練的分類器性能更好。
通過在網(wǎng)絡(luò)各隱藏層利用特征質(zhì)量反饋,直接影響權(quán)重更新,能讓網(wǎng)絡(luò)更快學(xué)習(xí)到好的特征,減輕梯度問題,且不影響整體網(wǎng)絡(luò)性能。
于是,團(tuán)隊(duì)提出DSN,通過中間層監(jiān)督機(jī)制解決CNN(傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò))的三大痛點(diǎn):
- 梯度消失
- 在隱藏層添加輔助分類器(”companion” objective),通過逐層反向傳播增強(qiáng)梯度信號(hào)。
- 特征魯棒性
- 強(qiáng)制中間層直接參與最終分類任務(wù),使淺層特征更具判別性(如在AlexNet中,第3層特征分類準(zhǔn)確率提升18%)
- 訓(xùn)練效率
- 實(shí)驗(yàn)證明在CIFAR-10數(shù)據(jù)集上,DSN使ResNet-50的訓(xùn)練收斂速度加快30%,Top-1準(zhǔn)確率提升2.1%。

時(shí)至今日,該成果已成為計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典方法,成為首個(gè)在生成式AI領(lǐng)域產(chǎn)生跨代影響的監(jiān)督學(xué)習(xí)框架。
截至本文推送,這篇論文的谷歌學(xué)術(shù)被引量超過3000次。

那,為什么當(dāng)時(shí)的NeurIPS沒有接收這篇論文呢?
或許是評(píng)審認(rèn)為該工作是對(duì)傳統(tǒng)CNN的增量改進(jìn)而非顛覆性創(chuàng)新,而當(dāng)時(shí)的NeurIPS更關(guān)注理論突破或新型架構(gòu)。
總之,雖然評(píng)審給這篇論文打出了8/8/7的高分,但還是被無情拒收了。
堅(jiān)持不懈的表現(xiàn)不僅僅是“再試一次”
現(xiàn)在,當(dāng)初接收DSN的AISTATS,又給予了這個(gè)項(xiàng)目時(shí)間檢驗(yàn)獎(jiǎng)以嘉獎(jiǎng)。
眾所周知,計(jì)算機(jī)會(huì)議的時(shí)間檢驗(yàn)獎(jiǎng)通常要求論文在獲獎(jiǎng)的10年前發(fā)表,高被引是核心門檻。
而更為重要的是,時(shí)間檢驗(yàn)獎(jiǎng)獲獎(jiǎng)項(xiàng)目需被同行評(píng)價(jià)為開創(chuàng)性工作(seminal work),或理論創(chuàng)新,或有應(yīng)用價(jià)值,成為后續(xù)研究的基礎(chǔ)范式。
就像GAN啟發(fā)了生成式模型,Seq2Seq推動(dòng)機(jī)器翻譯的發(fā)展。
至此,謝賽寧在相關(guān)推文中寫下,“也許現(xiàn)在我可以終于釋懷
?!?/p>
(愿他真的從此釋懷~)

當(dāng)然,謝賽寧還毫不吝嗇地分享了更多感慨與經(jīng)驗(yàn)總結(jié)。
“我不會(huì)把學(xué)術(shù)會(huì)議比做大樂透,但堅(jiān)持不懈確實(shí)能給學(xué)術(shù)生涯帶來很大的幫助?!敝x賽寫對(duì)著所有學(xué)子們喊話,“同學(xué)們:如果你們在看到最近的論文評(píng)審結(jié)果后感到灰心喪氣,又正為下一篇文章做準(zhǔn)備的話,我希望這(DSN獲時(shí)間檢驗(yàn)獎(jiǎng))能給你們一點(diǎn)小小的提醒,繼續(xù)前行吧?!?/p>
后來他又對(duì)自己的感悟進(jìn)行了補(bǔ)充說明——
堅(jiān)持不懈并不僅僅是說“繼續(xù)努力”或者“再試一次”,它需要一個(gè)強(qiáng)大的支持系統(tǒng)和具體的實(shí)踐指導(dǎo)。
當(dāng)我進(jìn)入U(xiǎn)CSD時(shí),我對(duì)研究一無所知。我的導(dǎo)師屠卓文耐心地指導(dǎo)我們,從編程和數(shù)學(xué)證明相關(guān)的基礎(chǔ)知識(shí),到提出自己的研究想法,再到在臺(tái)上自如地演講。
等我自己成為教授后,才體會(huì)到這種程度的指導(dǎo)是多么稀有和寶貴。
同時(shí),我也有像Chen-Yu Lee這樣的合作者——我們發(fā)現(xiàn)挫折,克服挑戰(zhàn),一起前進(jìn)。
“你永遠(yuǎn)不應(yīng)該獨(dú)自前行。”謝賽寧在最后寫道。
DSN的共一Chen-Yu Lee也很激動(dòng)地在上發(fā)聲。
我們感到非常自豪!
這篇論文最早(在頂會(huì)上)發(fā)表于2015年??吹竭@項(xiàng)工作的持續(xù)相關(guān)性和影響力,真是令人難以置信。

One More Thing
Anyway,對(duì)大多數(shù)相關(guān)從業(yè)者來說,論文被頂會(huì)接收是一種認(rèn)可,一種榮譽(yù)。
但被頂會(huì)拒收,并不意味著對(duì)這個(gè)項(xiàng)目的全盤否定。
不知道大家還記不記得大明湖畔被ICLR 2013拒稿的Word2vec(后轉(zhuǎn)投NeurIPS并獲接收,2023年獲時(shí)間檢驗(yàn)獎(jiǎng)),以及被ICLR 2024拒稿的Mamba?

謝賽寧的推文評(píng)論區(qū),也挖掘出了更多的類似故事。
浙大校友、哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系副教授俞舟(zhou Yu)就留言說,她的團(tuán)隊(duì)在2019年獲ACL最佳論文提名的項(xiàng)目也在首投時(shí)被拒稿。
如果一篇好論文被拒絕,它就具有「成為最好的論文」和「被時(shí)間檢驗(yàn)」的潛力,因?yàn)樗鼤?huì)再次改進(jìn)。:)
聽了賽寧的分享,她表示,現(xiàn)在有另一個(gè)很好的例子可以用來鼓勵(lì)低年級(jí)的同學(xué)們了~
參考鏈接:
[1]https://x.com/sainingxie/status/1919423231687000493
[2]https://x.com/sainingxie/status/1919022082391671195
[3]https://arxiv.org/abs/1409.5185
[4]https://scholar.google.com/citations?user=Y2GtJkAAAAAJ&hl=en
熱門跟貼