
機(jī)器之心報(bào)道
編輯:陳陳、杜偉
5 月 3 日至 5 日,第 28 屆國際人工智能與統(tǒng)計(jì)學(xué)會(huì)議(AISTATS)在泰國舉辦。

作為人工智能、機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)交叉領(lǐng)域的重要國際會(huì)議,自 1985 年創(chuàng)辦以來,AISTATS 致力于促進(jìn)計(jì)算機(jī)科學(xué)、人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)等領(lǐng)域研究者之間的交流與合作。
昨日,會(huì)議主辦方公布了本年度時(shí)間檢驗(yàn)獎(jiǎng),授予 UCSD 與微軟研究院合著的論文《Deeply-Supervised Nets》(深度監(jiān)督網(wǎng)絡(luò)),共同一作分別為 Chen-Yu Lee(現(xiàn)為谷歌研究科學(xué)家)和 AI 圈所熟知的謝賽寧(現(xiàn)為紐約大學(xué)助理教授)。論文通訊作者為 UCSD 屠卓文教授,他也是謝賽寧和 Chen-Yu Lee 的博士導(dǎo)師。該論文被當(dāng)年的 AISTATS 接收。

根據(jù) Google Scholar 數(shù)據(jù)顯示,該論文被引數(shù)已經(jīng)超過了 3000,足可見其含金量。

在得知自己 10 年前的論文獲得 AISTATS 2025 時(shí)間檢驗(yàn)獎(jiǎng)之后,謝賽寧分享了更多背后的故事。
他表示,《Deeply-Supervised Nets》是讀博期間提交的第一篇論文,并且有趣的是,這篇論文最初被 NeurIPS 拒稿了(分?jǐn)?shù)為 8/8/7)。那種痛苦一直縈繞在他心頭,也許現(xiàn)在終于可以放下了。他還說到,不會(huì)將投頂會(huì)比作「抽獎(jiǎng)」,但堅(jiān)持不懈確實(shí)能帶來很大的幫助。
最后,謝賽寧寄語同學(xué)們:如果你們?cè)谧罱恼撐脑u(píng)審結(jié)果出來之后感到沮喪,并正在為下一篇論文做準(zhǔn)備,則可以將他的經(jīng)歷當(dāng)作一點(diǎn)小小的提醒,繼續(xù)前進(jìn)(就會(huì)有收獲)。

同樣地,另外一位共同一作 Chen-Yu Lee 也發(fā)文對(duì) 10 年前的論文獲得 AISTATS 2025 時(shí)間檢驗(yàn)獎(jiǎng)感到自豪,并表示這項(xiàng)研究成果至今仍具有重要意義和影響力。

評(píng)論區(qū)的網(wǎng)友紛紛發(fā)來對(duì)謝賽寧論文獲獎(jiǎng)的祝賀。

接下來,我們看看這篇來自 10 年前的論文主要講了什么內(nèi)容。
論文講了什么?

- 論文標(biāo)題: Deeply-Supervised Nets
- 論文地址:https://arxiv.org/pdf/1409.5185
論文摘要:近年來,神經(jīng)網(wǎng)絡(luò)(尤其是深度學(xué)習(xí))的復(fù)興備受關(guān)注。深度學(xué)習(xí)可采用無監(jiān)督、有監(jiān)督或混合形式,在圖像分類和語音識(shí)別等任務(wù)中,當(dāng)訓(xùn)練數(shù)據(jù)量充足時(shí),其性能提升尤為顯著。
一方面,分層遞歸網(wǎng)絡(luò)已展現(xiàn)出自動(dòng)學(xué)習(xí)數(shù)千乃至數(shù)百萬特征的巨大潛力;另一方面,深度學(xué)習(xí)仍存在諸多懸而未決的基礎(chǔ)性問題,也引發(fā)了學(xué)界對(duì)其局限性的擔(dān)憂。
論文中表示,在當(dāng)時(shí)深度學(xué)習(xí)框架存在的問題包括:隱藏層學(xué)習(xí)到的特征的透明度和辨別力降低;梯度爆炸和消失導(dǎo)致訓(xùn)練困難;盡管在理論方面做了一些嘗試,但對(duì)算法行為缺乏透徹的數(shù)學(xué)理解等。
盡管如此,深度學(xué)習(xí)能夠在集成框架中自動(dòng)學(xué)習(xí)和融合豐富的層次特征。這得益于研究人員開發(fā)出了各種用于微調(diào)特征尺度、步長(zhǎng)和收斂速度的方法,還提出了多種技術(shù)從不同角度提升深度學(xué)習(xí)的性能,例如 dropout 、dropconnect 、預(yù)訓(xùn)練和數(shù)據(jù)增強(qiáng)等。
此外,梯度消失的存在也使得深度學(xué)習(xí)訓(xùn)練緩慢且低效 。
本文提出了深度監(jiān)督網(wǎng)絡(luò) (deeply-supervised nets,DSN) 來解決深度學(xué)習(xí)中的特征學(xué)習(xí)問題,該算法對(duì)隱藏層和輸出層都強(qiáng)制進(jìn)行直接和早期監(jiān)督。并且還為各個(gè)隱藏層引入了伴隨目標(biāo)(companion objective),將其用作學(xué)習(xí)過程的附加約束(或新的正則化)。從而顯著提高了現(xiàn)有監(jiān)督深度學(xué)習(xí)方法的性能。
此外,該研究還嘗試使用隨機(jī)梯度技術(shù)為本文方法提供依據(jù)。證明了所提方法的收斂速度優(yōu)于標(biāo)準(zhǔn)方法,得出這一結(jié)論的前提是假設(shè)優(yōu)化函數(shù)具有局部強(qiáng)凸性(這是一個(gè)非常寬松的假設(shè),但指向一個(gè)有希望的方向)。
這篇論文還提到,文獻(xiàn) [1] 采用分層監(jiān)督預(yù)訓(xùn)練策略,而本文提出的方法無需預(yù)訓(xùn)練。文獻(xiàn) [26] 將標(biāo)簽信息用于無監(jiān)督學(xué)習(xí),文獻(xiàn) [30] 則探索了深度學(xué)習(xí)的半監(jiān)督范式。文獻(xiàn) [28] 使用 SVM 分類器替代 CNN 傳統(tǒng)的 softmax 輸出層。本文提出的 DSN 框架創(chuàng)新性地支持 SVM、softmax 等多種分類器選擇,其獨(dú)特價(jià)值在于實(shí)現(xiàn)對(duì)每個(gè)中間層的直接監(jiān)督控制。
實(shí)驗(yàn)結(jié)果表明:無論在 DSN-SVM 與 CNN-SVM 之間,還是 DSN-Softmax 與 CNN-Softmax 之間,本文方法均取得一致性性能提升,并在 MNIST、CIFAR-10、CIFAR-100 及 SVHN 數(shù)據(jù)集上刷新當(dāng)前最優(yōu)紀(jì)錄。
圖 2 (a) 和 (b) 展示了四種方法的結(jié)果,DSN-Softmax 和 DSN-SVM 優(yōu)于它們的競(jìng)爭(zhēng) CNN 算法。圖 2 (b) 顯示了針對(duì)不同大小的訓(xùn)練樣本進(jìn)行訓(xùn)練時(shí)不同方法的分類誤差(在 500 個(gè)樣本時(shí),DSN-SVM 比 CNN-Softmax 提高了 26%)。圖 2 (c) 顯示了 CNN 和 DSN 之間的泛化誤差比較。


表 2 顯示,在 CIFAR-10 和 CIFAR-100 上的性能提升,再次證明了 DSN 方法的優(yōu)勢(shì)。

為了比較 DSN 與 CNN 分別學(xué)習(xí)到什么特征,本文從 CIFAR-10 數(shù)據(jù)集的十個(gè)類別中各選取一個(gè)示例圖像,運(yùn)行一次前向傳播,并在圖 (3) 中展示從第一個(gè)(底部)卷積層學(xué)習(xí)到的特征圖。每個(gè)特征圖僅顯示前 30% 的激活值。DSN 學(xué)習(xí)到的特征圖比 CNN 學(xué)習(xí)到的特征圖更直觀。

需要特別說明的是,本框架可兼容近期提出的多種先進(jìn)技術(shù),如模型平均、dropconnect 和 Maxout 等。論文表示通過對(duì) DSN 的精細(xì)化工程優(yōu)化,可進(jìn)一步降低分類誤差。
了解更多內(nèi)容,請(qǐng)查看原論文
熱門跟貼