機器之心報道
編輯:張倩、+0
Noprop:沒有反向傳播或前向傳播,也能訓練神經(jīng)網(wǎng)絡。
「我們應該拋棄反向傳播并重新開始。」早在幾年前,使反向傳播成為深度學習核心技術之一的 Geoffrey Hinton 就發(fā)表過這樣一個觀點。

而一直對反向傳播持懷疑態(tài)度的也是 Hinton。因為這種方法既不符合生物學機理,與大規(guī)模模型的并行性也不兼容。所以,Hinton 等人一直在尋找替代反向傳播的新方法,比如 2022 年的前向 - 前向算法。但由于性能、可泛化性等方面仍然存在問題,這一方向的探索一直沒有太大起色。
最近,來自牛津大學和 Mila 實驗室的研究者向這一問題發(fā)起了挑戰(zhàn)。他們開發(fā)了一種名為 NoProp 的新型學習方法,該方法既不依賴前向傳播也不依賴反向傳播。相反,NoProp 從擴散和流匹配(flow matching)方法中汲取靈感,每一層獨立地學習對噪聲目標進行去噪。

- 論文標題:NOPROP: TRAINING NEURAL NETWORKS WITHOUT BACK-PROPAGATION OR FORWARD-PROPAGATION
- 論文鏈接:https://arxiv.org/pdf/2503.24322v1
研究人員認為這項工作邁出了引入一種新型無梯度學習方法的第一步。這種方法不學習分層表示 —— 至少不是通常意義上的分層表示。NoProp 需要預先將每一層的表示固定為目標的帶噪聲版本,學習一個局部去噪過程,然后可以在推理時利用這一過程。
他們在 MNIST、CIFAR-10 和 CIFAR-100 圖像分類基準測試上展示了該方法的有效性。研究結果表明,NoProp 是一種可行的學習算法,與其他現(xiàn)有的無反向傳播方法相比,它實現(xiàn)了更高的準確率,更易于使用且計算效率更高。通過擺脫傳統(tǒng)的基于梯度的學習范式,NoProp 改變了網(wǎng)絡內部的貢獻分配(credit assignment)方式,實現(xiàn)了更高效的分布式學習,并可能影響學習過程的其他特性。
在看了論文之后,有人表示,「NoProp 用獨立的、無梯度的、基于去噪的層訓練取代了傳統(tǒng)的反向傳播,以實現(xiàn)高效且非層次化的貢獻分配。這是一項具有開創(chuàng)性意義的工作,可能會對分布式學習系統(tǒng)產(chǎn)生重大影響,因為它從根本上改變了貢獻分配機制。
其數(shù)學公式中涉及每層特定的噪聲模型和優(yōu)化目標,這使得無需梯度鏈即可進行獨立學習。其優(yōu)勢在于通過讓每一層獨立地對一個固定的噪聲目標進行去噪,從而繞過了反向傳播中基于順序梯度的貢獻分配方式。這種方式能夠實現(xiàn)更高效、可并行化的更新,避免了梯度消失等問題,盡管它并未構建傳統(tǒng)的層次化表示?!?/p>
還有人表示,「我在查看擴散模型架構時也產(chǎn)生過這樣的想法…… 然而,我認為這可能是一種非最優(yōu)的方法,所以它現(xiàn)在表現(xiàn)得如此出色讓我感到很神秘。顯而易見的是其并行化優(yōu)勢。」


為什么要尋找反向傳播的替代方案?
反向傳播雖是訓練神經(jīng)網(wǎng)絡的主流方法,但研究人員一直在尋找替代方案,原因有三:
- 生物學合理性不足:反向傳播需要前向傳遞和后向傳遞嚴格交替,與生物神經(jīng)系統(tǒng)運作方式不符。
- 內存消耗大:必須存儲中間激活值以計算梯度,造成顯著內存開銷。
- 并行計算受限:梯度的順序傳播限制了并行處理能力,影響大規(guī)模分布式學習,并導致學習過程中的干擾和災難性遺忘問題。
目前為止,反向傳播的替代優(yōu)化方法包括:
- 無梯度方法:如直接搜索方法和基于模型的方法
- 零階梯度方法:使用有限差分近似梯度
- 進化策略
- 基于局部損失的方法:如差異目標傳播(difference target propagation)和前向 - 前向算法
但這些方法因在準確性、計算效率、可靠性和可擴展性方面的限制,尚未在神經(jīng)網(wǎng)絡學習中廣泛應用。


實現(xiàn)細節(jié)
NoProp 架構如圖 1 所示。



實驗結果
作者對 NoProp 方法進行了評估,分別在離散時間設置下與反向傳播方法進行比較,在連續(xù)時間設置下與伴隨敏感性方法(adjoint sensitivity method)進行比較,場景是圖像分類任務。
結果如表 1 所示,表明 NoProp-DT 在離散時間設置下在 MNIST、CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上的性能與反向傳播方法相當,甚至更好。此外,NoProp-DT 在性能上優(yōu)于以往的無反向傳播方法,包括 Forward-Forward 算法、Difference Target 傳播以及一種稱為 Local Greedy Forward Gradient Activity-Perturbed 的前向梯度方法。雖然這些方法使用了不同的架構,并且不像 NoProp 那樣顯式地對圖像輸入進行條件約束 —— 這使得直接比較變得困難 —— 但 NoProp 具有不依賴前向傳播的獨特優(yōu)勢。

此外,如表 2 所示,NoProp 在訓練過程中減少了 GPU 內存消耗。

為了說明學習到的類別嵌入,圖 2 可視化了 CIFAR-10 數(shù)據(jù)集中類別嵌入的初始化和最終學習結果,其中嵌入維度與圖像維度匹配。

在連續(xù)時間設置下,NoProp-CT 和 NoProp-FM 的準確率低于 NoProp-DT,這可能是由于它們對時間變量 t 的額外條件約束。然而,它們在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上通常優(yōu)于伴隨敏感性方法,無論是在準確率還是計算效率方面。雖然伴隨方法在 MNIST 數(shù)據(jù)集上達到了與 NoProp-CT 和 NoProp-FM 相似的準確率,但其訓練速度明顯較慢,如圖 3 所示。

對于 CIFAR-100 數(shù)據(jù)集,當使用 one-hot 編碼時,NoProp-FM 無法有效學習,導致準確率提升非常緩慢。相比之下,NoProp-CT 仍然優(yōu)于伴隨方法。然而,一旦類別嵌入與模型聯(lián)合學習,NoProp-FM 的性能顯著提高。



更多詳細內容請參見原論文。
熱門跟貼