深度學(xué)習(xí)的成功已經(jīng)無需多言。一直以來,研究者們都嘗試從數(shù)學(xué)角度去解釋神經(jīng)網(wǎng)絡(luò)的有效性。然而,由于網(wǎng)絡(luò)的結(jié)構(gòu)可以看作是高維線性變換和逐元素的非線性變換(如 ReLU 激活函數(shù))之間的多重復(fù)合,因此實(shí)際上并沒有很好的數(shù)學(xué)工具去破解這樣復(fù)雜的結(jié)構(gòu)。

所以,對(duì)于神經(jīng)網(wǎng)絡(luò)的理論研究往往局限在諸如網(wǎng)絡(luò)的逼近、優(yōu)化、泛化以及其他觀測(cè)到的現(xiàn)象等方面。

如果拋開理論的限制,一個(gè)無可爭(zhēng)議的事實(shí)是:更寬、更深的網(wǎng)絡(luò)總是有著更好的效果。小到幾層的全連接網(wǎng)絡(luò)、大到萬億規(guī)模的大模型,都一致性地保持著這樣的規(guī)律。

那么,如何從理論上理解這樣的事實(shí)?激活函數(shù)又在其中扮演什么樣的角色?

相比于寬度,對(duì)深度的研究更加具有挑戰(zhàn)性,因?yàn)閷訑?shù)的增加還伴隨著非線性函數(shù)的不斷復(fù)合。

一個(gè)典型的問題是,當(dāng)模型寬度固定的時(shí)候,增加模型的深度是否比淺層的模型擬合更多的數(shù)據(jù)點(diǎn)?

中國(guó)科學(xué)院應(yīng)用數(shù)學(xué)所博士畢業(yè)生蓋闊在讀博期間完成一個(gè)生成網(wǎng)絡(luò)算法設(shè)計(jì)的工作和一個(gè)現(xiàn)象驅(qū)動(dòng)的可解釋性工作之后,希望探索關(guān)于人工智能的為題。

圖 | 蓋闊(來源:蓋闊)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 蓋闊(來源:蓋闊)

因?yàn)樽约菏菙?shù)學(xué)背景出身,所以就想做一些理論的結(jié)果。但在當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)理論研究的框架已經(jīng)很清晰,研究剩下的空白難題則都非常有難度。

“以至于我讀了很久的已有文獻(xiàn),也沒能找到原創(chuàng)性的切入點(diǎn)?!彼f。

經(jīng)歷一系列不成功的嘗試之后,蓋闊又回到了最初的一個(gè)直覺的想法:因?yàn)榫W(wǎng)絡(luò)的寬度更容易分析,比如對(duì)于一個(gè)簡(jiǎn)單的線性方程

來說,當(dāng)增加 W 的尺寸之后,能求解的關(guān)于 X 和 Y 之間的方程個(gè)數(shù)也會(huì)線性增加。

如能把深度等效為寬度,將兩層網(wǎng)絡(luò)等效為一個(gè)單層的大矩陣,那么就可以通過消元法去找到這個(gè)大矩陣方程的解,也就對(duì)應(yīng)著兩層神經(jīng)網(wǎng)絡(luò)的解,這也說明增加網(wǎng)絡(luò)深度就像增加寬度一樣有效。

但是,對(duì)于逐元素非線性激活函數(shù)與矩陣乘法之間的復(fù)合幾乎沒有什么工具來幫助計(jì)算,也不具備很好的優(yōu)化性質(zhì)。

例如,對(duì)于方程

假設(shè)

都是已知的,如果

是 ReLU 或者 Sigmoid 函數(shù),那么求解這個(gè)方程是很困難的。

因?yàn)椴皇峭箚栴},所以即便使用優(yōu)化后的方法也無法保證一定會(huì)求到解答。但是,求解這樣一個(gè)方程卻是他在課題構(gòu)想中的重要一步。

雖然沒能進(jìn)一步推進(jìn),不過問題的具體形式已經(jīng)相對(duì)清晰了。蓋闊表示如果將激活函數(shù)的范圍拓寬,這樣的方程就可以找到解(例如把激活函數(shù)換成矩陣指數(shù))。

這樣做的好處是,當(dāng)兩個(gè)矩陣是可交換的時(shí)候,經(jīng)過矩陣指數(shù)函數(shù)激活之后,所得到的矩陣也是可交換的。

為了使特定矩陣具有可交換的性質(zhì),就需要額外增加一層網(wǎng)絡(luò)參數(shù)。有了可交換的性質(zhì),就很容易求解上述方程,那么就可以在等效的大矩陣?yán)镒鱿?,找到三層函?shù)的一組解。

就這樣,他就在這種特殊的激活函數(shù)下實(shí)現(xiàn)了最初的設(shè)想。

具體來說,蓋闊和博士導(dǎo)師張世華研究員討論之后認(rèn)為:如能找到一個(gè)簡(jiǎn)單直接的例子,能夠說明在有激活函數(shù)的情況下,網(wǎng)絡(luò)加深一層后能夠擬合更多的數(shù)據(jù)點(diǎn),那么這樣的結(jié)果可能更有意義。

為此他們將網(wǎng)絡(luò)參數(shù)擴(kuò)展到復(fù)數(shù)域,并且將逐元素的激活函數(shù)替換為矩陣指數(shù)激活函數(shù),從而可以對(duì)三層的神經(jīng)網(wǎng)絡(luò):

找到一組解析解使得:

其中,所有的矩陣均為 d 維的方陣,這就說明了網(wǎng)絡(luò)深度的有效性,因?yàn)榧偃缰挥幸粚泳W(wǎng)絡(luò)的話就只能滿足一組

總的來說,他們?cè)诶碚撋险业搅艘粋€(gè)解釋性較好的例子,可以幫助人們更好地理解神經(jīng)網(wǎng)絡(luò)深度以及非線性激活函數(shù)的有效性。

實(shí)驗(yàn)中他們觀察到,雖然本次理論結(jié)果是針對(duì)矩陣指數(shù)激活函數(shù)而言的,但對(duì)于逐元素的 ReLU 或者 Sigmoid 激活函數(shù),也能在網(wǎng)絡(luò)較寬時(shí)觀察到類似的優(yōu)化結(jié)果,即兩層網(wǎng)絡(luò)擬合數(shù)據(jù)點(diǎn)的能力大概是單層的二倍。而這可能會(huì)啟發(fā)其他研究者發(fā)現(xiàn)更加一般性的結(jié)論。

日前,相關(guān)論文以《矩陣指數(shù)激活函數(shù)的三層網(wǎng)絡(luò)的解析解》(ANALYTICAL SOLUTION OF A THREE-LAYER NETWORK WITH A MATRIX EXPONENTIAL ACTIVATION FUNCTION)為題發(fā)在arXiv[1]。

圖 | 相關(guān)論文(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 相關(guān)論文(來源:arXiv)

蓋闊表示:“非常感謝張世華老師的支持與鼓勵(lì)。當(dāng)課題遲遲沒有進(jìn)展的時(shí)候,張老師沒有就論文發(fā)表施加壓力,也沒有催促更換課題?!?/p>

“幸運(yùn)的是,本來已經(jīng)計(jì)劃和張老師討論放棄這個(gè)課題了,但在討論前一天又突然有了靈感,最終找到了解決的路徑。如果張老師沒有這樣多的耐心,可能我也最后等不來靈感出現(xiàn)?!彼詈蟊硎?。

參考資料:

1.https://arxiv.org/pdf/2407.02540

排版:溪樹