文 | 追問nextquestion
當(dāng)百億千億參數(shù)的大模型霸占著科技頭條,“若無必要,勿增實體”這把古老“剃刀”是否依舊閃耀?
在這個追求極致性能的時代,“更大即更好”似乎已成為不言自明的公理。然而,從拉瓦錫到愛因斯坦,從牛頓第一定律到量子力學(xué),科學(xué)史上最優(yōu)雅的理論往往以其簡約之美征服世人。這場復(fù)雜與簡約的“較量”,仍以意想不到的方式豐富著我們的認(rèn)知世界。
復(fù)雜性與簡潔性真的是對立的嗎?本文將回溯歷史長河,探尋一個古老哲學(xué)原則與現(xiàn)代科技之間的微妙關(guān)聯(lián)。在這個過程中,我們或許能夠發(fā)現(xiàn),復(fù)雜與簡潔之間隱藏著怎樣的辯證關(guān)系。
01 奧卡姆剃刀的歷史源頭
人類對簡潔的追求是跨文明的。東方的《道德經(jīng)》以“為學(xué)日益,為道日損”揭示認(rèn)知的辯證法則,亞里士多德在《物理學(xué)》中通過“自然界選擇最短路徑”(最小作用量原理)勾勒自然規(guī)律。牛頓在其《自然哲學(xué)原理》第三卷中曾寫到,“解釋自然界的一切,應(yīng)該追求使用最少的原理。如果很少的理由就能解釋自然,那么再列舉更多的理由就是多余的了。”
而對“簡潔原則”的最簡潔表述,莫過于13世紀(jì)出生于奧卡姆的方濟(jì)會修士威廉(又名“奧卡姆”)提出的:
“若無必要,勿增實體”(Entities should not be multiplied unnecessarily)。
要理解這句話,首先要了解這句話的背景,這就需要重返中世紀(jì)經(jīng)院哲學(xué)的論戰(zhàn)現(xiàn)場。
圣經(jīng)故事中,亞當(dāng)作為第一個男人,憑借上帝賜予他的“完美語言”,得以給伊甸園中的每種生物命名。這種完美的語言體系將“最恰當(dāng)”或“最完美”的詞語與其本質(zhì)聯(lián)系起來,以此揭示萬物終極真理。可隨著亞當(dāng)被趕出伊甸園,完美語言也消失了。為此,哲學(xué)家/神學(xué)家寄希望于深入探究以復(fù)原完美的亞當(dāng)語(Adamic language)[1]。
但后來,哲學(xué)家們對“共相”、“本質(zhì)”等抽象概念的爭論愈演愈烈,奧卡姆率先意識到這場思辨已陷入虛無,他拒絕談?wù)撃切┛床坏矫恢摹皷|西”,只承認(rèn)確實能夠用感官觀察到的存在,那些所謂的普遍性要領(lǐng)都是無用的累贅,應(yīng)當(dāng)被無情地“剃除”。
奧卡姆提出,概念基于感知行為。就像中世紀(jì)酒館的主人在門前放置桶箍來傳遞“新酒到貨”的信息,雖然桶箍本身不是酒,但傳遞了預(yù)期的意義。同理,環(huán)境中的物體將預(yù)期的意義傳遞出來,而人類自帶感知能力,能夠在腦中形成概念。我們的感知與環(huán)境中的物體之間存在因果關(guān)系,概念則作為這一關(guān)系的副產(chǎn)品出現(xiàn)。
而“剃刀”這個比喻,直到1649年才被創(chuàng)造出來?!疤甑丁钡囊庀?,來源于中世紀(jì)作家的刮刀。在抄錄羊皮紙手稿時,為了不破壞周圍文本的情況下擦除單個字母和單詞,就需要使用刮刀。“奧卡姆剃刀”取其喻義,旨在改進(jìn)思想的表達(dá),保證措辭的優(yōu)雅的同時節(jié)省變量的考慮。雖然剃刀最初被描繪成一種用來打擊奧卡姆本人的武器,但剃刀的引入,為簡潔原則提供了令人信服的代言形象。

?圖 2. 中世紀(jì)的抄寫室中,刮刀是抄寫經(jīng)書的人員必不可少的工具。
用當(dāng)下計算機(jī)的自然語言處理算法(NLP)來解釋。當(dāng)語言學(xué)家還在討論“不同語言之間的語法規(guī)則有哪些共性”、“不同人類語言的本質(zhì)特征是什么”時,奧卡姆剃刀指出,將單詞轉(zhuǎn)換成向量,以此計算向量間的關(guān)系,只要讓機(jī)器獲得足夠的感官體驗(訓(xùn)練數(shù)據(jù)),算法會自動會總結(jié)出“男人+國王=女人+女王”。
奧卡姆剃刀代表的唯名論(Nominalism)認(rèn)為,科學(xué)發(fā)展不必受限于既有框架,而是取決于能觀察到什么;如果觀測和現(xiàn)有理論不符合,那就更換理論框架。唯名論取代了之前占據(jù)主導(dǎo)的唯實論(Realism),自此這種對簡單解釋的偏好,更是指導(dǎo)著之后數(shù)百年間的科學(xué)發(fā)展。
02 奧卡姆剃刀的應(yīng)用及濫用
17-18世紀(jì),化學(xué)家試圖解釋燃燒現(xiàn)象,曾提出“燃素”(phlogiston)這一假想實體?!叭妓卣f”認(rèn)為,可燃物質(zhì)含有“燃素”,燃燒是燃素釋放的過程,金屬煅燒后變成金屬灰(氧化物),被視為“失去燃素”。又因為金屬煅燒后重量增加的實驗發(fā)現(xiàn),燃素被額外假設(shè)“具有負(fù)重量”。
與之相對的是,拉瓦錫(Lavoisier)提出的“氧化理論”,即用氧氣與物質(zhì)的結(jié)合解釋燃燒。這一理論不需要引入新的神秘物質(zhì),僅用已知元素的相互作用就能自洽地解釋現(xiàn)象。值得一提的是,當(dāng)時普利斯特利(Priestley)通過加熱紅色氧化汞獲得了一種"特殊的空氣",這種氣體能使蠟燭燃燒更旺、老鼠呼吸更順暢,這就是后來被拉瓦錫命名的“氧氣”。

在技術(shù)條件有限的當(dāng)時,既無法直接觀測到燃素,也難以提純出純氧,但因為拉瓦錫的氧化理論更簡潔,符合奧卡姆剃刀原則,逐步收獲了科學(xué)社區(qū)的廣泛認(rèn)可。而正確的理論,又推動了后續(xù)科學(xué)的進(jìn)步。
類似的例子在科學(xué)史上屢見不鮮。愛因斯坦提出狹義相對論時,大膽拋棄了“以太”這一當(dāng)時普遍接受的假設(shè)介質(zhì),用更為簡潔的數(shù)學(xué)框架統(tǒng)一了力學(xué)和電磁學(xué)。達(dá)爾文的進(jìn)化論用“自然選擇”這一優(yōu)雅機(jī)制,解釋了物種多樣性的起源,無需訴諸超自然的創(chuàng)造力量。這些理論的成功,強化了科學(xué)界對“奧卡姆剃刀”原則的信心。

?圖 3. 光如何在以太中傳播。注釋中提到“光能從節(jié)點激發(fā),沿著路徑傳播”,“垂直標(biāo)量壓縮(Perpendicular Scalar Compression)作為光的起源”,以及“光子不沿波的路徑傳播”。圖源:robertedwardgrant.com
但奧卡姆剃刀追求的“簡潔”,不應(yīng)被簡單化理解為降低理解門檻。實際上,我們并沒有確鑿證據(jù)表明自然界總是遵循最簡單的規(guī)律。隨著科學(xué)研究的深入,許多理論反而變得更加復(fù)雜,因為新發(fā)現(xiàn)的現(xiàn)象往往需要更精細(xì)的解釋框架。
奧卡姆強調(diào)的是“必要”——何為“必要”,取決于要解釋的現(xiàn)象。
以廣義相對論為例,雖然它的數(shù)學(xué)框架遠(yuǎn)比牛頓力學(xué)復(fù)雜,但這種復(fù)雜性是必要的,因為它成功解釋了水星近日點進(jìn)動、引力紅移等經(jīng)典力學(xué)無法闡明的現(xiàn)象。因此,評判一個理論時,不能僅以其復(fù)雜程度為標(biāo)準(zhǔn),而應(yīng)該考察其解釋力與復(fù)雜性是否相稱。

?圖 4. 《奧卡姆剃刀》,來自《虛構(gòu)科學(xué)之友》系列插畫. 作者:Ele Willoughby, PhD
相對地,機(jī)械降神*雖然提供了看似簡單的解決方案,但這種表面的簡單性恰恰違背了奧卡姆剃刀的本質(zhì)。
以睡眠癱瘓為例,用“外星人綁架”來解釋雖然直觀易懂,但這種解釋需要我們額外假設(shè)外星人的存在、其跨越星際的能力、以及選擇性造訪地球等一系列未經(jīng)證實的前提。相比之下,異態(tài)睡眠(Parasomnia)的神經(jīng)生理學(xué)解釋雖然較為復(fù)雜,但它建立在已知的科學(xué)發(fā)現(xiàn)之上,無需引入額外的未經(jīng)驗證的假設(shè)。
*“機(jī)械降神”(Deus ex Machina)是一種戲劇敘事手法,指在劇情陷入困境時,通過意外的外部力量或超自然介入強行解決問題,最早出現(xiàn)在古希臘悲劇中,在現(xiàn)代文學(xué)和影視中多被視為削弱故事邏輯的生硬轉(zhuǎn)折。

?圖 5. 《哈利·波特與火焰杯》中,哈利與伏地魔在墓地的魔杖對決。由于兩根魔杖的杖芯來自同一只鳳凰的羽毛,它們產(chǎn)生了“閃回咒”現(xiàn)象,魔杖之間的連接迫使伏地魔魔杖中的靈魂碎片和受害者影像顯現(xiàn)出來,最終哈利借此機(jī)會成功逃脫。這個場景被一些劇評人評為哈利波特系列電影中十大機(jī)械降神場景之一。來源:CBR.com
合理應(yīng)用奧卡姆剃刀,應(yīng)注意避免不必要地引入多重獨立的解釋機(jī)制,其核心在于排除不可能的假設(shè)。
神經(jīng)病學(xué)領(lǐng)域曾發(fā)生過一次“烏龍”——“哈瓦那綜合征”。2016年,美國駐古巴大使館的工作人員報告出現(xiàn)頭痛、眩暈、注意力和記憶問題等癥狀,媒體迅速將其歸因于“聲波攻擊”。隨后,世界各地的外交人員也陸續(xù)報告類似癥狀。然而,這些癥狀在普通人群中也普遍存在,并未呈現(xiàn)出針對性攻擊所應(yīng)有的系統(tǒng)性特征。
從奧卡姆剃刀的視角來看,“聲波攻擊”的解釋需要我們接受一系列未經(jīng)證實的假設(shè):存在能夠定向發(fā)射的聲波武器、攻擊者能夠精確選擇目標(biāo)以及這種武器能在全球范圍內(nèi)部署等。相比之下,將這些癥狀解釋為功能性神經(jīng)障礙或環(huán)境因素(事實上最終證實是由蟋蟀的鳴叫聲引起)則簡單得多。
這個案例提醒我們,在評估數(shù)個競爭性假說時,奧卡姆剃刀的應(yīng)用前提是這些假說具有相近的解釋力和預(yù)測能力,而不是簡單地選擇表面上看起來最簡單的解釋。這一點在當(dāng)代科學(xué)實踐中顯得尤為重要,現(xiàn)實世界中的許多問題往往具有概率性,并受到觀測噪聲的影響,這都使得我們需要以更嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架來重新審視“奧卡姆剃刀”原則。
03 當(dāng)奧卡姆剃刀遇到概率——貝葉斯剃刀
當(dāng)代許多問題具有概率性,并且受到觀測噪聲的影響,這使得單純偏好簡潔的解釋不再適用。統(tǒng)計學(xué)家哈羅德·杰弗里斯(Harold Jeffreys)在其經(jīng)典著作《概率論》(Theory of Probability)中提出的“定量形式奧卡姆剃刀”,本質(zhì)上是將傳統(tǒng)的奧卡姆剃刀原則數(shù)學(xué)化,并融入貝葉斯概率框架,從而為模型選擇和科學(xué)推理提供了一種基于概率的嚴(yán)格方法。

其中
A表示假設(shè);
B表示觀察到的證據(jù);
P(A)是先驗概率,表示在沒有觀察到具體結(jié)果之前對每個假設(shè)的初始信念;
P(B|A) 是似然性(likelihood),表示在給定假設(shè)下觀察到當(dāng)前結(jié)果的概率;
P(B)是證據(jù)的總概率,用于對結(jié)果進(jìn)行歸一化處理。
用書中“擲骰子”的例子來說明。假設(shè)有兩個骰子(一個六面骰和一個六十面骰),暗中擲了其中一個,然后告知結(jié)果,讓人猜擲的是哪個骰子。
嘗試擲出數(shù)字39:
若不考慮投擲結(jié)果,僅憑奧卡姆剃刀原則,會傾向于選擇更簡單的六面骰。
而根據(jù)貝葉斯方程,A表示“擲六面骰”或“擲六十面骰”的假設(shè),B表示擲出數(shù)字39的事件,假設(shè)先驗概率P(A)均為0.5,P(B)可以視為1,P(B|A)就是在使用某種骰子的條件下擲出39的概率)。那么,
貝葉斯推斷:
? 對于“擲六面骰”假設(shè),六面骰不可能擲出39,即P(B|A)等于0,最終擲出六面骰的概率P(A|B)也為0。
? 對于“擲六十面骰”假設(shè),六十面骰子擲出39的P(B|A)等于1/60;將這個值與先驗概率0.5相乘,得到后驗概率為1/120。
比較這兩個假設(shè),結(jié)果一目了然,六十面骰比六面骰更有可能。
嘗試擲出數(shù)字5:
現(xiàn)在假設(shè)擲出的數(shù)字是5,這個結(jié)果既可能是六面骰也可能是六十面骰,其先驗概率相同(假設(shè)無偏),那么兩個骰子的可能性是否相等?
實際上在這種情況下,奧卡姆剃刀和貝葉斯推斷還是會認(rèn)為,更簡單的假設(shè)(即六面骰)應(yīng)該被優(yōu)先考慮。
貝葉斯推斷:
先驗概率0.5保持不變,六十面骰擲出數(shù)字5的概率仍是1/60,六面骰擲出數(shù)字5的概率變?yōu)?/6。
那么,計算下來:
六十面骰擲出5的后驗概率,是1/120,
六面骰擲出5的后驗概率,是1/12。
比較兩種假設(shè),六面骰的概率比六十面骰高十倍,所以更可能是六面骰。
在這個案例中,為了比較不同模型的證據(jù)強度,杰弗里斯提出了貝葉斯因子(Bayes Factor),用數(shù)學(xué)計算直接量化了奧卡姆剃刀。

貝葉斯因子,定義為兩模型邊際似然的比值。
若貝葉斯因子顯著大于1,則支持模型A,反之則支持模型B。
物理學(xué)家約翰·馮·諾伊曼曾說過:“用四個參數(shù)我可以擬合一頭大象,用五個參數(shù)我可以讓他搖動鼻子?!绷炕蟮膴W卡姆剃刀,能夠在不同復(fù)雜度的模型間進(jìn)行概率比較,而不再依賴于確定性的判斷。
當(dāng)然,六十面骰也會擲出5 點,就像復(fù)雜解釋有時也是正確的。但如果簡單和復(fù)雜模型、理論或假設(shè)都能同樣很好地解釋數(shù)據(jù),那么根據(jù)“奧卡姆剃刀+貝葉斯推斷”,簡單的模型更可能是產(chǎn)生這些數(shù)據(jù)的來源。
計算微生物代謝通量分布
假設(shè)在一條微生物代謝通路中,1摩爾代謝物A 可以通過三種中間體(B、C或D)轉(zhuǎn)化為1摩爾的代謝物E。研究者需要確定實際的代謝通量分布。

?圖6. 微生物的3條代謝通路
最簡單的假設(shè)是代謝僅通過單一通路(中間體B、C或D),其歸一化值(normalized value)為1。這種假設(shè)符合奧卡姆剃刀原則,單一通路顯然比三條通路更簡單。
然而,實驗數(shù)據(jù)本身大多存在噪聲,單一通路的假設(shè)并不能完全解釋所有數(shù)據(jù)。因此,通過最大似然法或貝葉斯方法將實驗數(shù)據(jù)和噪聲擬合到模型中,也是常見的數(shù)據(jù)處理方法。
? 貝葉斯方法,采用奧卡姆剃刀原則,仍會傾向于最簡單的模型,因此這類方法的典型結(jié)果是預(yù)測所有代謝都通過其中一條通路(如通路B)。
? 最大似然方法,則傾向于使數(shù)據(jù)與模型擬合,因此可能會引入一個更復(fù)雜的模型,例如90%的代謝通過通路B,大約5%的通過通路C和D。
如此看來,偏好簡單解決方案的貝葉斯方法,可能會將科學(xué)家推向“真理”的反方向。
但這不意味著當(dāng)下奧卡姆剃刀不再適用。事實上,基于真實情況的復(fù)雜方法,也可能會導(dǎo)致錯誤,例如將實驗噪聲錯誤地擬合到非活躍的代謝路徑中。而使用簡單模型,能讓噪聲能夠保持其噪聲特性,而不是被過度擬合到模型參數(shù)中,這是簡單模型在生物學(xué)研究中的另一個重要優(yōu)勢。
實驗和理論研究已經(jīng)證明了噪聲在生物系統(tǒng)中扮演著重要角色,例如保證代謝系統(tǒng)的可控制性。如果將噪聲擬合到確定性模型中,可能會忽略噪聲的功能性作用,從而得出錯誤結(jié)論。
04 機(jī)器學(xué)習(xí)如何從簡潔原則吸收養(yǎng)料
在機(jī)器學(xué)習(xí)實踐中,如何權(quán)衡模型的簡潔性與復(fù)雜性一直是個重要議題。假設(shè)要訓(xùn)練一個基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的視覺識別模型,下圖中的兩個不同復(fù)雜程度的模型在訓(xùn)練數(shù)據(jù)上分類性能相當(dāng),應(yīng)該選擇哪個模型進(jìn)行進(jìn)一步的訓(xùn)練呢?

?圖7. 兩個不同復(fù)雜度的視覺識別模型示例。圖源:Medium
比較多個模型并不簡單。
如果只根據(jù)奧卡姆剃刀,無疑是選擇圖7a中的簡單模型。但更復(fù)雜的模型(有更多的隱藏層和濾波器),總能更好地擬合數(shù)據(jù)。模型圖7b相對7a更復(fù)雜,能解釋的數(shù)據(jù)更多(模型容量更大),在更廣泛的可能數(shù)據(jù)集上的表現(xiàn)可能就更好。
可是,如果只追求這種“完美擬合”,模型可能因為過度參數(shù)化而難以泛化,即出現(xiàn)過擬合(overfitting)。我們真正需要的是一個能良好泛化的模型,即在未見過的數(shù)據(jù)示例上表現(xiàn)良好。

?圖8. 復(fù)雜模型受到懲罰的基本原理.
在圖中,水平軸代表了所有可能的數(shù)據(jù)集空間D,而貝葉斯規(guī)則根據(jù)模型對實際數(shù)據(jù)的預(yù)測準(zhǔn)確度來給予相應(yīng)的獎勵,這種預(yù)測能力通過D空間上的歸一化概率分布來度量,給定模型Hi條件下的數(shù)據(jù)概率P(D|Hi)被稱為模型Hi的證據(jù)。
一個簡單模型H1只能做出有限范圍的預(yù)測,如P(D|H1)所示;而一個參數(shù)更多的模型H2能夠預(yù)測更多種類的數(shù)據(jù)集。然而,這種復(fù)雜性也相應(yīng)地付出了預(yù)測強度上的代價,對于特定數(shù)據(jù)集C1,H2對數(shù)據(jù)集的預(yù)測強度反而不如H1。假設(shè)兩個模型具有相同的先驗概率,那么如果數(shù)據(jù)集落在區(qū)域C1中,簡單模型H1將是更可能的模型。
圖源:Hoffmann R, Minkin VI, Carpenter BK. Ockham's Razor and Chemistry. HYLE--International Journal for Philosophy of Chemistry . 1997;3:3-28.
因此,模型的選擇需要在擬合能力和泛化能力之間找到平衡。為了解決這一問題提出的一系列理論方法,都能看到奧卡姆剃刀的“如無必要,勿增實體”原則的影響。
例如,通過限制模型的復(fù)雜度來提高模型的泛化能力的正則化技術(shù)(regularization)。正則化通過在模型的損失函數(shù)中添加一個正則化項(regularization term),對模型的復(fù)雜度進(jìn)行懲罰,從而約束模型的參數(shù),使其不會過度依賴訓(xùn)練數(shù)據(jù)中的噪聲,以此提高模型的穩(wěn)健性。常見的正則化方法包括L1正則化、L2正則化,以及針對神經(jīng)網(wǎng)絡(luò)的Dropout等。值得注意的是,引入正則化不意味著簡單的模型一定要好于復(fù)雜的模型。

?圖9. 一階、三階、二十階和一千階多項式回歸擬合(品紅色;從左到右)的數(shù)據(jù)來自三階多項式函數(shù)(綠色)生成的數(shù)據(jù)。三階和一千階模型都實現(xiàn)了低預(yù)測誤差。圖源:[3]
納夫塔利·蒂什比(Naftali Tishby)等人提出的信息瓶頸理論(Information Bottleneck, IB),最初旨在解釋機(jī)器學(xué)習(xí)模型如何在訓(xùn)練過程中壓縮輸入數(shù)據(jù)并提取有用信息。其核心思想是:在輸入X和輸出Y之間找到一個中間表征T,使得T盡可能壓縮X的信息,同時T盡可能保留與Y相關(guān)的信息。信息瓶頸實現(xiàn)了對輸入信息的壓縮,通過保留關(guān)鍵信息:確保壓縮后的表示(representation)仍能有效預(yù)測輸出,避免過度簡化導(dǎo)致信息丟失。類似于奧卡姆剃刀的“如無必要,勿增實體”原則。

?圖 10. 信息瓶頸示意圖.(a)信息瓶頸,(b)作為信息瓶頸的自編碼器,以及(c)作為信息瓶頸的常規(guī)的多層神經(jīng)網(wǎng)絡(luò). 圖源:Ghojogh, Benyamin & Ghodsi, Ali. (2024). PAC Learnability and Information Bottleneck in Deep Learning: Tutorial and Survey. 10.31219/osf.io/vqxh8.
而信息瓶頸理論的具體工具,例如自編碼器(autoencoder),可通過無監(jiān)督學(xué)習(xí)實現(xiàn)數(shù)據(jù)的低維表示。自編碼器通常由以下三個部分組成:編碼器(將輸入X映射到低維表示T即“瓶頸層”)、潛在表示與解碼器(將T重構(gòu)為輸出X,盡可能接近原始輸入X)。自編碼器的瓶頸層強制數(shù)據(jù)通過低維表示,類似于信息瓶頸中的壓縮過程。自編碼器這種通過低維表示和重構(gòu)誤差優(yōu)化實現(xiàn)信息壓縮的方式,符合奧卡姆剃刀對復(fù)雜性的約束。而后來出現(xiàn)的變分自編碼器,進(jìn)一步將信息瓶頸與概率建模結(jié)合,通過最大化證據(jù)下界實現(xiàn)信息壓縮,對應(yīng)貝葉斯推斷下的奧卡姆剃刀。

?圖 11. 智能系統(tǒng)結(jié)構(gòu)與工作原理. 來源:Wolff G. Information compression as a unifying principle in human learning, perception, and cognition, and as a foundation for the SP Theory of Intelligence. Research OUTREACH . 2019;(109).
至于多位學(xué)者(如Hinton、Schmidhuber等)提出的“壓縮=智能”(Compression as Intelligence),其核心邏輯是智能系統(tǒng)能夠從大量數(shù)據(jù)中提取關(guān)鍵規(guī)律,忽略冗余信息。例如,人類可以從少量示例中學(xué)習(xí)通用規(guī)則(如語言語法)。壓縮不僅僅是減少數(shù)據(jù)量,更重要的是發(fā)現(xiàn)數(shù)據(jù)背后的潛在規(guī)律(如物理定律、統(tǒng)計模式)。通過壓縮得到的簡潔規(guī)律能夠推廣到新場景,解決未見過的問題。不止機(jī)器,大腦也通過壓縮信息(如抽象概念)實現(xiàn)高效記憶和推理。和奧卡姆一樣,“壓縮=智能”都強調(diào)了簡約性在智能行為中的核心作用。
在可解釋機(jī)器學(xué)習(xí)領(lǐng)域中,同樣存在偏好簡單的模型(線性模型或決策樹),例如局部可解釋模型(LIME)、SHAP值。

?圖12. LIME示意圖. 圖源:Tyagi, Swati. (2022). Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions. 10.48550/arXiv.2209.09362.
局部可解釋模型:當(dāng)無法全局使用簡單模型時,在局部區(qū)域內(nèi)用簡單模型(如線性模型)近似復(fù)雜模型的決策,從而提供對預(yù)測結(jié)果的直觀解釋。

?圖13. SHAP 模型示例。
a)使用SHAP的事件分類器的局部解釋的示意圖。
b)使用瀑布圖本地解釋。
圖源:Pezoa, Raquel & Salinas, Luis & Torres, Claudio. (2023). Explainability of High Energy Physics events classification using SHAP. Journal of Physics: Conference Series. 2438. 012082. 10.1088/1742-6596/2438/1/012082.
SHAP值:通過博弈論方法,分配每個特征對模型預(yù)測的貢獻(xiàn),將模型的預(yù)測結(jié)果分解為各個特征的貢獻(xiàn)值之和,既適用于單個預(yù)測,也可以用于整個數(shù)據(jù)集的全局解釋。
這些對局部/單個輸入重要性進(jìn)行量化的方法,說明奧卡姆剃刀在可解釋機(jī)器學(xué)習(xí)中的應(yīng)用體現(xiàn)為一種簡約性與解釋力的平衡。
05 約束簡約性與組件簡約性
然而,“簡約性”是一個多維度的概念,當(dāng)人們談?wù)撃P偷暮喖s性時,對其有不同的甚至相互矛盾的看法。
有時,人們會將“簡約性”(Parsimony)和“稀疏性”(Sparsity)混淆,但兩者在模型設(shè)計中具有本質(zhì)區(qū)別。
具體來看,稀疏模型雖然有許多參數(shù),但大部分參數(shù)為零或接近零,只有少數(shù)參數(shù)對給定模型的輸入敏感。因此,一個稀疏模型并不比一個參數(shù)較少但對多種輸入都有響應(yīng)的密集模型更簡約。
最近發(fā)表在《美國國家科學(xué)院院刊》(PNAS)上的一篇論文[3],區(qū)分了兩種不同的簡約性——約束簡約性與組件簡約性。

?圖14. 約束簡約性與組件簡約性。
左圖對應(yīng)“約束簡約性”。簡約性更強的模型(黃色)對事件的概率分配集中在較小的范圍內(nèi),而更復(fù)雜的模型(紫色)則廣泛地分散其預(yù)測。下:簡約性更強的模型(黃色)捕捉到更少的現(xiàn)象子空間,而更復(fù)雜的模型(紫色)可以容納這些現(xiàn)象。
右圖對應(yīng)“組件簡約性”。上:簡約性更強的模型(黃色)使用比更復(fù)雜模型(紫色)更少的輸入變量。下:簡約性更強的模型(黃色)假設(shè)比更復(fù)雜模型(紫色)更少的潛在變量/原因。圖源:Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
所謂“約束簡約性”,通常體現(xiàn)為具有較少參數(shù)或有效參數(shù)的模型,具有較少表達(dá)性的函數(shù)形式、更精確的先驗分布、更短的描述長度,以及更低的秩或其他標(biāo)準(zhǔn)。建模者常會意識到目標(biāo)現(xiàn)象與模型之間的差距,當(dāng)這種差距存在時(無論是故意還是無意),模型就會過擬合,繼而引發(fā)“不適用”問題。在其他條件相同的情況下,受約束較少的模型可以從數(shù)據(jù)中提取更多的模式,因此通常面臨不適用的風(fēng)險較低。
而“組件簡約性”,將模型的復(fù)雜性定義為具有有意義的組件的數(shù)量。其中組件可以包括變量的類型或?qū)嵗?、獨立原因或模型中表示的不同過程。
以建模人類語言為例,一個組件精簡的模型會試圖用一套最小的語法規(guī)則來解釋人類語言的豐富性。例如,喬姆斯基的普遍語法學(xué)說提出,少量的基本規(guī)則可以解釋世界各地使用的各種語言的廣泛多樣性。反之,一個不那么精簡的模型,所使用的語法規(guī)則更大,雖然可能更精確地解釋不同語言的結(jié)構(gòu),但其組件更為復(fù)雜,假設(shè)了更多的規(guī)則。
區(qū)別了兩種簡約性,能更清晰地理解何為簡潔模型。心理學(xué)和神經(jīng)科學(xué)研究中,認(rèn)知實驗常通過控制和觀察特定的實驗條件,研究人類或動物的認(rèn)知功能,如感知、記憶、注意力、決策等。類似地,在深度學(xué)習(xí)領(lǐng)域,這又被稱為“消融研究”(ablation study),即將模型視為參與者,系統(tǒng)地移除模型的一部分以評估其對性能的影響,從而獲得對復(fù)雜模型的洞察,由此判斷究竟是簡單模型還是復(fù)雜模型。
例如,在評估一種未經(jīng)測試的藥物的效果時,如果忽略因果圖上的關(guān)鍵中介變量,可能會得出完全不同的結(jié)論。例如,某種藥物可能通過中介變量(比如藥物在體內(nèi)的代謝過程)間接影響治療效果,但如果忽略了這一點,我們可能會錯誤地認(rèn)為藥物無效或效果顯著。因此,為了更準(zhǔn)確地代表和解釋世界,往往需要使用因果發(fā)現(xiàn),增加模型的復(fù)雜性。
再舉一個例子,樂高的價格和包裝盒上標(biāo)注的“最小年齡”是否相關(guān)?如果只簡單看這兩個變量,可能會得出“年齡越大,價格越高”的結(jié)論。但實際上,這種相關(guān)性可能取決于重要的中介變量,比如樂高零件的數(shù)量和重量。更復(fù)雜的樂高套裝通常零件更多、重量更大,因此價格更高,但也可能更適合年齡較大的孩子。要解釋價格與“最小年齡”兩者間的關(guān)系,就需要引入更多中介變量,構(gòu)建更復(fù)雜的模型,但這是必要的。
06 復(fù)雜性視角下, 奧卡姆剃刀依舊寶刀未老嗎?
近來,復(fù)雜的數(shù)據(jù)驅(qū)動型人工智能(AI)模型的興起,向簡潔假設(shè)發(fā)起了挑戰(zhàn)。以AlphaFold為例,這一突破性技術(shù)通過高精度預(yù)測蛋白質(zhì)結(jié)構(gòu),徹底改變了生物學(xué)領(lǐng)域。這些依賴大量數(shù)據(jù)和復(fù)雜架構(gòu)的 AI 系統(tǒng),已經(jīng)在許多領(lǐng)域超越了更簡單、更傳統(tǒng)的模型。
在語言學(xué)研究方面,喬姆斯基試圖通過一套“節(jié)儉”的普遍語法規(guī)則,來解釋人類語言的豐富性和表達(dá)性。而大語言模型(LLMs)則采用了截然不同的路徑:沒有強烈的先驗假設(shè),而是從大量數(shù)據(jù)中學(xué)習(xí),生成人類樣式的連貫文本。盡管這些模型非常復(fù)雜,但提供了傳統(tǒng)理論無法提供的科學(xué)見解。
那么,奧卡姆剃刀依舊有討論的價值嗎?
Marina Dubova等人認(rèn)為,過于嚴(yán)格地遵循奧卡姆剃刀原則,可能會錯過有價值的見解,甚至導(dǎo)致模型出現(xiàn)錯誤。例如,在神經(jīng)科學(xué)中,用簡單模型解釋實時腦掃描,結(jié)果往往是檢測到大腦呈周期性活動模式,而實際上,腦活動是隨著時間逐漸變化的。這些簡單模型依賴于對腦功能的簡化假設(shè),未能考慮到神經(jīng)過程的復(fù)雜性。同樣,在藥理學(xué)中,如果忽略了患者年齡、遺傳背景或既往健康狀況等重要特征,可能會導(dǎo)致藥物模型對特定個體的反應(yīng)預(yù)測不準(zhǔn)確。
此外,復(fù)雜模型靈活性更高,能夠考慮到簡單模型可能忽略的廣泛因素和相互作用。這種靈活性在氣候研究等復(fù)雜系統(tǒng)中尤為明顯,這些領(lǐng)域中的模型通常會包含從大氣動力學(xué)到洋流等各種各樣的變量。有趣的是,最近的研究發(fā)現(xiàn),基于集合的方法,即整合多個不同模型,其氣候預(yù)測的準(zhǔn)確性相較依賴單一模型要好得多。盡管這些模型在某些方面可能會相互矛盾,但通過匯集它們的見解,能夠為研究者提供更為豐富和可靠的氣候模式理解。
但是,簡約性也確實引領(lǐng)了科學(xué)的發(fā)展。以愛因斯坦為例,他對簡約性很是推崇。他有一句格言:“萬事萬物都應(yīng)盡可能地簡潔,但不能于簡單。”具體到他要解決的問題,愛因斯坦指出:從簡單的理論出發(fā)生成復(fù)雜的輸出很容易,但通常逆向由復(fù)雜輸出推出簡單模型就很難。因為即使錯誤的理論也能做出正確的預(yù)測,而且總會存在無限數(shù)量的理論(其中大多數(shù)尚未被構(gòu)想出來)能夠正確解釋任何有限數(shù)量的觀測數(shù)據(jù)。因此,逆問題沒有唯一解。
在1905年發(fā)表他的狹義相對論方程后,愛因斯坦努力尋找能夠包含重力和加速度的相對論定律。他最初的方法是追求完整性——試圖讓理論包含盡可能多的數(shù)據(jù)——而不是簡單性。他構(gòu)建了盡可能包含更多觀測數(shù)據(jù)的方程,然后試圖從這些方程出發(fā),反向構(gòu)建一個簡單的統(tǒng)一理論。然而,在花費了大約十年的時間,不成功地研究了一個又一個復(fù)雜的方程之后,愛因斯坦最終改變了策略,只研究最簡單和最優(yōu)雅的方程的方法,并在之后才將它們與物理事實進(jìn)行測試。這最終讓他成功發(fā)現(xiàn)了廣義相對論。而這段經(jīng)歷也促使他重新評估了簡單性在科學(xué)中的作用,并為理論構(gòu)建中奧卡姆剃刀的有用性提供了寶貴的見解。他寫道:
“一個理論可以通過經(jīng)驗來檢驗,但無法從經(jīng)驗出發(fā)構(gòu)建一個理論,[并且]如此復(fù)雜的方程只能通過發(fā)現(xiàn)一個邏輯上簡單的數(shù)學(xué)條件來確定,該條件完全或幾乎完全決定了這些方程?!?/strong>
只不過,之后愛因斯坦一直醉心于大一統(tǒng)理論,試圖用一個方程來解釋所有物理學(xué)。但愛因斯坦之后的物理學(xué)研究卻一無所獲,這未嘗不說明過度依賴簡約性假設(shè),同樣是引入了不必要的實體(簡單的最美),偏離了奧卡姆剃刀的原意。值得注意的是最近因斯坦稱之為他“最大失誤”的宇宙學(xué)常數(shù)(不夠簡潔),最近又以暗能量重新出現(xiàn)。
類似的簡約性原則在近來的生命科學(xué)領(lǐng)域同樣得到了印證。以神經(jīng)科學(xué)為例,工作記憶計算模型包括成千上萬個神經(jīng)元,這些神經(jīng)元的學(xué)習(xí)動力學(xué)由它們所在區(qū)域決定。從單個神經(jīng)元及其相互作用的層面上解釋困難重重,但當(dāng)我們抽象到腦區(qū)層面,該模型就能夠清晰地解釋工作記憶現(xiàn)象。
生命系統(tǒng),則提供了另一個典型案例。雖然生命現(xiàn)象本身極其復(fù)雜,但對其的解釋卻可以相對簡單。以元胞自動機(jī)為例,元胞自動機(jī)由大量簡單的單元(元胞)組成,每個元胞根據(jù)局部規(guī)則和鄰居狀態(tài)更新自身狀態(tài)。盡管規(guī)則極其簡單(如康威的“生命游戲”僅用幾條規(guī)則),卻能涌現(xiàn)出復(fù)雜的全局行為(如自組織、模式形成)。
這些研究表明,復(fù)雜系統(tǒng)的行為并不一定需要復(fù)雜的全局控制或額外假設(shè),而是可以通過簡單的局部規(guī)則和最小化的實體來實現(xiàn)。這正是奧卡姆剃刀的精髓:用盡可能少的假設(shè)和規(guī)則解釋現(xiàn)象。人工生命研究的進(jìn)展也進(jìn)一步表明,即使是基于規(guī)則構(gòu)建的虛擬生物,也能展現(xiàn)出智能和適應(yīng)性行為,生動地展示了簡約性與復(fù)雜性的辯證統(tǒng)一。
總而言之,對人工智能時代奧卡姆剃刀原理的討論,啟發(fā)我們用新的思考方式來解決科學(xué)問題。多種多樣的模型可以貢獻(xiàn)出更全面的理解,研究人員不應(yīng)受限于單一簡單的解釋。簡約性和復(fù)雜性,并非對立的概念,而是互補的工具。科學(xué)家在探索問題時,需要根據(jù)具體的研究背景、證據(jù)以及問題的需求,審慎地決定何時采用簡約性,何時引入復(fù)雜性。
建模過程不僅要關(guān)乎建模者的目標(biāo)和背景,還取決于科學(xué)本身的演進(jìn)。人工智能時代,統(tǒng)計學(xué)、計算機(jī)科學(xué)、認(rèn)知科學(xué)及其他領(lǐng)域的的不斷進(jìn)展,正在重塑我們對簡約性與復(fù)雜性的認(rèn)知:簡約性并非萬能,復(fù)雜性也非累贅,關(guān)鍵在于如何根據(jù)問題的本質(zhì)與需求,在兩者之間找到動態(tài)平衡。而科學(xué)的未來,就在于如何在簡約與復(fù)雜之間,找到那條通向更深刻理解的道路。
參考文獻(xiàn):
1. https://www.thecollector.com/ockham-mental-language-speaking-minds/
2. https://academic.oup.com/brain/article/145/6/1870/6575832?login=false
3. Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
熱門跟貼