Systematic Abductive Reasoning via DiverseRelation Representations in Vector-symbolicArchitecture
通過向量符號架構(gòu)中多樣化的關(guān)聯(lián)表示實現(xiàn)系統(tǒng)的溯因推理
https://arxiv.org/pdf/2501.11896

摘要
在抽象視覺推理中,單一的深度學(xué)習(xí)模型存在可解釋性和泛化能力有限的問題,而現(xiàn)有的神經(jīng)符號方法在捕捉屬性和關(guān)系表示的多樣性和系統(tǒng)性方面存在不足。為解決這些挑戰(zhàn),我們提出了一種基于向量符號架構(gòu)(VSA)的系統(tǒng)化溯因推理模型,該模型具有多樣化的關(guān)聯(lián)表示(Rel-SAR Systematic Abductive Reasoning),用于解決瑞文漸進矩陣(RPM)問題。為了推導(dǎo)出具有符號推理潛力的屬性表示,我們不僅引入了多種類型的原子向量,用于表示數(shù)值、周期性和邏輯語義,還引入了整體網(wǎng)格組件的結(jié)構(gòu)化高維表示(SHDR structured highdimentional representatio)。為了實現(xiàn)系統(tǒng)化的推理,我們提出了新穎的數(shù)值和邏輯關(guān)系函數(shù),并在一個統(tǒng)一的框架中執(zhí)行規(guī)則的溯因和執(zhí)行,整合了這些關(guān)系表示。實驗結(jié)果表明,Rel-SAR在RPM任務(wù)上取得了顯著的改進,并展現(xiàn)出強大的分布外泛化能力。Rel-SAR利用高維屬性表示與符號推理之間的協(xié)同作用,實現(xiàn)了具有可解釋性和可計算語義的系統(tǒng)化溯因推理。
索引詞——抽象視覺推理,關(guān)系表示,向量符號架構(gòu)。
I. 引言
瑞文漸進矩陣(RPM)是一類廣泛用于評估抽象推理能力的心理智力測試 [1], [2]。從認知心理學(xué)的角度來看,RPM測試中的抽象視覺推理涉及從圖像中構(gòu)建高級表示,并從這些表示中推導(dǎo)出潛在的關(guān)系[1], [3]。賦予人工智能這種能力現(xiàn)在被認為是實現(xiàn)人類水平智能的關(guān)鍵一步。
然而,許多最近的單一深度學(xué)習(xí)模型并未明確區(qū)分感知和推理[4]–[9],因此面臨固有挑戰(zhàn),例如可解釋性差、魯棒性和泛化能力有限,以及模塊復(fù)用困難 [10]。神經(jīng)符號架構(gòu)(NSA),它將神經(jīng)視覺感知與符號推理相結(jié)合,為克服這些挑戰(zhàn)并實現(xiàn)人類水平的可解釋性和泛化能力提供了一種有前景的方法 [10]–[12]。
在神經(jīng)符號架構(gòu)(NSA)中,Marcus認為認知中的符號操作涉及變量之間的關(guān)系表示[11]。對于RPM測試,對象屬性作為變量,而潛在規(guī)則涉及這些關(guān)系。然而,由于屬性和關(guān)系表示不完整,NSA在執(zhí)行RPM測試時實現(xiàn)系統(tǒng)化溯因和執(zhí)行仍然是一個關(guān)鍵挑戰(zhàn)。從屬性的角度來看,最近的模型,如PrAE [10]、ALANS學(xué)習(xí)器 [13] 和NVSA(神經(jīng)向量符號架構(gòu))[12],通過神經(jīng)感知前端構(gòu)建屬性表示。值得注意的是,NVSA模型實現(xiàn)了圖像面板的分層結(jié)構(gòu)化VSA表示,捕捉了多個對象的多個屬性[12]。在關(guān)系表示方面,PrAE和NVSA分別通過概率溯因和執(zhí)行 [10] 以及分布式向量符號架構(gòu)(VSA)[12] 實現(xiàn)抽象推理。這兩種模型都依賴于預(yù)定義的多種規(guī)則模板,每種模板專門用于不同的RPM規(guī)則。為了解決規(guī)則表達能力的限制,ALANS學(xué)習(xí)器利用抽象代數(shù)結(jié)構(gòu)中的可學(xué)習(xí)規(guī)則操作符,無需為每條規(guī)則手動定義 [13]。此外,ARLC模型采用了一種更具表達力的基于VSA的規(guī)則模板,在規(guī)則參數(shù)空間中運行 [14]。這兩種模型都提高了可解釋性和泛化能力。盡管取得了進展,但以往的模型在捕捉屬性和關(guān)系表示的多樣性和系統(tǒng)性方面仍存在不足。相比之下,人類認知表現(xiàn)出豐富且靈活的內(nèi)部表示 [15], [16],包括算術(shù)和邏輯,認知中的基于規(guī)則的推理系統(tǒng)是富有成效且系統(tǒng)的 [17]。因此,這些模型的抽象視覺推理性能仍有進一步改進的空間。
先前的研究表明,向量符號架構(gòu)(VSA)是一種高維(HD)分布式表示形式,具有用于數(shù)學(xué)運算的代數(shù)屬性,并且可以實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化符號表示 [18]–[20]。在本工作中,為了實現(xiàn)全面的關(guān)系表示,我們引入了各種基于VSA的原子HD向量,具有不同的語義表示,包括數(shù)值、周期值和邏輯值。鑒于RPM問題中的推理涉及多個對象的整體屬性,我們進一步引入了用于n×n網(wǎng)格的結(jié)構(gòu)化HD表示(SHDR)。它們作為溯因推理所需的屬性表示。同時,我們提出了數(shù)值和邏輯關(guān)系函數(shù)作為關(guān)系表示,這些函數(shù)以多個HD屬性表示為輸入,并定義它們之間的關(guān)系。與為個別規(guī)則設(shè)計的規(guī)則模板不同,這兩種提出的關(guān)系函數(shù)專門針對數(shù)值和邏輯類型,提供了強大的規(guī)則表達能力。
在此,我們提出了一種用于解決RPM的具有多樣化關(guān)系表示的系統(tǒng)化溯因推理模型(Rel-SAR),該模型受到原始NVSA模型 [12] 的啟發(fā)。在Rel-SAR模型中,視覺屬性提取和規(guī)則推理在一個完全統(tǒng)一的VSA計算框架內(nèi)實現(xiàn)。該模型包括一個用于感知RPM問題中所有原始圖像的對象屬性的神經(jīng)向量前端,以及一個用于實現(xiàn)符號推理的通用向量符號后端。感知前端基于每個圖像面板的場景級SHDR運行,其中包含多個對象,每個對象都有各種屬性,并通過基于VSA的符號操作預(yù)測HD屬性表示。推理后端實現(xiàn)了系統(tǒng)化溯因推理的核心思想:如果RPM中給定的屬性遵循特定的數(shù)值或邏輯規(guī)則,則所有屬性對的關(guān)系表示可以使用具有相同參數(shù)的相應(yīng)關(guān)系函數(shù)來定義。這些多樣化的關(guān)系表示既參與規(guī)則的溯因階段,也參與執(zhí)行階段,增強了可解釋性并提高了系統(tǒng)化溯因推理的能力。
II. 相關(guān)工作
瑞文漸進矩陣(RPM)是一種廣泛使用的非語言智力測試,旨在評估抽象推理能力。為了探索當(dāng)前機器學(xué)習(xí)方法在解決抽象推理任務(wù)方面的局限性,已經(jīng)引入了兩個基于RPM的自動生成數(shù)據(jù)集——RAVEN [21] 和 IRAVEN [8](見圖1)。早期對RPM的研究主要使用關(guān)系網(wǎng)絡(luò)(Relation Network, RN)[22]及其變體 [4], [7], [9], [23] 來提取上下文面板之間的關(guān)系。同時,CoPINet [6]、MLCL [24] 和 DCNet [25] 在其模型中整合了對比學(xué)習(xí)。MRNet [9] 和 DRNet [26] 等方法旨在增強感知能力,而SRAN [8] 和 PredRNet [27] 分別通過分層模型和預(yù)測誤差來抽象關(guān)系。此外,一些方法專注于場景分解和特征解耦 [28]–[30]。盡管這些單一的深度學(xué)習(xí)模型能夠取得高準確率,但它們通常存在可解釋性和系統(tǒng)化泛化能力有限的問題。

解決RPM的另一種方法是基于神經(jīng)符號架構(gòu),該架構(gòu)明確區(qū)分感知和推理。PrAE [10] 使用對象卷積神經(jīng)網(wǎng)絡(luò)(CNN)生成概率場景表示,并利用預(yù)定義的規(guī)則模板進行概率溯因和執(zhí)行。受抽象代數(shù)和表示論的啟發(fā),ALANS[13](與PrAE共享相同的感知前端)將概率場景分布轉(zhuǎn)換為基于矩陣的代數(shù)表示。ALANS的代數(shù)推理后端通過可訓(xùn)練的操作矩陣誘導(dǎo)潛在規(guī)則,從而消除了手動定義規(guī)則的需要。
在抽象推理中,向量符號架構(gòu)(Vector Symbolic Architectures, VSA)通過利用其結(jié)構(gòu)化的分布式表示和代數(shù)特性,作為感知模塊和推理模塊之間的橋梁。NVSA [12] 使用可訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)將每個RPM面板映射到高維向量,并通過查詢外部碼本生成概率質(zhì)量函數(shù)(Probability Mass Functions, PMFs)。其推理后端將這些PMFs嵌入到分布式的VSA表示中,并利用基于VSA代數(shù)運算的模板進行規(guī)則的溯因和執(zhí)行。NVSA通過利用VSA表示和操作符,提供了一種可微分且透明的概率溯因推理實現(xiàn)。然而,其感知前端需要在龐大的外部碼本中進行搜索,而其推理后端仍然依賴于預(yù)定義的規(guī)則模板。相比之下,Learn-VRF [31] 專注于通過學(xué)習(xí)VSA規(guī)則公式來進行推理,從而消除了對預(yù)定義模板的需求。ARLC [14] 進一步通過引入上下文增強和擴展規(guī)則模板來容納更多樣化的規(guī)則,從而增強了推理能力。盡管ARLC和Learn-VRF實現(xiàn)了系統(tǒng)的規(guī)則學(xué)習(xí),但由于屬性表示的限制,它們?nèi)匀浑y以處理所有RPM規(guī)則。最近,一類被稱為關(guān)系瓶頸的方法被提出,以實現(xiàn)高效的抽象化,但它們處理復(fù)雜關(guān)系的能力仍然不確定 [32]–[35]。為解決這一限制,Rel-SAR將感知輸入轉(zhuǎn)化為具有符號推理潛力的高維屬性表示,并在一個統(tǒng)一框架內(nèi)對邏輯和數(shù)值規(guī)則進行溯因。
III. 預(yù)備知識
A. 本研究中使用的VSA模型
VSA(矢量符號架構(gòu))是一類利用高維分布式表示的計算模型。本研究中使用的VSA模型是全息降維表示(Holographic Reduced Representations,HRR)及其在頻域中的形式,稱為傅里葉全息降維表示(Fourier Holographic Reduced Representations,F(xiàn)HRR)。
一個隨機的FHRR原子向量,記作θ := {θi}i=1...d,其元素θi是從均勻分布中獨立采樣的,具體為θi ~ U(?π, π)。相應(yīng)的HRR原子向量x是通過對θ應(yīng)用逆快速傅里葉變換(Inverse Fast Fourier Transform,IFFT)得到的。
在這里,F(xiàn) 和 分別表示快速傅里葉變換(FFT)和逆快速傅里葉變換(IFFT)。當(dāng)維度 d 足夠大時,這些隨機生成的向量表現(xiàn)出偽正交性,這使得它們適合用于表示不同的符號或概念。
在 FHRR 和 HRR 中,任意兩個向量之間的相似性是評估 VSA 中分布式表示的一個關(guān)鍵指標。FHRR 和 HRR 使用余弦相似度來衡量兩個向量之間的相似性:

B. 基本運算和結(jié)構(gòu)化符號表示



IV. 方法論
A. 具有語義表示的原子高維向量
在神經(jīng)向量符號系統(tǒng)中,具有有意義語義的原子高維向量表示對于感知和推理至關(guān)重要。我們引入了模型中使用的四種類型的原子高維向量(見圖2):隨機向量(RVs)、數(shù)值向量(NVs)、循環(huán)向量(CVs)和布爾向量(BVs)。這些向量的定義和屬性在VSA框架內(nèi)是通用的。
1) 隨機向量:隨機向量(RVs)是根據(jù)VSA模型從特定分布中采樣的,如預(yù)備知識部分所述。由于RVs之間不存在數(shù)值或邏輯關(guān)系,并且它們在高維向量空間中表現(xiàn)出偽正交性(見圖2a),因此它們通常用于表示假定為獨立且不相似的符號和概念。



B. 基于原子高維表示的關(guān)系函數(shù)
RPM中用于演繹推理的規(guī)則涉及每行三個面板中對應(yīng)對象屬性之間的二元和三元關(guān)系(圖2e和圖1a),以及數(shù)值和邏輯關(guān)系。在本工作中,我們基于VSA代數(shù)設(shè)計了通用的關(guān)系函數(shù),利用上述原子向量表示,用于規(guī)則的演繹。
1) 關(guān)系函數(shù):關(guān)系函數(shù)用于描述多個高維向量表示之間的關(guān)系,分為兩種類型:數(shù)值關(guān)系和邏輯關(guān)系。在原子高維表示中,數(shù)值向量(NVs)和循環(huán)向量(CVs)參與數(shù)值關(guān)系,而布爾向量(BVs)參與邏輯關(guān)系。數(shù)值關(guān)系函數(shù)RNum定義如下(圖2f):

2) 逆關(guān)系函數(shù):在RPM中,規(guī)則執(zhí)行需要根據(jù)已知關(guān)系,通過一行面板中的前兩個屬性值推斷第三個屬性值。這代表了一個規(guī)則演繹的逆問題。在向量符號方法中,給定操作算子的冪 OP1:M 和輸出 r,可以通過逆關(guān)系函數(shù)從最初的 N - 1 個輸入 v1:N-1 推斷出最后一個向量表示 vN(圖2g)。根據(jù)公式(6),逆數(shù)值關(guān)系函數(shù)定義如下:

C. 結(jié)構(gòu)化高維表示及其屬性分解
VSA可以利用原子高維向量表示創(chuàng)建結(jié)構(gòu)化的符號表示,并通過代數(shù)運算直接從這些結(jié)構(gòu)中解耦它們。本小節(jié)介紹了為圖像面板構(gòu)建結(jié)構(gòu)化高維表示(SHDR)的過程,以及其分解以檢索單個屬性表示的過程。此外,還介紹了在組件級別上為n×n網(wǎng)格(n = 2, 3)的SHDR。
1) 圖像面板的SHDR:在RAVEN數(shù)據(jù)集中,每個圖像面板由多個對象組成,每個對象由多個屬性特征。因此,每個圖像面板的結(jié)構(gòu)化高維表示(SHDR)可以通過兩層角色-填充綁定來獲得(見圖3a)。首先,使用捆綁操作在實體級別為每個對象構(gòu)建一個SHDR,通過組合其屬性來實現(xiàn)。然后,另一層捆綁操作將這些對象級別的表示聚合起來,構(gòu)建圖像面板的場景級SHDR。因此,每個圖像面板(分辨率為r×r)可以通過一個SHDR 來表示,如下所示:



D. 從關(guān)系函數(shù)的視角看待規(guī)則
RAVEN數(shù)據(jù)集包含4種規(guī)則——恒定(Constant)、漸進(Progression)、算術(shù)(Arithmetic)和三分法(Distribute Three),這些規(guī)則作用于5種規(guī)則控制屬性。這5種屬性包括3種實體級屬性:類型(Type)、大?。⊿ize)和顏色(Color),以及2種布局級屬性:數(shù)量(Number)和位置(Position)。在本研究中,規(guī)則推理過程中這些屬性值的高維表示以及規(guī)則與關(guān)系函數(shù)之間的關(guān)系如表III所示。
對于屬性類型(Type)、大小(Size)、顏色(Color)和數(shù)量(Number),涉及的四種規(guī)則遵循加法算術(shù)運算,即屬性值(attr ∈ {type, size, color, number})使用數(shù)值向量(NVs)表示。因此,這些規(guī)則可以通過數(shù)值關(guān)系函數(shù)(公式6)來定義:恒定和漸進對應(yīng)于二元關(guān)系函數(shù),而算術(shù)和三分法對應(yīng)于三元關(guān)系函數(shù)。每條規(guī)則都與特定的OP1:M和rNum組合相關(guān),具體細節(jié)如表IV所示。


E. 系統(tǒng)化演繹推理模型
在本節(jié)中,我們介紹了具有多樣化關(guān)系表示的系統(tǒng)化演繹推理模型(Rel-SAR),該模型受到NVSA的啟發(fā)[12]。Rel-SAR的概述如圖4a所示。與以往用于抽象視覺推理的神經(jīng)符號模型類似,Rel-SAR結(jié)合了一個神經(jīng)視覺感知前端和一個符號推理后端,兩者都利用具有語義意義的VSA表示以促進系統(tǒng)化的推理。感知前端使用神經(jīng)網(wǎng)絡(luò)提取RPM中每個圖像面板X的結(jié)構(gòu)化高維表示(SHDR)S,并通過表示分解從SHDR中實現(xiàn)特征解耦,以獲得后端推理所需的屬性的高維表示(v、p和C:表III)。推理后端由三個主要模塊組成:規(guī)則演繹模塊、規(guī)則執(zhí)行模塊和答案選擇模塊。規(guī)則演繹模塊根據(jù)適當(dāng)?shù)年P(guān)系函數(shù)(公式6和7,表III)為每個屬性表示提取相應(yīng)的規(guī)則(OP1:M和r:表IV)。隨后,規(guī)則執(zhí)行模塊使用這些規(guī)則,根據(jù)相應(yīng)的逆關(guān)系函數(shù)(公式8和9)預(yù)測缺失面板屬性的表示。最后,答案選擇模塊將缺失面板的預(yù)測屬性表示與答案面板中的可用選項進行比較,并選擇答案。














2) 端到端訓(xùn)練與輔助屬性標簽:



B. 端到端學(xué)習(xí)結(jié)果
首先,我們在RAVEN[21]和I-RAVEN[8]數(shù)據(jù)集上對Rel-SAR模型進行了端到端學(xué)習(xí)的評估。結(jié)果總結(jié)于表VI,將我們的模型與深度神經(jīng)網(wǎng)絡(luò)方法和神經(jīng)符號AI方法進行了比較。Rel-SAR在RAVEN上實現(xiàn)了96.5%的平均準確率,在I-RAVEN上實現(xiàn)了98.0%的平均準確率,與之前表現(xiàn)最佳的深度網(wǎng)絡(luò)DRNet(RAVEN上為96.9%,I-RAVEN上為97.6%)相當(dāng)。與之前的神經(jīng)符號方法NVSA相比,Rel-SAR在涉及基于位置屬性規(guī)則的配置中表現(xiàn)出顯著的準確率提升,包括2x2網(wǎng)格(+2.2%)、3x3網(wǎng)格(+39.1%)和內(nèi)外網(wǎng)格(+20.8%)。這使得Rel-SAR在RAVEN上的平均準確率提升了8.8%,在I-RAVEN上提升了9.9%。這些提升歸功于我們針對位置屬性的循環(huán)和邏輯高維表示的有效性,以及在規(guī)則演繹和執(zhí)行中使用的數(shù)值和邏輯關(guān)系函數(shù)。此外,Rel-SAR在訓(xùn)練過程中僅使用答案面板,而沒有利用其他候選面板的信息。這確保了Rel-SAR不會利用RAVEN數(shù)據(jù)集中的潛在缺陷進行捷徑學(xué)習(xí)[8],從而在RAVEN和I-RAVEN數(shù)據(jù)集上實現(xiàn)了相似的準確率(96.5%對比98.0%)。

此外,由于神經(jīng)符號模型是分離感知和推理的混合架構(gòu),它們通常會使用輔助屬性標簽進行訓(xùn)練。因此,我們還在使用額外屬性標簽訓(xùn)練的情況下,對Rel-SAR模型在兩個數(shù)據(jù)集上的表現(xiàn)進行了評估。結(jié)果展示在表VI的底部部分,表明我們的模型在RAVEN上實現(xiàn)了96.6%的平均準確率,在I-RAVEN上實現(xiàn)了98.1%的平均準確率。在比較的神經(jīng)符號模型中,ALANS Learner與Rel-SAR最為相似,因為這兩種模型都在其推理后端中引入了可學(xué)習(xí)參數(shù)。與ALANS相比,我們的模型在RAVEN上平均準確率提升了2.2%,在I-RAVEN上提升了4.6%。相比之下,NVSA和Xu模型的推理后端依賴于預(yù)設(shè)計的規(guī)則模板或代數(shù)不變性模塊,而沒有可學(xué)習(xí)參數(shù)。NVSA憑借其全面的規(guī)則模板庫,在使用輔助屬性標簽訓(xùn)練時能夠?qū)崿F(xiàn)近乎完美的準確率。盡管我們的模型在使用輔助屬性標簽訓(xùn)練時略微遜色于NVSA,但它展現(xiàn)了一個重要的優(yōu)勢:在不使用屬性標簽訓(xùn)練時,NVSA和ALANS Learner的性能顯著下降,而我們的模型則保持了幾乎相同的性能。這種一致性突顯了我們模型中感知模塊和推理模塊之間穩(wěn)健的協(xié)同作用。
C. 使用屬性標簽學(xué)習(xí)的感知結(jié)果
與其它神經(jīng)符號方法類似,Rel-SAR中的感知前端也可以使用感知損失函數(shù)(公式26)和屬性標簽進行獨立訓(xùn)練。通過查詢與前端代碼本中屬性向量具有最高相似度的估計高維屬性表示,我們可以檢索出預(yù)測的實體級屬性。只有當(dāng)面板中所有對象的屬性與數(shù)據(jù)集提供的屬性完全匹配時,才認為該面板的特征被正確提取。如表VII所示,評估結(jié)果表明,我們模型中的感知前端在RAVEN數(shù)據(jù)集上實現(xiàn)了99.99%的平均面板準確率,保持了近乎完美的性能,與NVSA一致。值得注意的是,NVSA報告了RAVEN數(shù)據(jù)集中存在一個分辨率問題,即在內(nèi)外網(wǎng)格(O-InGrid)配置中,某些內(nèi)部區(qū)域的對象具有不同的大小屬性,但圖像表示相同[12]。為了解決這一問題,我們采用了與NVSA類似的解決方案,將具有不同大小但相同面板表示的類別合并。

為了評估我們模型感知前端的泛化能力,我們采用了[12]中概述的實驗設(shè)置,以測試模型在未見屬性值組合上的表現(xiàn)。具體來說,我們關(guān)注2x2網(wǎng)格配置中的單對象情況。如表VIII所示,我們選擇兩個屬性(例如位置和類型)以及每個屬性的部分值集(例如位置 ∈ {0, 3},類型 ∈ {0, 2})作為目標屬性。包含這些目標屬性值的面板被納入訓(xùn)練集,而缺少它們的面板則被指定為測試集。這種方法確保了訓(xùn)練和測試數(shù)據(jù)集的屬性集完全不重疊,從而能夠嚴格評估模塊在超出觀測數(shù)據(jù)之外的泛化能力。
在本實驗中,我們觀察到,當(dāng)公式10中的值向量 v 為隨機向量(RVs)時,我們的感知前端在識別未見屬性值組合時存在困難。我們將這一問題歸因于RVs的正交性,這阻礙了模型識別鄰近概念的能力。為了解決這一問題,我們將RVs替換為基于高斯核的分數(shù)次冪編碼(FPE)向量,從而引入向量之間的漸進相似性[18],[19]。如表VIII所示,當(dāng)使用具有漸進相似性的FPE向量(NVs)時,我們的模型相比NVSA[12]在未見屬性組合上表現(xiàn)出更好的泛化能力。然而,類型-大小組合的準確率仍然較低,可能是因為類型相鄰屬性值(例如三角形和正方形)之間沒有明確的連續(xù)漸進關(guān)系。



D. 使用屬性標簽的推理結(jié)果
我們分析了我們的模型在I-RAVEN數(shù)據(jù)集上的推理后端的性能。遵循以往工作[14],[31]中關(guān)于完美感知的假設(shè),我們也利用I-RAVEN數(shù)據(jù)集提供的真實屬性標簽來生成高維屬性表示。模型使用推理損失函數(shù)(公式27)進行訓(xùn)練,相應(yīng)的評估結(jié)果如表X所示。我們將我們的模型與基于LLM的GPT-3[41]、深度神經(jīng)網(wǎng)絡(luò)SCL[28]、基于神經(jīng)符號的方法PrAE[10]和NVSA[12]、基于VSA的方法LearnVRF[31]和ARLC[14]進行了比較。GPT-3的性能在[31]中有所報告。我們的方法實現(xiàn)了99.2%的準確率,比之前的最佳模型ARLC提高了6.8%。值得注意的是,我們的方法在涉及位置屬性規(guī)則的2x2網(wǎng)格(+14.9%)、3x3網(wǎng)格(+17.7%)和內(nèi)外網(wǎng)格(+9.4%)配置中顯著優(yōu)于之前的VSA方法ARLC。這一改進表明,位置的循環(huán)和邏輯高維表示及其對應(yīng)的關(guān)系函數(shù)有效地處理了位置的算術(shù)和漸進規(guī)則的推理。

我們還按照[31]中描述的實驗設(shè)置評估了我們推理后端的分布外(OOD)泛化能力。在此評估中,特定屬性(例如類型)的特定規(guī)則(例如恒定)被指定為目標規(guī)則。模型使用排除目標規(guī)則的樣本進行訓(xùn)練和驗證,然后在僅包含目標規(guī)則的樣本上進行測試。此實驗在中心配置上進行,而訓(xùn)練、驗證和測試集是從I-RAVEN數(shù)據(jù)集中篩選出來的。相應(yīng)的評估結(jié)果如表XI所示。對于類型和大小屬性,我們的模型與Learn-VRF[31]和ARLC[14]一樣,展現(xiàn)出近乎完美的對未見屬性規(guī)則的泛化能力。這種能力源于使用統(tǒng)一的高維向量來表示不同屬性的值,從而促進屬性之間的規(guī)則遷移。然而,我們的模型在顏色屬性上的表現(xiàn)相對有限。這可能是因為顏色屬性具有更廣泛的值范圍,使得從值范圍較窄的屬性(例如類型0-4和大小0-5)學(xué)到的規(guī)則難以遷移到顏色(0-9)屬性。

VI. CONCLUSION AND FUTURE DIRECTIONS
與其它神經(jīng)符號方法一致,我們在訓(xùn)練中也引入了輔助規(guī)則標簽。這是因為,在沒有精確規(guī)則驅(qū)動的指導(dǎo)下,模型難以學(xué)習(xí)到屬性的有意義的結(jié)構(gòu)化高維表示(SHDR)。我們注意到,槽注意力(slot attention)[42]能夠?qū)崿F(xiàn)無監(jiān)督的場景分解,而VQ-VAE[43]則學(xué)習(xí)離散的潛在表示,從原始圖像中解耦不同的概念(即RPM中的屬性)。因此,我們建議在未來的研究中使用可學(xué)習(xí)的前端代碼本,并結(jié)合槽注意力,以實現(xiàn)從原始圖像中無監(jiān)督地提取SHDR。
Rel-SAR的推理后端基于多樣化的高維屬性表示和關(guān)系函數(shù)實現(xiàn)系統(tǒng)化的演繹推理。我們的模型在涉及位置屬性規(guī)則的配置中表現(xiàn)出顯著的改進,這證明了位置屬性的循環(huán)和邏輯表示的有效性。然而,Rel-SAR的推理后端展現(xiàn)出有限的分布外(OOD)泛化能力。這種局限性可能源于規(guī)則學(xué)習(xí)器——一個多層全連接神經(jīng)網(wǎng)絡(luò),它缺乏泛化到OOD屬性值的能力。越來越多的最新工作強調(diào)基于感知輸入之間的關(guān)系進行推理,而不是基于單個輸入的特征[32]–[34]。這一趨勢被“關(guān)系瓶頸”原則[35]所概括,該原則旨在減輕屬性值的絕對大小對關(guān)系推理的影響。然而,關(guān)系瓶頸可能在處理更復(fù)雜的關(guān)系時遇到困難。未來的研究可以專注于將關(guān)系瓶頸與VSA代數(shù)結(jié)合起來,以處理復(fù)雜的關(guān)系,同時保持強大的分布外泛化能力。

原文鏈接:https://arxiv.org/pdf/2501.11896
熱門跟貼