https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full

An encoding framework for binarized images using hyperdimensional computing

一種基于超維計算的二值化圖像編碼框架

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

引言:超維計算(HDC)是一種受大腦啟發(fā)且輕量級的機器學(xué)習(xí)方法。由于其在可穿戴物聯(lián)網(wǎng)、近傳感器人工智能應(yīng)用和設(shè)備端處理中的潛在適用性,HDC在文獻中受到了廣泛關(guān)注。與傳統(tǒng)深度學(xué)習(xí)算法相比,HDC計算復(fù)雜度更低,通常能夠達到中等到較好的分類性能。決定HDC性能的一個關(guān)鍵方面是將輸入數(shù)據(jù)編碼到超維(HD)空間。

方法:本文提出了一種新穎的輕量級方法,僅依賴于原生的超維算術(shù)向量操作來編碼二值化圖像,通過興趣點選擇和局部線性映射,保留了鄰近位置模式的相似性。

結(jié)果:該方法在MNIST數(shù)據(jù)集的測試集上達到了97.92%的準確率,在Fashion-MNIST數(shù)據(jù)集上達到了84.62%的準確率。

討論:這些結(jié)果優(yōu)于使用不同編碼方法的原生HDC的其他研究,并與更復(fù)雜的混合HDC模型和輕量級二值化神經(jīng)網(wǎng)絡(luò)相當(dāng)。所提出的編碼方法還顯示出比基線編碼更高的抗噪聲和抗模糊能力。

關(guān)鍵詞:超維計算、向量符號架構(gòu)、圖像編碼、圖像分類、手寫數(shù)字識別

1 引言

隨著可穿戴物聯(lián)網(wǎng)(IoT)、近傳感器人工智能(AI)應(yīng)用和設(shè)備端處理的興起,對節(jié)能算法的需求顯著增加。超維計算(HDC),特別是二進制超維計算,因其受大腦啟發(fā)、輕量級和節(jié)能的特性而被提出,它具有數(shù)據(jù)需求少(Rahimi等人,2019)、對噪聲魯棒(Kanerva,2009;Widdows和Cohen,2015;Rahimi等人,2019)、低延遲(Rahimi等人,2019)和快速處理(Rahimi等人,2019)等優(yōu)勢。HDC將輸入數(shù)據(jù)映射到超維(HD)空間,在該空間中,信息分布在數(shù)千個向量元素中,這受到人腦中大量存儲信息的神經(jīng)元的啟發(fā)。由于HDC使用簡單的超維算術(shù)運算,因此其計算復(fù)雜度低于傳統(tǒng)的深度學(xué)習(xí)(DL)。HDC已經(jīng)在許多應(yīng)用中得到使用,例如語音識別(Imani等人,2017)、人類活動識別(Kim等人,2018)、手勢識別(Rahimi等人,2016a;Moin等人,2021;Zhou等人,2021)、文本分類(Rachkovskij,2007)、醫(yī)學(xué)圖像分類(Kleyko等人,2017a;Watkinson等人,2021)、字符識別(Manabat等人,2019)、機器人技術(shù)(Neubert等人,2019)和時間序列分類(Schlegel等人,2022)。

決定超維計算(HDC)性能的一個關(guān)鍵方面是將輸入數(shù)據(jù)編碼到超維(HD)空間,這在很大程度上取決于輸入數(shù)據(jù)的類型。迄今為止,研究已經(jīng)清晰地定義了如何使用超維算術(shù)運算以簡單的方式對文本數(shù)據(jù)(Rahimi等人,2016b)、數(shù)值數(shù)據(jù)(Imani等人,2017;Kim等人,2018)和時間序列數(shù)據(jù)(Rahimi等人,2016a)進行編碼。然而,文獻中仍然缺乏一個統(tǒng)一的框架來編碼(二值化)圖像。因此,本文旨在提出一種新穎的輕量級超維方法,僅依賴于原生的超維算術(shù)向量操作來編碼二值化圖像。在這方面,本文提出了以下創(chuàng)新點:

1. 引入局部線性映射作為一種新的數(shù)值數(shù)據(jù)映射方法,其中鄰近的數(shù)值由相似的超維向量表示,而所有其他值由正交的超維向量表示。特別是,我們展示了其在二維圖像位置編碼中的應(yīng)用;

2. 定義了一個參數(shù)化的框架,用于將二值化圖像編碼為超維向量,該框架使用興趣點(POI)選擇作為一種局部特征提取方法,并統(tǒng)一了現(xiàn)有的圖像原生超維編碼方法;

3. 將所提出的框架應(yīng)用于基準數(shù)據(jù)集,在MNIST上達到了97.92%的分類準確率,在Fashion-MNIST上達到了84.62%的準確率。

本文的結(jié)構(gòu)如下:首先簡要介紹用于分類的超維計算模型。隨后,定義了數(shù)值數(shù)據(jù)的局部線性映射,并展示了其在二維位置編碼中的應(yīng)用。接著是文獻中關(guān)于二值化圖像編碼方法的概述,介紹我們提出的參數(shù)化統(tǒng)一框架,以及對所提出的編碼框架進行測試的實驗描述。第3節(jié)呈現(xiàn)結(jié)果,第4節(jié)進行討論。最后,最后一節(jié)將總結(jié)本文的結(jié)論。

2 材料與方法

2.1 超維計算

超維計算(HDC)是一個使用超維向量(即維度非常高,通??蛇_一萬,也稱為超向量,HVs)和簡單超維算術(shù)向量操作來表示數(shù)據(jù)的數(shù)學(xué)框架。本文關(guān)注的是維度為10,000的密集二進制超向量(即元素為0或1,且兩個值出現(xiàn)的概率相等)(Kanerva, 2009; Kleyko等人, 2018)。數(shù)據(jù)的分析依賴于超向量之間的相似性,通過計算兩個二進制超向量 之間的歸一化漢明距離來實現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

圖1給出了超維計算(HDC)框架的示意圖,其中可以區(qū)分出兩個主要構(gòu)建模塊:編碼器和分類器。編碼器負責(zé)將輸入映射到超向量(HV)。通常,它將每個輸入值映射到一個原子超向量,該超向量存儲在(連續(xù)的)項目存儲器((C)IM)中。這一過程被稱為映射,將在第2.2節(jié)中解釋。然后,使用超維向量操作將不同的原子超向量組合起來,為每個輸入獲得一個樣本超向量。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

最后,樣本捆綁(公式7)通過多數(shù)規(guī)則(公式3)二值化為超向量s = [S] 。

作為第二個主要構(gòu)建模塊,分類器有兩種工作模式:(1)在訓(xùn)練期間,使用樣本超向量及其對應(yīng)的類別標(biāo)簽,首先將屬于同一類別的所有樣本超向量捆綁在一起,然后通過使用未分類的樣本來更新這些類別捆綁,以生成類別原型;(2)在推理期間,將樣本超向量與每個類別原型進行比較,并通過選擇相似度最高的類別來預(yù)測對應(yīng)的類別標(biāo)簽(公式1、2)。訓(xùn)練方法存在不同的變體,感興趣的讀者可以參考我們之前的工作(Smets等人,2023)或補充材料。

由于編碼器是系統(tǒng)的關(guān)鍵部分,而文獻中仍然缺乏一個統(tǒng)一的框架來編碼(二值化)圖像,因此我們提出了一個新穎的編碼框架(第2.3.2節(jié))。

2.2 數(shù)據(jù)映射技術(shù)

2.2.1 正交映射

正交映射為數(shù)據(jù)中出現(xiàn)的每個可能值分配一個隨機選擇的原子超向量(HV)。由于高維度的特性,這些隨機超向量是偽正交的,隨著維度的增加,它們會趨近于完全正交(Kleyko等人,2022)。這種類型的映射適用于名義數(shù)據(jù),其中每個值與其他值相互獨立。

2.2.2 線性映射

在處理序數(shù)或離散數(shù)據(jù)時,存在一種自然的層次或值的順序,使得相鄰的層次應(yīng)該被映射到比距離較遠的層次更相似的超向量上,因此對于這種類型的數(shù)據(jù),更傾向于使用保持相似性的超向量。因此,應(yīng)用了將層次線性映射到原子超向量的方法(Rahimi等人,2016a;Kleyko等人,2018)。具體來說,最低層次被分配一個隨機原子超向量,隨后每個層次的原子超向量是通過翻轉(zhuǎn)前一層次原子超向量中的 個比特位獲得的,其中 L 是層次的數(shù)量(不翻轉(zhuǎn)之前已經(jīng)翻轉(zhuǎn)過的比特位)。同樣,連續(xù)數(shù)據(jù)在被量化為預(yù)定義數(shù)量的離散層次后,也可以通過線性映射轉(zhuǎn)換為超向量。

例如,圖3展示了線性映射在一個具有從 -100 到 100 的離散值(步長為10,共21個層次)的特征上的應(yīng)用。它顯示了值與最低層次(特征值 = -100)的相似性,這種相似性線性下降直至正交(相似性 = 0.5),以及值與特征值等于 -30 的相似性,這種相似性對于更小和更大的特征值呈線性下降。

打開網(wǎng)易新聞 查看精彩圖片

2.2.3 局部線性映射

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

2.3 二值化圖像的編碼技術(shù)

2.3.1 相關(guān)工作

文獻中已經(jīng)提出了多種使用HDC對二值化圖像進行編碼的方法,可以分為兩大類:(1)原生HDC,即從原始像素到輸出的端到端使用原生超維向量操作;(2)混合HDC,即結(jié)合外部特征提取方法與HDC使用。表1概述了不同的編碼方法,將在以下部分中討論。

打開網(wǎng)易新聞 查看精彩圖片

2.3.1.1 原生HDC

打開網(wǎng)易新聞 查看精彩圖片

原生HDC編碼方法可以根據(jù)是否在編碼位置時保留鄰近位置之間的相似性(即線性映射)進一步分為兩類,或者不保留(即正交映射)。

打開網(wǎng)易新聞 查看精彩圖片

2.3.1.1.1 正交映射的位置向量

打開網(wǎng)易新聞 查看精彩圖片

到目前為止提到的編碼方法通過置換的性質(zhì)(置換后的超向量與其原始超向量不相似)以及正交位置超向量,將鄰近位置的相似像素表示為不相似的超向量。因此,這些編碼方法沒有保留相似性,而這對于解決圖像分類任務(wù)可能是至關(guān)重要的。

2.3.1.1.2 線性映射的位置向量

Kussul等人(1992)、Gallant和Culliton(2016)以及Weiss等人(2016)應(yīng)用線性映射,使得鄰近的 x 和 y 位置由相似的超向量(HVs)表示。然后,使用第2.3.1.1.1節(jié)(b)中提到的綁定操作對二維圖像進行編碼。

打開網(wǎng)易新聞 查看精彩圖片

2.3.2 提出的統(tǒng)一框架

圖6展示了對二值化圖像進行編碼的所提方法的概述,該方法可以分為四個步驟:(1)二值化,(2)興趣點(POI)選擇以及圍繞POI創(chuàng)建圖像塊,(3)圖像塊向量編碼,以及(4)圖像向量編碼。

打開網(wǎng)易新聞 查看精彩圖片

2.3.2.1 二值化

作為第一步,使用預(yù)定義的二值化閾值 對輸入圖像 I 的像素值進行二值化:

打開網(wǎng)易新聞 查看精彩圖片

2.3.2.2 興趣點選擇及圍繞興趣點的塊創(chuàng)建

興趣點(POIs)被選為像素值為 Ibin[x, y] = 1 的像素。此后,圍繞每個興趣點繪制一個預(yù)定義尺寸 z 的正方形塊 P(在圖 6 中,z = 3)。

2.3.2.3 塊向量編碼

塊中的每個像素被編碼為三個向量的綁定:表示其二進制值 P[x, y] 的 HV(存儲在 IM 中,值為 0 的一個隨機向量和值為 1 的另一個隨機向量)、對應(yīng)于塊中 x 位置的 HV 和對應(yīng)于塊中 y 位置的 HV。x 和 y 位置的 HV 分別存儲在兩個單獨的 CIM 中(CIMx,z 和 CIMy,z),這兩個 CIM 中都包含 z 個向量,并且通過正交映射進行映射。然后,通過將所有像素向量打包,并使用多數(shù)規(guī)則(公式 3)對得到的打包結(jié)果進行二值化,得到位置為 (x, y) 的興趣點的塊向量:

打開網(wǎng)易新聞 查看精彩圖片

對于所有 。圍繞興趣點的塊向量編碼可以被視為提取圖像的局部特征,類似于 Kussul 和 Baidyk(2004)、Kussul 等人(2006)以及 Curtidor 等人(2021)的研究,但在這里,僅使用了原生的高維(HD)算術(shù)運算,而不是依賴于基于神經(jīng)網(wǎng)絡(luò)的特征提取器。

2.3.2.4 圖像向量編碼

在通過公式 9 獲得所有興趣點(POIs)的塊向量之后,每個塊向量會與表示相應(yīng)興趣點在原始圖像 I 中的 x 和 y 位置的 HV(存儲在中)進行綁定,以捕獲提取到的局部特征的全局位置信息。將所有這些與興趣點位置綁定的塊向量進行二值化捆綁,得到圖像向量:

打開網(wǎng)易新聞 查看精彩圖片

采用我們提出的局部線性映射(第 2.2.3 節(jié))進行映射,而不是原始的線性映射,以捕捉位置上的小依賴性,同時忽略大的依賴性。

2.4 實驗

上述提出的對二值化圖像進行編碼的方法在兩個已知的、公開可用的數(shù)據(jù)集上進行了測試:(1) MNIST 數(shù)據(jù)集(LeCun 等人,1998),其中包含 70,000 張 28×28 的灰度圖像,涵蓋了 10 種不同的手寫數(shù)字;(2) Fashion-MNIST 數(shù)據(jù)集(Xiao 等人,2017),包含 10 個類別中的每個類別 7,000 張 28×28 的灰度圖像,即總共 70,000 張圖像。這兩個數(shù)據(jù)集都被劃分為一個包含 60,000 張圖像的訓(xùn)練集(每個類別 6,000 張)和一個包含 10,000 張圖像的測試集(每個類別 1,000 張)。像素值的范圍為 0 到 255。

2.4.1 局部線性映射

首先,使用像素級編碼對整幅圖像進行編碼,而不使用興趣點(POI)編碼,以此來測試局部線性映射的概念。因此,圖像被編碼為:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

2.4.2 提出的統(tǒng)一框架

打開網(wǎng)易新聞 查看精彩圖片

2.4.3 超參數(shù)選擇

使用10折交叉驗證(CV)在訓(xùn)練集上測試不同設(shè)置的組合。這意味著60,000張訓(xùn)練圖像被分成十部分。算法在54,000張圖像上進行訓(xùn)練,并在剩余的6,000張圖像上進行驗證,這一過程重復(fù)十次,每次選擇不同的6,000張驗證圖像。訓(xùn)練過程以迭代方式進行,最多進行1,000次迭代,同時保存準確率最高的分類器。每經(jīng)過100次迭代,我們評估最佳訓(xùn)練準確率是否超過99%的準確率。如果達到這種情況,訓(xùn)練過程將終止,并使用準確率最高的分類器對驗證集進行評估。對于每種超參數(shù)設(shè)置組合,HDC分類器的性能以10折交叉驗證的十次驗證準確率的平均值來報告。

2.4.4 測試集上的評估

對于 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集,選擇平均驗證準確率最高的超參數(shù)設(shè)置組合。使用這些設(shè)置對整個訓(xùn)練集(即所有 60,000 張圖像)進行分類器的訓(xùn)練。與交叉驗證實驗(第 2.4.3 節(jié))不同,對于 MNIST 數(shù)據(jù)集,訓(xùn)練過程僅在最佳訓(xùn)練準確率超過 99.9% 時終止;而對于 Fashion-MNIST 數(shù)據(jù)集,訓(xùn)練過程中的最大迭代次數(shù)增加到 2,000 次迭代。之后,將訓(xùn)練好的分類器在 10,000 張測試圖像上進行測試。這一過程重復(fù)進行十次獨立運行,并計算平均測試準確率。

2.4.5 魯棒性分析

為了測試所提出的編碼方法對噪聲和模糊的魯棒性,使用了由 Mu 和 Gilmer(2019)提出的 MNIST-C 數(shù)據(jù)集,該數(shù)據(jù)集被用作計算機視覺的魯棒性基準。該數(shù)據(jù)集包括原始 MNIST 數(shù)據(jù)集(LeCun 等人,1998)的 60,000 張訓(xùn)練圖像和 10,000 張測試圖像,并對其應(yīng)用了多種不同的干擾,包括散粒噪聲、脈沖噪聲、玻璃模糊、運動模糊和飛濺,這些干擾在本文中特別用于測試噪聲和模糊的魯棒性。使用提出的編碼方法的 HDC 模型在原始的 60,000 張訓(xùn)練圖像上進行訓(xùn)練(即沒有干擾),分別使用基線超參數(shù)設(shè)置 S = 1 且不選擇興趣點,公式 10)和通過 10 折交叉驗證(第 2.4.3 節(jié),公式 11)得到的最佳驗證準確率的設(shè)置。然后將這兩個訓(xùn)練好的 HDC 分類器分別在五個選定的 10,000 張受干擾的測試集上進行測試,并計算十次獨立運行的平均測試準確率。

3 結(jié)果

3.1 局部線性映射

使用像素級編碼(公式10)測試局部線性映射中分割數(shù)量的影響的實驗結(jié)果以淺藍色顯示在圖7中(見補充材料表S2)。該圖展示了在MNIST和Fashion-MNIST數(shù)據(jù)集上,10折交叉驗證的十次驗證準確率的平均值。如前所述,分割數(shù)量等于1(S=1)被視為我們的基線,因為這種設(shè)置既不使用局部線性映射,也不使用興趣點(POI)編碼。因此,基線的平均驗證準確率對于MNIST為60.78%,對于Fashion-MNIST為62.65%。

當(dāng)將局部線性映射中使用的分割數(shù)量從1增加到9時,性能有所提升。對于MNIST,當(dāng)(S=9)時,驗證準確率最高,達到93.21%,相比基線提升了32.43%;對于Fashion-MNIST,當(dāng)(S=28)時,驗證準確率最高,達到80.98%,相比基線提升了18.33%。在MNIST的情況下,使用正交映射(S=28)的分類器達到了略低于最高準確率的準確率,而這種設(shè)置對于Fashion-MNIST則產(chǎn)生了最高的準確率。

3.2 提出的統(tǒng)一框架

圖7還展示了我們提出的編碼方法(公式11,見補充材料表S3)中兩個超參數(shù)(即局部線性映射中的分割數(shù)量 S 和興趣點(POI)編碼中的塊大小 z 的影響結(jié)果。該圖再次包括了在MNIST和Fashion-MNIST數(shù)據(jù)集上10折交叉驗證的十次驗證準確率的平均值。

打開網(wǎng)易新聞 查看精彩圖片

與前一節(jié)類似,隨著局部線性映射中使用的分割數(shù)量 S 的增加,驗證準確率呈現(xiàn)出明顯的上升趨勢,直至 S = 9 ,隨后在 S = 28 時略有下降。隨著塊大小 z 的增加,性能也有所提升。有趣的是,對于較大的塊大小 z ,分割數(shù)量 S 對性能的影響似乎有所減弱。

對于MNIST,當(dāng) ( S = 4 ) 和 ( z = 7 ) 時,驗證準確率最高,達到97.56%;對于Fashion-MNIST,當(dāng) ( S = 8 ) 和 ( z = 7 ) 時,驗證準確率最高,達到85.28%。與基線準確率( S = 1) 和像素級編碼,見圖7)相比,MNIST的性能提升了36.78%,F(xiàn)ashion-MNIST的性能提升了22.63%。在下一節(jié)中,將使用這兩個超參數(shù)的最佳設(shè)置來測試HDC分類器在測試集上的表現(xiàn)。

3.3 測試集上的評估

表2展示了在前一節(jié)(第3.2節(jié))中獲得最佳驗證準確率的超參數(shù)設(shè)置下得到的結(jié)果。該表列出了在完整訓(xùn)練集上的準確率、在未見過的測試集上的準確率以及獲得最佳訓(xùn)練準確率所需的迭代次數(shù),這些數(shù)據(jù)是基于十次獨立運行的平均值。在MNIST的測試集上達到了97.92%的平均準確率。對于Fashion-MNIST數(shù)據(jù)集,獲得了84.62%的平均測試準確率。

打開網(wǎng)易新聞 查看精彩圖片

3.4 魯棒性分析

圖8展示了在對噪聲和模糊的魯棒性分析中獲得的結(jié)果。該圖顯示了在原始數(shù)據(jù)(即無干擾,圖中的紅色線)和五個選定的受干擾測試集上的準確率,這些數(shù)據(jù)是基于MNIST-C數(shù)據(jù)集的十次獨立運行的平均值,并且超參數(shù)分別設(shè)置為基線設(shè)置(S = 1)且無興趣點選擇,公式10)和通過10折交叉驗證獲得最佳驗證準確率的設(shè)置(S = 4)和(z = 7),公式11和第3.2節(jié))。更詳細的結(jié)果可以在補充材料表S4中找到??傊?,最佳超參數(shù)設(shè)置在五個受干擾的測試集上達到了73.20%的平均測試準確率,相比基線設(shè)置(平均測試準確率為33.44%),提升了39.77%。

打開網(wǎng)易新聞 查看精彩圖片

4 討論

4.1 結(jié)果分析

圖7中像素級編碼的結(jié)果表明,所提出的局部線性映射在位置編碼方面優(yōu)于線性映射。更具體地說,隨著局部線性映射中使用的分割數(shù)量增加,性能有所提升。這一有趣的發(fā)現(xiàn)表明,在圖像中更好地區(qū)分較小位置差異的重要性,而不是較大的差異。這是由于局部線性映射中的分割用正交的HV(超向量)來表示兩個相距較遠的位置,而只有接近的位置的HV才相似。相比之下,在線性映射中,無論是接近還是遠離的位置,其HV都具有一定程度的相似性。

另一個從結(jié)果中突出的發(fā)現(xiàn)是,與像素級編碼相比,對興趣點(POI)周圍的塊進行編碼時性能顯著提升,并且隨著塊大小的增加,這種提升變得更加明顯(圖7)。有幾個因素可以解釋這一現(xiàn)象。首先,通過POI編碼忽略了背景像素,從而減少了不必要的信息。其次,圍繞每個POI提取局部特征,使得每個POI的局部鄰域被納入考慮范圍。

此外,使用局部線性映射對圖像中POI的全局位置進行編碼,相比使用線性映射,性能有所提升(圖7)。這一發(fā)現(xiàn)與像素級編碼所獲得的結(jié)果一致,也可以用類似的方式解釋。

最后,魯棒性分析的結(jié)果表明,在超參數(shù)選擇之后,所提出的編碼方法比基線HDC編碼方法對噪聲和模糊具有更高的魯棒性(第4.3節(jié)和補充材料表S4)。

4.2 與最新技術(shù)的比較

4.2.1 MNIST 數(shù)據(jù)集

圖9A將我們在MNIST數(shù)據(jù)集上獲得的結(jié)果(即97.92%)與其他文獻中發(fā)現(xiàn)的研究結(jié)果進行了比較(見補充材料表S5)。

打開網(wǎng)易新聞 查看精彩圖片

我們提出的興趣點(POI)編碼與局部線性映射相結(jié)合的方法優(yōu)于所有歸類為原生HDC(分層數(shù)據(jù)編碼)的方法。

這包括了應(yīng)用排列操作對展平圖像中像素位置進行編碼的方法,即Manabat等(2019)報告的準確率為79.87%,Hassan等(2022)報告的準確率為86%。我們對MNIST數(shù)據(jù)集獲得的結(jié)果(97.92%)也優(yōu)于使用綁定操作對展平圖像進行位置編碼的若干研究。具體來說,Chuang等(2020)、Chang等(2021)、Hernández-Cano等(2021)、Hsieh等(2021)、Kazemi等(2021)、Zou等(2021b)、Bosch等(2022)、Duan等(2022a,b)以及Ma和Jiao(2022)報告的基線準確率在85%到92%之間。此外,Khaleghi等(2022)提出的基于n-gram的編碼方法通過提取局部特征達到94.0%的準確率,而我們通過使用局部線性映射代替正交映射來編碼全局位置信息,超越了這一方法。

Hernández-Cano等(2021)提出的OnlineHD可以將其基線性能從91%提升到97%,但仍然低于我們獲得的準確率。在OnlineHD中,通過根據(jù)樣本與現(xiàn)有模型的相似度來更新HDC模型,從而擴展了基線HDC訓(xùn)練過程。因此,由于涉及浮點乘法,訓(xùn)練過程變得更加復(fù)雜。OnlineHD被歸類為自適應(yīng)HDC。

其他研究將HDC框架與額外的非HDC方法(混合HDC,第2.3.1.2節(jié))結(jié)合使用,例如Karvonen等(2019)使用的元胞自動機(CA),通過該方法得到的高維向量的準確率為74.06%。Zou等(2021a)先使用SNN提取低級特征,再使用HDC,達到90.5%的準確率。Duan等(2022a)和Yan等(2023)將二值神經(jīng)網(wǎng)絡(luò)(BNN)與HDC結(jié)合使用,分別達到94.74%和97.25%的準確率。Yu等(2022)使用隨機傅里葉特征(RFF)對圖像進行編碼,達到95.4%的準確率。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(NN)也與HDC結(jié)合使用,分別達到92.72%(Duan等,2022b)、94.8%(Liang等,2022)和96.71%(Ma和Jiao,2022)的準確率。Zou等(2021b)通過擴展HDC編碼框架加入流形學(xué)習(xí),報告了97.5%的準確率。我們提出的僅使用原生HD向量操作的編碼方法優(yōu)于這些混合HDC方法。盡管如此,其他混合HDC方法獲得了更好的結(jié)果。Poduval等(2021)從原始圖像中提取特征并應(yīng)用基于記錄的編碼,達到了99%的性能。Kussul和Baidyk(2004)以及Kussul等(2006)通過基于神經(jīng)網(wǎng)絡(luò)的局部特征提取,分別達到了99.2%和99.5%的更高準確率。Rachkovskij(2022)提取局部二進制模式(LBP)特征,提出了一個平移等變的保持相似性的位置編碼方案,并使用大間隔感知器進行分類,達到了98.5%的準確率,向量維度為10,000。

一些研究通過使用多位表示(即多位HDC)而不是單比特(即二進制)來增加HDC的復(fù)雜性。Imani等(2019)、Chuang等(2020)、Kazemi等(2021)、Kim等(2021)和Yu等(2022)使用具有更復(fù)雜元素的向量,分別達到了95.5%、96.6%、98%、98.09%和98.2%的準確率。只有后三種方法的準確率略高于我們,因此我們可以得出結(jié)論,我們提出的二進制、原生HDC方法,使用局部線性映射和POI編碼,與這些更復(fù)雜的多位HDC方法相比,取得了相當(dāng)?shù)慕Y(jié)果。

盡管本文旨在改進二值化圖像的原生HDC編碼,但我們將提出的編碼方法與輕量級非HDC方法進行了比較。Xiao等(2017)報告了一系列傳統(tǒng)機器學(xué)習(xí)(ML)方法的結(jié)果,包括決策樹、多層感知器和支持向量分類,準確率范圍為52.4%到97.8%,包括Kim等(2017)的AdaBoost分類器。一些研究使用二值神經(jīng)網(wǎng)絡(luò)(BNN)解決MNIST分類任務(wù),準確率范圍為95.7%到99.04%。最后,二值脈沖神經(jīng)網(wǎng)絡(luò)(SNN)達到了97.0%到98.6%的準確率。總之,我們對MNIST數(shù)據(jù)集獲得的97.92%的結(jié)果優(yōu)于原生HDC方法,并且與更復(fù)雜的混合HDC或輕量級非HDC方法相當(dāng)。

對于Fashion-MNIST數(shù)據(jù)集的研究相對MNIST數(shù)據(jù)集較少。Duan等(2022a,b)報告了原生HDC方法的準確率為79.24%和80.26%。使用混合HDC方法,Yu等(2022)通過隨機傅里葉特征(RFF)達到84.0%的準確率,并在高維向量(HV)中使用更復(fù)雜的元素后達到87.4%。Duan等(2022a,b)通過將HDC模型映射到等效的(二值)神經(jīng)網(wǎng)絡(luò),進一步提升了準確率,分別達到85.47%和87.11%??傮w來看,我們提出的HDC方法優(yōu)于原生HDC方法,但在準確率上略低于混合和多位HDC方法。

與MNIST數(shù)據(jù)集類似,我們也將Fashion-MNIST數(shù)據(jù)集的結(jié)果與輕量級非HDC方法進行了比較。Xiao等(2017)報告了多種傳統(tǒng)機器學(xué)習(xí)(ML)方法的準確率范圍為51.1%到89.7%。二值脈沖神經(jīng)網(wǎng)絡(luò)(SNN)的性能范圍為87.3%到92.0%。雖然我們未能超越二值SNN,但我們在Fashion-MNIST上獲得的84.62%的準確率與傳統(tǒng)ML方法相當(dāng)。

4.3 魯棒性分析

在通過10折交叉驗證選擇出最佳驗證準確率的超參數(shù)后,與基線編碼方法相比,所提出的編碼方法對受到噪聲和模糊干擾的圖像表現(xiàn)出更高的魯棒性(補充材料表S4)。尤其是在受到散粒噪聲(shot noise)和脈沖噪聲(impulse noise)干擾的情況下,平均測試準確率與在未受干擾圖像上達到的平均測試準確率相當(dāng)接近。對于飛濺(spatter)干擾,平均測試準確率略有下降,但所提出的方法仍然能夠準確識別大約81.22%的測試圖像。對于玻璃模糊(glass blur)和運動模糊(motion blur)干擾,平均測試準確率下降最為明顯,其中所提出的方法分別能夠正確分類57.63%和39.81%的圖像。即便如此,與基線HDC編碼方法相比,這仍然是一個顯著的提升,分別提高了38.42%(玻璃模糊)和28.32%(運動模糊)。因此,我們可以得出結(jié)論,經(jīng)過超參數(shù)選擇后,采用我們所提出的編碼方法的HDC分類器對噪聲和模糊表現(xiàn)出很高的魯棒性,在五種不同受干擾測試集上的平均準確率為73.20%。

4.4 未來研究方向

在未來的工作中,我們計劃評估并擴展所提出的編碼方法,以應(yīng)用于灰度圖像和彩色圖像,研究在HDC編碼中使用分層(多層)塊的方法,并進一步拓展局部線性映射概念以用于位置編碼。

此外,還可以分析如何使HDC框架對噪聲和干擾(如玻璃模糊和運動模糊)具有更強的魯棒性。

5 結(jié)論

我們提出了一種新穎的輕量級方法,用于對二值化圖像進行編碼。該方法僅依賴于原生高維(HD)算術(shù)向量操作,而不使用外部特征提取方法,同時能夠保留圖像中鄰近位置模式的相似性。該方法通過興趣點選擇來提取圖像的局部特征,并使用局部線性映射對這些局部特征在圖像中的位置進行編碼。通過10折交叉驗證選擇出兩個引入的超參數(shù)的最佳設(shè)置后,我們在MNIST數(shù)據(jù)集的測試集上達到了97.92%的準確率,在Fashion-MNIST數(shù)據(jù)集上達到了84.62%的準確率。這些結(jié)果優(yōu)于使用不同編碼方法的原生HDC(分層數(shù)據(jù)編碼)的其他研究,并與更復(fù)雜的混合HDC模型和輕量級二值化神經(jīng)網(wǎng)絡(luò)相當(dāng)。此外,所提出的編碼方法還表現(xiàn)出比基線編碼更高的對噪聲和模糊的魯棒性。

原文鏈接:https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full