https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full
An encoding framework for binarized images using hyperdimensional computing
一種基于超維計(jì)算的二值化圖像編碼框架


引言:超維計(jì)算(HDC)是一種受大腦啟發(fā)且輕量級(jí)的機(jī)器學(xué)習(xí)方法。由于其在可穿戴物聯(lián)網(wǎng)、近傳感器人工智能應(yīng)用和設(shè)備端處理中的潛在適用性,HDC在文獻(xiàn)中受到了廣泛關(guān)注。與傳統(tǒng)深度學(xué)習(xí)算法相比,HDC計(jì)算復(fù)雜度更低,通常能夠達(dá)到中等到較好的分類性能。決定HDC性能的一個(gè)關(guān)鍵方面是將輸入數(shù)據(jù)編碼到超維(HD)空間。
方法:本文提出了一種新穎的輕量級(jí)方法,僅依賴于原生的超維算術(shù)向量操作來編碼二值化圖像,通過興趣點(diǎn)選擇和局部線性映射,保留了鄰近位置模式的相似性。
結(jié)果:該方法在MNIST數(shù)據(jù)集的測試集上達(dá)到了97.92%的準(zhǔn)確率,在Fashion-MNIST數(shù)據(jù)集上達(dá)到了84.62%的準(zhǔn)確率。
討論:這些結(jié)果優(yōu)于使用不同編碼方法的原生HDC的其他研究,并與更復(fù)雜的混合HDC模型和輕量級(jí)二值化神經(jīng)網(wǎng)絡(luò)相當(dāng)。所提出的編碼方法還顯示出比基線編碼更高的抗噪聲和抗模糊能力。
關(guān)鍵詞:超維計(jì)算、向量符號(hào)架構(gòu)、圖像編碼、圖像分類、手寫數(shù)字識(shí)別
1 引言
隨著可穿戴物聯(lián)網(wǎng)(IoT)、近傳感器人工智能(AI)應(yīng)用和設(shè)備端處理的興起,對(duì)節(jié)能算法的需求顯著增加。超維計(jì)算(HDC),特別是二進(jìn)制超維計(jì)算,因其受大腦啟發(fā)、輕量級(jí)和節(jié)能的特性而被提出,它具有數(shù)據(jù)需求少(Rahimi等人,2019)、對(duì)噪聲魯棒(Kanerva,2009;Widdows和Cohen,2015;Rahimi等人,2019)、低延遲(Rahimi等人,2019)和快速處理(Rahimi等人,2019)等優(yōu)勢。HDC將輸入數(shù)據(jù)映射到超維(HD)空間,在該空間中,信息分布在數(shù)千個(gè)向量元素中,這受到人腦中大量存儲(chǔ)信息的神經(jīng)元的啟發(fā)。由于HDC使用簡單的超維算術(shù)運(yùn)算,因此其計(jì)算復(fù)雜度低于傳統(tǒng)的深度學(xué)習(xí)(DL)。HDC已經(jīng)在許多應(yīng)用中得到使用,例如語音識(shí)別(Imani等人,2017)、人類活動(dòng)識(shí)別(Kim等人,2018)、手勢識(shí)別(Rahimi等人,2016a;Moin等人,2021;Zhou等人,2021)、文本分類(Rachkovskij,2007)、醫(yī)學(xué)圖像分類(Kleyko等人,2017a;Watkinson等人,2021)、字符識(shí)別(Manabat等人,2019)、機(jī)器人技術(shù)(Neubert等人,2019)和時(shí)間序列分類(Schlegel等人,2022)。
決定超維計(jì)算(HDC)性能的一個(gè)關(guān)鍵方面是將輸入數(shù)據(jù)編碼到超維(HD)空間,這在很大程度上取決于輸入數(shù)據(jù)的類型。迄今為止,研究已經(jīng)清晰地定義了如何使用超維算術(shù)運(yùn)算以簡單的方式對(duì)文本數(shù)據(jù)(Rahimi等人,2016b)、數(shù)值數(shù)據(jù)(Imani等人,2017;Kim等人,2018)和時(shí)間序列數(shù)據(jù)(Rahimi等人,2016a)進(jìn)行編碼。然而,文獻(xiàn)中仍然缺乏一個(gè)統(tǒng)一的框架來編碼(二值化)圖像。因此,本文旨在提出一種新穎的輕量級(jí)超維方法,僅依賴于原生的超維算術(shù)向量操作來編碼二值化圖像。在這方面,本文提出了以下創(chuàng)新點(diǎn):
1. 引入局部線性映射作為一種新的數(shù)值數(shù)據(jù)映射方法,其中鄰近的數(shù)值由相似的超維向量表示,而所有其他值由正交的超維向量表示。特別是,我們展示了其在二維圖像位置編碼中的應(yīng)用;
2. 定義了一個(gè)參數(shù)化的框架,用于將二值化圖像編碼為超維向量,該框架使用興趣點(diǎn)(POI)選擇作為一種局部特征提取方法,并統(tǒng)一了現(xiàn)有的圖像原生超維編碼方法;
3. 將所提出的框架應(yīng)用于基準(zhǔn)數(shù)據(jù)集,在MNIST上達(dá)到了97.92%的分類準(zhǔn)確率,在Fashion-MNIST上達(dá)到了84.62%的準(zhǔn)確率。
本文的結(jié)構(gòu)如下:首先簡要介紹用于分類的超維計(jì)算模型。隨后,定義了數(shù)值數(shù)據(jù)的局部線性映射,并展示了其在二維位置編碼中的應(yīng)用。接著是文獻(xiàn)中關(guān)于二值化圖像編碼方法的概述,介紹我們提出的參數(shù)化統(tǒng)一框架,以及對(duì)所提出的編碼框架進(jìn)行測試的實(shí)驗(yàn)描述。第3節(jié)呈現(xiàn)結(jié)果,第4節(jié)進(jìn)行討論。最后,最后一節(jié)將總結(jié)本文的結(jié)論。
2 材料與方法
2.1 超維計(jì)算
超維計(jì)算(HDC)是一個(gè)使用超維向量(即維度非常高,通常可達(dá)一萬,也稱為超向量,HVs)和簡單超維算術(shù)向量操作來表示數(shù)據(jù)的數(shù)學(xué)框架。本文關(guān)注的是維度為10,000的密集二進(jìn)制超向量(即元素為0或1,且兩個(gè)值出現(xiàn)的概率相等)(Kanerva, 2009; Kleyko等人, 2018)。數(shù)據(jù)的分析依賴于超向量之間的相似性,通過計(jì)算兩個(gè)二進(jìn)制超向量 之間的歸一化漢明距離來實(shí)現(xiàn)。


圖1給出了超維計(jì)算(HDC)框架的示意圖,其中可以區(qū)分出兩個(gè)主要構(gòu)建模塊:編碼器和分類器。編碼器負(fù)責(zé)將輸入映射到超向量(HV)。通常,它將每個(gè)輸入值映射到一個(gè)原子超向量,該超向量存儲(chǔ)在(連續(xù)的)項(xiàng)目存儲(chǔ)器((C)IM)中。這一過程被稱為映射,將在第2.2節(jié)中解釋。然后,使用超維向量操作將不同的原子超向量組合起來,為每個(gè)輸入獲得一個(gè)樣本超向量。




最后,樣本捆綁(公式7)通過多數(shù)規(guī)則(公式3)二值化為超向量s = [S] 。
作為第二個(gè)主要構(gòu)建模塊,分類器有兩種工作模式:(1)在訓(xùn)練期間,使用樣本超向量及其對(duì)應(yīng)的類別標(biāo)簽,首先將屬于同一類別的所有樣本超向量捆綁在一起,然后通過使用未分類的樣本來更新這些類別捆綁,以生成類別原型;(2)在推理期間,將樣本超向量與每個(gè)類別原型進(jìn)行比較,并通過選擇相似度最高的類別來預(yù)測對(duì)應(yīng)的類別標(biāo)簽(公式1、2)。訓(xùn)練方法存在不同的變體,感興趣的讀者可以參考我們之前的工作(Smets等人,2023)或補(bǔ)充材料。
由于編碼器是系統(tǒng)的關(guān)鍵部分,而文獻(xiàn)中仍然缺乏一個(gè)統(tǒng)一的框架來編碼(二值化)圖像,因此我們提出了一個(gè)新穎的編碼框架(第2.3.2節(jié))。
2.2 數(shù)據(jù)映射技術(shù)
2.2.1 正交映射
正交映射為數(shù)據(jù)中出現(xiàn)的每個(gè)可能值分配一個(gè)隨機(jī)選擇的原子超向量(HV)。由于高維度的特性,這些隨機(jī)超向量是偽正交的,隨著維度的增加,它們會(huì)趨近于完全正交(Kleyko等人,2022)。這種類型的映射適用于名義數(shù)據(jù),其中每個(gè)值與其他值相互獨(dú)立。
2.2.2 線性映射
在處理序數(shù)或離散數(shù)據(jù)時(shí),存在一種自然的層次或值的順序,使得相鄰的層次應(yīng)該被映射到比距離較遠(yuǎn)的層次更相似的超向量上,因此對(duì)于這種類型的數(shù)據(jù),更傾向于使用保持相似性的超向量。因此,應(yīng)用了將層次線性映射到原子超向量的方法(Rahimi等人,2016a;Kleyko等人,2018)。具體來說,最低層次被分配一個(gè)隨機(jī)原子超向量,隨后每個(gè)層次的原子超向量是通過翻轉(zhuǎn)前一層次原子超向量中的 個(gè)比特位獲得的,其中 L 是層次的數(shù)量(不翻轉(zhuǎn)之前已經(jīng)翻轉(zhuǎn)過的比特位)。同樣,連續(xù)數(shù)據(jù)在被量化為預(yù)定義數(shù)量的離散層次后,也可以通過線性映射轉(zhuǎn)換為超向量。
例如,圖3展示了線性映射在一個(gè)具有從 -100 到 100 的離散值(步長為10,共21個(gè)層次)的特征上的應(yīng)用。它顯示了值與最低層次(特征值 = -100)的相似性,這種相似性線性下降直至正交(相似性 = 0.5),以及值與特征值等于 -30 的相似性,這種相似性對(duì)于更小和更大的特征值呈線性下降。

2.2.3 局部線性映射


2.3 二值化圖像的編碼技術(shù)
2.3.1 相關(guān)工作
文獻(xiàn)中已經(jīng)提出了多種使用HDC對(duì)二值化圖像進(jìn)行編碼的方法,可以分為兩大類:(1)原生HDC,即從原始像素到輸出的端到端使用原生超維向量操作;(2)混合HDC,即結(jié)合外部特征提取方法與HDC使用。表1概述了不同的編碼方法,將在以下部分中討論。

2.3.1.1 原生HDC

原生HDC編碼方法可以根據(jù)是否在編碼位置時(shí)保留鄰近位置之間的相似性(即線性映射)進(jìn)一步分為兩類,或者不保留(即正交映射)。

2.3.1.1.1 正交映射的位置向量

到目前為止提到的編碼方法通過置換的性質(zhì)(置換后的超向量與其原始超向量不相似)以及正交位置超向量,將鄰近位置的相似像素表示為不相似的超向量。因此,這些編碼方法沒有保留相似性,而這對(duì)于解決圖像分類任務(wù)可能是至關(guān)重要的。
2.3.1.1.2 線性映射的位置向量
Kussul等人(1992)、Gallant和Culliton(2016)以及Weiss等人(2016)應(yīng)用線性映射,使得鄰近的 x 和 y 位置由相似的超向量(HVs)表示。然后,使用第2.3.1.1.1節(jié)(b)中提到的綁定操作對(duì)二維圖像進(jìn)行編碼。

2.3.2 提出的統(tǒng)一框架
圖6展示了對(duì)二值化圖像進(jìn)行編碼的所提方法的概述,該方法可以分為四個(gè)步驟:(1)二值化,(2)興趣點(diǎn)(POI)選擇以及圍繞POI創(chuàng)建圖像塊,(3)圖像塊向量編碼,以及(4)圖像向量編碼。

2.3.2.1 二值化
作為第一步,使用預(yù)定義的二值化閾值 對(duì)輸入圖像 I 的像素值進(jìn)行二值化:

2.3.2.2 興趣點(diǎn)選擇及圍繞興趣點(diǎn)的塊創(chuàng)建
興趣點(diǎn)(POIs)被選為像素值為 Ibin[x, y] = 1 的像素。此后,圍繞每個(gè)興趣點(diǎn)繪制一個(gè)預(yù)定義尺寸 z 的正方形塊 P(在圖 6 中,z = 3)。
2.3.2.3 塊向量編碼
塊中的每個(gè)像素被編碼為三個(gè)向量的綁定:表示其二進(jìn)制值 P[x, y] 的 HV(存儲(chǔ)在 IM 中,值為 0 的一個(gè)隨機(jī)向量和值為 1 的另一個(gè)隨機(jī)向量)、對(duì)應(yīng)于塊中 x 位置的 HV 和對(duì)應(yīng)于塊中 y 位置的 HV。x 和 y 位置的 HV 分別存儲(chǔ)在兩個(gè)單獨(dú)的 CIM 中(CIMx,z 和 CIMy,z),這兩個(gè) CIM 中都包含 z 個(gè)向量,并且通過正交映射進(jìn)行映射。然后,通過將所有像素向量打包,并使用多數(shù)規(guī)則(公式 3)對(duì)得到的打包結(jié)果進(jìn)行二值化,得到位置為 (x, y) 的興趣點(diǎn)的塊向量:

對(duì)于所有 。圍繞興趣點(diǎn)的塊向量編碼可以被視為提取圖像的局部特征,類似于 Kussul 和 Baidyk(2004)、Kussul 等人(2006)以及 Curtidor 等人(2021)的研究,但在這里,僅使用了原生的高維(HD)算術(shù)運(yùn)算,而不是依賴于基于神經(jīng)網(wǎng)絡(luò)的特征提取器。
2.3.2.4 圖像向量編碼
在通過公式 9 獲得所有興趣點(diǎn)(POIs)的塊向量之后,每個(gè)塊向量會(huì)與表示相應(yīng)興趣點(diǎn)在原始圖像 I 中的 x 和 y 位置的 HV(存儲(chǔ)在中)進(jìn)行綁定,以捕獲提取到的局部特征的全局位置信息。將所有這些與興趣點(diǎn)位置綁定的塊向量進(jìn)行二值化捆綁,得到圖像向量:

采用我們提出的局部線性映射(第 2.2.3 節(jié))進(jìn)行映射,而不是原始的線性映射,以捕捉位置上的小依賴性,同時(shí)忽略大的依賴性。
2.4 實(shí)驗(yàn)
上述提出的對(duì)二值化圖像進(jìn)行編碼的方法在兩個(gè)已知的、公開可用的數(shù)據(jù)集上進(jìn)行了測試:(1) MNIST 數(shù)據(jù)集(LeCun 等人,1998),其中包含 70,000 張 28×28 的灰度圖像,涵蓋了 10 種不同的手寫數(shù)字;(2) Fashion-MNIST 數(shù)據(jù)集(Xiao 等人,2017),包含 10 個(gè)類別中的每個(gè)類別 7,000 張 28×28 的灰度圖像,即總共 70,000 張圖像。這兩個(gè)數(shù)據(jù)集都被劃分為一個(gè)包含 60,000 張圖像的訓(xùn)練集(每個(gè)類別 6,000 張)和一個(gè)包含 10,000 張圖像的測試集(每個(gè)類別 1,000 張)。像素值的范圍為 0 到 255。
2.4.1 局部線性映射
首先,使用像素級(jí)編碼對(duì)整幅圖像進(jìn)行編碼,而不使用興趣點(diǎn)(POI)編碼,以此來測試局部線性映射的概念。因此,圖像被編碼為:


2.4.2 提出的統(tǒng)一框架

2.4.3 超參數(shù)選擇
使用10折交叉驗(yàn)證(CV)在訓(xùn)練集上測試不同設(shè)置的組合。這意味著60,000張訓(xùn)練圖像被分成十部分。算法在54,000張圖像上進(jìn)行訓(xùn)練,并在剩余的6,000張圖像上進(jìn)行驗(yàn)證,這一過程重復(fù)十次,每次選擇不同的6,000張驗(yàn)證圖像。訓(xùn)練過程以迭代方式進(jìn)行,最多進(jìn)行1,000次迭代,同時(shí)保存準(zhǔn)確率最高的分類器。每經(jīng)過100次迭代,我們?cè)u(píng)估最佳訓(xùn)練準(zhǔn)確率是否超過99%的準(zhǔn)確率。如果達(dá)到這種情況,訓(xùn)練過程將終止,并使用準(zhǔn)確率最高的分類器對(duì)驗(yàn)證集進(jìn)行評(píng)估。對(duì)于每種超參數(shù)設(shè)置組合,HDC分類器的性能以10折交叉驗(yàn)證的十次驗(yàn)證準(zhǔn)確率的平均值來報(bào)告。
2.4.4 測試集上的評(píng)估
對(duì)于 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集,選擇平均驗(yàn)證準(zhǔn)確率最高的超參數(shù)設(shè)置組合。使用這些設(shè)置對(duì)整個(gè)訓(xùn)練集(即所有 60,000 張圖像)進(jìn)行分類器的訓(xùn)練。與交叉驗(yàn)證實(shí)驗(yàn)(第 2.4.3 節(jié))不同,對(duì)于 MNIST 數(shù)據(jù)集,訓(xùn)練過程僅在最佳訓(xùn)練準(zhǔn)確率超過 99.9% 時(shí)終止;而對(duì)于 Fashion-MNIST 數(shù)據(jù)集,訓(xùn)練過程中的最大迭代次數(shù)增加到 2,000 次迭代。之后,將訓(xùn)練好的分類器在 10,000 張測試圖像上進(jìn)行測試。這一過程重復(fù)進(jìn)行十次獨(dú)立運(yùn)行,并計(jì)算平均測試準(zhǔn)確率。
2.4.5 魯棒性分析
為了測試所提出的編碼方法對(duì)噪聲和模糊的魯棒性,使用了由 Mu 和 Gilmer(2019)提出的 MNIST-C 數(shù)據(jù)集,該數(shù)據(jù)集被用作計(jì)算機(jī)視覺的魯棒性基準(zhǔn)。該數(shù)據(jù)集包括原始 MNIST 數(shù)據(jù)集(LeCun 等人,1998)的 60,000 張訓(xùn)練圖像和 10,000 張測試圖像,并對(duì)其應(yīng)用了多種不同的干擾,包括散粒噪聲、脈沖噪聲、玻璃模糊、運(yùn)動(dòng)模糊和飛濺,這些干擾在本文中特別用于測試噪聲和模糊的魯棒性。使用提出的編碼方法的 HDC 模型在原始的 60,000 張訓(xùn)練圖像上進(jìn)行訓(xùn)練(即沒有干擾),分別使用基線超參數(shù)設(shè)置 S = 1 且不選擇興趣點(diǎn),公式 10)和通過 10 折交叉驗(yàn)證(第 2.4.3 節(jié),公式 11)得到的最佳驗(yàn)證準(zhǔn)確率的設(shè)置。然后將這兩個(gè)訓(xùn)練好的 HDC 分類器分別在五個(gè)選定的 10,000 張受干擾的測試集上進(jìn)行測試,并計(jì)算十次獨(dú)立運(yùn)行的平均測試準(zhǔn)確率。
3 結(jié)果
3.1 局部線性映射
使用像素級(jí)編碼(公式10)測試局部線性映射中分割數(shù)量的影響的實(shí)驗(yàn)結(jié)果以淺藍(lán)色顯示在圖7中(見補(bǔ)充材料表S2)。該圖展示了在MNIST和Fashion-MNIST數(shù)據(jù)集上,10折交叉驗(yàn)證的十次驗(yàn)證準(zhǔn)確率的平均值。如前所述,分割數(shù)量等于1(S=1)被視為我們的基線,因?yàn)檫@種設(shè)置既不使用局部線性映射,也不使用興趣點(diǎn)(POI)編碼。因此,基線的平均驗(yàn)證準(zhǔn)確率對(duì)于MNIST為60.78%,對(duì)于Fashion-MNIST為62.65%。
當(dāng)將局部線性映射中使用的分割數(shù)量從1增加到9時(shí),性能有所提升。對(duì)于MNIST,當(dāng)(S=9)時(shí),驗(yàn)證準(zhǔn)確率最高,達(dá)到93.21%,相比基線提升了32.43%;對(duì)于Fashion-MNIST,當(dāng)(S=28)時(shí),驗(yàn)證準(zhǔn)確率最高,達(dá)到80.98%,相比基線提升了18.33%。在MNIST的情況下,使用正交映射(S=28)的分類器達(dá)到了略低于最高準(zhǔn)確率的準(zhǔn)確率,而這種設(shè)置對(duì)于Fashion-MNIST則產(chǎn)生了最高的準(zhǔn)確率。
3.2 提出的統(tǒng)一框架
圖7還展示了我們提出的編碼方法(公式11,見補(bǔ)充材料表S3)中兩個(gè)超參數(shù)(即局部線性映射中的分割數(shù)量 S 和興趣點(diǎn)(POI)編碼中的塊大小 z 的影響結(jié)果。該圖再次包括了在MNIST和Fashion-MNIST數(shù)據(jù)集上10折交叉驗(yàn)證的十次驗(yàn)證準(zhǔn)確率的平均值。

與前一節(jié)類似,隨著局部線性映射中使用的分割數(shù)量 S 的增加,驗(yàn)證準(zhǔn)確率呈現(xiàn)出明顯的上升趨勢,直至 S = 9 ,隨后在 S = 28 時(shí)略有下降。隨著塊大小 z 的增加,性能也有所提升。有趣的是,對(duì)于較大的塊大小 z ,分割數(shù)量 S 對(duì)性能的影響似乎有所減弱。
對(duì)于MNIST,當(dāng) ( S = 4 ) 和 ( z = 7 ) 時(shí),驗(yàn)證準(zhǔn)確率最高,達(dá)到97.56%;對(duì)于Fashion-MNIST,當(dāng) ( S = 8 ) 和 ( z = 7 ) 時(shí),驗(yàn)證準(zhǔn)確率最高,達(dá)到85.28%。與基線準(zhǔn)確率( S = 1) 和像素級(jí)編碼,見圖7)相比,MNIST的性能提升了36.78%,F(xiàn)ashion-MNIST的性能提升了22.63%。在下一節(jié)中,將使用這兩個(gè)超參數(shù)的最佳設(shè)置來測試HDC分類器在測試集上的表現(xiàn)。
3.3 測試集上的評(píng)估
表2展示了在前一節(jié)(第3.2節(jié))中獲得最佳驗(yàn)證準(zhǔn)確率的超參數(shù)設(shè)置下得到的結(jié)果。該表列出了在完整訓(xùn)練集上的準(zhǔn)確率、在未見過的測試集上的準(zhǔn)確率以及獲得最佳訓(xùn)練準(zhǔn)確率所需的迭代次數(shù),這些數(shù)據(jù)是基于十次獨(dú)立運(yùn)行的平均值。在MNIST的測試集上達(dá)到了97.92%的平均準(zhǔn)確率。對(duì)于Fashion-MNIST數(shù)據(jù)集,獲得了84.62%的平均測試準(zhǔn)確率。

3.4 魯棒性分析
圖8展示了在對(duì)噪聲和模糊的魯棒性分析中獲得的結(jié)果。該圖顯示了在原始數(shù)據(jù)(即無干擾,圖中的紅色線)和五個(gè)選定的受干擾測試集上的準(zhǔn)確率,這些數(shù)據(jù)是基于MNIST-C數(shù)據(jù)集的十次獨(dú)立運(yùn)行的平均值,并且超參數(shù)分別設(shè)置為基線設(shè)置(S = 1)且無興趣點(diǎn)選擇,公式10)和通過10折交叉驗(yàn)證獲得最佳驗(yàn)證準(zhǔn)確率的設(shè)置(S = 4)和(z = 7),公式11和第3.2節(jié))。更詳細(xì)的結(jié)果可以在補(bǔ)充材料表S4中找到。總之,最佳超參數(shù)設(shè)置在五個(gè)受干擾的測試集上達(dá)到了73.20%的平均測試準(zhǔn)確率,相比基線設(shè)置(平均測試準(zhǔn)確率為33.44%),提升了39.77%。

4 討論
4.1 結(jié)果分析
圖7中像素級(jí)編碼的結(jié)果表明,所提出的局部線性映射在位置編碼方面優(yōu)于線性映射。更具體地說,隨著局部線性映射中使用的分割數(shù)量增加,性能有所提升。這一有趣的發(fā)現(xiàn)表明,在圖像中更好地區(qū)分較小位置差異的重要性,而不是較大的差異。這是由于局部線性映射中的分割用正交的HV(超向量)來表示兩個(gè)相距較遠(yuǎn)的位置,而只有接近的位置的HV才相似。相比之下,在線性映射中,無論是接近還是遠(yuǎn)離的位置,其HV都具有一定程度的相似性。
另一個(gè)從結(jié)果中突出的發(fā)現(xiàn)是,與像素級(jí)編碼相比,對(duì)興趣點(diǎn)(POI)周圍的塊進(jìn)行編碼時(shí)性能顯著提升,并且隨著塊大小的增加,這種提升變得更加明顯(圖7)。有幾個(gè)因素可以解釋這一現(xiàn)象。首先,通過POI編碼忽略了背景像素,從而減少了不必要的信息。其次,圍繞每個(gè)POI提取局部特征,使得每個(gè)POI的局部鄰域被納入考慮范圍。
此外,使用局部線性映射對(duì)圖像中POI的全局位置進(jìn)行編碼,相比使用線性映射,性能有所提升(圖7)。這一發(fā)現(xiàn)與像素級(jí)編碼所獲得的結(jié)果一致,也可以用類似的方式解釋。
最后,魯棒性分析的結(jié)果表明,在超參數(shù)選擇之后,所提出的編碼方法比基線HDC編碼方法對(duì)噪聲和模糊具有更高的魯棒性(第4.3節(jié)和補(bǔ)充材料表S4)。
4.2 與最新技術(shù)的比較
4.2.1 MNIST 數(shù)據(jù)集
圖9A將我們?cè)贛NIST數(shù)據(jù)集上獲得的結(jié)果(即97.92%)與其他文獻(xiàn)中發(fā)現(xiàn)的研究結(jié)果進(jìn)行了比較(見補(bǔ)充材料表S5)。

我們提出的興趣點(diǎn)(POI)編碼與局部線性映射相結(jié)合的方法優(yōu)于所有歸類為原生HDC(分層數(shù)據(jù)編碼)的方法。
這包括了應(yīng)用排列操作對(duì)展平圖像中像素位置進(jìn)行編碼的方法,即Manabat等(2019)報(bào)告的準(zhǔn)確率為79.87%,Hassan等(2022)報(bào)告的準(zhǔn)確率為86%。我們對(duì)MNIST數(shù)據(jù)集獲得的結(jié)果(97.92%)也優(yōu)于使用綁定操作對(duì)展平圖像進(jìn)行位置編碼的若干研究。具體來說,Chuang等(2020)、Chang等(2021)、Hernández-Cano等(2021)、Hsieh等(2021)、Kazemi等(2021)、Zou等(2021b)、Bosch等(2022)、Duan等(2022a,b)以及Ma和Jiao(2022)報(bào)告的基線準(zhǔn)確率在85%到92%之間。此外,Khaleghi等(2022)提出的基于n-gram的編碼方法通過提取局部特征達(dá)到94.0%的準(zhǔn)確率,而我們通過使用局部線性映射代替正交映射來編碼全局位置信息,超越了這一方法。
Hernández-Cano等(2021)提出的OnlineHD可以將其基線性能從91%提升到97%,但仍然低于我們獲得的準(zhǔn)確率。在OnlineHD中,通過根據(jù)樣本與現(xiàn)有模型的相似度來更新HDC模型,從而擴(kuò)展了基線HDC訓(xùn)練過程。因此,由于涉及浮點(diǎn)乘法,訓(xùn)練過程變得更加復(fù)雜。OnlineHD被歸類為自適應(yīng)HDC。
其他研究將HDC框架與額外的非HDC方法(混合HDC,第2.3.1.2節(jié))結(jié)合使用,例如Karvonen等(2019)使用的元胞自動(dòng)機(jī)(CA),通過該方法得到的高維向量的準(zhǔn)確率為74.06%。Zou等(2021a)先使用SNN提取低級(jí)特征,再使用HDC,達(dá)到90.5%的準(zhǔn)確率。Duan等(2022a)和Yan等(2023)將二值神經(jīng)網(wǎng)絡(luò)(BNN)與HDC結(jié)合使用,分別達(dá)到94.74%和97.25%的準(zhǔn)確率。Yu等(2022)使用隨機(jī)傅里葉特征(RFF)對(duì)圖像進(jìn)行編碼,達(dá)到95.4%的準(zhǔn)確率。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(NN)也與HDC結(jié)合使用,分別達(dá)到92.72%(Duan等,2022b)、94.8%(Liang等,2022)和96.71%(Ma和Jiao,2022)的準(zhǔn)確率。Zou等(2021b)通過擴(kuò)展HDC編碼框架加入流形學(xué)習(xí),報(bào)告了97.5%的準(zhǔn)確率。我們提出的僅使用原生HD向量操作的編碼方法優(yōu)于這些混合HDC方法。盡管如此,其他混合HDC方法獲得了更好的結(jié)果。Poduval等(2021)從原始圖像中提取特征并應(yīng)用基于記錄的編碼,達(dá)到了99%的性能。Kussul和Baidyk(2004)以及Kussul等(2006)通過基于神經(jīng)網(wǎng)絡(luò)的局部特征提取,分別達(dá)到了99.2%和99.5%的更高準(zhǔn)確率。Rachkovskij(2022)提取局部二進(jìn)制模式(LBP)特征,提出了一個(gè)平移等變的保持相似性的位置編碼方案,并使用大間隔感知器進(jìn)行分類,達(dá)到了98.5%的準(zhǔn)確率,向量維度為10,000。
一些研究通過使用多位表示(即多位HDC)而不是單比特(即二進(jìn)制)來增加HDC的復(fù)雜性。Imani等(2019)、Chuang等(2020)、Kazemi等(2021)、Kim等(2021)和Yu等(2022)使用具有更復(fù)雜元素的向量,分別達(dá)到了95.5%、96.6%、98%、98.09%和98.2%的準(zhǔn)確率。只有后三種方法的準(zhǔn)確率略高于我們,因此我們可以得出結(jié)論,我們提出的二進(jìn)制、原生HDC方法,使用局部線性映射和POI編碼,與這些更復(fù)雜的多位HDC方法相比,取得了相當(dāng)?shù)慕Y(jié)果。
盡管本文旨在改進(jìn)二值化圖像的原生HDC編碼,但我們將提出的編碼方法與輕量級(jí)非HDC方法進(jìn)行了比較。Xiao等(2017)報(bào)告了一系列傳統(tǒng)機(jī)器學(xué)習(xí)(ML)方法的結(jié)果,包括決策樹、多層感知器和支持向量分類,準(zhǔn)確率范圍為52.4%到97.8%,包括Kim等(2017)的AdaBoost分類器。一些研究使用二值神經(jīng)網(wǎng)絡(luò)(BNN)解決MNIST分類任務(wù),準(zhǔn)確率范圍為95.7%到99.04%。最后,二值脈沖神經(jīng)網(wǎng)絡(luò)(SNN)達(dá)到了97.0%到98.6%的準(zhǔn)確率??傊?,我們對(duì)MNIST數(shù)據(jù)集獲得的97.92%的結(jié)果優(yōu)于原生HDC方法,并且與更復(fù)雜的混合HDC或輕量級(jí)非HDC方法相當(dāng)。
對(duì)于Fashion-MNIST數(shù)據(jù)集的研究相對(duì)MNIST數(shù)據(jù)集較少。Duan等(2022a,b)報(bào)告了原生HDC方法的準(zhǔn)確率為79.24%和80.26%。使用混合HDC方法,Yu等(2022)通過隨機(jī)傅里葉特征(RFF)達(dá)到84.0%的準(zhǔn)確率,并在高維向量(HV)中使用更復(fù)雜的元素后達(dá)到87.4%。Duan等(2022a,b)通過將HDC模型映射到等效的(二值)神經(jīng)網(wǎng)絡(luò),進(jìn)一步提升了準(zhǔn)確率,分別達(dá)到85.47%和87.11%。總體來看,我們提出的HDC方法優(yōu)于原生HDC方法,但在準(zhǔn)確率上略低于混合和多位HDC方法。
與MNIST數(shù)據(jù)集類似,我們也將Fashion-MNIST數(shù)據(jù)集的結(jié)果與輕量級(jí)非HDC方法進(jìn)行了比較。Xiao等(2017)報(bào)告了多種傳統(tǒng)機(jī)器學(xué)習(xí)(ML)方法的準(zhǔn)確率范圍為51.1%到89.7%。二值脈沖神經(jīng)網(wǎng)絡(luò)(SNN)的性能范圍為87.3%到92.0%。雖然我們未能超越二值SNN,但我們?cè)贔ashion-MNIST上獲得的84.62%的準(zhǔn)確率與傳統(tǒng)ML方法相當(dāng)。
4.3 魯棒性分析
在通過10折交叉驗(yàn)證選擇出最佳驗(yàn)證準(zhǔn)確率的超參數(shù)后,與基線編碼方法相比,所提出的編碼方法對(duì)受到噪聲和模糊干擾的圖像表現(xiàn)出更高的魯棒性(補(bǔ)充材料表S4)。尤其是在受到散粒噪聲(shot noise)和脈沖噪聲(impulse noise)干擾的情況下,平均測試準(zhǔn)確率與在未受干擾圖像上達(dá)到的平均測試準(zhǔn)確率相當(dāng)接近。對(duì)于飛濺(spatter)干擾,平均測試準(zhǔn)確率略有下降,但所提出的方法仍然能夠準(zhǔn)確識(shí)別大約81.22%的測試圖像。對(duì)于玻璃模糊(glass blur)和運(yùn)動(dòng)模糊(motion blur)干擾,平均測試準(zhǔn)確率下降最為明顯,其中所提出的方法分別能夠正確分類57.63%和39.81%的圖像。即便如此,與基線HDC編碼方法相比,這仍然是一個(gè)顯著的提升,分別提高了38.42%(玻璃模糊)和28.32%(運(yùn)動(dòng)模糊)。因此,我們可以得出結(jié)論,經(jīng)過超參數(shù)選擇后,采用我們所提出的編碼方法的HDC分類器對(duì)噪聲和模糊表現(xiàn)出很高的魯棒性,在五種不同受干擾測試集上的平均準(zhǔn)確率為73.20%。
4.4 未來研究方向
在未來的工作中,我們計(jì)劃評(píng)估并擴(kuò)展所提出的編碼方法,以應(yīng)用于灰度圖像和彩色圖像,研究在HDC編碼中使用分層(多層)塊的方法,并進(jìn)一步拓展局部線性映射概念以用于位置編碼。
此外,還可以分析如何使HDC框架對(duì)噪聲和干擾(如玻璃模糊和運(yùn)動(dòng)模糊)具有更強(qiáng)的魯棒性。
5 結(jié)論
我們提出了一種新穎的輕量級(jí)方法,用于對(duì)二值化圖像進(jìn)行編碼。該方法僅依賴于原生高維(HD)算術(shù)向量操作,而不使用外部特征提取方法,同時(shí)能夠保留圖像中鄰近位置模式的相似性。該方法通過興趣點(diǎn)選擇來提取圖像的局部特征,并使用局部線性映射對(duì)這些局部特征在圖像中的位置進(jìn)行編碼。通過10折交叉驗(yàn)證選擇出兩個(gè)引入的超參數(shù)的最佳設(shè)置后,我們?cè)贛NIST數(shù)據(jù)集的測試集上達(dá)到了97.92%的準(zhǔn)確率,在Fashion-MNIST數(shù)據(jù)集上達(dá)到了84.62%的準(zhǔn)確率。這些結(jié)果優(yōu)于使用不同編碼方法的原生HDC(分層數(shù)據(jù)編碼)的其他研究,并與更復(fù)雜的混合HDC模型和輕量級(jí)二值化神經(jīng)網(wǎng)絡(luò)相當(dāng)。此外,所提出的編碼方法還表現(xiàn)出比基線編碼更高的對(duì)噪聲和模糊的魯棒性。
原文鏈接:https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full
熱門跟貼