在開車的同時掃描交通燈、停車位和餐館,在一堆硬幣中尋找特定數(shù)量的零錢,在雜貨店購買一系列物品……

在計算機視覺領(lǐng)域,這些廣泛地存在于人類日常生活中的行為,被稱為混合視覺覓食。

它是一種結(jié)合了視覺搜索和決策制定的任務(wù),參與者需要在多個不同的目標(biāo)類型中,尋找所需的資源。

必須指出的是,這些目標(biāo)的價值和普遍性可能會有所不同,并且,目標(biāo)實例的確切數(shù)量通常也是未知的。

接下來,一個關(guān)鍵問題浮出水面,即在搜索過程中如何優(yōu)先選擇目標(biāo)?

如果能夠掌握內(nèi)在規(guī)律,將為優(yōu)化復(fù)雜環(huán)境中的搜索效率和決策帶來極大助力。

對于上述問題,眼球運動可以提供一個獨特的視角,洞察決策中涉及的感知、認(rèn)知和評估過程。

圖丨混合視覺覓食任務(wù)中眼球運動和決策的示例圖(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
圖丨混合視覺覓食任務(wù)中眼球運動和決策的示例圖(來源:arXiv)

基于此,新加坡南洋理工大學(xué) Mengmi Zhang 助理教授和團隊,提出一種名為視覺覓食器(VF,Visual Forager)的計算模型。

這是一個基于 Transformer 的架構(gòu),通過強化學(xué)習(xí)訓(xùn)練,能夠高效地執(zhí)行混合視覺覓食,以適應(yīng)目標(biāo)普遍性和價值的不同組合。

圖丨 VF 的架構(gòu)概覽(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 VF 的架構(gòu)概覽(來源:arXiv)

不同于以往依賴人類數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練的視覺搜索模型,VF 沒有在人類數(shù)據(jù)上進(jìn)行訓(xùn)練,卻能夠近似模擬人類的覓食行為和偏見。

近日,相關(guān)論文以《凝視獎勵:眼動作為混合視覺覓食中人類和人工智能決策的透鏡》(Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging)為題在預(yù)印本平臺arXiv上發(fā)布 [1]。

南洋理工大學(xué) Bo Wang 是第一作者,Mengmi Zhang 擔(dān)任通訊作者。

圖丨相關(guān)論文(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
圖丨相關(guān)論文(來源:arXiv)

顯然,VF 這一關(guān)于眼球運動的計算模型,能給眾多領(lǐng)域帶來相應(yīng)的變革潛力。

例如:

在人機交互領(lǐng)域,可以通過預(yù)測用戶的注意力,并根據(jù)個人需求定制界面,以增強自適應(yīng)系統(tǒng)。

在醫(yī)學(xué)診斷和培訓(xùn)領(lǐng)域,可以復(fù)制專家的凝視模式,指導(dǎo)新手從業(yè)者并改進(jìn)自動化診斷工具。

在機器人領(lǐng)域,能夠使自主系統(tǒng)采用類似人類的策略來導(dǎo)航復(fù)雜的環(huán)境。

Mengmi Zhang 表示:“該模型模擬類人決策的能力,使其有別于傳統(tǒng)的計算機視覺系統(tǒng)。”

也就是說,VF 不僅涉及識別對象,還涉及理解這些對象如何影響后續(xù)的行動和決策。

通過整合上下文信息和任務(wù)優(yōu)先級,VF 模仿了人類的偏見和策略,為如何分配注意力和做出決策提供了良好的見解。

可以看出,這種范式轉(zhuǎn)變,彌合了感知與認(rèn)知之間的差距,為思考和行為更像人類的人工智能系統(tǒng)鋪平了道路,徹底改變了需要視覺識別以外的領(lǐng)域。

在該研究的基礎(chǔ)上,下一步研究人員計劃將混合視覺覓食的研究,擴展至受控實驗環(huán)境中的簡單刺激之外。

參考資料:

1.Wang B, Tan D, Kuo Y L, et al. Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging.arXiv:2411.09176, 2024.https://doi.org/10.48550/arXiv.2411.09176

支持:Ren

運營/排版:何晨龍