
團(tuán)隊(duì)由 IEEE 會士,紐約大學(xué)教授 Claudio Silva 和紐約大學(xué)研究助理教授錢靖共同指導(dǎo)。 論文由Chenyi Li和Guande Wu共同第一作者。
在無數(shù)科幻電影中,增強(qiáng)現(xiàn)實(shí)(AR)通過在人們的眼前疊加動畫、文字、圖形等可視化信息,讓人獲得適時的、超越自身感知能力的信息。無論是手術(shù)醫(yī)生帶著 AR 眼鏡進(jìn)行操作,還是智能工廠流水線前的例行檢查、或是面對書本時 AR 快速查找翻閱的超能力,是這一切只為一個最終目的——通過適時的信息輔助我們。

直到今日,大部分 AR 輔助依然停留在需要人工遠(yuǎn)程接入輔助的層面,與我們期待的智能的、理解性的、可拓展的 AR 輔助相差甚遠(yuǎn)。這也導(dǎo)致 AR 在重要產(chǎn)業(yè)和生活應(yīng)用中的普及受到限制。如何能讓 AR 在生活中真正做到理解用戶、理解環(huán)境、并適時的輔助依然面臨巨大挑戰(zhàn)。
Satori 系統(tǒng)自動識別用戶稱重 11 g 咖啡的展示
這一切隨著 Satori 系統(tǒng)的誕生即將成為過去。來自紐約大學(xué)數(shù)據(jù)與可視化實(shí)驗(yàn)室(NYU VIDA)聯(lián)合 Adobe 的研究人員融合多模態(tài)大語言模型(MLLM)與認(rèn)知理論 BDI(Belief-desire-intention theory)讓 AI 首次真正意義的去理解使用者的行為、目標(biāo)以及環(huán)境狀態(tài),最終達(dá)到根據(jù)不同場景自動適配指示內(nèi)容,指示步驟,與判斷輔助時機(jī)。讓 AR 輔助接入智慧核心,向泛化應(yīng)用、智能交互邁進(jìn)了里程碑的一步。

- 論文標(biāo)題:Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
- 論文鏈接:https://arxiv.org/abs/2410.16668v2
- Github:https://github.com/VIDA-NYU/satori-assistance
Satori 創(chuàng)新介紹
創(chuàng)新點(diǎn)一:結(jié)合 BDI 模型讓 AI 理解用戶行為和場景關(guān)系
通過 AR 眼鏡讓 AI 擁有跟用戶共同視角的「具身感知」,成功的讓 AI 通過認(rèn)知模型 BDI 理解用戶的動作行為及其短期目的。BDI 把人的行為分解成對周圍世界的理解(Belief),對總體目標(biāo)的判斷(Desire),和為達(dá)目標(biāo)進(jìn)行的動作行為(Intention)三個部分。
本質(zhì)上,BDI 強(qiáng)調(diào)人是主動性體(agentive being),做出的行為是基于對環(huán)境的理解和內(nèi)部目標(biāo)的組合,因此我們使用 AI 以多模態(tài)數(shù)據(jù)的模擬人接受信息和應(yīng)對目標(biāo)的方式,適合短期以行為目標(biāo)為主的的 AR 輔助。

這使得 AR 眼鏡可以通過 AI 加持實(shí)時判斷用戶行為背后的目的,不再是單純的對于行為本身的判斷。
創(chuàng)新點(diǎn)二:大語言模型結(jié)構(gòu)認(rèn)知
Satori 系統(tǒng)以模塊化組織 MLLM,將圖像識別、語義理解、用戶交互歷史上下文解耦處理,并統(tǒng)一納入 BDI 認(rèn)知架構(gòu)中。通過將視覺感知模塊(如 OWL-ViT 與 DETR)與語言推理模塊(MLLM)分層協(xié)作,系統(tǒng)能夠從用戶的行為動態(tài)構(gòu)建 Belief 狀態(tài)、識別任務(wù)目標(biāo),推理出即時意圖。
該模塊化結(jié)構(gòu)不僅增強(qiáng)了推理透明度與可解釋性,還顯著提升了系統(tǒng)的泛化性與跨任務(wù)適配能力,展示了多模態(tài)大模型在具身智能中的結(jié)構(gòu)認(rèn)知潛力。

自動生成帶有動作和箭頭方向的指示圖片
創(chuàng)新點(diǎn)三:AI 自動生成多模態(tài)指示
在輔助過程中,AI 生成了適時的、應(yīng)景的、易理解的圖片以及文字。在圖像層面,Satori 使用 DALLE-3 與場景感知(Belief)模塊自動生成與當(dāng)前任務(wù)階段精準(zhǔn)匹配的視覺提示(如剪刀與花的動作關(guān)系,與花瓶的空間位置關(guān)系),給用戶直接的視覺指引、減少語義誤解。
這項(xiàng)技術(shù)同時也用在了文字生成中,在基礎(chǔ)文本上追加對場景物體,用戶交互關(guān)系的描述(如「把花插入花瓶」變?yōu)椤赴鸦ú迦胨{(lán)色花瓶」)。此創(chuàng)新讓 AI 更具備操作引導(dǎo)的即時性與可視化表達(dá)能力,大幅提升了 AR 輔助的清晰度與實(shí)用性。
創(chuàng)新點(diǎn)四:雙系統(tǒng)動作完成檢測方法減少用戶等待時間,增加提示準(zhǔn)確率
AR 輔助中一大挑戰(zhàn)在于任務(wù)的復(fù)雜度影響了 AI 判斷成功率和速度。步驟越復(fù)雜、動作越多,AI 一次性判斷的噪音和不確定性越大。因此,Satori 團(tuán)隊(duì)創(chuàng)新地將每個步驟分成多個更明確,易判斷的小目標(biāo)(checkpoints),來完成對總體步驟的確認(rèn)。例如:「剪花」任務(wù)中的「剪掉枯葉」步驟,會有「拿剪刀」,「對準(zhǔn)枯葉」,和「完成剪切」三個小目標(biāo),系統(tǒng)判斷這些是否完成后便可觸發(fā)下一提示。

Satori 使用雙系統(tǒng)理論(Dual Process Theory)將 AI 的反饋分為「快速反應(yīng)+理性結(jié)構(gòu)」。動作識別由一個輕量 LLM 完成快速行為完成判斷,以高容量 LLM 補(bǔ)充結(jié)構(gòu)性語義分析,通過交互設(shè)計(jì)機(jī)制將二者節(jié)奏對齊,確保系統(tǒng)既具響應(yīng)性,又具智能表達(dá)力。

團(tuán)隊(duì)所提出的模塊化多模態(tài)推理框架,不僅在技術(shù)層面上展示出對 AR 交互場景的高度適配性,更為未來跨平臺、多領(lǐng)域的智能輔助系統(tǒng)奠定了方法論基礎(chǔ)。系統(tǒng)核心可靈活部署于 HoloLens、Vision Pro、或者輕量級智能眼鏡如 Rokid、INMO、雷鳥、和 Nreal 等不同硬件平臺。
在 AI 與大語言模型快速發(fā)展的今天,無疑是 AR 技術(shù)邁向?qū)嵱眯缘囊淮涡碌臋C(jī)遇。無論你是 AI、AR 的愛好者,或者是在學(xué)界,工業(yè)界的專業(yè)人士,都?xì)g迎關(guān)注 AR 輔助這個正在覺醒的未來。
熱門跟貼