近期,上海交通大學(xué)顧磊磊副教授團(tuán)隊開發(fā)了一款融合 AI 和柔性電子的多模態(tài)可穿戴助盲系統(tǒng),為改善視障群體的生活質(zhì)量提供了新的解決方案。
該系統(tǒng)的核心創(chuàng)新在于通過多感官反饋機制(視覺、聽覺、觸覺)的協(xié)同作用,以聽覺和觸覺代償視覺功能,顯著提升了自主生活能力,包括在復(fù)雜環(huán)境中的自主行動和日常任務(wù)的執(zhí)行效率等。

在感知與導(dǎo)航模塊設(shè)計上,系統(tǒng)采用多模態(tài)融合的智能處理架構(gòu):通過 RGB-D(Red Green Blue Depth)攝像頭實時采集環(huán)境數(shù)據(jù),經(jīng) AI 算法處理后可精準(zhǔn)估算目標(biāo)方位并規(guī)劃無障礙路徑。
空間音頻技術(shù)通過骨傳導(dǎo)耳機為用戶提供具有方位感的導(dǎo)航提示;同時,集成于手腕處的柔性人工皮膚(A-skins)能有效探測側(cè)方障礙物,并通過差異化振動模式擴(kuò)展用戶的周邊環(huán)境感知能力。

特別值得關(guān)注的是,該系統(tǒng)在硬件設(shè)計上突破了傳統(tǒng)助盲設(shè)備的局限性,通過創(chuàng)新的結(jié)構(gòu)優(yōu)化實現(xiàn)了僅 195 克的超輕量化設(shè)計,同時兼顧了穿戴舒適性與美觀性。
在軟件算法層面,該課題組基于人類感知-認(rèn)知機制進(jìn)行了深度優(yōu)化:一方面,通過仿生學(xué)設(shè)計使信息輸出方式(如聲音方向、振動節(jié)奏)嚴(yán)格匹配人體生理特征;另一方面,采用認(rèn)知心理學(xué)原理優(yōu)化信息編碼策略,使用戶可以像調(diào)用自身感官一樣自然地理解系統(tǒng)反饋。
為加速用戶適應(yīng)過程,研究人員還配套開發(fā)了基于虛擬現(xiàn)實(VR,Virtual Reality)的沉浸式訓(xùn)練系統(tǒng),通過精心設(shè)計的虛實結(jié)合訓(xùn)練場景,幫助用戶快速建立人機協(xié)同的空間認(rèn)知模式。
經(jīng)嚴(yán)格測試驗證,該系統(tǒng)展現(xiàn)出卓越的性能指標(biāo):
在完全黑暗環(huán)境下,結(jié)合紅外深度成像與獨創(chuàng)的地面區(qū)間算法,對低矮障礙物的識別準(zhǔn)確率高達(dá) 95%;在動態(tài)環(huán)境測試中,面對突發(fā)移動障礙物(如行人)的平均響應(yīng)時間僅為 18 毫秒。
值得關(guān)注的是,該系統(tǒng)在標(biāo)準(zhǔn)化可用性評估中獲得 79.6 分(滿分為 100 分),性能表現(xiàn)超越 85% 的現(xiàn)有商用輔助設(shè)備。這項研究不僅為視障群體提供了切實可行的輔助技術(shù)方案,更為人機融合智能系統(tǒng)的開發(fā)樹立了新的技術(shù)范式。
近日,相關(guān)論文以《以人類為中心的可穿戴多模態(tài)視覺輔助系統(tǒng)的設(shè)計與制造》(Human-centred design and fabrication of a wearable multimodal visual assistance system)為題發(fā)表在Nature Machine Intelligence[1]。
上海交通大學(xué)博士生唐健是第一作者,顧磊磊擔(dān)任通訊作者。


在硬件和軟件同時“做減法”:從機器視覺到以人為中心
顧磊磊本科和碩士畢業(yè)于復(fù)旦大學(xué),之后在香港科技大學(xué)獲得博士學(xué)位,師從范智勇教授。
目前擔(dān)任上海交通大學(xué)計算機學(xué)院清源研究院長聘教軌副教授,以及上海人工智能實驗室雙聘青年研究員,主要研究方向是微納仿生與智能感知交叉,專注于仿生視覺器件及系統(tǒng)的研究。

2020 年,顧磊磊以第一作者身份在 Nature 報道了新型納米線球形仿生眼的開創(chuàng)性工作 [2](DeepTech 此前報道:中國科學(xué)家發(fā)明納米線仿生眼球,被評為該領(lǐng)域數(shù)十年來重要突破!活體實驗計劃已提上日程)。
這項研究不僅獲得了學(xué)術(shù)界的廣泛關(guān)注,更收到了來自視障群體的積極反饋?!爱?dāng)時,我們收到了很多關(guān)于植入式設(shè)備和視覺恢復(fù)等方面的咨詢,視障群體也對這類技術(shù)表現(xiàn)出極大的興趣?!鳖櫪诶谡f。
這一經(jīng)歷促使他的研究視角發(fā)生了重要轉(zhuǎn)變:從專注于機器人技術(shù)轉(zhuǎn)向更關(guān)注人類需求本身。
在成立獨立課題組后,顧磊磊帶領(lǐng)團(tuán)隊進(jìn)行調(diào)研。他們發(fā)現(xiàn),雖然已經(jīng)有不少關(guān)于助盲系統(tǒng)的研究,但相關(guān)系統(tǒng)的實用性并不理想。盡管這些設(shè)備在實驗室環(huán)境下表現(xiàn)出良好的性能參數(shù),但本質(zhì)上仍然屬于基于計算機視覺的電子導(dǎo)航系統(tǒng)。
通過深入分析,顧磊磊課題組識別出制約現(xiàn)有技術(shù)實用性的兩大關(guān)鍵問題:
在硬件方面,現(xiàn)有設(shè)備為實現(xiàn)強大功能往往需要集成大量組件,這會導(dǎo)致其體積龐大、重量超標(biāo)。這種設(shè)計類似于外骨骼系統(tǒng),需要用戶攜帶電腦主機和重型電源等設(shè)備,嚴(yán)重影響了穿戴舒適性和日常使用便利性。
在軟件方面,現(xiàn)有系統(tǒng)主要依賴語音播報來描述環(huán)境信息。這種持續(xù)不斷的語音輸入不僅容易造成信息過載,還會使用戶大腦長期處于高度緊張狀態(tài),產(chǎn)生顯著的認(rèn)知疲勞。正是這些因素導(dǎo)致大多數(shù)研究成果難以落地轉(zhuǎn)化,鮮有視障人士愿意長期使用這些設(shè)備。
基于這些發(fā)現(xiàn),顧磊磊發(fā)揮其在半導(dǎo)體器件和微納加工方面的專業(yè)優(yōu)勢,提出了一套創(chuàng)新的研發(fā)策略。
他認(rèn)為,應(yīng)該在硬件和軟件方面同時“做減法”,只保留最核心的功能。也就是說,在硬件上通過微納技術(shù)實現(xiàn)功能集成和輕量化設(shè)計,在軟件上優(yōu)化信息呈現(xiàn)方式以降低認(rèn)知負(fù)荷。
這一策略的核心是貫徹“以人為中心”的設(shè)計理念,最終目標(biāo)是開發(fā)出實用性的新一代助盲系統(tǒng)。

從“功能堆砌”到“智能協(xié)同”的范式轉(zhuǎn)變
該課題組開發(fā)的智能助盲系統(tǒng)創(chuàng)新性地借鑒了生物視覺的“注意力分配”機制,實現(xiàn)了高效節(jié)能的環(huán)境感知。
與普通相機全域高分辨率成像不同,該系統(tǒng)模擬了人眼視覺的特性:中央?yún)^(qū)域(約 60 度視野)作為高精度感知區(qū),相當(dāng)于人眼的黃斑區(qū),負(fù)責(zé)精細(xì)分析關(guān)鍵信息;而周邊區(qū)域則通過電子皮膚實現(xiàn)廣域監(jiān)測,類似人眼周邊視覺的“警戒”功能。
這種仿生架構(gòu)在保證核心功能的同時,由于采用了小型化算法,使得推理過程更快,顯著降低了系統(tǒng)功耗(僅 6.4 瓦,為同類設(shè)備的 60%)。
顧磊磊指出,多模態(tài)系統(tǒng)很容易陷入的困境是:信息過多導(dǎo)致用戶疲勞,但信息太少又無法提供足夠的安全保障。

在感知-決策閉環(huán)設(shè)計上,該系統(tǒng)展現(xiàn)出三大技術(shù)創(chuàng)新:
首先,中央視覺模塊采用優(yōu)化算法,可在 200-300 毫秒內(nèi)完成環(huán)境分析并生成導(dǎo)航指令,與人腦反應(yīng)速度完美匹配。
其次,腕部電子皮膚通過觸覺振動提供周邊障礙預(yù)警,形成互補感知網(wǎng)絡(luò)。
再次,智能鞋墊系統(tǒng)將虛擬訓(xùn)練與現(xiàn)實導(dǎo)航無縫銜接,通過摩擦電效應(yīng)實現(xiàn)自供能,使用戶能在安全環(huán)境中熟悉設(shè)備反饋模式。
顧磊磊解釋說道:“這種設(shè)計減少了訓(xùn)練風(fēng)險,幫助使用者熟悉設(shè)備節(jié)奏,從而增強操作準(zhǔn)確性。并且,在實際使用該系統(tǒng)時如果訓(xùn)練已經(jīng)完成,則不需要使用 VR 部分。”
測試結(jié)果表明,經(jīng)過 2 小時的 VR 訓(xùn)練后,受試者在真實環(huán)境中的行走效率提升 24%,碰撞次數(shù)減少了 67%。經(jīng)過訓(xùn)練的用戶導(dǎo)航速度提升了 28%,導(dǎo)航時間和行走距離顯著減少。
針對家庭環(huán)境的動態(tài)特性,該系統(tǒng)摒棄了傳統(tǒng)全局建圖方法,轉(zhuǎn)而采用“即時感知-實時決策”的漸進(jìn)式導(dǎo)航策略。
顧磊磊解釋道:“就像人在陌生環(huán)境中摸索前進(jìn)一樣,我們的系統(tǒng)不需要記憶完整地圖,而是通過每一步的局部感知來動態(tài)調(diào)整路線。”
這種策略有效解決了家具移動等環(huán)境變化帶來的路徑規(guī)劃失效問題,使系統(tǒng)在動態(tài)測試中對突發(fā)障礙的平均響應(yīng)時間達(dá)到 250 毫秒。

多模態(tài)信息融合是該系統(tǒng)的另一大亮點。研究人員基于認(rèn)知心理學(xué)原理,精心設(shè)計了信息呈現(xiàn)的優(yōu)先級和方式:重要導(dǎo)航指令通過空間化骨傳導(dǎo)音頻傳遞,次要環(huán)境信息則轉(zhuǎn)化為觸覺提示,避免傳統(tǒng)語音導(dǎo)航造成的信息過載。
這種“雜而不亂”的感官分配使得系統(tǒng)可用性評分達(dá) 79.6 分,超越 85% 的商用設(shè)備。顧磊磊強調(diào):“其關(guān)鍵在于模擬生物系統(tǒng)的效能平衡——既不能因信息不足而影響安全,也不可因信息過載導(dǎo)致認(rèn)知疲勞?!?/p>
從技術(shù)演進(jìn)來看,該研究標(biāo)志著助盲設(shè)備從“功能堆砌”到“智能協(xié)同”的范式轉(zhuǎn)變。通過仿生設(shè)計、多模態(tài)優(yōu)化和虛實結(jié)合訓(xùn)練的三重創(chuàng)新,不僅解決了現(xiàn)有設(shè)備笨重、低效的痛點,更開創(chuàng)了“以人為中心”的智能輔助技術(shù)新方向。
正如顧磊磊所言:“真正的突破不在于單項指標(biāo)的提升,而在于打造一個讓使用者感到'自然'的系統(tǒng)——就像使用自己的感官一樣得心應(yīng)手?!?/p>
學(xué)術(shù)探索與產(chǎn)業(yè)轉(zhuǎn)化“雙軌并行”
目前市面上的智能眼鏡和導(dǎo)航系統(tǒng)功能豐富,涵蓋路徑規(guī)劃、商場導(dǎo)航、停車信息,甚至上網(wǎng)娛樂等。然而,該課題組選擇了一條不同的路線,通過對軟硬件“做減法”,專注于系統(tǒng)最核心的功能,從而有效控制整體成本。
未來,該技術(shù)將沿著“學(xué)術(shù)探索與產(chǎn)業(yè)轉(zhuǎn)化雙軌并行”的方向發(fā)展。一方面,團(tuán)隊將繼續(xù)拓展和深化研究,例如將攝像頭優(yōu)化為類似隱形眼鏡或電子皮膚的設(shè)備;另一方面,研究人員將致力于與工業(yè)界合作,注重系統(tǒng)在工程性和可靠性方面的提升。
在談及技術(shù)發(fā)展路線時,顧磊磊提到一種有趣的說法——既要向前推進(jìn),也要注意沿途“下蛋”。他指出,可以從一些簡單但要求較高的方向入手,先將技術(shù)推向產(chǎn)品化。例如,將目前系統(tǒng)中所使用的樹莓派換成專用芯片,這樣可以大幅降低設(shè)備體積。
從人機融合角度來看,接下來的研究階段中可能會引入腦機接口,通過個性化的腦機接口來反饋并優(yōu)化反饋編碼。
此外,如果要更大規(guī)模地推進(jìn)該項目,需要更廣泛的測試。目前,磊磊團(tuán)隊正在聯(lián)合北京大學(xué)、山東大學(xué)相關(guān)團(tuán)隊制定并推行可穿戴助盲系統(tǒng)的行業(yè)標(biāo)準(zhǔn)?!斑@是一個好的方向,我們也希望更多業(yè)內(nèi)人士參與進(jìn)來,共同推動該領(lǐng)域的發(fā)展?!鳖櫪诶谡f。
該團(tuán)隊的“終極目標(biāo)”是希望能夠?qū)崿F(xiàn)包括器件、算法、芯片在內(nèi)的軟件和硬件的完全自主開發(fā),從而實現(xiàn)更好的定制化。顧磊磊強調(diào):“未來,我們將繼續(xù)秉承‘做減法’的研究思路,讓科技向善之光照射到更廣泛的群體。”
參考資料:
1.Tang, J., Zhu, Y., Jiang, G. et al. Human-centred design and fabrication of a wearable multimodal visual assistance system.Nature Machine Intelligence(2025). https://doi.org/10.1038/s42256-025-01018-6
2.Gu, L., Poddar, S., Lin, Y. et al. A biomimetic eye with a hemispherical perovskite nanowire array retina.Nature581, 278–282 (2020). https://doi.org/10.1038/s41586-020-2285-x
運營/排版:何晨龍
熱門跟貼