
圖|顧磊磊(左二)和部分實驗室成員。
據(jù)世界衛(wèi)生組織(WHO)2019 年發(fā)布的《世界視力報告》顯示,全球約有 22 億人患有視力障礙,其中至少 10 億人的視力障礙本可預防或尚待解決。
視力障礙和失明不僅影響著世界各地人們的正常生活,還給全球帶來了巨大財政負擔,據(jù)估計每年造成的全球生產(chǎn)力損失高達 4110 億美元。
對于盲人和部分視障人士而言,可穿戴電子視覺輔助系統(tǒng)有助于維持他們的日常生活,但當前這類設備的人類適應性還不夠,無法大規(guī)模推廣。
如今,上海交通大學計算機學院清源研究院長聘教軌副教授、博士生導師顧磊磊團隊及其合作團隊,有望使用一種由 AI 驅(qū)動的可穿戴助盲系統(tǒng)幫助更多視障人士“重獲光明”。

圖|攝像頭目前安裝在眼鏡上,但該團隊正在努力使這些設備更輕便、更隱蔽。
據(jù)介紹,這是一套融合柔性電子和 AI 的穿戴助盲系統(tǒng),以聽覺觸覺取代部分視覺,幫助盲人完成行動及抓取的日常任務。硬件上通過結(jié)構(gòu)和功能設計盡可能實現(xiàn)輕、薄、美;軟件上優(yōu)化系統(tǒng)的信息輸出方式,使其符合人類生理的聽覺觸覺以及大腦的認知方式,目標是使人像調(diào)用自己的器官一樣輕松使用外部系統(tǒng);同時開發(fā)了基于VR 的沉浸式虛實結(jié)合的訓練系統(tǒng),促進人機融合。
視頻|一位視障者在戶外動態(tài)環(huán)境中,借助 A-skin 的警示避開了行人,路燈、自行車等障礙物。
經(jīng)過人形機器人以及盲人和部分視力障礙者在虛擬和真實環(huán)境中的測試,他們發(fā)現(xiàn)受試者在導航和導航后任務中的表現(xiàn)顯著提升,例如能在穿過迷宮時避開障礙物,以及拿取和抓住某個物體。
相關研究論文以“
Human-centred design and fabrication of a wearable multimodal visual assistance system”為題,已發(fā)表在國際權威科學期刊
Nature Machine Intelligence上。

論文鏈接:
https://www.nature.com/articles/s42256-025-01018-6
研究團隊表示,這款以人為本的可穿戴式視覺輔助系統(tǒng),既能滿足視障者的獨特需求,又能確保將身體和認知壓力降至最低。該系統(tǒng)的音頻和觸覺組件的集成提供了有效的視覺支持,個性化算法和輕量級硬件為用戶友好型可穿戴視覺輔助系統(tǒng)提供了啟示。
AI 是如何為視障人士指路的?
為視障人士開發(fā)人工視覺是人類長期以來的追求。
可穿戴式電子視覺輔助系統(tǒng)為視力受損者或視障人士提供了一種前景廣闊的解決方案,為醫(yī)療和植入假肢提供了一種替代方案。這些設備不能恢復自然視力,而是通過將環(huán)境信息轉(zhuǎn)換成其他感官模式并輸入大腦來補償視力損失,從而協(xié)助完成日常任務。
先進的系統(tǒng)已使視障人士能夠執(zhí)行基本的視覺功能,如導航、識別和尋找放錯的鑰匙等復雜任務。盡管這些技術的功能不斷發(fā)展,但尚未在視障人士群體中得到廣泛應用。使用過程中的認知和體力負荷,以及使用前所需的復雜培訓過程,導致了采用率有限。
為解決上述問題,顧磊磊團隊提出了一種旨在提高視障者獨立生活能力的可穿戴視覺輔助系統(tǒng)。該系統(tǒng)可將視覺輸入轉(zhuǎn)化為音頻和觸覺反饋,確保高精確度、低延遲和對不同環(huán)境的適應性。
直觀的空間提示聽覺輸出和導航算法,有助于減輕認知負擔;A-skin 的獨特設計和放置有助于在惡劣環(huán)境中完成導航和導航后任務;虛擬現(xiàn)實(VR)訓練有助于快速、安全地進行訓練;基于摩擦發(fā)電的智能鞋墊則能夠以最低的功耗實現(xiàn)虛擬世界和現(xiàn)實世界的同步運動。

圖|可穿戴多模態(tài)視覺輔助系統(tǒng)概覽
整體系統(tǒng)硬件選用深度攝像頭 D435i(英特爾 RealSense)安裝在 3D 打印眼鏡框上。它通過 USB 與 Raspberry Pi 4 Model B 微控制器相連。所有計算均在本地進行,無需遠程服務器或其他服務。音頻提示通過無線骨傳導耳機傳送至大腦。整個系統(tǒng)由商用鋰離子電池供電。智能鞋墊內(nèi)置三軸磁力計和摩擦電傳感器,所得角度和壓力數(shù)據(jù)分別用于估算行走步數(shù)和旋轉(zhuǎn)姿態(tài)。
本設計通過使用生物兼容的編碼策略來傳達高級場景信息,如路徑方向的結(jié)果。他們對 12 名視障者進行了一次轉(zhuǎn)向目標實驗,以找到合適的音頻反饋。他們比較了三種反饋方法--二維空間提示音、三維立體聲和口語提示--并使用最終航向誤差和試驗時間等指標來評估其性能。

圖|音頻反饋策略比較
在演示中,他們使用了人形機器人 TonyPi Pro,其原有頭部攝像頭被替換為 D435i,并在其操作系統(tǒng)中集成了與演示相關的功能模塊。
視頻|測試中,機器人成功避開了桌上的正方體。
在人造皮膚的制備方面,電子元件(包括 ToF 傳感器、微控制器單元 MCU 及其他器件)通過柔性印刷電路板(FPC)工藝集成在柔性 PET 基板上。他們開發(fā)了一種可拉伸的電子皮膚,作為音頻反饋的補充。 該電子皮膚是一個集成的感官-運動裝置,通過提供近距離警報來提示是否有碰撞風險。該系統(tǒng)的核心部件是一個緊湊型飛行時間(ToF)傳感器。當距離小于預定閾值時,致動器就會振動以刺激皮膚。在驅(qū)動電路和皮膚之間他們特意保持了間隙,這有利于致動器的振動,同時促進兩者之間的空氣流通。這種空氣流通提高了皮膚的舒適度和透氣性,從而提高了長期佩戴性。
該電子皮膚的放置位置以經(jīng)典的皮質(zhì)同形體為指導,該同形體是夸張的人體圖形,說明大腦中用于控制身體各處傳感和運動的部分所占比例。為了不影響正常運動任務的情況下實現(xiàn)高靈敏度,電子皮膚應放置在感覺較多但運動活動較少的區(qū)域。最終致動器和驅(qū)動電路被放置在手腕上。傳感器安裝在食指或中指的指背上,其功能根據(jù)手指的狀態(tài)(彎曲或伸直)而改變。

圖|用于高效觸覺反饋的人造皮膚感覺運動器
在驅(qū)動系統(tǒng)設計中,PET 基板底部固定了一個薄型永磁體(厚度為 0.5 毫米,直徑為 5 毫米),而單層銅線圈(直徑同為 5 毫米)則安裝在 PET 窄帶上,二者共同構(gòu)成振動單元。銅線圈通過電氣連接與 MCU 的輸出端相連。
ToF 傳感器與控制電路之間的可伸縮連接部分,則是通過材料打印機將銀顆粒打印在 PDMS(聚二甲基硅氧烷,Sylgard 184)基板上制成的。為了增強整體的柔韌性與可拉伸性,該連接區(qū)域還包覆了一層額外的 PDMS 封裝層。
在實驗者的選擇上,通過對試點研究的數(shù)據(jù)進行功率分析,估算出了視障參與者的最低人數(shù)。功率分析推薦了 9 名參與者,他們選擇了 12 名,以提供一個安全系數(shù)。他們在真實世界測試中又招募了 8 名視障人士,共有 20 名視障人士參與了實驗。參與者是隨機挑選的,來自不同的教育程度、年齡、性別和個人習慣背景。所有參與者都沒有使用過類似輔助設備的經(jīng)驗,從而最大程度地減少了參與者可能已有的知識的影響。他們都被進一步蒙上了眼睛,以避免部分視障者的殘余視力的影響。
他們對參與者進行了元宇宙康復訓練和現(xiàn)實世界導航訓練,使用 Unity 構(gòu)建虛擬環(huán)境。攝像頭和光線投射用于模擬 RGB-D 攝像頭。在前測和后測期間,他們在現(xiàn)實世界中建立了虛擬場景,使用可穿戴系統(tǒng)進行導航。為了避免場景記憶的影響,在訓練過程中,場景 1 和場景 2 隨機交替出現(xiàn),并且這些場景的布局隨機鏡像。每次訓練結(jié)束后,參與者都有 2 分鐘休息時間,在此期間可以提問和回答問題。這些措施確保了受試者不會重復訓練完全相同的場景配置。

圖|沉浸式元宇宙訓練
為了評估訓練效果,他們設計了場景 3 進行驗證。它由一個迷宮組成,路徑總長度約為 25 米。經(jīng)過場景 1 和 2 的訓練后,視障者直接進入場景 3,這是一個全新的場景,之前從未遇到過。參與者頭戴貼有標簽的帽子,超寬帶系統(tǒng)(UWB)以 50 Hz 的頻率記錄標簽的二維位置。用路徑總長度除以完成時間來計算平均行走速度,同時統(tǒng)計碰撞次數(shù)。該訓練計劃經(jīng)過精心組織,以保證用戶在不過度勞累的情況下達到一致的成績水平。
與傳統(tǒng)的白手杖相比,該系統(tǒng)轉(zhuǎn)彎更流暢,尋路效率更高。統(tǒng)計分析顯示,使用可穿戴系統(tǒng)的步行速度與使用拐杖的速度相當。導航時間和行走距離大幅減少了約 25%。加入電子皮膚后,碰撞事故明顯減少。
為了進一步評估可穿戴系統(tǒng)在不同真實世界環(huán)境中的影響,他們讓另外 8 名視障人士參與了 4 個不同場景的真實世界測試:室內(nèi)和室外環(huán)境、靜態(tài)和動態(tài)障礙物、工作相關場景和日常生活場景,以及反映真實世界挑戰(zhàn)的綜合任務。這些任務的熟練完成凸顯了系統(tǒng)在應對現(xiàn)實生活挑戰(zhàn)方面的有效性。

圖|真實世界環(huán)境測試
所有實驗結(jié)束后,視障人士完成了廣泛用于系統(tǒng)可用性評估的“系統(tǒng)可用性量表”。他們給可穿戴系統(tǒng)打出的平均可用性分數(shù)為 79.6 分,在 5000 個商業(yè)和研究設備中排名第 85 位。在隨后的開放式問題調(diào)查問卷中,參與者表示可穿戴系統(tǒng)提供了直觀的反饋和引人入勝的訓練游戲。
研究結(jié)果表明,整合視覺、聽覺和觸覺能夠增強視力輔助系統(tǒng)的可用性和功能性。該系統(tǒng)反映了人眼的構(gòu)造,將中央?yún)^(qū)域用于詳細處理,外圍區(qū)域用于監(jiān)視,通過融合密集和稀疏數(shù)據(jù)處理、快速和慢速響應速度以及前端觀察能力,以最小的功耗和低延遲有效地監(jiān)控了廣闊的區(qū)域。
同時,在硬件方面,該系統(tǒng)引入了柔性集傳感執(zhí)行于一體的電子皮膚和自供電的摩擦電智能鞋墊,與傳統(tǒng)的剛性設備相比,具有更好的可穿戴性。
而且,該系統(tǒng)是一個開源平臺,更廣泛、更多樣化的視障者群體的參與對于開發(fā)適合他們特定需求的導航輔助工具意義重大。
AI 助力視障人群“重獲光明”
科學家們一直致力于利用 AI 為視障人群研發(fā)補償視力損失的可穿戴設備,不僅有上述研究中視覺聽覺觸覺一體化的系統(tǒng),還有和智能數(shù)據(jù)手機的避障設備。
今年 3 月,
Nature發(fā)布了南京郵電大學通信與信息工程學院的一項研究。一副自主研發(fā)的眼鏡(重約 400 克,含約 80 克電池)和一部普通智能手機組成的可穿戴式避障設備,可以用于全面的環(huán)境感知,包括視頻和深度模態(tài),并實現(xiàn)了深度輔助視頻壓縮模塊。
他們在智能手機上設計了一個跨模態(tài)障礙物檢測模塊,該模塊利用基于模態(tài)相關性的跨模態(tài)學習,確保可靠的檢測,并提供用戶友好的聽覺和觸覺警報。室內(nèi)外多個實驗結(jié)果表明,該模塊的防撞率達到 100%,延遲小于 320 毫秒,續(xù)航時間約為 11 小時。
2023 年,由 GPT-4 提供支持的 AI 助手 Ask Envision 被設計用于輔助視障用戶。它具備多模態(tài)能力,可以接收圖像和文本,并生成對話式回應,還能夠為用戶提供更多關于周圍世界的視覺信息,并提升用戶的獨立性。
未來,隨著視覺模型、集成可穿戴電子設備、神經(jīng)科學見解和個性化生成訓練環(huán)境等方面的更多進展,以及跨學科的進一步合作,AI 幫助視障人群“重獲光明”的方式還有更大的想象空間。
https://www.nature.com/articles/d41586-025-01214-9
https://www.who.int/news-room/fact-sheets/detail/blindness-and-visual-impairment
作者:與可
編審:學術君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
熱門跟貼