龔澤穎 投稿
量子位 | 公眾號 QbitAI
機器人落地復(fù)雜場景,社交導(dǎo)航能力一定是避不開的關(guān)鍵一點。
先簡單介紹下,社交導(dǎo)航(SocialNav,Social navigation)是指在人機共存的環(huán)境中,機器人在遵循社會規(guī)范的前提下執(zhí)行導(dǎo)航任務(wù)。
就拿下圖來說,機器人需導(dǎo)航至目標(biāo)點,而目標(biāo)恰好位于兩名行人未來軌跡的交匯區(qū)域。
它不僅要靈活避免潛在的碰撞風(fēng)險,還需與行人保持合適的社交距離。

總而言之,社交導(dǎo)航該任務(wù)對視覺導(dǎo)航領(lǐng)域提出了獨特挑戰(zhàn):
預(yù)建地圖的方法難以適應(yīng)人群密集的動態(tài)環(huán)境,而現(xiàn)有RL方法存在短視決策和依賴全局信息的問題。
近期,香港科技大學(xué)(廣州)和香港科技大學(xué)聯(lián)合提出了一種新算法,Falcon。
它通過將軌跡預(yù)測算法融入社交導(dǎo)航任務(wù)中,實現(xiàn)長期動態(tài)避障并提升導(dǎo)航性能。

社交導(dǎo)航的另一個重要挑戰(zhàn)則是現(xiàn)有基準(zhǔn)的真實性不足。
如下所示,現(xiàn)有基準(zhǔn)通常存在以下幾方面的局限性:
- 場景復(fù)雜性不足:僅關(guān)注機器人與人類的交互,而忽略場景本身復(fù)雜性。
- 人類行為不自然:行人動作僵硬、運動模式失真,難以反映實際場景交互。
針對上述局限性,研究團(tuán)隊構(gòu)建了兩個新數(shù)據(jù)集——Social-HM3D 和 Social-MP3D,作為社交導(dǎo)航任務(wù)的新基準(zhǔn)。
該項目論文已被ICRA 2025接收,同時已經(jīng)掛上arXiv。
代碼和模型權(quán)重可到GitHub尋找。

Falcon:集成軌跡預(yù)測輔助任務(wù)的強化學(xué)習(xí)框架
Falcon算法框架由2個模塊組成:
- 主策略網(wǎng)絡(luò)(MPN,Main Policy Network)
- 時空預(yù)知模塊(SPM,Spatial-temporal Precognition Module)

主策略網(wǎng)絡(luò):讓機器人學(xué)會“遵守規(guī)則”
模塊一,主策略網(wǎng)絡(luò),這是Falcon的“大腦”,負(fù)責(zé)指導(dǎo)機器人如何行動。
其核心是社會認(rèn)知懲罰(SCP,Social Cognition Penalty)機制,通過設(shè)計專門的懲罰函數(shù),避免機器人干擾人類未來軌跡,從而引導(dǎo)智能體規(guī)避碰撞風(fēng)險并保持社交距離。
具體而言,F(xiàn)alcon引入三個關(guān)鍵懲罰項:
- 障礙物碰撞懲罰:嚴(yán)厲懲罰機器人撞到靜態(tài)障礙物或行人。
- 人類接近懲罰:當(dāng)機器人靠近行人時,隨距離減小增加懲罰。
- 軌跡阻礙懲罰:如果機器人干擾行人未來路徑,則提前施加懲罰。
時空預(yù)知模塊:讓機器人學(xué)會“提前規(guī)劃”
模塊二,時空預(yù)知模塊(SPM),結(jié)合軌跡預(yù)測與多種社交感知輔助任務(wù),顯著增強了機器人對未來環(huán)境動態(tài)變化的預(yù)測能力。
其主要功能包括:
- 人類數(shù)量估計:預(yù)測場景中有多少人,幫助評估環(huán)境復(fù)雜程度。
- 當(dāng)前位置跟蹤:實時跟蹤行人位置,快速響應(yīng)變化。
- 未來軌跡預(yù)測:預(yù)測未來幾秒行人路徑,提前規(guī)劃避障。
關(guān)鍵在于,輔助任務(wù)僅在訓(xùn)練階段使用。
在推理階段,機器人僅依賴主策略網(wǎng)絡(luò)進(jìn)行決策。
這種設(shè)計簡化了推理過程,確保模型在實際應(yīng)用中的高效性。
特意構(gòu)建兩個新的數(shù)據(jù)集
現(xiàn)有社交導(dǎo)航基準(zhǔn)存在諸多不足,如場景過于簡化、人類行為不自然等。
以下表格為現(xiàn)有的社交導(dǎo)航模擬器與數(shù)據(jù)集統(tǒng)計特性對比:

為彌補這些缺陷,研究人員構(gòu)建了兩個新數(shù)據(jù)集——Social-HM3D和Social-MP3D,具備以下優(yōu)勢:
- 真實場景重建:基于高精度3D掃描,涵蓋公寓、辦公樓、商場等多種室內(nèi)場景。
- 自然人類行為:采用多目標(biāo)導(dǎo)向的軌跡生成算法和ORCA動態(tài)避障模型,模擬人類行走、休息等自然行為。
- 合理人群密度:根據(jù)場景面積動態(tài)調(diào)整人類數(shù)量,確保交互密度適中。
研究團(tuán)隊表示,這兩個基準(zhǔn)既平衡了人機交互的社交密度,同時也避免了過度擁擠。

這一基準(zhǔn)為社交導(dǎo)航研究提供了更貼近真實場景的評估環(huán)境,并且支持推廣到有人環(huán)境下的物體導(dǎo)航、圖像導(dǎo)航等下游任務(wù)。
實驗部分
在定量分析方面,實驗表明,F(xiàn)alcon在目標(biāo)達(dá)成和社會合規(guī)方面表現(xiàn)出色:
其一是目標(biāo)達(dá)成。
在Social-HM3D中達(dá)到55.15%的成功率和成功路徑效率(SPL,Success weighted by Path Length)。
即使在未訓(xùn)練過的Social-MP3D數(shù)據(jù)集上,也能取得55.05%的成功率。
其二是社會合規(guī)。
在保持社交距離和避免碰撞方面表現(xiàn)良好,達(dá)到接近90%的個人空間合規(guī)性(Personal Space Compliance, PSC)和接近42%的人機碰撞率。

定量結(jié)果表明,F(xiàn)alcon不僅在已知環(huán)境中表現(xiàn)出色,還能有效適應(yīng)未見過的復(fù)雜動態(tài)環(huán)境。
在定性分析方面,下圖的定性結(jié)果展示了Falcon在不同典型場景中的優(yōu)越性——
第一個是人員跟隨情境。
Falcon通過預(yù)測行人未來軌跡,主動調(diào)整速度和路徑,保持安全距離。

第二個是復(fù)雜交叉路口。
面對行人和靜態(tài)障礙物同時存在的場景,F(xiàn)alcon提前預(yù)測并規(guī)劃出安全高效的路徑。

第三個是正面接近情境。
傳統(tǒng)的RL算法Proximity-Aware試圖直接從行人面前穿過導(dǎo)致碰撞,F(xiàn)alcon通過預(yù)測行人未來軌跡,提前調(diào)整路徑并安全避開。

3個關(guān)鍵發(fā)現(xiàn)
各項實驗后,團(tuán)隊有了三個關(guān)鍵發(fā)現(xiàn):
發(fā)現(xiàn)1,未來感知算法優(yōu)于以往實時感知算法。
靜態(tài)路徑規(guī)劃算法(如A*)無法適應(yīng)動態(tài)環(huán)境,而實時感知方法(如ORCA和Proximity-Aware)雖能被動避障,但仍存在延遲反應(yīng)問題。
相比之下,F(xiàn)alcon能夠主動預(yù)測行人軌跡并提前調(diào)整路徑,顯著提升了安全性和效率。
發(fā)現(xiàn)2,輔助任務(wù)有助于提高性能,其中軌跡預(yù)測最重要。
下表展示了不同輔助任務(wù)對導(dǎo)航性能的影響。
其中軌跡預(yù)測(SPM.Traj)效果最為顯著,成功率從40.94%提升至54.00%。

發(fā)現(xiàn)3,SCP和SPM相輔相成,改善性能并加快訓(xùn)練收斂。
下圖圖中為消融研究中的訓(xùn)練曲線。
可以觀察到,具有SPM和SCP的完整Falcon模型收斂更快,性能更好。

SCP在提升模型性能方面發(fā)揮關(guān)鍵作用,尤其是與SPM集成后,整體性能進(jìn)一步提升(從53.63%提高至55.15%),并加快訓(xùn)練收斂速度。
項目主頁:
https://zeying-gong.github.io/projects/falcon/
論文鏈接:
https://arxiv.org/abs/2409.13244
代碼鏈接:
https://github.com/Zeying-Gong/Falcon
熱門跟貼