
在機器人的“眼中”,現實世界充滿了海量需要處理的信息。想要理解場景中的每一個數據點,往往需要耗費大量的計算資源和時間。而在此基礎上,利用這些信息來判斷如何更好地幫助人類,更是一項頗具挑戰(zhàn)的任務。
如今,麻省理工學院的機器人專家找到了一種方法,能夠幫助機器人過濾數據噪音,使其專注于場景中與協助人類最為相關的特征
他們將這種方法命名為“相關性(Relevance)”。借助這一方法,機器人可以利用場景中的各種線索,比如音頻和視頻信息,來判斷人類的目標,進而快速識別出最有可能助力實現該目標的物體。隨后,機器人會執(zhí)行一系列操作,安全地將相關物體遞交給人類,或者完成相應動作。
研究人員通過模擬會議自助早餐場景的實驗,展示了這一方法的實際效果。他們擺了一張桌子,上面擺滿了各式各樣的水果、飲料、小吃和餐具,還配備了一個裝有麥克風和攝像頭的機械臂。運用新的“相關性”方法后,實驗表明,機器人能夠在不同場景中準確識別人類的目標,并提供恰當的幫助
在其中一個場景里,機器人捕捉到人類伸手去拿一罐沖調好的咖啡這一視覺線索,便迅速將牛奶和攪拌棒遞給了這個人;在另一場景中,機器人聽到兩個人談論咖啡的對話后,為他們送上了一罐咖啡和奶精。
總體而言,該機器人預測人類目標的準確率可達 90%,識別相關物體的準確率更是高達 96%。而且,這一方法還顯著提升了機器人的安全性,與未使用該方法執(zhí)行相同任務相比,碰撞次數減少了 60% 以上。
麻省理工學院機械工程教授 Kamal Youcef-Toumi 表示:“這種實現相關性的方法,能讓機器人與人類的交互變得更加容易。機器人無需頻繁詢問人類的需求,而是主動從現場獲取信息,自行判斷如何提供幫助?!?/p>
Kamal 的團隊正在探索,運用“相關性”編程的機器人在智能制造倉庫場景中能發(fā)揮怎樣的作用。他們設想,未來機器人可以與人類并肩工作,默契地提供協助。
Kamal與研究生 Xiaotong Zhang、Dingcheng Huang 將在今年 5 月舉行的 IEEE 國際機器人與自動化會議上展示這一新方法。

尋找焦點
該團隊的方法受到人類自身篩選日常生活中相關事物能力的啟發(fā)。人類之所以能夠過濾掉干擾信息,專注于重要內容,得益于大腦中的網狀激活系統(RAS)。RAS 是腦干中的一束神經元,它在潛意識層面發(fā)揮作用,過濾掉不必要的刺激,讓人能夠有意識地感知到關鍵信息。比如,RAS 能避免我們的感官因過多信息而超載,讓我們不會在倒咖啡時,把注意力分散在廚房柜臺上的每一件物品上,而是專注于當前的任務。
Kamal 解釋道:“這些神經元能過濾掉所有不重要的信息,讓大腦專注于當下相關的內容,這真的很神奇。這基本上就是我們的研究思路?!?/p>
他和團隊開發(fā)了一種機器人系統,該系統在很大程度上模仿了 RAS 篩選和處理信息的能力。這一方法主要包含四個階段。第一階段是“感知”階段,在此期間,機器人通過觀察和學習,獲取音頻和視頻線索,例如麥克風和攝像頭傳來的信息,這些信息會持續(xù)輸入到 AI“工具包”中。這個工具包可能包含一個大型語言模型(LLM),用于處理音頻對話,識別關鍵字和短語,同時還配備了各種算法,用于檢測和分類物體、人類、身體動作以及任務目標。AI 工具包就像大腦的 RAS 一樣,在后臺持續(xù)運行,進行潛意識層面的信息過濾。
第二階段是 “觸發(fā)檢查” 階段,系統會定期進行檢查,判斷是否有重要事件發(fā)生,比如是否有人進入該環(huán)境。一旦檢測到有人進入,系統便會進入第三階段。這一階段是整個系統的核心,其作用是確定環(huán)境中哪些特征最有可能與幫助人類相關。
為了建立這種相關性,研究人員開發(fā)了一種算法,它可以接收 AI 工具包做出的實時預測。例如,工具包中的 LLM 可能識別出關鍵字“coffee”,而動作分類算法可能將伸手拿杯子的人標記為有“make coffee”的目標。團隊的“相關性”方法會綜合這些信息,首先確定與“making coffee”目標最相關的物體“類別”。這樣一來,“fruits”和“snacks”等類別可能會被自動排除,而“cups”和“creamers”等類別則會被保留。接著,算法會在相關類別中進一步篩選,確定最相關的“元素”。比如,根據環(huán)境中的視覺線索,系統可能會將離人最近的杯子標記為比遠處的杯子更相關、更能提供幫助。
在第四階段,也是最后一個階段,機器人會獲取識別出的相關物體,并規(guī)劃一條路徑,將這些物體送到人類手中。

助手模式
研究人員在模擬會議自助早餐的實驗中對新系統進行了測試。他們選擇這個場景,是基于一個公開的早餐動作數據集,該數據集包含人們在早餐時間進行的各類典型活動的視頻和圖像,比如沖咖啡、做煎餅、泡麥片和煎雞蛋等,每個視頻和圖片中的動作以及總體目標(如煎蛋還是煮咖啡)都做了標記。
借助這個數據集,團隊對 AI 工具包中的各種算法進行了測試,這樣一來,當接收到新場景中的人類動作時,算法就能準確標記和分類人類的任務、目標以及相關物體。
在實驗中,他們設置了機械臂和抓手,并設定系統在人類靠近擺滿飲料、小吃和餐具的桌子時提供協助。結果發(fā)現,當沒有人在場時,機器人的 AI 工具包會在后臺持續(xù)運行,對桌子上的物體進行標記和分類。
在觸發(fā)檢查過程中,一旦機器人檢測到人類,它會立刻做出反應,開啟相關性分析階段,并根據 AI 工具包確定的人類目標,快速識別場景中最有可能相關的物體。
合著者 Zhang 表示:“相關性方法能夠引導機器人在高度動態(tài)的環(huán)境中,提供無縫、智能、安全且高效的幫助?!?/p>
展望未來,該團隊希望將這一系統應用到類似工作場所、倉庫環(huán)境的場景中,以及家庭日常任務中。
Zhang 說:“我想在家里測試這個系統,比如我看報紙的時候,它能不能給我遞杯咖啡;我洗衣服的時候,它能不能幫我拿洗衣袋;我做維修的時候,它能不能給我遞螺絲刀。我們的愿景是實現更加自然、流暢的人機交互。”
https://news.mit.edu/2025/robotic-system-zeroes-objects-most-relevant-helping-humans-0424
熱門跟貼