當(dāng)前,人形機(jī)器人已逐漸應(yīng)用于情感交互、工業(yè)自動(dòng)化、服務(wù)行業(yè)和研究探索等諸多領(lǐng)域,但不可忽視的是,其控制系統(tǒng)仍然依賴預(yù)設(shè)的狀態(tài)機(jī)和固定策略優(yōu)化,缺乏類人的認(rèn)知自主能力。
例如,美國波士頓動(dòng)力公司的 Atlas 機(jī)器人、日本 PAL 機(jī)器人公司的 Talos 機(jī)器人、美國 Agility Robotics 公司的 Digit 機(jī)器人均采用基于模型預(yù)測控制和任務(wù)特定的強(qiáng)化學(xué)習(xí),其在面對復(fù)雜場景變化時(shí),仍需依賴于靜態(tài)預(yù)先設(shè)定的策略,從而難以進(jìn)行自主學(xué)習(xí)和動(dòng)態(tài)實(shí)時(shí)決策。
這些技術(shù)支持機(jī)器人模仿人類執(zhí)行重復(fù)性任務(wù),但其感知與執(zhí)行能力不足以彌補(bǔ)在思維、規(guī)劃和決策等高級(jí)認(rèn)知能力上的缺陷。盡管部分研究探索了多模態(tài)數(shù)據(jù)融合(視覺、聽覺、觸覺),但由于跨模態(tài)對齊技術(shù)的局限性,人形機(jī)器人在高動(dòng)態(tài)環(huán)境下的語義理解和連貫推理仍存在挑戰(zhàn)。
那么,是否可將機(jī)器人置于動(dòng)態(tài)環(huán)境中,讓它自主感知不同的物體和信息,并做出合理的預(yù)處理和決策呢?這是一個(gè)巨大的挑戰(zhàn),也是當(dāng)前機(jī)器人研究的重點(diǎn)方向。
為解決該問題,就讀于馬來西亞思特雅大學(xué)(UCSI University)的博士研究生王立博在發(fā)表于預(yù)印本網(wǎng)站arXiv的《多場景推理:解鎖人形機(jī)器人在多模態(tài)理解中的認(rèn)知自主性》(Multi-Scenario Reasoning:Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding)的論文中,提出多場景推理(MSR,Multi-Scenario Reasoning)控制系統(tǒng)的框架 [1]。

MSR 旨在實(shí)現(xiàn)高效的跨模態(tài)感知,利用稀疏注意力過濾與記憶增強(qiáng)推理機(jī)制,使機(jī)器人能夠在多變環(huán)境中,進(jìn)行高精度信息提取與推理,避免現(xiàn)有系統(tǒng)因靜態(tài)預(yù)訓(xùn)練數(shù)據(jù)而產(chǎn)生的響應(yīng)不連貫問題。
為提升仿人機(jī)器人在不確定環(huán)境中的自主適應(yīng)能力,該研究以情境認(rèn)知理論為基礎(chǔ),模擬人類大腦在復(fù)雜環(huán)境下的跨模態(tài)語義整合、情境分析和動(dòng)態(tài)決策能力。
不同于傳統(tǒng)依賴靜態(tài)預(yù)訓(xùn)練模型或單一模態(tài)數(shù)據(jù)的認(rèn)知架構(gòu),MSR 通過注意力的優(yōu)先級(jí)(Attention-Based Prioritization)、記憶增強(qiáng)推理(Memory-Augmented Reasoning)和行動(dòng)決策建模(Action-Decision Modeling)等關(guān)鍵模塊,實(shí)現(xiàn)機(jī)器人在視覺、聽覺和觸覺數(shù)據(jù)融合上的高效性,以解決當(dāng)前跨模態(tài)理解的瓶頸問題。
同時(shí),作者發(fā)展了 Sim2Real 通過結(jié)合場景表征和情境信息、注意力、記憶和反饋機(jī)制,來優(yōu)化人形機(jī)器人適應(yīng)在不同場景的動(dòng)態(tài)自適應(yīng)能力。

人腦具有短期記憶和長期記憶,目前多數(shù)研究表明機(jī)器人已逐步具備短期記憶能力,但它在長期記憶方面的能力仍然有待提升。當(dāng)前多數(shù)機(jī)器人仍依賴工程師預(yù)設(shè)的指令,缺乏自主性和靈活性,其任務(wù)執(zhí)行效果往往受限于靜態(tài)預(yù)設(shè)程序。
為了突破這一局限,需要開發(fā)一種能夠根據(jù)環(huán)境動(dòng)態(tài)生成變形指令的控制系統(tǒng)。這樣的系統(tǒng)需要具備強(qiáng)大的感知能力,能夠綜合分析環(huán)境因素并做出合理的決策。
該研究在多場景理解、機(jī)器人的認(rèn)知系統(tǒng)設(shè)計(jì)和自適應(yīng)力開發(fā)等方向具有應(yīng)用前景。
第一,多場景理解:從長思維鏈到動(dòng)態(tài)思維鏈。
靜態(tài)環(huán)境下任務(wù)可預(yù)設(shè)定,但在動(dòng)態(tài)環(huán)境下機(jī)器人需要自主感知和推理,這種推理能力至關(guān)重要。
借鑒長思維鏈(Long Chain-of-Thought)方法雖可行,但由于靜態(tài)的預(yù)設(shè)定同樣可能造成產(chǎn)生冗余計(jì)算和資源耗費(fèi)。相比之下,該研究中的動(dòng)態(tài)思維(Dynamic Chain-of-Thought)通過自適應(yīng)推理觸發(fā)機(jī)制,結(jié)合自適應(yīng)剪枝原理,能夠識(shí)別關(guān)鍵語義,僅在必要情況下延展推理鏈,以優(yōu)化計(jì)算資源。
例如,“微波爐禁用鐵器”這類具有明確因果關(guān)系的知識(shí)無需推理,可直接根據(jù)常識(shí)生成答案。動(dòng)態(tài)思維鏈展示出針對 token 的重要性進(jìn)行剪枝(pruning),本質(zhì)上就是篩選最關(guān)鍵的語義,從而決定是否推理以及步驟長度。
對于顯著減少人形機(jī)器人控制系統(tǒng)計(jì)算資源的消耗和實(shí)現(xiàn)精準(zhǔn)場景識(shí)別來說,篩選是推理路徑的關(guān)鍵環(huán)節(jié)。

第二,認(rèn)知系統(tǒng)設(shè)計(jì):模擬人腦動(dòng)態(tài)決策。
基于認(rèn)知科學(xué)理論,該研究構(gòu)建了“感知-推理-決策-執(zhí)行”的完整控制鏈路。通過多模態(tài)信息融合解析環(huán)境數(shù)據(jù),利用自適應(yīng)推理模塊動(dòng)態(tài)調(diào)整決策流程,并最終通過“信號(hào)-動(dòng)作映射”將推理結(jié)果轉(zhuǎn)化為控制指令,以實(shí)現(xiàn)模擬人腦的自主決策。
第三,自適應(yīng)力開發(fā):從物理調(diào)參到動(dòng)態(tài)遷移。
傳統(tǒng)方法通過調(diào)整物理數(shù)據(jù)獲取方式,但這種方式較為低效。目前,控制系統(tǒng)需要一種讓機(jī)器人擺脫靜態(tài)訓(xùn)練的局限,突破在模擬-現(xiàn)實(shí)域遷移方面的策略泛化不足的技術(shù)瓶頸。針對自適應(yīng)域隨機(jī)化依賴靜態(tài)預(yù)訓(xùn)練導(dǎo)致機(jī)器人在復(fù)雜任務(wù)中的推理與決策能力受限的問題,這項(xiàng)研究提出了目標(biāo)域優(yōu)化。
該框架通過因果推理和策略自適應(yīng)調(diào)整優(yōu)化機(jī)器人在模擬-現(xiàn)實(shí)遷移(Sim-to-Real Transfer)中的策略泛化能力,提高其在高動(dòng)態(tài)環(huán)境下的執(zhí)行穩(wěn)定性。
通過傳感解析、因果推理、策略自適應(yīng)和跨域泛化優(yōu)化機(jī)器人,在現(xiàn)實(shí)環(huán)境的適應(yīng)性。傳感感知系統(tǒng)采用稀疏注意力和特征金字塔提取分層解析多模態(tài)數(shù)據(jù),來提高環(huán)境理解。
動(dòng)態(tài)因果推理通過預(yù)測誤差監(jiān)控和因果推理引擎調(diào)整狀態(tài)-行為映射,優(yōu)化實(shí)時(shí)決策。自適應(yīng)策略優(yōu)化結(jié)合策略調(diào)整引擎與上下文參數(shù)調(diào)優(yōu),動(dòng)態(tài)調(diào)整策略。相比自適應(yīng)域隨機(jī)化,目標(biāo)域優(yōu)化在因果推理和跨場景適應(yīng),對于復(fù)雜環(huán)境中的泛化能力方面更具顯著效果。

同時(shí),該研究中所提出機(jī)器人的發(fā)展不應(yīng)僅是為了替代人類從事低端工作,而應(yīng)更多地聚焦于那些對人類來說危險(xiǎn)或難以完成的任務(wù)?!拔覀冃枰_保機(jī)器人的開發(fā)能夠?yàn)樯鐣?huì)生產(chǎn)帶來積極影響,而非從事減少人類就業(yè)資源的行為?!蓖趿⒉┱f。
例如,在高空建筑施工中,機(jī)器人憑借精準(zhǔn)判斷和動(dòng)態(tài)環(huán)境適應(yīng)能力,能更安全高效地完成任務(wù);在醫(yī)療領(lǐng)域,機(jī)器人手術(shù)精確度高于人類醫(yī)生,尤其在精細(xì)操作和高度穩(wěn)定性手術(shù)中優(yōu)勢明顯;在地震廢墟、深海或太空等極端環(huán)境中,勘探機(jī)器人和救援機(jī)器人可在那些人類難以到達(dá)或存在安全風(fēng)險(xiǎn)的環(huán)境中工作。這些應(yīng)用場景表明,機(jī)器人可承擔(dān)更多人類難以完成或危險(xiǎn)的工作,讓人類生活更安全便捷。
據(jù)介紹,王立博接下來的設(shè)計(jì)是致力于構(gòu)建與 Transformer 原理不同的新型架構(gòu)“Defierithos”。特別是通過“自共振場”技術(shù)的開發(fā)替代,它不同于 Transformer 的自注意力機(jī)制依賴于計(jì)算每一個(gè) token 對其他所有 token 的關(guān)系。這使得新架構(gòu)一定程度上避免了計(jì)算復(fù)雜度和內(nèi)存消耗呈二次增長,尤其在處理長序列時(shí)有效捕捉遠(yuǎn)距離的依賴。
此外,他還模擬人類超級(jí)大腦運(yùn)行的原理,嘗試采用自共振場通過子頻帶分解(Subband Decomposition)與波干涉(Wave Interference)的方式,將信息以波形的形式持續(xù)流動(dòng)、進(jìn)行迭代干涉、減少必要的計(jì)算量,并通過動(dòng)態(tài)調(diào)整局部波干涉精確模擬復(fù)雜的長程依賴。
相比于 Transformer 需要依賴昂貴的全連接矩陣運(yùn)算,自共振場不僅降低計(jì)算成本,而且能以稀疏并行的方式,處理更加復(fù)雜且不容易被 Transformer 捕捉的微妙特征。王立博希望,能夠突破 Transformer 變體無法從根本上避免的內(nèi)存消耗與長序列建模的瓶頸。
參考資料:
1.https://doi.org/10.48550/arXiv.2412.20429
2.https://www.techrxiv.org/users/877969/articles/1275276-defierithos-the-lonely-warrior-rises-from-resonance
運(yùn)營/排版:何晨龍
熱門跟貼