機(jī)器之心原創(chuàng)
作者:張倩
前段時(shí)間,在北京亦莊舉辦的「人形機(jī)器人半程馬拉松」活動(dòng)引發(fā)全民熱議。有人對機(jī)器人在賽事中展現(xiàn)出的耐力和穩(wěn)定性表示贊賞;當(dāng)然,也有人因機(jī)器人頻繁摔倒、出狀況而感到失望,畢竟,這和短視頻里那些跳舞、跑酷、側(cè)空翻的機(jī)器人形成了巨大反差。
比賽跑成這樣,是不是說明近幾年圍繞機(jī)器人、具身智能的熱議是一場炒作?答案肯定不是簡單的「是」或「否」。
但除此之外,還有一個(gè)問題更加值得討論:如何打造一個(gè)真正可以走入現(xiàn)實(shí)世界的機(jī)器人?
更復(fù)雜、更智能的具身智能機(jī)器人需要建立在上一代具身智能完成商業(yè)閉環(huán)和真實(shí)世界數(shù)據(jù)閉環(huán)的基礎(chǔ)上。」這是我們從具身智能從業(yè)者 、推行科技創(chuàng)始人兼 CEO 盧鷹翔口中得到的觀點(diǎn)。而他所做的工作,就是打造這樣一個(gè)商業(yè)和數(shù)據(jù)閉環(huán)。
如果你在蘇州、深圳、上海等地點(diǎn)過機(jī)器人送的外賣,那你可能見過推行科技的機(jī)器人。它們和行人、自行車、電動(dòng)車一起穿行、過馬路,還會(huì)自己進(jìn)小區(qū)、坐電梯,把外賣、商品送到用戶手里。
推行科技的初代物流機(jī)器人,可以在復(fù)雜的交通環(huán)境中穿行。

視頻鏈接:https://mp.weixin.qq.com/s/xE9ibJNxX6x51yE5Nfyevw
推行科技的第二代移動(dòng)操作機(jī)器人Carri Flex,增加了靈活的上肢操作能力。
重要的是,這是一個(gè)商業(yè)化程度非常高的機(jī)器人。在實(shí)際運(yùn)營過程中,它們會(huì)和人類騎手一起在商家門口等待接單,履約率考核標(biāo)準(zhǔn)也和騎手一致。由于履約率非常高(已達(dá) 98.5%),在一些高價(jià)值場景中,它們拿到的報(bào)酬已經(jīng)可以覆蓋自身的成本,做到了單個(gè)機(jī)器人盈虧平衡。
從容錯(cuò)性高、技術(shù)可及的場景入手,在具身智能發(fā)展早期就把機(jī)器人大量投入現(xiàn)實(shí)世界,實(shí)現(xiàn)商業(yè)化運(yùn)營,并基于機(jī)器人的實(shí)際商用構(gòu)建數(shù)量和豐富度逐漸進(jìn)階的數(shù)據(jù)飛輪,這就是盧鷹翔所說的「上一代具身智能的商業(yè)和數(shù)據(jù)閉環(huán)」。以此為基礎(chǔ),推行科技將逐步打造更復(fù)雜、更智能的具身智能機(jī)器人,并將它們投入更多場景。
那么,這個(gè)商業(yè)加數(shù)據(jù)閉環(huán)是怎么實(shí)現(xiàn)的,具體如何推進(jìn)?我們和盧鷹翔以及推行科技另一位聯(lián)創(chuàng)、CTO 龍禹含進(jìn)行了多次溝通,旨在揭秘一條現(xiàn)階段可行且后續(xù)可持續(xù)的具身智能發(fā)展路徑。
機(jī)器人的進(jìn)化論
在今年的 GTC 大會(huì)上,英偉達(dá)高級研究科學(xué)家 Jim Fan 提到了具身智能的「數(shù)據(jù)金字塔」概念。

圖源:https://rdi.berkeley.edu/llm-agents/assets/jimfangr00t.pdf
金字塔的塔尖代表的是真機(jī)數(shù)據(jù)。這部分?jǐn)?shù)據(jù)非常重要,包括 Jim Fan 導(dǎo)師李飛飛在內(nèi)的很多人都相信,機(jī)器人的智能水平也像生物進(jìn)化一樣,需要在不斷與真實(shí)物理世界產(chǎn)生互動(dòng)、適應(yīng)更復(fù)雜的環(huán)境的過程中逐漸進(jìn)化。當(dāng)然,這部分?jǐn)?shù)據(jù)也非常稀缺,需要通過機(jī)器人的大規(guī)模部署來實(shí)現(xiàn)。
也有一些公司建立了自己的「數(shù)據(jù)工廠」,讓機(jī)器人在人工搭建的場景中與數(shù)據(jù)采集師協(xié)同作業(yè),逐條積累數(shù)據(jù)。但這種方式不僅成本高昂,而且人工搭建的場景在豐富度上天然存在局限性,這種局限性不可避免地會(huì)對機(jī)器人在真實(shí)世界中的泛化能力產(chǎn)生負(fù)面影響。
不過,除了真機(jī)數(shù)據(jù),合成 / 仿真數(shù)據(jù)和互聯(lián)網(wǎng)級的通識數(shù)據(jù)也是通用泛化具身模型訓(xùn)練所必須的。從 ChatGPT 走紅至今,這兩類數(shù)據(jù)的價(jià)值已經(jīng)被充分認(rèn)可,尤其是在語言模型的演進(jìn)過程中,互聯(lián)網(wǎng)通識數(shù)據(jù)的有效利用已成為提升模型能力的核心基礎(chǔ)。
但在具身智能領(lǐng)域,互聯(lián)網(wǎng)級的通識數(shù)據(jù)仍處于真空狀態(tài)。填補(bǔ)這一空白,是推動(dòng)機(jī)器人能力穩(wěn)定泛化至真實(shí)復(fù)雜場景的關(guān)鍵前提,也是邁向通用智能高階能力的必經(jīng)之路。針對這一行業(yè)痛點(diǎn),推行科技自研了「騎手影子系統(tǒng)」,構(gòu)建了覆蓋多種任務(wù)類型與環(huán)境變數(shù)的高密度人類行為數(shù)據(jù)集,從根本上提升了機(jī)器人在開放物理世界中的泛化能力與可靠性。相較仍困于數(shù)據(jù)瓶頸的行業(yè)現(xiàn)狀,推行科技已率先完成通識級數(shù)據(jù)體系的構(gòu)建與驗(yàn)證,形成顯著的技術(shù)競爭力。
一條可持續(xù)的具身智能路徑,從「騎手影子系統(tǒng)」說起
ChatGPT 能夠通過學(xué)習(xí)海量人類對話數(shù)據(jù),掌握語言的規(guī)律和模式,從而實(shí)現(xiàn)自然流暢的對話。特斯拉 FSD 則通過分析和篩選人類駕駛數(shù)據(jù),擇優(yōu)學(xué)習(xí)駕駛決策和操作,進(jìn)而實(shí)現(xiàn)自動(dòng)駕駛。同樣地,物流機(jī)器人也可以借助人類騎手的騎行和操作數(shù)據(jù),學(xué)習(xí)自主應(yīng)對各類交通環(huán)境、取放各種包裝袋等技能,從而實(shí)現(xiàn)高效送外賣,這便是推行科技所打造的「騎手影子系統(tǒng)」的工作原理。
在之前的采訪文章(參見《跟騎手學(xué)習(xí)送外賣,這家具身智能公司的機(jī)器人已經(jīng)上崗掙錢了》)中,我們詳細(xì)介紹過這個(gè)系統(tǒng) —— 它主要通過安裝在外賣騎手電瓶車上的車載硬件采集三種關(guān)鍵數(shù)據(jù):環(huán)境數(shù)據(jù)(攝像頭采集的路況、障礙物等視覺信息)、定位數(shù)據(jù)(通過 RTK 技術(shù)采集)以及駕駛數(shù)據(jù)(騎手在特定情況下的操作,如踩油門、剎車或轉(zhuǎn)向)。系統(tǒng)獲取這些數(shù)據(jù)后,通過模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法讓機(jī)器人學(xué)習(xí)人類騎手的行為,從而使機(jī)器人能夠在復(fù)雜多變的城市環(huán)境中自主導(dǎo)航。這是「騎手影子系統(tǒng)」的 1.0 版本。
如今,這個(gè)系統(tǒng)已經(jīng)進(jìn)化成了「2.0」。除了電瓶車,它還可以將騎手的頭盔、外套轉(zhuǎn)化為動(dòng)捕設(shè)備,記錄人類騎手如何開關(guān)門、拿放外賣以及其他更復(fù)雜的操作軌跡,從而為加上「上肢」的機(jī)器人積累操作行為數(shù)據(jù)。
這種數(shù)據(jù)采集方式最顯著的優(yōu)勢在于「量大管飽」:中國騎手平均每人每天跑 100-200 公里,一個(gè)普通超市前置倉的 15-20 個(gè)騎手一個(gè)月就能產(chǎn)生超過 10 萬公里數(shù)據(jù),一年可達(dá)近 200 萬公里。所以,依靠這一模式,推行科技平均每日即可采集數(shù)萬公里的騎行行為數(shù)據(jù)用于具身模型訓(xùn)練,在短短兩三年的時(shí)間內(nèi)就積累了數(shù)千萬公里的行駛數(shù)據(jù),數(shù)量級相當(dāng)于國內(nèi)頭部自動(dòng)駕駛公司的歷史路測數(shù)據(jù)積累總和。
在推行科技 2024 年開始部署包含上肢數(shù)據(jù)采集設(shè)備的「騎手影子系統(tǒng)」2.0 版本以來,不到一年時(shí)間積累的上肢軌跡數(shù)據(jù)也達(dá)到了近百萬條,采集效率和成本效率遠(yuǎn)超其它方式。此外,推行科技所采集的數(shù)據(jù)在場景類型、任務(wù)結(jié)構(gòu)、操作目標(biāo)等方面與機(jī)器人實(shí)際訓(xùn)練需求高度一致,具備強(qiáng)目標(biāo)導(dǎo)向性與時(shí)空連續(xù)性,優(yōu)于互聯(lián)網(wǎng)視頻等數(shù)據(jù)源中常見的碎片化、弱結(jié)構(gòu)化內(nèi)容,這些與機(jī)器人實(shí)際訓(xùn)練目標(biāo)高度匹配的數(shù)據(jù)能更有效地驅(qū)動(dòng)模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)過程。
通過這種創(chuàng)新的數(shù)據(jù)采集方式,推行科技有效地解決了具身智能領(lǐng)域普遍面臨的「數(shù)據(jù)魔咒」問題,為其機(jī)器人技術(shù)的快速迭代和商業(yè)化落地提供了可靠的原材料保障。
從「三原色」到「回環(huán)反饋」:走入現(xiàn)實(shí)世界的機(jī)器人如何隨機(jī)應(yīng)變?
騎手的行為數(shù)據(jù)蘊(yùn)含著豐富的信息,推行科技的數(shù)據(jù)閉環(huán)平臺可以對騎手的動(dòng)作行為進(jìn)行自動(dòng)分解及標(biāo)注。龍禹含提到,推行科技通過對海量騎手配送過程中的上肢行為數(shù)據(jù)的深入分析發(fā)現(xiàn),看似復(fù)雜多變的騎手遞送任務(wù),實(shí)際上都由三個(gè)核心原子任務(wù)排列組合而成 ——按按鈕、推拉門以及拿放貨,就像是顏色里的「三原色」。值得注意的是,這三個(gè)原子任務(wù)通常僅需騎手使用右手進(jìn)行單臂操作即可完成。
基于這一發(fā)現(xiàn),推行科技成功定義了具備單臂操作能力的 Carri Flex 機(jī)器人,首次將具備上肢操作能力的機(jī)器人產(chǎn)品成功部署于真實(shí)開放的物理世界。在此基礎(chǔ)上,推行科技進(jìn)一步對機(jī)器人在真實(shí)場景中的服務(wù)數(shù)據(jù)進(jìn)行收集,以訓(xùn)練可支持雙臂協(xié)同等更為復(fù)雜任務(wù)且可靠性能達(dá)到商用標(biāo)準(zhǔn)的具身模型。
能將機(jī)器人部署于真實(shí)服務(wù)場景的關(guān)鍵是他們構(gòu)造的行為樹 VLA(Vision-Language-Action)模型。和很多 VLA 模型一樣,這個(gè)模型使用 VLM 結(jié)合實(shí)時(shí)感知信息和當(dāng)前任務(wù)來生成具體原子任務(wù),而后通過一個(gè)行動(dòng)模型將原子任務(wù)轉(zhuǎn)化機(jī)器人的關(guān)節(jié)軌跡。

和傳統(tǒng) VLA 結(jié)構(gòu)不同的是,行為樹 VLA 使用 LLM 進(jìn)行高層任務(wù)規(guī)劃,可將高級指令(如,前往某店取單)轉(zhuǎn)化為一個(gè)行為樹結(jié)構(gòu)。行為樹將根據(jù)當(dāng)前任務(wù)狀態(tài)向 VLA 模型發(fā)布子任務(wù)(如,行進(jìn)至某店,開門,于柜臺上取貨等)。行為樹將接收 VLM 任務(wù)狀態(tài)解碼器通過回環(huán)反饋邏輯輸出的任務(wù)狀態(tài)信息,從而改變行為樹當(dāng)前所處的子任務(wù)分支。
這個(gè)反饋使得 LLM 能夠了解到任務(wù)的實(shí)際執(zhí)行情況。如果遇到問題或者環(huán)境發(fā)生變化,LLM 可以基于這個(gè)反饋調(diào)整或重新生成行為樹,從而解決 VLA 模型在追求局部最優(yōu)的過程中忽略了具體任務(wù)可行性的問題,使得模型在泛化場景中保持對齊,提高了整個(gè)系統(tǒng)的適應(yīng)性和可靠性。
以 Carri Flex 機(jī)器人為例,其典型任務(wù)之一是在電梯間的外賣桌上放置外賣袋。然而,當(dāng)桌面已被其他外賣占滿這一特殊情況發(fā)生時(shí),如果模型未經(jīng)過類似場景的專門訓(xùn)練,基于模仿學(xué)習(xí)的 VLA 模型可能因?yàn)槌霈F(xiàn)分布外(Out-of- Distribution,OOD)場景而產(chǎn)生行為退化現(xiàn)象,進(jìn)而可能陷入無法恢復(fù)的執(zhí)行失敗,這在真實(shí)商業(yè)應(yīng)用中是不可接受的。而在客戶實(shí)際需求中,理想應(yīng)對方式通常涉及任務(wù)層級的反饋機(jī)制與策略調(diào)整,例如將外賣轉(zhuǎn)移至附近空曠區(qū)域,或通過電話通知收件人等。
推行科技針對這一類現(xiàn)實(shí)問題,在模型中構(gòu)建了多層級反饋機(jī)制,使機(jī)器人能夠在不確定環(huán)境中做出更符合人類預(yù)期的靈活應(yīng)對,確保任務(wù)的穩(wěn)定交付與用戶體驗(yàn)的一致性。
「一腦多形、一腦多棲」:具身智能的商業(yè)落地與全球視野
廉價(jià)、量大、質(zhì)優(yōu)的數(shù)據(jù)獲取方式和可靠的模型為推行科技實(shí)現(xiàn)一條可落地、可持續(xù)的具身智能發(fā)展路徑提供了可靠基礎(chǔ)。目前,他們已經(jīng)和國內(nèi)三家頭部全國性即時(shí)配送平臺同時(shí)達(dá)成業(yè)務(wù)合作,完成了近 10 萬單配送
而且,由于數(shù)據(jù)是從復(fù)雜、多元的人類活動(dòng)場景中采集而來,推行科技訓(xùn)練得到的模型具有較強(qiáng)的泛化能力,可以實(shí)現(xiàn)「?腦多形」和「?腦多棲」的部署?!?腦多形」指的是他們的模型不僅可以在自己的機(jī)器人身上部署,還可以泛化到四足機(jī)器狗平臺和傳統(tǒng)阿克曼底盤?!?腦多棲」指的是除了陸地環(huán)境,他們的模型還可以直接在靜水船只上發(fā)揮作用(不需要為水面訓(xùn)練投入額外數(shù)據(jù)采集和調(diào)試成本),從而拿到了漁業(yè)養(yǎng)殖場景超百臺訂單(用于自動(dòng)灑藥及投料)。
之所以能夠取得這些成果,除了路線的選擇,推行科技的人才儲備也發(fā)揮了重要作用。推行科技團(tuán)隊(duì)曾于卡內(nèi)基梅隆大學(xué)國家機(jī)器人工程中心負(fù)責(zé)研發(fā) CHIMP 人形救援機(jī)器人,并獲美國國防高級研究計(jì)劃局 DARPA 機(jī)器人挑戰(zhàn)賽全球第二名。他們的機(jī)器人是當(dāng)時(shí)將 8 個(gè)比賽任務(wù)全部完成并獲得 8 分滿分的三個(gè)機(jī)器人作品之一,也是唯一一個(gè)在失誤摔倒后,沒有借助人力自行恢復(fù)站立,繼續(xù)完成任務(wù)的。
除此之外,團(tuán)隊(duì)還曾負(fù)責(zé)研發(fā)全球第二型獲批美國加州 OL318 「全無人」牌照的 L4 級自動(dòng)駕駛乘用車,這一背景為團(tuán)隊(duì)提供了搭建「騎手影子系統(tǒng)」的技術(shù)靈感和工程基礎(chǔ)。
推行科技團(tuán)隊(duì)參與研發(fā)的 CHIMP 人形救援機(jī)器人
可以說,推行科技所選的具身智能路線,以及當(dāng)前已經(jīng)研發(fā)出的 Carri Flex 等機(jī)器人,在多年前就已經(jīng)埋下了種子。

在海外,也有一些機(jī)器人公司在做和推行科技類似的事情,比如 Hinton 擔(dān)任顧問的 Vayu Robotics。他們所在的市場有著誘人的前景,人力成本、遞送費(fèi)用高達(dá)國內(nèi)的五到十倍,存在巨大的運(yùn)力缺口。不過,盧鷹翔提到,和這些公司相比,推行科技的「國情優(yōu)勢」更加明顯,因?yàn)槲覈兄嫶蟮尿T手隊(duì)伍和更復(fù)雜的城市末端環(huán)境,能夠以更高的效率訓(xùn)練出強(qiáng)泛化能力的機(jī)器人。在綜合考慮這些因素后,推行科技打算進(jìn)軍海外,為全球用戶提供服務(wù)。
和機(jī)器人馬拉松一樣,具身智能的發(fā)展注定是一場持續(xù)多年的長跑。雖然在養(yǎng)老、家政等備受關(guān)注的場景中,機(jī)器人表現(xiàn)尚未達(dá)到預(yù)期,但在城市角落里,配送機(jī)器人已默默完成了數(shù)萬單真實(shí)訂單。推行科技的故事告訴我們,不必追求一步登天的技術(shù)突破,而是先在真實(shí)環(huán)境中找到商業(yè)閉環(huán),再以此為基礎(chǔ)逐步迭代。這種務(wù)實(shí)的進(jìn)化路徑,或許才是具身智能走向未來的最短捷徑。
熱門跟貼