
機(jī)器人巡邏、扭秧歌、煎蛋、進(jìn)廠打工……
今年春晚之后,
人形機(jī)器人從科幻片場(chǎng)走入現(xiàn)實(shí),
一夜成為“賽博頂流”。
宇樹(shù)Unitree因太火爆遭斷貨下架,
多家機(jī)器人公司宣布加速出貨,
業(yè)界宣布“2025年有望成為機(jī)器人量產(chǎn)元年”。
上海浦東的智元數(shù)據(jù)集采廠,機(jī)器人正在跟人類“學(xué)做家務(wù)”
來(lái)自硅谷的人形機(jī)器人Figure02,已經(jīng)能夠行云流水地操作一些簡(jiǎn)單的家務(wù)活
與此同時(shí),全國(guó)多地出臺(tái)新政
支持具身智能機(jī)器人的產(chǎn)業(yè)發(fā)展。
在上海浦東,全國(guó)首個(gè)“人形機(jī)器人訓(xùn)練場(chǎng)”啟用,
通過(guò)收集、整理機(jī)器人的動(dòng)作捕捉數(shù)據(jù),
給機(jī)器人造出更好的“超級(jí)大腦”。

姚卯青本科畢業(yè)于清華大學(xué),博士畢業(yè)于美國(guó)南加州大學(xué),曾經(jīng)是Google和Oracle高級(jí)工程師,現(xiàn)在為智元合伙人、具身業(yè)務(wù)部總裁
國(guó)內(nèi)的人形機(jī)器人“進(jìn)化”到哪一步了?
機(jī)器人成為家庭標(biāo)配,還有多遠(yuǎn)?
等機(jī)器人養(yǎng)老,現(xiàn)實(shí)嗎?
3月初,一條采訪了前谷歌高級(jí)工程師、
智元機(jī)器人合伙人姚卯青,
姚卯青預(yù)測(cè):
“人形機(jī)器人走進(jìn)家庭,還需5年左右時(shí)間,
價(jià)格最終大概能降到10萬(wàn)元以內(nèi)?!?/p>
同時(shí),更多的安全和倫理問(wèn)題也在未來(lái)等著我們……
編輯:韓嘉琪
責(zé)編:陳子文


新加坡的社交機(jī)器人Dexie,上班時(shí)“活力滿滿”,下班后“高位截癱”
兩年前,活力女孩“Dexie”空降新加坡的一家養(yǎng)老院,宣布要成為老年人的新型養(yǎng)老搭子。
Dexie是一個(gè)人形機(jī)器人,顏值在線,有柔軟觸感的硅膠皮膚,還會(huì)把嘴巴嘟成圓圓的“O”字。每天早晨,它都會(huì)坐著帶領(lǐng)老人們做健身操,一邊唱歌,一邊拍手。
但其他時(shí)間里,Dexie更像一個(gè)“高位截癱”的大號(hào)娃娃,只能靠身下的“輪椅”緩緩移動(dòng),既無(wú)法直立行走,也不能在行動(dòng)上給予老人幫助。
日本軟銀推出的類人機(jī)器人Pepper,情商很高,但不會(huì)干活,2020年正式退役
主打陪伴,一直是過(guò)去10年來(lái)人形機(jī)器人的招牌賣(mài)點(diǎn)。2015年,日本軟銀推出主打“類人機(jī)器人Pepper,Pepper身高1米2,有靈動(dòng)的大眼睛、帶獨(dú)立關(guān)節(jié)的5指,腳部是一個(gè)能夠平穩(wěn)移動(dòng)的輪盤(pán),可以識(shí)別人類的情緒、和人類對(duì)話,擅長(zhǎng)眨眼賣(mài)萌。問(wèn)世之初,Pepper曾在一分鐘內(nèi)被搶購(gòu)一空,很多公司、銀行、餐廳都請(qǐng)它當(dāng)人氣迎賓。
但在2020年夏天,Pepper宣布停產(chǎn)。上市一段時(shí)間后,Pepper的軟肋暴露——可愛(ài)但不中用。雖然Pepper擁有看似靈活的手指,但實(shí)際的抓握能力很弱,甚至很難平穩(wěn)地端送一杯水,除了四處移動(dòng),跟大家甜言蜜語(yǔ),很難指望它承擔(dān)什么其他重任。
這是人形機(jī)器人曾經(jīng)不被看好的原因:一個(gè)只會(huì)給足情緒價(jià)值的“社交達(dá)人”。
美國(guó)波士頓勞力推出的“Atlas”,曾經(jīng)被稱為人形機(jī)器人界的“王者”,但因?yàn)榭嘤谏虡I(yè)變現(xiàn),被公司多次易手
另一方面,人形機(jī)器人的研發(fā)極度燒錢(qián),不確定性很高、回報(bào)周期漫長(zhǎng),初代的人形機(jī)器人公司大多都陷入了財(cái)政危機(jī),其中就包括于2013年推出過(guò)“雙足機(jī)器人天花板”Atlas的美國(guó)公司波士頓動(dòng)力。
直到2022年底,ChatGPT的橫空出世讓AI技術(shù)發(fā)生了質(zhì)的飛躍,這才給沉寂許久的人形機(jī)器人行業(yè)重新點(diǎn)燃了希望。
嵌入大語(yǔ)言模型后,機(jī)器人有了更強(qiáng)的自然語(yǔ)言與推理能力,不再只是按部就班地執(zhí)行指令,而是能夠理解人類意圖,像人一樣思考和決策。

宇樹(shù)科技的機(jī)械狗與機(jī)器人
很快,國(guó)內(nèi)的人形機(jī)器人企業(yè)開(kāi)始密集生長(zhǎng)。智元機(jī)器人、銀河通用等新興創(chuàng)業(yè)公司成立,小米、蔚來(lái)、小鵬等車(chē)企紛紛入局,宇樹(shù)科技也在這一階段從“機(jī)械狗”轉(zhuǎn)向了“機(jī)器人”的研發(fā)。
由于整個(gè)行業(yè)仍在初期探索階段,所以各家公司的技術(shù)路線五花八門(mén)。有的企業(yè)是“造身派”,關(guān)注機(jī)器人本體,包括電機(jī)、傳感器、控制器、減速機(jī)等硬件;有的公司是“造腦派”,把更多的精力投入在AI模型、軟件算法上。
宇樹(shù)機(jī)器人在今年的春晚上表演扭秧歌
機(jī)器人長(zhǎng)出雙腿雙手,有了“人樣”還遠(yuǎn)遠(yuǎn)不夠。作為一種通用形態(tài),一個(gè)合格的人形機(jī)器人必須能夠勝任各種環(huán)境里的各種任務(wù)。既不能只是會(huì)跳舞的耍寶戲精,也不能只是高情商的對(duì)話音箱。
機(jī)器人要去完成一件任務(wù),需要的是交互操作的能力,姚卯青告訴一條:“要有對(duì)環(huán)境的理解和預(yù)測(cè),對(duì)(空間)幾何的一些理解規(guī)劃?!?/p>
想象這樣一個(gè)場(chǎng)景:小朋友在客廳玩耍打鬧,人形機(jī)器人需要把煮好的雞蛋和米粥端到餐桌上,避免把湯汁灑在到處走動(dòng)的小朋友身上,還要把凌亂的餐桌整理出放菜的空間,最后為孩子們盛粥、剝雞蛋。

電影《機(jī)械姬》
這套動(dòng)作背后,需要機(jī)器人能夠感知環(huán)境,能預(yù)判熊孩子的跑動(dòng)軌跡;也需要做任務(wù)規(guī)劃,端菜時(shí)同步餐桌整理;還需要恰當(dāng)好處的力度控制,剝開(kāi)雞蛋殼卻不會(huì)把雞蛋捏碎。
于是,“具身智能”的概念隨即被提出——人形機(jī)器人要用身體感知世界、認(rèn)識(shí)世界、與環(huán)境互動(dòng)。
要獲得這種能力,對(duì)機(jī)器人的AI能力和硬件基礎(chǔ)都提出了極高的要求。機(jī)器人不僅需要發(fā)達(dá)的“神經(jīng)”(觸覺(jué)傳感器),也需要一個(gè)能調(diào)整重心的腳踝(動(dòng)態(tài)平衡算法),以及能從摔跤中總結(jié)經(jīng)驗(yàn)的數(shù)字大腦(強(qiáng)化學(xué)習(xí)的能力)。
而這也意味著,我們期待人形機(jī)器人用數(shù)年時(shí)間追趕人類用上百萬(wàn)年進(jìn)化出的復(fù)雜智能。

位于上海浦東的智元數(shù)據(jù)集采廠,總面積達(dá)3000多平方米
在上海浦東,一個(gè)3000平米的機(jī)器人“訓(xùn)練基地”里,一百多臺(tái)人形機(jī)器人日日夜夜地接受超高強(qiáng)度的集訓(xùn)。
這些機(jī)器人像懵懂的人類幼仔一樣,通過(guò)觸摸、試錯(cuò)感知物理世界:在臥室區(qū)疊褲子、燙衣服,在廚房炒菜、榨果汁、刷盤(pán)子,在客廳插花、拖地板、整理雜亂的桌面……每個(gè)機(jī)器人身邊都配備了一名“導(dǎo)師”——頭戴VR設(shè)備的數(shù)據(jù)采集員,他們用手柄遠(yuǎn)程示范動(dòng)作,給機(jī)器人示范動(dòng)作,抓、握、提、拉、倒,一個(gè)小動(dòng)作要不厭其煩地重復(fù)200遍左右。
數(shù)據(jù)集采員耐心“教授” 機(jī)器人每一個(gè)動(dòng)作
這是智元的數(shù)據(jù)采集超級(jí)工廠,也是全球唯二規(guī)?;臋C(jī)器人數(shù)據(jù)采集中心。整個(gè)工廠分為5大類場(chǎng)景:家居、餐廳、工業(yè)、商超和辦公,總共有100位采集員分日班和夜班教學(xué),此外,還有30多位數(shù)據(jù)審核員和10位數(shù)據(jù)運(yùn)營(yíng)管理人員,確保數(shù)據(jù)的有效性。
一天下來(lái),工廠能夠生產(chǎn)3萬(wàn)到5萬(wàn)條真機(jī)數(shù)據(jù)——即通過(guò)機(jī)器人實(shí)操采集到的環(huán)境感知、動(dòng)作軌跡、力學(xué)反饋等包含多維度信息的數(shù)據(jù)。
有時(shí)候,機(jī)器人也會(huì)“開(kāi)小差”,水壺沒(méi)拿穩(wěn)、炒菜調(diào)料撒多了、花瓶打翻了……數(shù)采員就會(huì)耐心地給它們糾錯(cuò)。
機(jī)器人在練習(xí)刷馬桶
這些機(jī)器人訓(xùn)練成果如何?姚卯青介紹:“現(xiàn)在仍處在比較早期的階段,一個(gè)機(jī)器人在它見(jiàn)過(guò)的桌面上倒水,有90%左右的成功率?!睂?duì)于它沒(méi)見(jiàn)過(guò)的場(chǎng)景和物品,機(jī)器人可能就會(huì)措手不及。另外,這些動(dòng)作主要還是一些單點(diǎn)的能力,還不太能串起來(lái)多種動(dòng)作。
為了讓機(jī)器人擁有在不同場(chǎng)景里“舉一反三”的泛化能力,采集員要不斷地調(diào)試環(huán)境,比如改變光線和光源位置,倒水時(shí)更換不同造型的水杯,調(diào)整物體擺放的位置等等。
數(shù)據(jù)采集,是構(gòu)建機(jī)器人“AI能力”(“腦力”)的基礎(chǔ)工程。通過(guò)收集視覺(jué)、觸覺(jué)、關(guān)節(jié)運(yùn)動(dòng)軌跡等多維度物理交互數(shù)據(jù),然后再給多模態(tài)大模型提供認(rèn)知養(yǎng)料,最終才能被部署到機(jī)器人本體,完成從數(shù)字認(rèn)知到物理執(zhí)行的閉環(huán)進(jìn)化。

“擎天柱”的數(shù)據(jù)采集員需要穿戴動(dòng)作捕捉設(shè)備為機(jī)器人采集數(shù)據(jù),撰寫(xiě)日?qǐng)?bào),時(shí)薪高達(dá)48美元(約合344元人民幣)
但數(shù)據(jù)匱乏,是具身智能機(jī)器人發(fā)展道路上的最大瓶頸。
姚卯青坦言:“機(jī)器人的數(shù)據(jù)太少了,很難跟大語(yǔ)言模型的數(shù)量級(jí)去相提并論?!本科湓颍且?yàn)榇笳Z(yǔ)言模型的訓(xùn)練依賴的是互聯(lián)網(wǎng)上的海量文本,而具身智能機(jī)器人依賴的是真實(shí)世界的物理交互數(shù)據(jù)。比如機(jī)器人每學(xué)倒一次水,都需要采集員記錄手臂軌跡、握力變化、水溫觸感等多維度信息。
擎天柱在工廠裝電池
這也意味著真機(jī)數(shù)據(jù)的集采成本高昂。英偉達(dá)研究中心的工作人員曾對(duì)媒體透露,光讓特斯拉的人形機(jī)器人“擎天柱”把電池放進(jìn)盒子這一個(gè)動(dòng)作,就需要40人的團(tuán)隊(duì)進(jìn)行數(shù)據(jù)集采;如果讓擎天柱具備真正的“下廠工作”的能力,需要數(shù)百萬(wàn)小時(shí)的數(shù)據(jù)訓(xùn)練,花費(fèi)至少上億美元。
為了解決這個(gè)困境,全球有多家人形機(jī)器人公司開(kāi)源了自己的數(shù)據(jù)集,其中就包括國(guó)內(nèi)的智元、傅利葉等公司,希望能夠推動(dòng)行業(yè)內(nèi)的技術(shù)共享。

智元機(jī)器人通過(guò)最新的GO-1通用具身基座大模型,可以完成送餐任務(wù)
除了“1V1的人類教學(xué)”,還有一種性價(jià)比更高的培訓(xùn)方式也在同步進(jìn)行——通過(guò)給機(jī)器人“投喂”大量的人類教學(xué)視頻和圖文,幫助它們理解人類的動(dòng)作操作。
今年3月,智元機(jī)器人發(fā)布了全國(guó)首個(gè)“通用具身基座大模型”,通過(guò)分析人類家務(wù)視頻,比如觀看短視頻網(wǎng)站上的烹飪教程,就可以讓機(jī)器人在還未進(jìn)行實(shí)操(零樣本)的情況下,也能推理出一些做飯的簡(jiǎn)單常識(shí),比如“水燒開(kāi)會(huì)冒泡”“土豆需要削皮”等等。


本照片由一條編輯部使用AI生成
機(jī)器人進(jìn)家的最大難點(diǎn)在于什么?
市面上,一些人形機(jī)器人的“下半身”發(fā)育已經(jīng)相對(duì)成熟,可以跑跳、爬坡、扎馬步,音樂(lè)響起,還能來(lái)段廣場(chǎng)舞、做后空翻。但這些任務(wù),更像是逢年過(guò)節(jié)拉家里的小朋友展示才藝,離真正的日常應(yīng)用還有十萬(wàn)八千里。
“上半身”,才是進(jìn)家干活的關(guān)鍵。姚卯青拆解了上半身操作的兩個(gè)難點(diǎn):對(duì)動(dòng)作的精度要求很高、和物體有復(fù)雜的交互。“像做飯、倒水、端茶、開(kāi)門(mén),有千百種的操作種類,而且上半身的軌跡會(huì)非常復(fù)雜。而下半身,和物體沒(méi)有復(fù)雜交互,無(wú)外乎就是邁步子這樣一種形態(tài)?!?/p>
機(jī)器人手部的柔韌性、靈活性比起人類還相距甚遠(yuǎn)
很多動(dòng)作,對(duì)人類輕而易舉,但對(duì)機(jī)器人來(lái)說(shuō)卻難如登天?!氨热绮錟SB這個(gè)小動(dòng)作,它對(duì)動(dòng)作的精度要求非常高,二是沒(méi)法只依賴視覺(jué)的輸入就去判斷是否成功”,姚卯青解釋,人在插USB、充電器的時(shí)候,經(jīng)常要反復(fù)嘗試,機(jī)器人同樣,“它還需要很多力矩的反饋來(lái)去實(shí)現(xiàn)這種閉環(huán)控制?!?/p>
再比如簡(jiǎn)單的揉面團(tuán)、切菜,也對(duì)機(jī)器人手部的靈活和柔韌性提出了極高的要求。手是人體關(guān)節(jié)最集中、感覺(jué)最集中的區(qū)域之一,也是人形機(jī)器人最難模擬的部位?!昂芏鄼C(jī)器人只有一個(gè)兩指的夾爪,只能像一雙筷子一樣去夾取東西。”
德國(guó)協(xié)作機(jī)器人公司NEURA 的“靈巧手”
目前有一些機(jī)器人已經(jīng)擁有了靈巧手,但它的自由度跟人的手還是相差甚遠(yuǎn)?!叭说氖謶?yīng)該有20多個(gè)自由度,現(xiàn)在市面上量產(chǎn)的機(jī)械手很多只有6、7個(gè)?!?/p>
成本也是大問(wèn)題,在手上每增加一個(gè)自由度,就要加多加塞一套電機(jī)、編碼器和傳動(dòng)裝置,一雙“像人的手”往往價(jià)格不菲,可高達(dá)10萬(wàn)元一只。此外,靈巧手很重,“現(xiàn)在一只手可能要一公斤多,怎么才能把它做到小型化、輕量化,這個(gè)也比較難?!?/p>
近一年來(lái),社交媒體上陸續(xù)出現(xiàn)了“養(yǎng)老人形機(jī)器人”的風(fēng)聲,但姚卯青認(rèn)為,這些產(chǎn)品大多都還停留在概念階段。
斯坦福聯(lián)合谷歌推出的“保姆機(jī)器人”,外形粗獷,泛化能力也被廣泛質(zhì)疑
人形機(jī)器人養(yǎng)老,最大的軟肋就是“體力不支”,即機(jī)器人的載重能力不達(dá)標(biāo)。當(dāng)下,人形機(jī)器人的手臂負(fù)重通常在5公斤左右,根本無(wú)法像人類護(hù)工一樣給老人提供基礎(chǔ)的翻身、看護(hù)服務(wù),更別說(shuō)安全準(zhǔn)確地拖動(dòng)一位100多斤的成年人。
“某些專用形態(tài)的機(jī)器人,可以做到比較大的力矩,因?yàn)榭梢誀奚艉芏鄻?gòu)型,包括成本,還有體積上的限制?!?/p>
比如,2024年,美國(guó)斯坦福大學(xué)聯(lián)合谷歌推出的“保姆機(jī)器人”Mobile ALOHA,能做飯、洗衣、擦玻璃、澆花,但外形上,和“人”沾不上半點(diǎn)關(guān)系,更像是兩只能夠移動(dòng)的機(jī)械臂。但即使如此,它的成本也要高達(dá)3.2萬(wàn)美元。


2024年,優(yōu)必選機(jī)器人已經(jīng)率先進(jìn)廠測(cè)試
最近,多家機(jī)器人公司開(kāi)始了量產(chǎn)試水階段。去年下半年,傅利葉的雙足人形機(jī)器人GR-1交付超過(guò)100臺(tái);今年1月,智元下線了1000臺(tái)人形機(jī)器人。此外,國(guó)內(nèi)的30多家企業(yè)已經(jīng)宣布將于今年進(jìn)行商業(yè)化量產(chǎn),主要針對(duì)B端。
但距離年產(chǎn)幾十萬(wàn)臺(tái)的量產(chǎn)規(guī)模,還要3到5年。姚卯青預(yù)測(cè):“進(jìn)入家庭,需要5年,最終大概能降到10萬(wàn)元以內(nèi)?!?/p>
此外,一臺(tái)人形機(jī)器人的成本依舊高昂。特斯拉擎天柱,僅材料費(fèi)就高達(dá)4.13萬(wàn)美元一臺(tái)(約合人民幣29.9萬(wàn));優(yōu)必選的Walker系列在2021年至2023年的銷售均價(jià)為598萬(wàn)元;宇樹(shù)“會(huì)扭秧歌”的Unitree G1雖然價(jià)格一度低達(dá)9.9萬(wàn)元,但有不少買(mǎi)家在網(wǎng)上吐槽,“更像是一個(gè)動(dòng)作絲滑的大號(hào)玩具?!?/p>
除了成本,還有供應(yīng)鏈問(wèn)題。能夠生產(chǎn)高精度、高性能零部件的廠商數(shù)量依然有限,“現(xiàn)在量產(chǎn)過(guò)程中的難點(diǎn)(之一)是供應(yīng)鏈不是很成熟,所以還很難做到大規(guī)模下的高良率、一致性等等?!?/p>
Figure機(jī)器人在物流中心進(jìn)行快遞分揀工作,但“手速”比起人類還差一大截
在進(jìn)入家庭之前,工業(yè)場(chǎng)景是人形機(jī)器人的應(yīng)用第一站。
2024年,全球多家公司的人形機(jī)器人率先開(kāi)始“進(jìn)廠擰螺絲”。這些機(jī)器人從最簡(jiǎn)單的搬運(yùn)、分揀任務(wù)開(kāi)始練習(xí),在不同場(chǎng)景里試錯(cuò),一步步累積經(jīng)驗(yàn),然后再“上手”更復(fù)雜、更精密的操作任務(wù)。
由OpenAI投資的、來(lái)自硅谷的Figure 02已經(jīng)可以每天工作20小時(shí),成為機(jī)器人屆的“卷王”;來(lái)自深圳的優(yōu)必選Walker S1 批量進(jìn)入5G智慧工廠,能夠和其他的機(jī)器人搭子團(tuán)隊(duì)合作;樂(lè)聚機(jī)器人的“夸父”也扎入江浙滬的多家工廠里,進(jìn)行驗(yàn)證測(cè)試。
不過(guò),流水線更像是機(jī)器人的“新手村”,家庭空間才是“地獄難度”的考核。工業(yè)環(huán)境下,機(jī)器人的工作高度重復(fù),場(chǎng)景相對(duì)單一固定。但家庭環(huán)境里,“人”是最大的不確定因素,機(jī)器人撞上車(chē)間的貨物沒(méi)有大礙,但是不小心傷到人就會(huì)后果慘重。

本照片由一條編輯部使用AI生成
這對(duì)機(jī)器人的安全性提出了極高的要求。
“現(xiàn)在普遍來(lái)講,全尺寸1米7的人形機(jī)器人整機(jī)能做到這種50公斤左右,算是一個(gè)比較不錯(cuò)的水平。但一個(gè)100多斤的機(jī)器人摔倒了,其實(shí)很難一個(gè)人去把它扶起來(lái),而且很可能把地板砸一個(gè)洞。”姚卯青告訴我們。
機(jī)械臂的力度堪比泰森,也是行業(yè)普遍的擔(dān)憂。2022年,在莫斯科的一場(chǎng)國(guó)際象棋比賽上,一名7歲的男孩因?yàn)閾屜纫徊匠銎?,被機(jī)器人對(duì)手夾住了手指,造成指骨骨折。機(jī)械臂自重大、速度快,殺傷力不可低估。

某發(fā)布會(huì)上,人形機(jī)器人突然抽搐摔倒
因此,給機(jī)器人“減重”(輕量化)是未來(lái)機(jī)器人量產(chǎn)的必經(jīng)之路,更輕的自重也可以提升機(jī)器人的動(dòng)作準(zhǔn)確性。
另一個(gè)“安全紅燈”來(lái)自于電池。目前人形機(jī)器人主流使用的鋰電池,耗電量很大,續(xù)航時(shí)間短,大多只能持續(xù)2小時(shí)左右。春晚的舞臺(tái)上,機(jī)器人表演結(jié)束后,還是需要被舞者扶著脖子下臺(tái),跳完舞累趴下的情況也常有發(fā)生。
當(dāng)人與人形機(jī)器人共居的那天接近,更多的倫理問(wèn)題也會(huì)涌現(xiàn)——機(jī)器人究竟是家庭一員還是只是一個(gè)工具?如何保證機(jī)器人的數(shù)據(jù)安全,避免泄露住戶隱私?安全責(zé)任應(yīng)該如何界定?
也許就像汽車(chē)普及前需要交通法一樣,在迎接“人形機(jī)器人進(jìn)家”之前,我們還需要新的文明規(guī)則和倫理框架。未來(lái),仍有漫漫長(zhǎng)路。
熱門(mén)跟貼