文 | 腦極體

“你看過《機(jī)械姬》嗎?那個(gè)會(huì)騙人的艾娃,真的是AI嗎?”

朋友突然的問題讓我陷入思考。電影里,艾娃的每個(gè)眼神、每句對(duì)白都讓人毛骨悚然——她太像人了,以至于觀眾理所當(dāng)然地認(rèn)為,這就是AI的終極形態(tài)。

但現(xiàn)實(shí)是,艾娃跟我們現(xiàn)在所說的AI,根本是兩碼事。她的能力寄身于一個(gè)叫具身智能的概念。

具身智能并非更高級(jí)的AI,而是一種完全不同的技術(shù)路徑:它不依賴大語言模型的尺度定律,通過物理身體與環(huán)境互動(dòng),像嬰兒一樣學(xué)習(xí)世界。

但由于科幻片的興起與傳播,被誤當(dāng)成AI好多年。

今天,就讓我們拋開刻板印象,聊一聊:

為什么具身智能和AI不一樣?以及我們離真正的“艾娃”,還有幾公里?

打開網(wǎng)易新聞 查看精彩圖片

《機(jī)械姬》等影視作品中的機(jī)器人形象潛移默化中強(qiáng)化了“具身智能=AI”的認(rèn)知。

但實(shí)際上,這是一種誤讀。

具身智能并不等同于AI

要理解具身智能是什么,首先要分清具身和離身兩個(gè)概念。

具身指存在或認(rèn)知必須通過物理身體與環(huán)境的交互實(shí)現(xiàn),強(qiáng)調(diào)身體經(jīng)驗(yàn)的基礎(chǔ)性作用,如人類;離身指存在或認(rèn)知可以脫離物理載體獨(dú)立存在,強(qiáng)調(diào)抽象形式的自主性,如軟件、算法。

類似于ChatGPT一樣的傳統(tǒng)AI就是離身智能,可以脫離物理實(shí)體實(shí)現(xiàn)符號(hào)邏輯的抽象推理,能存在于任何終端。大語言模型通過海量文本訓(xùn)練建立詞匯相關(guān)性網(wǎng)絡(luò),得出概率映射的最優(yōu)解。然而,這種虛擬環(huán)境中研發(fā)出的智能缺乏對(duì)物理世界的感知。它難以理解拿起水杯需要怎樣的力學(xué)控制,也不明白怎么避開突然出現(xiàn)的障礙物。

具身智能則強(qiáng)調(diào)與物理世界的交互,將智能體的認(rèn)知能力錨定在特定身體上,相當(dāng)于“靈肉合一”。這個(gè)身體必須擁有清晰的邊界和自我認(rèn)知:首先,它得是獨(dú)一無二的,自己能移動(dòng)操控的;其次,它要可以與環(huán)境交互,并從中累積經(jīng)驗(yàn)、習(xí)得規(guī)律。這種身體化學(xué)習(xí)(Embodied Learning)機(jī)制,讓具身智能的進(jìn)化路徑與純數(shù)據(jù)驅(qū)動(dòng)的AI截然不同。

而代表具身智能的人形機(jī)器人,更是與AI差了一萬八千里。

首先,人形機(jī)器人必須擁有能與現(xiàn)實(shí)世界互動(dòng)的物理身體。這不僅僅是加個(gè)外殼那么簡單,而是要建立一套完整的感知-行動(dòng)閉環(huán)。

其次,這個(gè)身體要能動(dòng)。要讓機(jī)器人的身體真正活起來,需要突破三大難關(guān):精確的抓握控制,比如拿起筷子或者豌豆;動(dòng)態(tài)平衡,在山坡、樓梯等不平坦道路行走;多任務(wù)協(xié)調(diào),邊走路邊端盤子等。

并且,要給他與世界交互的多模態(tài)感官。具身智能需要構(gòu)建比AI更豐富的感官體系,不僅要能看(計(jì)算機(jī)視覺),還要能聽(聲源定位)、觸(力度反饋),甚至聞(化學(xué)傳感)。

最后,要一個(gè)比大語言模型更聰明的大腦,基于尺度定律的腦子難解因果。人形機(jī)器人的大腦要走世界模型這條路,在與真實(shí)世界的交互中習(xí)得經(jīng)驗(yàn),超越概率,走向規(guī)律。

綜上,人形機(jī)器人是多個(gè)頂尖級(jí)技術(shù)集成的復(fù)雜智能體。但這樣一個(gè)復(fù)雜智能體,真的如網(wǎng)上營銷的那般,離我們只有一步之遙嗎?

打開網(wǎng)易新聞 查看精彩圖片

哪怕翻遍所有最頂尖人形機(jī)器人公司的demo,我們也只能看到一個(gè)不停跳舞、翻跟頭、有時(shí)連蘋果也拿不穩(wěn)的人形巨物。它的電池續(xù)航通常不夠5h,常常電量告急;復(fù)雜的動(dòng)作需要人工遙控,就跟小孩的遙控賽車一般。不過,小孩的賽車只要幾百塊,一款機(jī)器人需要幾十萬。

不得不說,這是一個(gè)炫技大于實(shí)用的概念。

因?yàn)槲覀兿胂笾械娜诵螜C(jī)器人,那得是《機(jī)器人女友》里文武雙全、長得像綾瀨遙一樣美、偶爾露出反差萌的完美“戀人”才行。

理想豐滿,現(xiàn)實(shí)骨感,AI發(fā)展已陷入固有技術(shù)方法論的沼澤,我們熱衷于大語言模型、熱衷于強(qiáng)化學(xué)習(xí),卻忽略了它們只教會(huì)AI如何模仿,沒教會(huì)AI如何理解真實(shí)而復(fù)雜的物理世界。

而這恰恰是人形機(jī)器人向強(qiáng)發(fā)展所需要克服的。

近日,圖靈獎(jiǎng)獲得者楊立昆在巴黎AI峰會(huì)上發(fā)表觀點(diǎn),要研究人類級(jí)AI就要不破不立,做到三個(gè)放棄:放棄只會(huì)概率計(jì)算的大語言模型、放棄宛如拼圖游戲的對(duì)比學(xué)習(xí)、放棄馴狗般獎(jiǎng)懲AI的強(qiáng)化學(xué)習(xí)。

人形機(jī)器人的腦子需要的是世界模型、規(guī)劃算法等能與環(huán)境交互的技術(shù);人形機(jī)器人的身體需要支持運(yùn)動(dòng)的仿生關(guān)節(jié)、代表感官的傳感器融合系統(tǒng)、類似小腦的運(yùn)動(dòng)控制算法以及作為心臟的高能量密度電池。

但這些技術(shù)恰如2020年之前的大語言模型一般,陷入了研究瓶頸。

一方面,是因?yàn)樘y;另一方面,是成本太高。

舉個(gè)例子,人類使用工具的能力建立在數(shù)百萬年進(jìn)化形成的本體感知系統(tǒng)上。人類使用螺絲刀時(shí),能通過觸覺實(shí)時(shí)調(diào)整握力,并預(yù)判旋轉(zhuǎn)時(shí)的扭矩變化。而機(jī)器人要實(shí)現(xiàn)同等操作,需要突破三大難關(guān):0.1牛頓級(jí)的力控精度、高靈敏的觸覺解析,以及避免自碰撞的運(yùn)動(dòng)規(guī)劃協(xié)同。

目前最先進(jìn)的機(jī)器人,仍難在不同場景中拿起一個(gè)相同的蘋果。所有科技公司放出的Demo幾乎都是無雜物的光滑桌子或者空曠、光線充足的實(shí)驗(yàn)室環(huán)境,如果旁邊多出一只梨子,或者蘋果不小心滾落到地板,他們就可能束手無措。

另一方面,如波士頓動(dòng)力Atlas的實(shí)驗(yàn)機(jī)人形機(jī)器人研發(fā)成本普遍超過200萬美元。特斯萊自研“大腦”主控芯片每個(gè)3.2萬,一個(gè)靈巧手1.2萬元,作為感官的傳感器系統(tǒng)合計(jì)11萬元,支持運(yùn)動(dòng)的線性關(guān)節(jié)總成本約15萬元,而即使實(shí)現(xiàn)量產(chǎn),后期也要一大筆資金投入維修和保養(yǎng),因?yàn)槿诵螜C(jī)器人有30個(gè)左右的關(guān)節(jié),經(jīng)過多次訓(xùn)練磨損后會(huì)出現(xiàn)不靈便、卡殼等情況。

不難看出,發(fā)展人形機(jī)器人就是為了造人而造人。但是從工業(yè)場景來講,雙足的效率是不穩(wěn)定的,遠(yuǎn)遠(yuǎn)低于輪式底盤和機(jī)械臂的組合;且技術(shù)不夠成熟,沒有發(fā)展路徑,實(shí)在稱不上一門很劃算的生意。

既然性價(jià)比如此低,人形機(jī)器人的說法到底從何而來,又為什么如此火熱?

打開網(wǎng)易新聞 查看精彩圖片

人形機(jī)器人是一個(gè)被資本炒熟的概念,也是一場為了融資而作秀的狂歡。

2024年1月至10月全球人形機(jī)器人行業(yè)共發(fā)生69起融資事件,總金額超過110億元。其中,有56起發(fā)生在中國,總金額超過 50 億元,不少頭部企業(yè)一輪就融超10億。

但是,當(dāng)前融資熱潮源于資本追捧而非技術(shù)成熟,部分公司估值虛高。為了吸引融資,企業(yè)持續(xù)在社交媒體上營銷打拳、翻跟頭等不實(shí)用的功能,同質(zhì)化嚴(yán)重,價(jià)格高、能力差、落地難,本質(zhì)是脫離技術(shù)談未來。

清醒后的資本熱開始退潮。

一些企業(yè)隕落了。曾估值30億美元的達(dá)闥科技被曝欠薪、裁員、資金鏈斷裂陷入停擺危機(jī);而素有人形機(jī)器人第一股之稱的優(yōu)必選五年虧超五十億,市值蒸發(fā)千億港元。

一些投資方撤資了,朱嘯虎批量撤出人形機(jī)器人,退出的公司包括星海圖和松延動(dòng)力。

這并非孤例,這個(gè)由資本催熟的概念,在歷史上至少經(jīng)過三次幻滅。

1970年代,早稻田WABOT-1首次雙足站立但動(dòng)作遲緩、能耗極高,僅實(shí)驗(yàn)室展示;

1990年,服務(wù)機(jī)器人泡沫,成本高達(dá)200萬美元的本田ASIMO,僅能端茶倒水,2018年終止所有相關(guān)項(xiàng)目;

2010年代的社交機(jī)器人神話軟銀Pepper因?qū)υ挋C(jī)械、價(jià)格昂貴、故障率高,在2023年停產(chǎn);

2020年代,AI的爆火又一次喚醒了資本對(duì)人形機(jī)器人的狂歡。但這仍掩蓋不了波士頓動(dòng)力多次易主谷歌、軟銀、現(xiàn)代的事實(shí),另一家公司Atlas因炫技視頻與實(shí)際落地脫節(jié),融資越來越少。

回望歷史,人形機(jī)器人的發(fā)展始終跳不出一個(gè)輪回怪圈:總是始于驚艷的實(shí)驗(yàn)室demo吸引資本追捧,繼而催生估值泡沫,最終因商業(yè)化失敗導(dǎo)致資金集體撤離。

無數(shù)企業(yè)和資方周而復(fù)始地演繹著從希望到幻滅的故事。而這個(gè)循環(huán)反復(fù)出現(xiàn),主要有三個(gè)原因:

首先,燒錢太猛,但沒有形成商業(yè)閉環(huán),沒有找到市場過度依賴投資。造一個(gè)人形機(jī)器人動(dòng)輒上百萬,比工廠里用的機(jī)械臂貴幾十倍。投資人砸再多錢,也很難找到愿意買單的客戶。就像當(dāng)年本田花3億美元研發(fā)的ASIMO,最后只能在科技館里表演端茶倒水。

其次,現(xiàn)在的技術(shù)其實(shí)不足以支撐人形機(jī)器人的爆炸,還處于摸著石頭過河的狀態(tài)。當(dāng)前VLA(視覺-語言-動(dòng)作)模型在動(dòng)態(tài)環(huán)境中的錯(cuò)誤率仍高達(dá)40%,遠(yuǎn)未達(dá)到自主決策水平;高功耗導(dǎo)致多數(shù)人形機(jī)器人僅能連續(xù)工作不到5小時(shí),遠(yuǎn)低于工業(yè)需求。

最后,方向跑偏了,娛樂屬性強(qiáng)、工具屬性弱。為了吸引投資而不停作秀跳舞、忽略實(shí)用性。無法在垂直場景減輕人類負(fù)擔(dān)提升總體效益的機(jī)器人,催生了更大的泡沫。

脫離技術(shù)談商業(yè),只是鏡花水月。幾乎可以斷定,即使此輪人形機(jī)器人不會(huì)破滅,也一定像歷史一樣走向沉寂。畢竟,沒有人愿意花幾十萬去買一個(gè)只會(huì)跳舞的大型機(jī)械。但另一方面,值得慶幸的是,我們離那個(gè)會(huì)欺騙人類感情的“艾娃”還很遠(yuǎn)。