打開網(wǎng)易新聞 查看精彩圖片

語言模型只有70%的準(zhǔn)確率,機(jī)器人模型需要99%。

文|智駕網(wǎng) 王欣

編輯|曉雨

過去一段時(shí)間,具身智能賽道正經(jīng)歷著一場割裂敘事。

一派是金沙江朱嘯虎呼喚的「撤退宣言」,作為曾押注非夕、星海圖的項(xiàng)目投資人,他在2024年底至2025年初批量退出多個(gè)具身項(xiàng)目,直言「行業(yè)太早期,商業(yè)化不清晰」。

而另一派是大批量高調(diào)入局的智駕系背景公司,如成立僅50天的它石智航近日斬獲1.2億美元天使輪融資,創(chuàng)下行業(yè)記錄;和估值翻倍被互聯(lián)網(wǎng)巨頭等產(chǎn)業(yè)方重金投資的年輕團(tuán)隊(duì),如華為前總裁鄧泰華和「華為天才少年」稚暉君創(chuàng)辦的智元機(jī)器人

這兩條分叉認(rèn)知的背后,恰如其分地映射著人類集體對智能革命到來時(shí)的選擇困境,具身智能指明了實(shí)現(xiàn)AGI的方向雖成為大共識,但從技術(shù)角度而言,算法的通用性、模型的通用性、以及不少模態(tài)的信息還沒有被有效利用,例如觸覺模態(tài)等,對溫度、時(shí)間、空間等的感知,也需要未來具身智能行業(yè)逐步去突破。

打開網(wǎng)易新聞 查看精彩圖片

3月,智元機(jī)器人發(fā)布了首個(gè)通用具身基座大模型,來自內(nèi)部合伙人的姚卯青觀點(diǎn)認(rèn)為,「不做大模型的機(jī)器人公司沒有未來」。昨日,智元又宣布與具身智能公司 Physical Intelligence(Pi)達(dá)成合作關(guān)系,牽頭人正是昨天宣布加入智元的首席科學(xué)家:羅劍嵐。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)了解,羅劍嵐組建了「智元具身研究中心」,主導(dǎo)前沿算法研發(fā)與工程化落地,他曾在Google X、Google DeepMind從事研究工作。在伯克利人工智能實(shí)驗(yàn)室(BAIR)做博士后期間,他是Sergey Levine教授團(tuán)隊(duì)的核心成員,領(lǐng)導(dǎo)開發(fā)的世界上首個(gè)超人類的機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)系統(tǒng)SERL/HIL-SRL,首次實(shí)現(xiàn)將任務(wù)成功率提升到100%,在全球范圍內(nèi)被廣泛應(yīng)用。

與大模型不同,具身智能的失敗成本涉及人身安全(如家庭機(jī)器人摔碎物品)或設(shè)備損毀。羅劍嵐指出,語言模型60%準(zhǔn)確率可通過人工糾錯(cuò),但具身智能需達(dá)到99%以上可靠性才具商用價(jià)值。

算法層面,目前機(jī)器人仍需依賴真實(shí)物理數(shù)據(jù)迭代,而現(xiàn)有仿真環(huán)境無法復(fù)現(xiàn)復(fù)雜力學(xué)的交互。無論是這次羅劍嵐的采訪觀點(diǎn),還是行業(yè)過去的總結(jié),一個(gè)被驗(yàn)證的共識是:具身智能目前僅處于類似大模型的「GPT-1階段」,距離通用性突破至少需4-5年。

大模型和具身智能到底是什么互相影響的關(guān)系?具身智能和自動駕駛的發(fā)展又有何相似之處?具身智能作為AGI探索中的關(guān)鍵方向,技術(shù)突破核心到底是什么?

以下是羅劍嵐接受《深度AI》的采訪,或許能窺見答案:

01.

實(shí)現(xiàn)AGI前提:攻克長周期復(fù)雜任務(wù)技術(shù)壁壘

Q:羅博士您好,近期人形機(jī)器人行業(yè)普遍將「執(zhí)行長周期復(fù)雜任務(wù)」作為技術(shù)功課重點(diǎn),例如海外Figure和國內(nèi)廠商均發(fā)布了相關(guān)視頻。我們發(fā)現(xiàn)不同廠商對同一概念的定義存在區(qū)別,請問智元如何界定長周期復(fù)雜任務(wù)這兩個(gè)核心維度?

羅劍嵐:所謂「長周期」具有相對性,我們更關(guān)注任務(wù)的多階段特性:需要處理多個(gè)存在復(fù)雜依賴關(guān)系的子任務(wù)序列,而非單純的時(shí)間長度。例如裝配作業(yè)中,零件A的安裝必須優(yōu)先于部件B的調(diào)試,這種工序間的邏輯鏈條才是核心挑戰(zhàn)。

在復(fù)雜任務(wù)維度,我們聚焦操作(Manipulation)領(lǐng)域的歷史性難題:當(dāng)機(jī)械手與環(huán)境發(fā)生物理接觸時(shí),涉及多體動力學(xué)建模、高維視覺感知融合,以及確保99%以上的操作成功率,這正是機(jī)器人學(xué)50年來持續(xù)攻關(guān)的底層技術(shù)難點(diǎn)。

Q:智元當(dāng)前在「執(zhí)行長周期復(fù)雜任務(wù)」的技術(shù)成熟度如何?比如咱們這次和Pi合作展示的視頻中,圍巾整理涉及雙機(jī)協(xié)同操作的畫面,智元都在哪些技術(shù)層面上實(shí)現(xiàn)了突破?

打開網(wǎng)易新聞 查看精彩圖片

羅劍嵐:這次發(fā)布的視頻已展現(xiàn)部分我們的技術(shù)進(jìn)展,以圍巾整理為例,其技術(shù)突破體現(xiàn)在:

針對柔性物體(Deformable Object)的非剛性動力學(xué)建模,我們開發(fā)了基于實(shí)時(shí)點(diǎn)云數(shù)據(jù)的形變預(yù)測算法;

在運(yùn)動規(guī)劃層,提出了分層強(qiáng)化學(xué)習(xí)架構(gòu),將高層任務(wù)分解為抓取、形變控制等子模塊;

末端執(zhí)行器方面,采用模塊化設(shè)計(jì),通過電磁快換接口實(shí)現(xiàn)工具切換時(shí)間<0.5秒。

這對目前行業(yè)來說仍是比較難的一個(gè)點(diǎn),圍巾是一個(gè)可變形的物體,除此之外,我們還有一些其他正進(jìn)行的成果展示,后續(xù)可以繼續(xù)關(guān)注。

02.

美國研究環(huán)境更能容納,軟硬件聯(lián)合迭代的技術(shù)路線更能成功

Q:在加入智元之前,您在伯克利呆了很久,請問是什么契機(jī)讓你加入智元機(jī)器人并牽頭成立「具身研究中心」?有沒有思考過未來研究中心的核心目標(biāo)與短期技術(shù)落地規(guī)劃?

羅劍嵐:我加入智元的核心動力還是希望真正做有技術(shù)影響力的事情。實(shí)際上我始終未脫離學(xué)術(shù)研究,但更希望將學(xué)術(shù)界探索的可能性轉(zhuǎn)變?yōu)檎鎸?shí)世界里的生產(chǎn)力。

加入智元與團(tuán)隊(duì)共事數(shù)月后,我確信我們具備打造全球領(lǐng)先具身智能系統(tǒng)的工程能力。我個(gè)人的研究重心在于提升系統(tǒng)的自主學(xué)習(xí)和跨場景泛化能力——這是機(jī)器人學(xué)習(xí)領(lǐng)域自2016年DeepMind開創(chuàng)性研究以來尚未突破的難題。盡管學(xué)術(shù)界持續(xù)產(chǎn)出優(yōu)秀成果,但基于學(xué)習(xí)的機(jī)器人至今仍未實(shí)現(xiàn)規(guī)模化落地,這正是我們需要攻克的戰(zhàn)略高地。

Q:您的研究背景強(qiáng)在強(qiáng)化學(xué)習(xí)系統(tǒng),請問研究中心是否會側(cè)重該技術(shù)路線?如何平衡算法創(chuàng)新與硬件穩(wěn)定性等工程化挑戰(zhàn)?

羅劍嵐:我們技術(shù)路線選擇秉持開放原則,我過去的學(xué)術(shù)積累確實(shí)集中在機(jī)器人大模型與強(qiáng)化學(xué)習(xí),但作為企業(yè),我們也要進(jìn)行全棧布局:大腦層,要提升任務(wù)規(guī)劃、推理決策等認(rèn)知能力;小腦層,要提升優(yōu)化運(yùn)動控制、多模態(tài)感知等執(zhí)行能力;以及在系統(tǒng)層,要攻克軟硬件協(xié)同、實(shí)時(shí)計(jì)算架構(gòu)等工程難題。

Q:那基于您過去在中美頂尖機(jī)構(gòu)的兩地經(jīng)歷,能否系統(tǒng)對比兩國在具身智能領(lǐng)域的創(chuàng)新范式差異?特別是在基礎(chǔ)研究驅(qū)動與技術(shù)落地的協(xié)同機(jī)制方面,您觀察到哪些本質(zhì)區(qū)別?

羅劍嵐:中美發(fā)展路徑會呈現(xiàn)顯著互補(bǔ)特征,比如美國更側(cè)重原始創(chuàng)新與理論突破,科研評價(jià)體系嚴(yán)格規(guī)避重復(fù)性改進(jìn),例如麻省理工學(xué)院A123公司完成了磷酸鐵鋰電池概念驗(yàn)證,但產(chǎn)業(yè)化落地由中國企業(yè)實(shí)現(xiàn),這也是中國產(chǎn)業(yè)鏈的優(yōu)勢所在。

中國依托全產(chǎn)業(yè)鏈優(yōu)勢,在技術(shù)工程化、場景適配方面具備獨(dú)特競爭力,典型案例包括新能源電池商業(yè)化進(jìn)程較美國快3-5年。

Q:智元面對不同的技術(shù)路線,智元將如何構(gòu)建系統(tǒng)級競爭力?特別是在哪些方面做重要戰(zhàn)略部署?

羅劍嵐:具身智能一項(xiàng)比較系統(tǒng)性的工程,雖然現(xiàn)在有很多未解的問題,但總體上我認(rèn)為它從算法,硬件、數(shù)據(jù)和場景都需要耦合,是需要整合起來聯(lián)合迭代。

所以我會更傾向于從這個(gè)方法的通用性,還有數(shù)據(jù)閉環(huán)角度去思考路線的問題。當(dāng)然我們也會保持對主流路線的敏感,因?yàn)榇蠹椰F(xiàn)在都在探索的階段,同時(shí)我現(xiàn)在回來的話也會去更大膽的探索一些,沒有被充分驗(yàn)證的方案,比如說強(qiáng)化學(xué)習(xí),然后大規(guī)模的真實(shí)世界強(qiáng)化學(xué)習(xí)等。

Q:您提到具身智能需要軟硬件協(xié)同發(fā)展,能否具體闡述兩者的關(guān)系?隨著技術(shù)迭代,二者的重要性是否會隨發(fā)展階段產(chǎn)生變化?比如某些周期更依賴硬件突破,某些階段更側(cè)重軟件創(chuàng)新?

羅劍嵐:當(dāng)前軟硬件處于同等重要的"雙軌并行"狀態(tài)。硬件層面,執(zhí)行器、本體設(shè)計(jì)尚未形成行業(yè)標(biāo)準(zhǔn),如同1980年代PC產(chǎn)業(yè)初期百家爭鳴的狀態(tài),未來可能會根據(jù)不同應(yīng)用場景(工業(yè)、家庭、服務(wù)等)收斂出幾類標(biāo)準(zhǔn)化本體方案,但很難出現(xiàn)"萬能機(jī)器人"。

軟件層面,算法路徑爭議更大——是否必須強(qiáng)化學(xué)習(xí)、仿真與真實(shí)數(shù)據(jù)配比、合成數(shù)據(jù)應(yīng)用等問題都懸而未決,根源在于真實(shí)場景數(shù)據(jù)積累嚴(yán)重不足。這需要經(jīng)歷類似自動駕駛的"數(shù)據(jù)飛輪"過程:隨著具身智能設(shè)備在真實(shí)世界中大規(guī)模部署,物理交互產(chǎn)生的海量數(shù)據(jù)將倒逼算法優(yōu)化,進(jìn)而推動硬件針對性改進(jìn)。比如機(jī)械臂抓取失敗的數(shù)據(jù)可能揭示材料剛性缺陷,行走跌倒的數(shù)據(jù)可能暴露關(guān)節(jié)驅(qū)動參數(shù)不合理,這種"數(shù)據(jù)反哺研發(fā)"的閉環(huán)將促使軟硬件協(xié)同迭代,最終在特定場景中形成穩(wěn)定技術(shù)棧。

03.

語言模型只有70%的準(zhǔn)確率,機(jī)器人模型需要99%

深度AI:現(xiàn)在關(guān)于具身智能行業(yè),樂觀和悲觀信號都很多,既有大額融資也有投資人退出。您如何看待行業(yè)的復(fù)雜性?目前市場對具身智能存在哪些明顯誤讀?

羅劍嵐:這種現(xiàn)象在技術(shù)演進(jìn)中很常見,類似自動駕駛的發(fā)展軌跡——2015年前后資本狂熱涌入,隨后因預(yù)期未達(dá)進(jìn)入低谷,經(jīng)過沉淀調(diào)整再逐步復(fù)蘇,整個(gè)過程往往需要10-15年周期。

Q:具體舉個(gè)自動駕駛的例子。

羅劍嵐:Waymo從2016年獨(dú)立發(fā)展到如今才初現(xiàn)商業(yè)化曙光,而具身智能作為更復(fù)雜的系統(tǒng)性工程,涉及感知、決策、執(zhí)行的完整閉環(huán),必然需要更長期的技術(shù)積累,絕非單純依賴算力或模型堆疊就能突破。當(dāng)前部分市場認(rèn)知存在偏差,尤其是將具身智能與大模型發(fā)展路徑簡單類比,過度強(qiáng)調(diào)"大模型+具身"的協(xié)同效應(yīng),卻忽視了行動系統(tǒng)(action)在物理交互、環(huán)境適應(yīng)、機(jī)械控制等維度的挑戰(zhàn)。

大模型本質(zhì)是數(shù)字世界的交互,而具身智能必須突破能耗管理、實(shí)時(shí)響應(yīng)、實(shí)體操作等現(xiàn)實(shí)世界的多重技術(shù)關(guān)卡,這種復(fù)雜性導(dǎo)致其發(fā)展節(jié)奏不可能完全復(fù)刻大模型的爆發(fā)曲線。行業(yè)的起伏本質(zhì)是資源與關(guān)注度前置的必然過程,最終需回歸技術(shù)沉淀與場景落地的規(guī)律,用自動駕駛領(lǐng)域的耐心來看待具身智能的成長更為理性。

Q:大模型熱潮是否讓市場對具身智能發(fā)展速度產(chǎn)生誤判?兩者底層邏輯是否存在本質(zhì)差異?

羅劍嵐:大模型與具身智能存在根本性代差。大模型作為數(shù)字世界的概率游戲,60%準(zhǔn)確率已具備可用性,因?yàn)槿祟悤鲃蛹m偏——即便GPT建議喝農(nóng)藥,正常人也不會執(zhí)行。但具身智能在物理世界60%的動作成功率意味著災(zāi)難:家庭機(jī)器人每3小時(shí)摔碎杯子,咖啡機(jī)20分鐘潑灑一次,這種失誤伴隨物理后果,用戶容忍度趨近于零。

因此,這正是自動駕駛打磨十年才敢商用的原因,即便當(dāng)前可靠性達(dá)99.9%,仍需追求更高安全閾值。大模型技術(shù)可遷移到機(jī)器人語義理解、場景分析等模塊,但絕不能簡單套用其發(fā)展范式。具身智能的突破必須經(jīng)歷"物理約束下的漸進(jìn)改良",任何試圖繞過實(shí)體交互試錯(cuò)過程的預(yù)期,都是對技術(shù)本質(zhì)的誤讀。

Q:機(jī)器人對動作準(zhǔn)確率的嚴(yán)苛要求,是否意味著其算法體系需要更多底層創(chuàng)新,而非簡單移植語言模型或模仿學(xué)習(xí)的技術(shù)路徑?

羅劍嵐:技術(shù)邏輯層面仍有借鑒價(jià)值,但實(shí)現(xiàn)路徑需重新校準(zhǔn)。大模型將視覺、語言、行動數(shù)據(jù)統(tǒng)一token化進(jìn)行端到端預(yù)測的范式,在機(jī)器人領(lǐng)域尚未形成共識——現(xiàn)有視覺-行動協(xié)同方案仍有巨大優(yōu)化空間。機(jī)器人作為物理交互系統(tǒng),既需要吸收多模態(tài)大模型的感知理解能力,也必須構(gòu)建專屬算法架構(gòu)。

04.

具身智能完全成熟需要十年以上技術(shù)沉淀

Q:參照自動駕駛十年發(fā)展周期,當(dāng)前具身智能處于技術(shù)演進(jìn)的哪個(gè)階段?

羅劍嵐:2016年可視為具身智能元年,類比自動駕駛同期的技術(shù)萌芽期。經(jīng)過八年積淀,當(dāng)前正處于從實(shí)驗(yàn)室原型向商業(yè)場景滲透的關(guān)鍵轉(zhuǎn)折點(diǎn)。未來3-5年將在餐飲服務(wù)、倉儲物流等封閉場景實(shí)現(xiàn)突破,這與自動駕駛先在高速場景落地再擴(kuò)展至城市道路的路徑相似。但具身智能面臨更復(fù)雜的物理交互維度,其完全成熟仍需十年以上技術(shù)沉淀。

Q:您一直強(qiáng)調(diào)具身智能真實(shí)數(shù)據(jù)優(yōu)先的原則,這有沒有可能改變自動駕駛依賴仿真訓(xùn)練的現(xiàn)狀?

羅劍嵐:兩類技術(shù)的數(shù)據(jù)范式本質(zhì)相通,自動駕駛早期同樣受困仿真與真實(shí)數(shù)據(jù)之爭,如今特斯拉500億英里真實(shí)路測數(shù)據(jù)已構(gòu)建絕對壁壘。具身智能的突破將反向推動自動駕駛進(jìn)入"物理增強(qiáng)仿真」新階段——機(jī)器人積累的抓取、避障等微觀物理交互數(shù)據(jù),能顯著提升自動駕駛系統(tǒng)應(yīng)對極端場景(如冰面打滑控制、飛石撞擊響應(yīng))的預(yù)測精度,形成跨領(lǐng)域的物理智能共生生態(tài)。

Q:解決動態(tài)環(huán)境下的長周期復(fù)雜任務(wù)可以類比成自動駕駛的「端到端長尾場景處理」的任務(wù)嗎?兩者邏輯是不是共通的?

羅劍嵐:對,有一些相似性,兩者都是行業(yè)一直以來比較困難的技術(shù)難題。

Q:當(dāng)前機(jī)器人領(lǐng)域的數(shù)據(jù)積累策略如何平衡真實(shí)場景部署與實(shí)驗(yàn)室訓(xùn)練?相較于自動駕駛「有圖/無圖」技術(shù)路線,具身智能是否更需要實(shí)時(shí)環(huán)境感知能力?

羅劍嵐:技術(shù)路線的選擇取決于任務(wù)特性。在物體操控(manipulation)這類動態(tài)交互場景中,我們更側(cè)重端到端的實(shí)時(shí)感知決策體系——機(jī)器人需像人類一樣即時(shí)構(gòu)建環(huán)境認(rèn)知并執(zhí)行動作,而非依賴預(yù)設(shè)地圖。這比傳統(tǒng)導(dǎo)航建圖更具挑戰(zhàn)性,但也更貼近真實(shí)世界的運(yùn)行邏輯。

以咖啡制作為例,當(dāng)機(jī)器人在動態(tài)環(huán)境中處理杯體傾斜、液體晃動等變量時(shí),必須融合視覺識別、力學(xué)反饋、運(yùn)動預(yù)測等多維數(shù)據(jù)流進(jìn)行毫秒級決策,這種實(shí)時(shí)響應(yīng)機(jī)制正是具身智能與傳統(tǒng)工業(yè)機(jī)械臂的本質(zhì)區(qū)別。

Q:機(jī)器人會不會同樣面臨缺乏數(shù)據(jù)的問題,比如尚未大規(guī)模部署時(shí),是否會出現(xiàn)「數(shù)據(jù)不足制約技術(shù)突破,技術(shù)不足阻礙部署」的死循環(huán)?

羅劍嵐:需要轉(zhuǎn)變「絕對安全才能部署」的思維,與自動駕駛不同,具身智能可采用漸進(jìn)策略:在星巴克等半封閉場景部署千臺機(jī)器人,即便初始成功率僅70%-80%,單月產(chǎn)生的物理交互數(shù)據(jù)(如突發(fā)碰撞、物體滑落等)就能超越實(shí)驗(yàn)室十年積累。

這些真實(shí)環(huán)境數(shù)據(jù)能精準(zhǔn)暴露材料摩擦系數(shù)誤差、力學(xué)模型偏差等仿真無法觸及的物理約束。通過「部署→數(shù)據(jù)反饋→算法迭代」的循環(huán),系統(tǒng)可靠性和數(shù)據(jù)規(guī)模將形成相互促進(jìn)的飛輪效應(yīng)。

end.

【關(guān)注深度AI,關(guān)注深度AI視頻號】

打開網(wǎng)易新聞 查看精彩圖片

關(guān)注汽車的智駕時(shí)代上智駕網(wǎng)(http://autor.com.cn)
合作or新聞線索提供,聯(lián)系郵箱:editor@autor.com.cn