大模型正從語言、視覺向行動(dòng)延伸。人形機(jī)器人還會(huì)現(xiàn)場(chǎng)寫代碼,出手解決問題。

谷歌DeepMind發(fā)布了兩款新的具身智能模型,Gemini Robotics-ER與Gemini Robotics,正式宣告對(duì)物理智能的探索,從以往的RT模型系列,切換到了Gemini模型系列。用該公司高級(jí)研究科學(xué)家Ted Xiao的話說,這是前沿大模型與機(jī)器人的第一次接觸。

無論是OpenAI、Anthropic,還是Meta,還都沒有做到這一步。即使馬斯克如此喜歡夸下海口,也還沒讓特斯拉的擎天柱用上xAI最新的Grok3。國(guó)內(nèi)的DeepSeek或者Qwen,都沒有直接讓前沿開源大模型端到端地驅(qū)動(dòng)人形機(jī)器人的記錄。

遇到麻煩自己寫代碼

谷歌DeepMind先訓(xùn)練出具身推理模型Gemini Robotics-ER,基于Gemini 2.0 Flash模型,將多模態(tài)模型的語義理解能力擴(kuò)展至物理幾何(3D結(jié)構(gòu)、物體位姿)、動(dòng)態(tài)場(chǎng)景(運(yùn)動(dòng)軌跡、接觸效應(yīng))等等,讓身處復(fù)雜而動(dòng)態(tài)的現(xiàn)實(shí)世界的具身智能,強(qiáng)化了推理能力。從中蒸餾出物理智能,就是Gemini Robotics,它能對(duì)現(xiàn)實(shí)世界做出反應(yīng)。

比如,如果一個(gè)機(jī)器人遇到一個(gè)咖啡杯,Gemini Robotics可以識(shí)別出來,“指向”可以與自己互動(dòng)的部分(比如把手),并識(shí)別出在拿起它時(shí)需要避開的物體。

打開網(wǎng)易新聞 查看精彩圖片

機(jī)器人還會(huì)自己寫代碼去解決遇到的新問題(Zero-Shot Via Code Generation),就是個(gè)活生生的智能體。具體來說,就是模型接收輸入,包括系統(tǒng)提示、機(jī)器人API的描述、任務(wù)指令以及環(huán)境的實(shí)時(shí)圖像,然后基于這些輸入,模型分析場(chǎng)景,理解任務(wù)需求,并生成與機(jī)器人API交互的代碼。

這一過程是動(dòng)態(tài)的,模型會(huì)根據(jù)環(huán)境變化與接觸后的反饋,來調(diào)整代碼,確保任務(wù)順利完成。

打開網(wǎng)易新聞 查看精彩圖片

(概覽圖:感知和控制API,以及在任務(wù)執(zhí)行過程中對(duì)智能體的協(xié)調(diào)和管理。該系統(tǒng)用于零樣本控制。)

不過,這項(xiàng)技術(shù)還處于早期階段,面對(duì)折疊衣服這樣的精細(xì)任務(wù),谷歌發(fā)現(xiàn),還是通過少量人類示范的上下文學(xué)習(xí)(Few-shot in-context learning),成功率要更高一點(diǎn)。

或許這就是從RT系列模型轉(zhuǎn)向Gemini系列模型的意義之一。以后,可能誰家的基礎(chǔ)模型編碼能力更強(qiáng),誰家的機(jī)器人就是更靈巧的智能體。

但是,完成所有這些現(xiàn)場(chǎng)智能體推理和動(dòng)作,需要強(qiáng)大的本地算力,目前仍然是個(gè)大問題。Gemini Robotics的視覺語言動(dòng)作模型主干(VLA Backbone)就放到了云端,其物理世界的理解能力適用于不同形態(tài)的機(jī)器人,可以通過日常對(duì)話與人類親切交互。

Gemini Robotics還有一個(gè)動(dòng)作解碼器,負(fù)責(zé)將VLA主干的輸出轉(zhuǎn)化為低級(jí)控制信號(hào),部署于本地,可以完成精細(xì)動(dòng)作。

人形機(jī)器人的安卓

谷歌把Gemini Robotics用于自己投資的Apptronik人形機(jī)器人開發(fā),還開放給受信任的機(jī)器人企業(yè)使用,包括德國(guó)的Agile Robots, 法國(guó)的Enchanted Tools,美國(guó)的Agility Robotics,以及被韓國(guó)現(xiàn)代收購的Boston Dynamics。

看起來,谷歌想做出一個(gè)人形機(jī)器人的安卓系統(tǒng),初步實(shí)現(xiàn)了適配不同機(jī)器人。

打開網(wǎng)易新聞 查看精彩圖片

巨頭們毫不懷疑,未來,人形機(jī)器人的數(shù)量將比智能手機(jī)還多。它正在走向通用化,關(guān)鍵就在于通用的物理智能。谷歌、特斯拉、Meta與OpenAI等巨頭,對(duì)此充滿野心。

特斯拉的擎天柱是垂直自研的方式。Meta已經(jīng)展露出類似的企圖。而OpenAI在自己投資的Physical Intelligence與FigureAI紛紛垂直自研后,親自下場(chǎng)可能性同樣大增。

上個(gè)月,Meta旗下的Reality Labs新設(shè)立了人形機(jī)器人部門。Reality Labs最為知名的就是它的元宇宙、可穿戴設(shè)備Quest,以及AI眼鏡,累計(jì)虧損超600億美元。Meta首席技術(shù)官Andrew Bosworth說,公司砸錢搞出來的核心技術(shù),可用于開發(fā)機(jī)器人,通過Llama覆蓋消費(fèi)者。

去年底,OpenAI在公司內(nèi)部重啟了人形機(jī)器人團(tuán)隊(duì),并從Meta處挖來了Orion眼鏡負(fù)責(zé)人,今年已經(jīng)公開開始招兵買馬,點(diǎn)名要那些精通傳感器與系統(tǒng)集成的硬件工程師,“專注于解鎖通用機(jī)器人技術(shù),并在動(dòng)態(tài)的現(xiàn)實(shí)環(huán)境中推動(dòng)AGI級(jí)智能”。

讓前沿模型與機(jī)器人接觸,可以讓機(jī)器人從多模態(tài)環(huán)境的經(jīng)驗(yàn)中汲取智能,也可以在不斷嘗試中摸索數(shù)字世界的智能如何觸及物理世界。谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)介紹新發(fā)布的兩個(gè)模型時(shí)稱,機(jī)器人技術(shù)是將人工智能的進(jìn)步轉(zhuǎn)化為現(xiàn)實(shí)世界的有益試驗(yàn)場(chǎng)。

難以做題評(píng)估

谷歌承認(rèn),Gemini Robotics對(duì)具身智能的探索,仍然處于非常早期的階段。谷歌在官方介紹中,放出了制作精美的視頻。但隨后,團(tuán)隊(duì)成員通過自己的X賬號(hào),放出了幾段未經(jīng)刪節(jié)的視頻。

 谷歌Gemini Robotics,物理智能覬覦人形機(jī)器人安卓系統(tǒng)
打開網(wǎng)易新聞 查看更多視頻
谷歌Gemini Robotics,物理智能覬覦人形機(jī)器人安卓系統(tǒng)

如何評(píng)估具身智能模型實(shí)際水平,是該團(tuán)隊(duì)在發(fā)布Gemini Robotics前,一直思考的問題。在去年底的一次演講中,團(tuán)隊(duì)提出三大瓶頸:機(jī)器人擴(kuò)展定律,機(jī)器人上下文帶寬,以及可擴(kuò)展的評(píng)估體系。這是具身智能當(dāng)前的短板,還將影響未來幾年的研究方向。其中,評(píng)估體系的發(fā)展程度最低。

打開網(wǎng)易新聞 查看精彩圖片

機(jī)器人擴(kuò)展定律的核心,聽起來與大模型擴(kuò)展定律類似,數(shù)據(jù)越多,規(guī)模越大,理應(yīng)效果越好。但是,谷歌DeepMind團(tuán)隊(duì)發(fā)現(xiàn),在機(jī)器人領(lǐng)域,目前它并不每次都成立。

面對(duì)物理世界,擴(kuò)展定律更像一門藝術(shù),而不是科學(xué)(盡管本來也并非真正的物理定律)。機(jī)器人數(shù)據(jù)的質(zhì)量、分布、多樣性和覆蓋范圍,比數(shù)據(jù)數(shù)量本身更重要,研究者需要找到機(jī)器人擴(kuò)展定律的那條曲線,預(yù)測(cè)投入和產(chǎn)出的關(guān)系。在機(jī)器人領(lǐng)域,擴(kuò)展往往意味著比大型語言模型更高的成本,尤其是后者的邊際效應(yīng)已經(jīng)開始降低。

還有“上下文帶寬”問題,這是指機(jī)器人能接收和理解的動(dòng)作指令的信息量。多模態(tài)或世界模型存在豐富細(xì)節(jié)與物理維度,作為大模型,已經(jīng)擁有越來越大的上下文窗口,但是機(jī)器人動(dòng)作相關(guān)的低層次指令往往相對(duì)簡(jiǎn)單,接受的token數(shù)量相對(duì)較少、模態(tài)豐富程度較低。如何在這種低帶寬的輸入方式下執(zhí)行更精細(xì)的動(dòng)作,或拓展其上下文窗口,是具身智能亟待解決的瓶頸之一。

最大的問題是驗(yàn)證。這次,谷歌DeepMind團(tuán)隊(duì)提出了ERQA基準(zhǔn),即包含 400 道多選的視覺問答(VQA)風(fēng)格問題,涵蓋包括空間推理、軌跡推理、動(dòng)作推理、狀態(tài)估計(jì)、指向、多視角推理和任務(wù)推理。語言模型可以用考試題測(cè)試,但機(jī)器人還得在真實(shí)世界里跑來跑去,才能試出它的真實(shí)性能;受限環(huán)境下的真機(jī)測(cè)試,在開放環(huán)境下不一定管用。

狀況會(huì)在機(jī)器人越來越通用后變得更為復(fù)雜,因?yàn)樵u(píng)估它們的能力的難度與成本也隨之暴漲。很多測(cè)試費(fèi)時(shí)費(fèi)力,還不夠全面,難以覆蓋極端案例。如果評(píng)估系統(tǒng)跟不上,機(jī)器人再聰明,也沒法證明自己行不行。

一種方法是改進(jìn)模擬環(huán)境,讓它更接近現(xiàn)實(shí),甚至期待用“世界模型”去代替部分實(shí)測(cè)。但是,這意味著后者可能必須學(xué)會(huì)建模出比機(jī)器人基礎(chǔ)模型更多的信息。

我們周圍會(huì)充斥著大量精心編輯的書面測(cè)評(píng)與視頻演示,但現(xiàn)實(shí)世界的表現(xiàn),仍將是具身智能領(lǐng)域的黃金標(biāo)準(zhǔn)。