一身黑色皮衣的老黃站在英偉達(dá)GTC 2025的舞臺上,一口氣演講了兩個(gè)小時(shí)。退場前幾分鐘,一個(gè)亂入的機(jī)器人Blue,引起了全場騷動(dòng)。
虎頭虎腦的Blue并不是第一次為老黃站臺,上一次是GTC 2024。短短一年時(shí)間,Blue肉眼可見的進(jìn)化:黃仁勛夸它聰明時(shí)會驕傲,催促時(shí)還有點(diǎn)小生氣,可愛的樣子好像從《機(jī)器人總動(dòng)員》里走出來的真實(shí)版瓦力。

演講中,黃仁勛揭秘了一種訓(xùn)練機(jī)器人的新方式:完全實(shí)時(shí)仿真模擬,以及背后的人形機(jī)器人基礎(chǔ)模型:GR00T N1,并表示“機(jī)器人的時(shí)代已經(jīng)到來”。
就在老黃走下舞臺的幾個(gè)小時(shí)后,他的老同事,群核科技創(chuàng)始人兼董事長黃曉煌在GTC大會上發(fā)布并開源了自主研發(fā)的空間理解模型SpatialLM,與空間智能解決方案SpatialVerse一起,組成了一對“神仙老師”,聯(lián)手讓機(jī)器人完成從認(rèn)知理解到行動(dòng)交互的完整閉環(huán)訓(xùn)練。
和老同事兼領(lǐng)導(dǎo)見面后,黃曉煌發(fā)了條朋友圈:“總被調(diào)侃如果不賣英偉達(dá)股票用來創(chuàng)業(yè),和創(chuàng)立群核科技的回報(bào),哪個(gè)值錢?我覺得,從GPU高性能計(jì)算到今天具身智能訓(xùn)練,創(chuàng)業(yè)一路受到Nvidia和老黃的思想的影響是畢生財(cái)富。談錢就沒意思了?!?/p>
杭州小龍發(fā)布“神仙老師”
這是一個(gè)客廳,這面是客廳的墻,這張是沙發(fā)……給SpatialLM“刷”一段視頻,它就能生成物理正確的3D場景布景,像人類環(huán)顧四周環(huán)境就能理解背后的空間結(jié)構(gòu)一樣,能夠基于從視頻中提取的點(diǎn)云數(shù)據(jù),準(zhǔn)確認(rèn)知和理解其中的結(jié)構(gòu)化場景信息,并將它以腳本語言的形式呈現(xiàn)出來。

它的意義在于,突破了大語言模型對物理世界幾何與空間關(guān)系的理解局限,讓機(jī)器具備空間認(rèn)知與推理能力,為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。
相比其他讓機(jī)器學(xué)習(xí)物理世界的方式,SpatialLM的過人之處,首先是更通用的數(shù)據(jù)輸入模式。不需要借助智能穿戴設(shè)備作為傳感器輸入數(shù)據(jù),手機(jī)、相機(jī)拍攝的視頻都可以成為數(shù)據(jù)來源,大大降低了開發(fā)者的數(shù)據(jù)采集門檻。
SpatialLM基于視覺重建的3D結(jié)構(gòu)化場景
其次,空間場景符合物理正確原則。所謂的物理正確,就是虛擬場景里反映的一切,都是符合物理基礎(chǔ)的。比如毛毯,看上去具有絨顆粒感;裝有熱水的玻璃杯,散發(fā)出騰騰熱氣;人坐在柔軟的沙發(fā)上,能看到接觸面壓出的褶皺。
SpatialLM具有創(chuàng)建物理正確的場景布局的“真”本事,背后是群核科技這家因?yàn)椤昂贾萘↓垺倍淮蟊娬J(rèn)識的科技公司,過去10多年積累下來的海量的3D數(shù)據(jù)和空間認(rèn)知數(shù)據(jù)。作為一家空間智能企業(yè),他們擁有目前全球最大的室內(nèi)場景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集。
大量物理正確的3D數(shù)拓和空間認(rèn)真數(shù)據(jù)提供仿真支持
如果說SpatialLM模型“教”的是如何讓機(jī)器人更好地感知世界。那么去年群核科技發(fā)布的空間智能解決方案SpatialVerse,則通過合成數(shù)據(jù)方案為機(jī)器人搭建起接近物理真實(shí)的“數(shù)字道場”,幫助它們在仿真環(huán)境下完成例如疊被子、遞送水杯、開關(guān)冰箱門等行動(dòng)的交互訓(xùn)練。

英偉達(dá)GTC 2025群核科技現(xiàn)場展區(qū)
有了這對“神仙老師”,機(jī)器人將獲得從認(rèn)知理解到行動(dòng)交互的完整閉環(huán)訓(xùn)練——既能“看懂”世界,又能學(xué)會行動(dòng)決策,才能在真實(shí)世界里順利“上崗”,更好地完成人類指令。

老同事之間的不謀而合
嚴(yán)格說來,黃曉煌和黃仁勛的關(guān)系不只是同事。當(dāng)年,在浙大完成本科學(xué)業(yè)后,他能夠遠(yuǎn)赴美國伊利諾伊大學(xué)香檳分校(UIUC)攻讀計(jì)算機(jī)碩士,拿的就是英偉達(dá)全額獎(jiǎng)學(xué)金。而他的研究方向,就是用GPU做高性能計(jì)算。

GTC 2025上,黃仁勛和黃曉煌合影
2010年,黃曉煌從UIUC碩士畢業(yè),按部就班進(jìn)入英偉達(dá)工作,并參與了CUDA開發(fā)。只不過當(dāng)時(shí)在硅谷,英偉達(dá)還是一家不太起眼的小公司。
沒想到兜兜轉(zhuǎn)轉(zhuǎn)15年,英偉達(dá)成了當(dāng)下全球最有影響力的科技公司,黃曉煌創(chuàng)立的群核科技也開啟了IPO征程,他們和黃仁勛正在眺望同一片和具身智能相關(guān)的星辰大海。

早在兩個(gè)月前的CES大會上,黃仁勛稱,“AI下一個(gè)前沿就是物理AI”。同時(shí)重磅官宣了世界基礎(chǔ)模型開發(fā)平臺——Cosmos。

Cosmos是一個(gè)能通過現(xiàn)在畫面,去預(yù)測未來畫面的模型。它可以從文本/圖像輸入數(shù)據(jù),生成詳細(xì)的視頻,并通過將其當(dāng)前狀態(tài)(圖像/視頻)與動(dòng)作(提示/控制信號)相結(jié)合來預(yù)測場景的演變。它可以讓機(jī)器人準(zhǔn)確地理解物理世界,和SpatialLM想要扮演的角色和達(dá)到的目標(biāo)一樣。

本屆GTC上,英偉達(dá)還一口氣推出了兩個(gè)新的藍(lán)圖,由NVIDIA Omniverse?和Cosmos平臺提供支持,為開發(fā)人員提供大規(guī)模、可控的合成數(shù)據(jù)生成引擎,主要用于訓(xùn)練后的機(jī)器人和自動(dòng)駕駛汽車。
Cosoms與Omniverse搭配使用,虛實(shí)結(jié)合,讓虛擬世界的設(shè)計(jì)搬到現(xiàn)實(shí)世界訓(xùn)練。
而本次GTC老黃重磅發(fā)布的Isaac Groot(GROOT N1),采用了雙系統(tǒng)架構(gòu),能夠在復(fù)雜環(huán)境中靈活應(yīng)對各種任務(wù),例如抓取、雙臂搬運(yùn)、單臂與雙臂協(xié)作,以及多步復(fù)雜操作,適用于物料搬運(yùn)、包裝和檢測等場景。

黃仁勛透露,GROOT N1模型已經(jīng)被多家機(jī)器人制造商采用,包括Fourier GR-01、Agility Robotics、Boston Dynamics等,助力類人機(jī)器人進(jìn)入更廣泛的商業(yè)應(yīng)用場景。
而在空間和具身智能訓(xùn)練上,目前群核科技也已經(jīng)與硅谷頭部科技企業(yè)等在內(nèi)的一批國內(nèi)外具身智能企業(yè)達(dá)成合作。

讓機(jī)器人“看懂”
物理世界有多難?
如何讓掃地機(jī)器人分辨地板上的一坨狗屎和一堆形狀像屎的普通垃圾?這個(gè)問題曾難倒大多數(shù)掃地機(jī)器人公司。
早期掃地機(jī)器人通過碰撞實(shí)現(xiàn)轉(zhuǎn)向,最怕碰到的一個(gè)極端場景,就是家里寵物的糞便。因?yàn)閽叩貦C(jī)器人的激光雷達(dá)不會識別寵物糞便,碰到之后不會停下來,常常把家里拖得到處都是。
剛開始,掃地機(jī)器人公司試圖用攝像頭替換激光雷達(dá)來識別寵物糞便,隨之而來的問題是:訓(xùn)練的時(shí)候幾乎找不到一個(gè)充滿貓屎狗屎的真實(shí)場景做實(shí)驗(yàn)。
早在疫情時(shí),一家掃地機(jī)器人公司與群核科技合作,通過數(shù)據(jù)合成在數(shù)字世界完成了機(jī)器人對寵物糞便識別的訓(xùn)練。
為了模擬真實(shí)寵物糞便的樣子,當(dāng)時(shí),群核科技做數(shù)據(jù)合成的設(shè)計(jì)師花了好幾天時(shí)間,專門研究各種形狀的貓屎和狗屎,最后因?yàn)楹铣傻眠^于逼真,被其他設(shè)計(jì)師在微博吐槽:貓屎有必要做得這么逼真嗎?
就像棋手,只有經(jīng)過無數(shù)次的廝殺,才能從一個(gè)小白變成下棋高手一樣,機(jī)器人在真正走進(jìn)現(xiàn)實(shí)生活成為人類幫手之前,也要經(jīng)過大量的學(xué)習(xí)和訓(xùn)練。通過一遍遍感知、行動(dòng)、反饋,從而形成動(dòng)態(tài)學(xué)習(xí)能力。所以空間認(rèn)知是機(jī)器人與現(xiàn)實(shí)交互的基礎(chǔ)能力。

SpatialLM運(yùn)行原理
不過在訓(xùn)練機(jī)器人的過程中,用真機(jī)在真實(shí)環(huán)境中進(jìn)行數(shù)據(jù)采集存在很多問題。假如用一個(gè)真實(shí)的空間訓(xùn)練一個(gè)機(jī)器人,那么每訓(xùn)練一個(gè)場景都要蓋一個(gè)真實(shí)的房間,那這個(gè)成本實(shí)在太高了。
效率也是個(gè)問題。在物理世界里,時(shí)空是確定的。如果訓(xùn)練一個(gè)機(jī)器人需要1天,那么訓(xùn)練1萬次就得1萬天,時(shí)間沒有辦法壓縮。
另外,在現(xiàn)實(shí)世界里面,要找到各種各樣不同場景是非常困難的。如果我們想訓(xùn)練一個(gè)機(jī)器人去火星上幫人類干活,沒有辦法先把一堆設(shè)備送到火星上去提前訓(xùn)練。
合成數(shù)據(jù)可以解決多樣性問題。把訓(xùn)練機(jī)器人的環(huán)境放到數(shù)字世界里,不僅時(shí)間可以被壓縮,物理世界里要用1萬天跑完的數(shù)據(jù),數(shù)字世界里也許1天就可以跑完。仿真場景還可以無限泛化出海量的場景供機(jī)器人學(xué)習(xí),從而實(shí)現(xiàn)“舉一反無數(shù)”。
這也是為什么不久前群核科技所在的杭州上城區(qū)宣布啟動(dòng)具身智能虛擬訓(xùn)練場共建計(jì)劃,專門為具身智能建了一座”學(xué)?!保?strong>目前已經(jīng)確認(rèn)加入的“老師”包括了政府方,企業(yè)方——群核科技、熾橙科技、特雷西能源科技等。
其中一份“教案”,就是群核科技旗下的”群核空間智能平臺”SpatialVerse。
把智能機(jī)器人投放到這個(gè)虛擬世界,它們就可以像人類一樣,去感知世界中的各種”東西”,比如“用多大力氣可以打開一個(gè)柜子”“撿起一個(gè)玩具從哪個(gè)角度可以放進(jìn)筐里”“扭秧歌甩手帕要甩多高”等實(shí)踐經(jīng)驗(yàn)。
文 | 沈積慧
熱門跟貼