
合成數(shù)據(jù)才是真正能夠帶領(lǐng)具身智能進(jìn)入泛化、實(shí)現(xiàn)通用的基石性數(shù)據(jù)。
文|閆佳佳
ID | BMR2004
近日,北京銀河通用機(jī)器人有限公司(下稱“銀河通用”)再次引發(fā)關(guān)注。天奇自動(dòng)化工程股份有限公司(下稱“天奇股份”)發(fā)布公告稱,其與銀河通用簽署《合資公司投資協(xié)議》,雙方擬出資設(shè)立合資公司天奇銀河機(jī)器人有限公司(暫定名,以工商核準(zhǔn)為準(zhǔn)),整合雙方優(yōu)勢及資源,就具身智能大模型及具身智能機(jī)器人在汽車制造產(chǎn)業(yè)相關(guān)領(lǐng)域規(guī)模化應(yīng)用方面展開戰(zhàn)略合作。
銀河通用成立于2023年5月,創(chuàng)始人王鶴本科畢業(yè)于清華大學(xué)電子系、斯坦福大學(xué)博士,現(xiàn)擔(dān)任北京大學(xué)前沿計(jì)算研究中心助理教授、博士生導(dǎo)師。2024年6月,銀河通用推出了第一代產(chǎn)品Galbot G1,開始在藥店等場景進(jìn)行商業(yè)化服務(wù)。
據(jù)悉,銀河通用憑借其創(chuàng)新的合成數(shù)據(jù)驅(qū)動(dòng)技術(shù)和強(qiáng)大的多模態(tài)感知大模型,打造了這款能夠在現(xiàn)實(shí)環(huán)境中靈活應(yīng)對(duì)各種情況的智能機(jī)器人。天奇股份方面表示,與銀河通用深度合作,將利用銀河通用在基礎(chǔ)大模型及泛化能力方面的核心技術(shù)優(yōu)勢,重點(diǎn)推進(jìn)大模型在汽車制造場景的研發(fā)應(yīng)用,打造智能工業(yè)解決方案。后續(xù)視雙方合作及市場需求,合資公司將逐步開展汽車制造產(chǎn)業(yè)細(xì)分場景的專用具身智能算法研發(fā),打造適應(yīng)專用場景的機(jī)器人產(chǎn)品并實(shí)現(xiàn)規(guī)?;a(chǎn)。
此外,銀河通用還與美團(tuán)達(dá)成戰(zhàn)略合作,共同打造全球首個(gè)以人形機(jī)器人為核心的智慧藥房解決方案,實(shí)現(xiàn)了24小時(shí)無人值守,進(jìn)一步推動(dòng)了智能機(jī)器人在商業(yè)領(lǐng)域的應(yīng)用。
01
合成數(shù)據(jù)驅(qū)動(dòng)具身智能革命
通用機(jī)器人技術(shù)正成為研究熱點(diǎn),通用機(jī)器人不僅需要理解人類的語言指令,還要能夠根據(jù)視覺信號(hào)和傳感器信息進(jìn)行精確的操作。這背后的關(guān)鍵技術(shù)在于開發(fā)一個(gè)可以將這些輸入直接轉(zhuǎn)化為機(jī)器人關(guān)節(jié)控制信號(hào)的大模型。
薩摩耶云科技集團(tuán)AI機(jī)器人產(chǎn)業(yè)研究員鄭揚(yáng)洋接受《商學(xué)院》雜志訪談時(shí)表示:“國內(nèi)企業(yè)積極探索多模態(tài)大模型技術(shù),通過融合視覺、語言、觸覺等多模態(tài)信息,提升機(jī)器人的感知和理解能力。其中,高質(zhì)量的多模態(tài)數(shù)據(jù)是訓(xùn)練自然語言交互模型的基礎(chǔ),但目前數(shù)據(jù)的獲取和標(biāo)注成本較高,且數(shù)據(jù)的多樣性和完整性不足。此外,在復(fù)雜多變的現(xiàn)實(shí)環(huán)境中,模型的泛化能力仍需提升。”
高質(zhì)量的數(shù)據(jù)對(duì)于訓(xùn)練有效的機(jī)器人模型至關(guān)重要,在機(jī)器人領(lǐng)域,其操作復(fù)雜度遠(yuǎn)超自動(dòng)駕駛,需要處理多種物體和非平坦地形。而依賴人類遙控產(chǎn)生大量高質(zhì)量數(shù)據(jù)效率低下,難以短時(shí)間內(nèi)達(dá)到所需的千億條數(shù)據(jù)量級(jí)。
以谷歌的技術(shù)為例,谷歌在Mountain Village(美國加州)辦公室的廚房里采集了17個(gè)月,得到13萬條數(shù)據(jù),使得其機(jī)器人在谷歌的廚房里表現(xiàn)可以非常好。但一旦出了這個(gè)廚房,需要考察其環(huán)境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場景中,它最大的問題就是數(shù)據(jù)采集沒有辦法做到Scalable(可擴(kuò)展)。
面對(duì)數(shù)據(jù)和泛化能力的挑戰(zhàn),銀河通用提出了一個(gè)創(chuàng)新的方法,通過合成數(shù)據(jù)驅(qū)動(dòng)的具身多模態(tài)大模型解決這些問題。王鶴認(rèn)為合成數(shù)據(jù)才是真正能夠帶領(lǐng)具身智能進(jìn)入泛化、實(shí)現(xiàn)通用的基石性數(shù)據(jù)。
具體分析,二維視覺模型最大的特點(diǎn)是很難泛化。如果之前在黑色房間做訓(xùn)練,那么換成白色的房間,此前的訓(xùn)練就白費(fèi)了。相較于傳統(tǒng)二維視覺模型難以適應(yīng)環(huán)境變化的問題,三維合成數(shù)據(jù)能夠提供幾何信息,不受光照、紋理或顏色的影響,為機(jī)器人操作提供了更穩(wěn)定的基礎(chǔ)。
采用三維合成數(shù)據(jù)更為有效,因?yàn)樗粌H包含RGB圖像的信息,還能捕捉物體的幾何形態(tài)。例如,在抓取任務(wù)中,方形物體應(yīng)夾持其兩側(cè),而球形物體則需用手掌包裹。顏色雖然是視覺的一部分,但對(duì)于實(shí)際抓取操作來說往往是無關(guān)緊要的,甚至?xí)黾痈蓴_。通過使用三維幾何模態(tài)(即點(diǎn)云:一種表示三維空間中物體或環(huán)境的方法,它由大量離散的點(diǎn)組成,每個(gè)點(diǎn)代表了三維空間中的一個(gè)坐標(biāo)位置),可以專注于物體的形狀特征,從而提高抓取的成功率和效率。
銀河通用的技術(shù)路線是從二維視覺擴(kuò)展到三維空間,利用雙目紅外傳感器獲取信號(hào),并結(jié)合擴(kuò)散模型精確學(xué)習(xí)深度信息。這一過程基于自研的千萬場景合成大數(shù)據(jù)進(jìn)行訓(xùn)練,覆蓋了各種桌面布局、物體位置及其材質(zhì)等復(fù)雜情況。
銀河通用機(jī)器人的標(biāo)志性成果是構(gòu)建了三層級(jí)大模型系統(tǒng):底層是硬件層,中間層是三維視覺合成數(shù)據(jù)驅(qū)動(dòng)的技能層,上層是大模型層。研究團(tuán)隊(duì)還創(chuàng)建了世界上首個(gè)以零件為中心的數(shù)據(jù)集,覆蓋了各種家用電器上的主要操作零部件,如旋轉(zhuǎn)蓋、推蓋、轉(zhuǎn)鈕、按鈕等。這些數(shù)據(jù)幫助機(jī)器人理解不同部件的工作原理,然后在仿真環(huán)境中進(jìn)行訓(xùn)練。在仿真環(huán)境中,研究團(tuán)隊(duì)標(biāo)注了這些零部件的位置和使用方法,讓機(jī)器人能夠?qū)W習(xí)如何操作它們,例如開門或抽屜。最后將三維視覺技術(shù)和語言模型(如GPT-4V)進(jìn)行結(jié)合。GPT-4V這樣的二維語言雙模態(tài)大模型具備強(qiáng)大的推理和感知能力,但它無法直接獲取物體在三維空間中的具體位置。因此,三維視覺模型提供了必要的補(bǔ)充,通過提供檢測到的零部件數(shù)量、位置和形態(tài)信息給GPT-4V,使其能夠生成具體的操作建議。
基于該系統(tǒng),機(jī)器人可實(shí)現(xiàn)跨場景、跨物體材質(zhì)、跨形態(tài)、跨物體擺放、依據(jù)人類語音指令進(jìn)行的開放語義泛化抓取,成功率達(dá)95%。
02
開放語義指令驅(qū)動(dòng)的空間智能大模型系統(tǒng)
銀河通用的開放語義泛化抓取能力,還得益于其研發(fā)的空間智能大模型系統(tǒng)。銀河通用研發(fā)了世界上第一個(gè)支持開放語義指令六自由度取放的空間智能大模型系統(tǒng)Open6DOR。該大模型系統(tǒng)突破了只能控制物體放置位置的局限性,進(jìn)一步實(shí)現(xiàn)了通過開放語義指令對(duì)于物體在目標(biāo)位置擺放姿態(tài)的精細(xì)控制,為具身大模型商業(yè)化應(yīng)用展開更大想象空間。
具體來看,該大模型系統(tǒng)做到了六自由度物體的自由擺放。六自由度指的是三自由度的平動(dòng)(上下、左右、前后)、三自由度的轉(zhuǎn)動(dòng)(繞這三個(gè)軸的旋轉(zhuǎn))。六自由度操作不僅能指定物體放在哪里,還能控制它的朝向。
Open6DOR是一個(gè)大型仿真平臺(tái),里面包含2500個(gè)各種各樣的任務(wù)。這些任務(wù)不用于訓(xùn)練,而是拿來檢測具身多模態(tài)大模型能不能完成,這其中涉及200多個(gè)家中常用物體。
銀河通用主要關(guān)注三類任務(wù)追蹤,第一是僅位置追蹤,比如把蘋果放到勺子的右邊、把瓶子放到錘子和改錐的中間;第二是僅旋轉(zhuǎn)追蹤,把錘子沖向左、易拉罐的標(biāo)簽朝左、把碗上下顛倒。而實(shí)際需要的是位置加旋轉(zhuǎn)的任務(wù)執(zhí)行,也就是六自由度追蹤,比如把盒子放到鍋和鍋蓋之間并讓標(biāo)簽沖上,或者把卷尺放到中間且讓它立起來,像這樣的操作是桌面級(jí)操作里的關(guān)鍵性里程碑。誰能夠率先完成2500個(gè)任務(wù),就說明大模型已經(jīng)初步具備了開放指令能力。
針對(duì)2500個(gè)任務(wù),銀河通用提出了一套方法。首先是抓取能力,銀河通用研發(fā)出全球首個(gè)可以實(shí)現(xiàn)基于仿真合成數(shù)據(jù)訓(xùn)練任意材質(zhì)的技術(shù)。通過海量的合成數(shù)據(jù),解決了透明和反光物體的抓取難題。
王鶴表示,抓取不是簡單的從上往下抓,它其實(shí)是六自由度的抓取,利用GPT-4V等大模型提取并理解用戶給出的復(fù)雜指令,并通過Grounded-SAM等工具將指令中的物體分割出來,并且把其三維Bounding Box(邊界框)輸出給GPT-4V。GPT-4V理解這些物體現(xiàn)在的位置后,就會(huì)輸出應(yīng)該把物體放在哪個(gè)位置的指令。
那么如何解決旋轉(zhuǎn)指令?GPT-4V無法直接輸出旋轉(zhuǎn)矩陣,沒有能力直接輸出機(jī)械臂左轉(zhuǎn)上轉(zhuǎn)橫轉(zhuǎn)分別多少度,它也并不知道轉(zhuǎn)軸在哪里。銀河通用采用了名為“Real-same-real”的流程,先將真實(shí)物體在仿真環(huán)境里面重建,再把重建的物體以Mesh形式進(jìn)行自由落體,撒滿整個(gè)仿真環(huán)境,讓物體處于各種可能的位置。然后將這些位置交給GPT-4V評(píng)判并篩選出符合指令要求的最佳方案。
盡管銀河通用嘗試使用GPT-4V進(jìn)行端到端的動(dòng)作生成,但這種方法效率并不高。為了實(shí)現(xiàn)實(shí)時(shí)的動(dòng)作生成,銀河通用提出了用中間的三維視覺小模型進(jìn)行動(dòng)作快速生成,大模型進(jìn)行規(guī)劃的三層級(jí)思路。這比端到端的方法更快,更適合在線實(shí)時(shí)應(yīng)用。雖然未來目標(biāo)是實(shí)現(xiàn)端到端的視覺、語言和動(dòng)作集成的大模型,但在此之前,需要先打好小模型的基礎(chǔ),因?yàn)榇竽P驮趩我蝗蝿?wù)上需要的數(shù)據(jù)量遠(yuǎn)大于小模型。
銀河通用通過整合各種小模型(如抓取、放置、柔性物體操作到關(guān)節(jié)類物體操作等),旨在融匯到大模型里實(shí)現(xiàn)通用機(jī)器人。
王鶴在2024中國生成式AI大會(huì)上表示,具身智能的未來還是端到端,通過構(gòu)建端到端視覺語言動(dòng)作大模型,將迅速革命現(xiàn)有的機(jī)器人產(chǎn)業(yè)。目前,銀河通用率先將多個(gè)小模型整合,成功打造出全球首個(gè)跨場景泛化的導(dǎo)航大模型Navid。該模型僅需圖片輸入就能讓機(jī)器人在未見過的環(huán)境中根據(jù)指令行動(dòng),模擬人類走路、找路的方式,而無需依賴三維定位、建圖或激光雷達(dá)等傳統(tǒng)技術(shù)。
Navid模型的獨(dú)特之處在于其訓(xùn)練數(shù)據(jù)完全來源于對(duì)真實(shí)世界的仿真合成,在不使用任何實(shí)際世界中的動(dòng)作數(shù)據(jù)的情況下,實(shí)現(xiàn)了真實(shí)世界中的Zero-Shot跨場景泛化能力。具體來說,該模型基于51萬個(gè)純仿真合成的室內(nèi)環(huán)境視頻導(dǎo)航樣本(包括動(dòng)作規(guī)劃和指令推理)以及76.3萬個(gè)來自現(xiàn)實(shí)世界的不含導(dǎo)航任務(wù)和動(dòng)作信息的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。它僅依靠單視角攝像頭采集的RGB視頻流作為輸入,避免了傳統(tǒng)導(dǎo)航技術(shù)中使用三維點(diǎn)云、里程計(jì)、深度圖等傳感器信號(hào)所帶來的sim2real gap問題。
高工機(jī)器人產(chǎn)業(yè)研究所所長盧瀚宸接受《商學(xué)院》雜志訪談時(shí)表示,機(jī)器人完全通過仿真合成數(shù)據(jù)訓(xùn)練而達(dá)到高性能,這種方法相比傳統(tǒng)的物理數(shù)據(jù)采集而言具備高效率、低成本,可以無限量生產(chǎn)的優(yōu)勢,尤其適用于數(shù)據(jù)量較大的需求,同時(shí)具備提供高度的多樣性和可控性。但是也存在缺點(diǎn),比如數(shù)據(jù)質(zhì)量可能依賴于生成算法的優(yōu)劣,存在噪聲或與真實(shí)數(shù)據(jù)分布差異過大的情況。
03
Galbot G1,開創(chuàng)具身智能新時(shí)代
在具身智能領(lǐng)域先進(jìn)技術(shù)的支持下,銀河通用推出了首款具身大模型機(jī)器人Galbot G1(以下簡稱G1),這款輪式、雙臂、身體可折疊的人形機(jī)器人身高1.73米,設(shè)計(jì)亮點(diǎn)包括大工作空間、腿部折疊實(shí)現(xiàn)地面抓取以及腰部前傾擴(kuò)大手部操作范圍,使其向上摸高達(dá)2.4米。
G1于2024年6月在北京智源大會(huì)(BAAI)上首次亮相。在模擬的24小時(shí)無人值守便利店場景中,G1兩天內(nèi)累計(jì)工作18小時(shí),服務(wù)超過800位顧客,完成了1000多項(xiàng)任務(wù)。
從技術(shù)亮點(diǎn)來看,G1配備了一個(gè)聰明的感知決策“大腦”和精準(zhǔn)控制身體進(jìn)行復(fù)雜操作的“小腦”。例如,在接到倒飲料的指令時(shí),它能夠自主詢問主人所需的飲料類型,并在得到橙汁的選擇后,準(zhǔn)確地將橙汁倒入桌面的杯子中。即使遇到意外情況,如玻璃杯被打碎,G1也能迅速識(shí)別并清理隨機(jī)形狀的透明碎片,突破了必須對(duì)傳統(tǒng)機(jī)器人預(yù)先設(shè)定物體材質(zhì)、形狀、光線條件的這一局限,展現(xiàn)出前所未有的泛化能力。
中關(guān)村物聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟副秘書長袁帥告訴《商學(xué)院》雜志,銀河通用G1的泛化抓取技術(shù)是通過自研具身大模型、端到端導(dǎo)航大模型以及創(chuàng)新的物理仿真及渲染方法實(shí)現(xiàn)的。這些技術(shù)創(chuàng)新使得機(jī)器人能夠直接泛化至真實(shí)世界,成功抓取各類復(fù)雜、未見過的物體。G1也展現(xiàn)了強(qiáng)大的感知、決策和執(zhí)行能力。在感知層面,G1配備了先進(jìn)的傳感器和視覺系統(tǒng),能夠準(zhǔn)確感知環(huán)境信息;在決策層面,其搭載了先進(jìn)的AI算法,能夠快速做出最優(yōu)決策;在執(zhí)行層面,G1擁有靈活的機(jī)械結(jié)構(gòu)和強(qiáng)大的動(dòng)力系統(tǒng),能夠精確執(zhí)行各種任務(wù)。這些優(yōu)勢使得G1在智能家居、工業(yè)自動(dòng)化等領(lǐng)域具有廣泛的應(yīng)用前景。
在場景落地方面,G1已經(jīng)在藥店中進(jìn)行了商業(yè)化服務(wù),它能夠完成取貨、送貨、補(bǔ)貨等工作,以取貨為例,G1會(huì)自主進(jìn)行三維場景重建并收集場景數(shù)據(jù),消費(fèi)者在圖形界面或語音下單后,G1根據(jù)重建得到的3D語義地圖找到相應(yīng)商品位置,自主決策使用夾爪或者吸盤,精準(zhǔn)拾取商品并放置到指定位置。
在工廠和車廠的應(yīng)用中,G1在執(zhí)行拆跺、料箱轉(zhuǎn)運(yùn)工作時(shí),面對(duì)多層堆疊、緊密放置的料箱,G1會(huì)基于每個(gè)料箱所處位置,推理并給出不同的雙臂抓取方案,自主規(guī)劃路徑搬運(yùn)至相應(yīng)位置,全程完全基于視覺引導(dǎo),無二維碼等定位標(biāo)識(shí)。
盧瀚宸表示,針對(duì)人形機(jī)器人下游應(yīng)用市場主要可分為To B和To C市場,To B場景的核心是讓機(jī)器人成為生產(chǎn)力工具,補(bǔ)充稀缺勞動(dòng)力或提高作業(yè)效率如上述的零售商超、制造業(yè)、藥店等場景;To C場景短期更多需要考慮從滿足消費(fèi)者的情緒價(jià)值或某些特定功能需求作為切入點(diǎn),如家庭場景,短期內(nèi)一個(gè)全能型的家庭家務(wù)機(jī)器人似乎不易實(shí)現(xiàn),但針對(duì)特定場景和需求的機(jī)器人是具備可行性的。
他進(jìn)一步指出,選擇汽車行業(yè)作為突破口不是單一企業(yè)的選擇,目前來看,算得上是國內(nèi)人形機(jī)器人企業(yè)的“淺共識(shí)”。一方面汽車行業(yè)在制造業(yè)體系中是體量規(guī)模最大的行業(yè),同時(shí)也是生產(chǎn)標(biāo)準(zhǔn)化、自動(dòng)化程度最高的行業(yè)之一;另一方面,汽車與人形機(jī)器人有諸多的相通性,汽車廠商對(duì)于人形機(jī)器人的認(rèn)知度期許相對(duì)較高,從這一點(diǎn)算得上是雙向奔赴。
值得注意的是,銀河通用除了在商業(yè)、工業(yè)領(lǐng)域多方試點(diǎn),快速推進(jìn)落地應(yīng)用的同時(shí),也在不斷探索醫(yī)療康養(yǎng)、教育科研、家庭應(yīng)用等場景,向服務(wù)千行百業(yè)、千家萬戶的愿景不斷挺進(jìn)。
關(guān)于商業(yè)落地時(shí)間點(diǎn),王鶴表示,現(xiàn)在的技術(shù)已達(dá)到了產(chǎn)業(yè)化的邊界,2025年或?qū)⑹巧逃玫摹霸辍保?年銀河通用的目標(biāo)是在商業(yè)場景的無人值守和車廠、工廠等場景中的應(yīng)用達(dá)到萬臺(tái),10年后機(jī)器人的安全性或?qū)⑦_(dá)到進(jìn)入家庭的標(biāo)準(zhǔn),預(yù)計(jì)15年后將產(chǎn)生千萬級(jí)別的市場。
每一代技術(shù)變革,成本一直是影響技術(shù)商用化的重要因素。具身智能行業(yè)在推動(dòng)具身智能技術(shù)商用化的過程中,如何平衡技術(shù)先進(jìn)性和成本?在降低成本方面還有哪些潛力和空間?
盧瀚宸認(rèn)為,降本一般有兩個(gè)路徑:技術(shù)創(chuàng)新和規(guī)?;?。在人形機(jī)器人未真正實(shí)現(xiàn)批量化產(chǎn)業(yè)落地之前,規(guī)?;€無從談起,該階段的降本主要依靠技術(shù)創(chuàng)新實(shí)現(xiàn),如選用準(zhǔn)直驅(qū)的關(guān)節(jié)模組方案、電容式的力傳感器方案、自主研發(fā)核心部件等。通過技術(shù)創(chuàng)新往往可以實(shí)現(xiàn)綜合成本倍數(shù)級(jí)的降低。
通過對(duì)全球主要人形機(jī)器人廠商的梳理調(diào)研,產(chǎn)業(yè)化落地的拐點(diǎn)有望在2026年之后,屆時(shí)規(guī)模化效應(yīng)將有望主導(dǎo)降本的進(jìn)程,預(yù)計(jì)成本的年均降幅將超20%,到2030年人形機(jī)器人單臺(tái)硬件成本有望降至10萬元左右,到2035年人形機(jī)器人單臺(tái)硬件成本有望降至6萬元左右。
來源 | 2025年2&3月合刊
熱門跟貼