3月10日,智元發(fā)布首個(gè)通用具身基座模型——智元啟元大模型GO-1。相比目前已有的最優(yōu)模型,GO-1在五種不同復(fù)雜度任務(wù)上測(cè)試成功率大幅度領(lǐng)先,其中平均成功率提高了32%,并且在 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補(bǔ)充飲料) 任務(wù)表現(xiàn)尤為突出。

智元GO-1在復(fù)雜任務(wù)中的高成功率源于其Vision-Language-Latent-Action (ViLLA) 架構(gòu)。據(jù)了解,該架構(gòu)由智元開創(chuàng)性采用,是由VLM(多模態(tài)大模型) + MoE(混合專家)兩種組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE中的Action Expert(動(dòng)作專家)借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力。
在推理時(shí),VLM、Latent Planner和Action Expert三者協(xié)同工作,實(shí)現(xiàn)與外部環(huán)境的交互和任務(wù)智能化判斷。

其實(shí)從行業(yè)來看,全球具身機(jī)器人普遍處在“低齡階段”,機(jī)器人只能在實(shí)驗(yàn)室內(nèi)執(zhí)行單一任務(wù),并且很多執(zhí)行動(dòng)作更多是預(yù)設(shè)程序,具身機(jī)器人只是根據(jù)編程命令執(zhí)行動(dòng)作,不能與外部環(huán)境交互,無法自主執(zhí)行命令,智能化水平低。
但智元GO-1發(fā)布后,具身機(jī)器人可在ViLLA 架構(gòu)的加持下,具備人類視頻學(xué)習(xí)、小樣本快速泛化、一腦多形、持續(xù)進(jìn)化四大特征,不僅讓大模型更理解人類的行為、大幅度降低訓(xùn)練成本,而且還能再不同機(jī)器人形態(tài)中遷移,在實(shí)際執(zhí)行中迭代學(xué)習(xí)。
智元GO-1帶給具身機(jī)器人的新特征,將極大推動(dòng)具身機(jī)器人行業(yè)的發(fā)展,未來具身機(jī)器人將從依賴特定任務(wù)的工具,向著具備通用智能的自主體發(fā)展,在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用,通向更加通用全能的智能未來。
作為全球具身機(jī)器人行業(yè)領(lǐng)先者,智元始終致力于推動(dòng)具身機(jī)器人行業(yè)發(fā)展。
2024年年底,智元推出了 AgiBot World,包含超過100萬條軌跡、涵蓋217個(gè)任務(wù)、涉及五大場(chǎng)景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集,收錄了八十余種日常生活中的多樣化技能,包括抓取、放置、推、拉等基礎(chǔ)操作,以及攪拌、折疊、熨燙等交互動(dòng)作,為行業(yè)解決了全域真機(jī)數(shù)據(jù)獲取難,訓(xùn)練成本高的難題。
未來已來,機(jī)器人服務(wù)人類的時(shí)代已經(jīng)不遠(yuǎn),而作為具身機(jī)器人行業(yè)領(lǐng)先者,智元不斷實(shí)現(xiàn)突破,讓科幻電影中的畫面逐步照進(jìn)現(xiàn)實(shí)。
熱門跟貼