人形機器人需要能夠適應人類工作空間,處理重復性或高強度任務。然而,為真實世界的任務和不可預測的環(huán)境創(chuàng)建通用人形機器人是一項挑戰(zhàn)。通常來說,這些任務中的每一個都需要一個專用的 AI 模型。由于需要大量特定于任務的數據、高昂的計算成本,且模型的泛化能力有限,針對每一個新的任務和環(huán)境,從零開始訓練這些模型是一個非常繁瑣的過程。
NVIDIA Isaac GR00T通過提供開源的 SimReady 數據、仿真框架(如NVIDIA Isaac Sim和Isaac Lab)、合成數據藍圖和預訓練基礎模型,能夠幫助解決這些挑戰(zhàn)并加速通用人形機器人的開發(fā)。
NVIDIA Isaac GR00T N1 的特點和優(yōu)勢
NVIDIA Isaac GR00T N1是世界上首個用于通用人形機器人推理和技能的開源基礎模型。這個跨實體模型接受包括語言和圖像在內的多模態(tài)輸入,以便在各種不同的環(huán)境中執(zhí)行操作任務。
GR00T N1 基于一個龐大的人形機器人數據集進行訓練,訓練數據還補充了通過NVIDIA Isaac GR00T Blueprint生成的合成數據,以及來自互聯(lián)網的大量視頻數據。它可以通過后訓練適應特定的實體、任務和環(huán)境。現在,開發(fā)者可以通過 Hugging Face 上的開源 NVIDIA 物理 AI 數據集免費獲得其中的部分數據。
視頻 1. NVIDIA Isaac GR00T N1:用于人形機器人的開源基礎模型
GR00T N1 使用一個模型和一組權重來實現人形機器人上的操作行為,例如 Fourier GR-1 和 1X Neo。它展示了在一系列任務中的強大泛化能力,包括用單臂或雙臂抓取和操作物體,以及在雙臂之間轉移物品。
圖 1. GR00T N1 用于物體操作
它還可以執(zhí)行需要持續(xù)上下文理解和整合多種技能的復雜多步驟任務。這些功能可應用于物品搬運、包裝和檢查等各種使用場景中。
視頻 2. NVIDIA Isaac GR00T N1 用于復雜操作任務
GR00T N1 2B 模型已經正式推出,這是 NVIDIA 一系列可完全定制模型中的首個模型。NVIDIA 將對這一系列模型進行預訓練并發(fā)布。
GR00T N1 模型架構
受人類認知原理的啟發(fā),GR00T N1 基礎模型采用雙系統(tǒng)架構:
- 視覺-語言模型(系統(tǒng) 2):這個系統(tǒng)基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一個方法論思考系統(tǒng)。它通過視覺和語言指令解釋環(huán)境,使機器人能夠對其環(huán)境和指令進行推理,并規(guī)劃正確的行動。
- 擴散 Transformer(系統(tǒng) 1):這個動作模型生成連續(xù)動作以控制機器人的運動,將系統(tǒng) 2 制定的動作計劃轉化為精確、連續(xù)的機器人運動。
這兩個系統(tǒng)緊密耦合,使它們在后訓練期間可以一起優(yōu)化。

圖 2. GR00T N1 模型架構
GR00T N1 的預訓練數據策略
訓練像 GR00T N1 這樣的通用模型需要一個強大的數據策略,該策略能夠利用不同數據類型的互補優(yōu)勢。GR00T N1 的訓練數據構成了一個金字塔結構,從底部到頂部,數據量逐漸減少,而針對具體實體的特定性則逐漸增強。
- 底層的數據集合了來自互聯(lián)網的大規(guī)模數據和人類視頻,提供了一個廣泛的視覺和語言信息基礎。這些數據集記錄了人與物體的交互情況,有助于深入了解自然動作模式和任務語義。
- 中間層為由 NVIDIA Omniverse 平臺生成的合成數據。
- 頂部是通過在各種平臺上遠程操作收集的真實機器人數據,能精準反映機器人的實際能力。
以人為中心的在線視頻提供了關于人類與物體交互的有價值的信息,但缺乏機器人的電機控制信號。仿真數據通過 GPU 加速提供了無限的實時數據,填補了這一空白,但它面臨仿真到現實的差距。
真實機器人數據彌合了這一差距,但成本高昂且耗時。通過結合這些多樣化的數據并使用諸如潛在動作訓練等技術,機器人可以從大規(guī)模、未標記的人類視頻數據中學習而無需監(jiān)督,從而形成一種強大的策略,增強機器人訓練,提高 GR00T N1 的性能和適應性。
這種策略通過 NVIDIA Isaac GR00T Blueprint 得以實際應用。通過它,可以在短短 11 小時內生成超過 75 萬個合成軌跡,相當于 6500 小時或九個月連續(xù)的人類演示數據。將這些合成數據與真實數據相結合后,與僅使用真實數據進行訓練的情況相比,GR00T N1 的性能能夠提升 40%。
利用 GR00T N1 進行開發(fā)
您可以按照以下步驟開始使用 GR00T N1:
- 數據準備:將您的機器人演示數據(視頻、狀態(tài)、動作)三元組格式化為與 Hugging Face LeRobot 格式兼容的 GR00T 數據集。
- 數據驗證:使用驗證腳本確保您的數據符合正確的格式。
- 后訓練:使用 PyTorch 腳本,用您的自定義數據集對預訓練的 GR00T N1 模型進行微調。
- 推理:將推理腳本連接到您的機器人控制器,以使用后訓練的 GR00T N1 模型在目標硬件或仿真環(huán)境中執(zhí)行動作。
- 評估:運行評估腳本以獲取模型的任務成功率。
性能
GR00T N1 模型通過仿真和真實世界的基準測試進行評估,以檢驗其在不同的機器人實體和操作任務中的性能。仿真實驗采用了三個不同的基準,而真實世界的測試則聚焦于使用 GR-1 人形機器人執(zhí)行的桌面操作任務。
仿真基準測試
仿真實驗使用了三個基準測試:兩個來自先前研究的開源基準測試和一個模仿現實世界桌面操作任務的新套件,選擇這些基準測試是為了在不同的機器人實體和多種操作任務中評估模型。

表 1. 每個任務使用 100 次演示的仿真基準測試平均成功率
現實基準測試
針對一系列需要精準物體操控、雙手協(xié)調動作以及具備高級空間感知能力的操作任務,對這些模型進行了評估,這使得模型在復雜的交互操作中能夠實現精細的控制。

表 2. 使用 GR-1 人形機器人在現實任務上的平均策略成功率

表 3. 使用 GR-1 人形機器人在真實任務上的平均策略成功率
與擴散策略基線相比,Isaac GR00T N1 模型展示了更平滑和流暢的運動,以及在抓取精度上的顯著提高,特別是在使用較小的后訓練數據集進行微調時。
進一步的結果表明,GR00T N1 不僅更有效地學習新任務,而且比基線方法更精確地遵循語言指令。
立即開始
您可以訪問以下資源開始使用 GR00T N1:
- NVIDIA Isaac GR00T-N1-2B 模型可以通過 Hugging Face 獲取。
- 示例數據集和用于微調的 PyTorch 腳本可從 / NVIDIA/Isaac-GR00T 的 GitHub 代碼庫中獲取。
有關該模型的更多信息,請參閱GR00T N1:用于通用人形機器人的開源基礎模型白皮書:
https://arxiv.org/abs/2503.14734
該模型結合 NVIDIA Isaac GR00T 合成運動和數據生成管線,以及 Isaac Lab 和 Isaac Sim 等仿真框架,使您能夠創(chuàng)建通用人形機器人。
熱門跟貼