打開網(wǎng)易新聞 查看精彩圖片

OpenAI 的 o1 系列模型、Deepseek-R1 帶起了推理模型的研究熱潮,但這些推理模型大多關(guān)注數(shù)學(xué)、代碼等專業(yè)領(lǐng)域。如何將這種深度推理模型擴(kuò)展到智能體和具身領(lǐng)域,讓機(jī)器人通過(guò)思考和推理來(lái)完成復(fù)雜具身交互等任務(wù)?

近期,來(lái)自浙江大學(xué)、中科院軟件所和阿里巴巴的團(tuán)隊(duì)提出了Embodied-Reasoner,讓機(jī)器人智能體擁有深度思考和交互決策能力,從而在真實(shí)物理世界完成環(huán)境探索、隱藏物體搜索、交互和搬運(yùn)等長(zhǎng)序列復(fù)雜任務(wù)。

可以想象,未來(lái)某一天,機(jī)器人能夠幫你在房間里找鑰匙、信用卡等容易遺忘的小物件。它可以觀察房間、分析和思考,然后一步一步地搜索,最后幫你找到它們。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
  • 論文地址:https://arxiv.org/abs/2503.21696
  • 項(xiàng)目主頁(yè):https://embodied-reasoner.github.io
  • 代碼地址:
  • https://gitee.com/agiros/EmbodiedReasoner
  • https://github.com/zwq2018/embodied_reasoner
  • HuggingFace:https://huggingface.co/datasets/zwq2018/embodied_reasoner

打開網(wǎng)易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/yO0uylWGF8Mv7T9y1tjDcA

簡(jiǎn)介

盡管深度思維模型在數(shù)學(xué)和編碼任務(wù)上展現(xiàn)出卓越的推理能力,但不同于數(shù)學(xué)、代碼等文字模態(tài)上的推理,具身領(lǐng)域的推理有幾個(gè)重要的挑戰(zhàn)需要解決:

  • 首先,具身模型不同于單輪聊天對(duì)話,需要通過(guò)交互方式運(yùn)行。它們必須持續(xù)與環(huán)境交互,收集視覺反饋,并基于這些反饋?zhàn)龀龊侠淼男袆?dòng)(文本模態(tài))。因此,模型每次需要處理多輪次的、圖文交織的冗長(zhǎng)輸入,而后產(chǎn)生連貫、符合上下文的推理和決策。
  • 其次,與數(shù)學(xué)任務(wù)主要依賴于邏輯推理和專業(yè)知識(shí)不同,具身場(chǎng)景中推理還需要更豐富的能力,包括多模態(tài)的感知、基于物理世界的常識(shí)推斷、空間關(guān)系理解、時(shí)序的推理以及面對(duì)環(huán)境交互失敗后的自我反思等能力,這些都對(duì)大模型提出了更高要求。
  • 最后,當(dāng)前的 LLM 主要以語(yǔ)言形式輸出,無(wú)法直接控制機(jī)器人執(zhí)行物理交互。因此,如何設(shè)計(jì)合理的語(yǔ)義動(dòng)作空間讓「思考」和「行動(dòng)」解耦也是一個(gè)難點(diǎn)

如剛才視頻中展示的具體例子,當(dāng)具身智能體在未知房間中搜索隱藏物體時(shí),它必須利用物理常識(shí)推斷潛在的搜索區(qū)域(步驟 1、3),理解物體的空間關(guān)系以規(guī)劃高效的探索路徑(步驟 1、5),并運(yùn)用時(shí)序推理回憶先前嘗試中的相關(guān)線索(步驟 9),同時(shí)反思先前的失敗。這些多方面的推理要求對(duì)多模態(tài)模型提出了挑戰(zhàn)。

實(shí)驗(yàn)發(fā)現(xiàn),即使是像 OpenAI o3-mini 這樣的先進(jìn) LLM,在這些具身交互任務(wù)中也經(jīng)常難以展現(xiàn)可靠的推理和決策,容易出現(xiàn)重復(fù)的搜索或前后不一致的行為

基于上述挑戰(zhàn),團(tuán)隊(duì)提出了 Embodied-Reasoner,將深度思考能力擴(kuò)展到具身交互任務(wù)。其關(guān)鍵的兩點(diǎn)包括:

  • 純文本模態(tài)上的推理似乎無(wú)法解決這種長(zhǎng)序列的具身任務(wù)。因此,Embodied-Reasoner 設(shè)計(jì)了圖文交織的思維鏈:觀察-思考-行動(dòng),三者相互交織構(gòu)成真正的多模態(tài)思維鏈。這個(gè)設(shè)計(jì)類似于最近剛剛推出的 OpenAI 的 o3 和 o4-mini 模型,集成了圖片編輯(縮放、裁剪等)等中間動(dòng)作,也創(chuàng)造了圖文交織的多模態(tài)思維鏈。
  • 設(shè)計(jì)了多樣化的思考因子適應(yīng)不同的交互階段,包括情景分析、任務(wù)規(guī)劃、空間推理、行為反思和多重驗(yàn)證等。這些多樣化的思考因子能夠促進(jìn)模型從不同角度進(jìn)行推理和思考。

打開網(wǎng)易新聞 查看精彩圖片

為了開發(fā)這種能力,如上圖所示,我們構(gòu)建了一個(gè)數(shù)據(jù)引擎,自動(dòng)合成連貫的觀察-思考-行動(dòng)軌跡,引入了具身場(chǎng)景下多樣化的思考過(guò)程,例如情境分析、空間推理、自我反思、任務(wù)規(guī)劃和自我驗(yàn)證。這些連貫的、圖像-文本交錯(cuò)的軌跡引導(dǎo)模型學(xué)習(xí)如何基于其交互歷史和空間布局進(jìn)行規(guī)劃和推理,從而提升其空間和時(shí)間推理能力。

此后,我們引入了一個(gè)三階段迭代訓(xùn)練流程,結(jié)合了模仿學(xué)習(xí)、自我探索和自我糾正微調(diào)。該流程首先利用合成軌跡進(jìn)行模仿學(xué)習(xí)以培養(yǎng)基本交互能力,然后通過(guò)拒絕采樣微調(diào)增強(qiáng)探索能力,最后經(jīng)反思調(diào)優(yōu)培養(yǎng)自我糾正能力。

下面是一個(gè)具體的例子:

打開網(wǎng)易新聞 查看精彩圖片

如上圖所示,模型需要空間推理能力來(lái)理解廚房布局和物體關(guān)系,基于常識(shí)知識(shí)推斷潛在位置(冰箱、餐桌),系統(tǒng)地搜索未探索區(qū)域,并通過(guò)實(shí)時(shí)觀察調(diào)整計(jì)劃,同時(shí)避免重復(fù)搜索。

技術(shù)方案

任務(wù)定義

任務(wù)環(huán)境:使用廣泛采用的 AI2-THOR 模擬器構(gòu)建了具身任務(wù)環(huán)境,該模擬器提供物理模擬和實(shí)時(shí)視覺觀測(cè)。實(shí)驗(yàn)使用 120 個(gè)獨(dú)特的室內(nèi)場(chǎng)景(如廚房)以及 2,100 個(gè)可交互物體(如信用卡和微波爐)。實(shí)驗(yàn)通過(guò) AI2-THOR 的 API 控制機(jī)器人的移動(dòng)(如向前移動(dòng))和交互(如拾取物體),同時(shí)在每一步返回視覺觀察。

任務(wù)類別:機(jī)器人初始化在未知房間的一個(gè)角落,視野有限,即只能看到房間的一部分。本節(jié)設(shè)計(jì)了日常生活中四種常見的交互任務(wù),復(fù)雜度依次增加:

  • 搜索:在未知房間中搜索物體,如鑰匙鏈。它可能放置在某處或隱藏在容器內(nèi)。
  • 操作:搜索后與物體交互,如「找到一盞燈并打開開關(guān)」。
  • 運(yùn)輸:找到隱藏物體后,將其運(yùn)輸?shù)搅硪粋€(gè)位置。這涉及多個(gè)搜索和操作步驟。
  • 復(fù)合任務(wù):按順序涉及多個(gè)運(yùn)輸任務(wù),如「將雞蛋放入微波爐,加熱后放在桌子上。之后,找到……」。

動(dòng)作定義:雖然 AI2-THOR 提供了許多低層級(jí)的動(dòng)作,但本節(jié)的任務(wù)側(cè)重于高級(jí)規(guī)劃和推理,而非運(yùn)動(dòng)控制。此外,低級(jí)動(dòng)作可能導(dǎo)致過(guò)多交互,因此本節(jié)在原子動(dòng)作基礎(chǔ)上封裝了 9 個(gè)高級(jí)動(dòng)作:觀察、向前移動(dòng)、導(dǎo)航至 {}、放入 {}、拾取 {}、切換 {}、關(guān)閉 {}、打開 {}、終止。

「觀察-思維-行動(dòng)」交織的思維鏈合成

為了開發(fā)適用于具身場(chǎng)景的 o1 風(fēng)格推理模型,本節(jié)首先設(shè)計(jì)了一個(gè)需要高級(jí)規(guī)劃和推理,而非低級(jí)運(yùn)動(dòng)控制的具身任務(wù),即搜索隱藏物體。接著,基于模擬器設(shè)計(jì)了一個(gè)數(shù)據(jù)引擎,用于合成交互式推理語(yǔ)料庫(kù):任務(wù)指令和相應(yīng)的關(guān)鍵動(dòng)作序列。

每個(gè)動(dòng)作產(chǎn)生一個(gè)視覺觀察,形成交互軌跡。最后,數(shù)據(jù)引擎為每個(gè)動(dòng)作生成多種思考鏈,如情境分析、任務(wù)規(guī)劃、空間推理、反思和驗(yàn)證,創(chuàng)建了一個(gè)具有觀察-思考-行動(dòng)上下文的交互式推理語(yǔ)料庫(kù)。

  • 指令合成(Instruction Synthesis)
  • 基于物理環(huán)境約束設(shè)計(jì)多樣化任務(wù)模板(如「將 A 從容器取出放入 B」)。
  • 通過(guò)物體屬性篩選可行組合(A 需為可拾取物,B 需為容器)。
  • 利用 GPT-4o 進(jìn)行指令風(fēng)格多樣化處理。
  • 通過(guò)指令組合構(gòu)建不同難度梯度的任務(wù)。
  • 動(dòng)作序列合成(Action Sequence Synthesis)
  • 從屬關(guān)系圖:數(shù)據(jù)引擎使用模擬器的元數(shù)據(jù)構(gòu)建一個(gè)從屬關(guān)系圖。
  • 關(guān)鍵動(dòng)作序列:數(shù)據(jù)引擎利用構(gòu)建的從屬關(guān)系圖和合成的指令模板推導(dǎo)出完成任務(wù)所需的最小動(dòng)作序列(關(guān)鍵動(dòng)作)。
  • 添加額外的搜索過(guò)程:除了關(guān)鍵動(dòng)作序列外,數(shù)據(jù)引擎還通過(guò)插入額外的搜索過(guò)程來(lái)合成探索路徑。
  • 觀察-動(dòng)作序列中插入多樣化的思考過(guò)程

打開網(wǎng)易新聞 查看精彩圖片

模型訓(xùn)練策略

多輪對(duì)話格式:考慮到交互軌跡遵循交織的圖像-文本格式(觀察-思考-行動(dòng)),Embodied-Reasoner 將其組織為多輪對(duì)話語(yǔ)料庫(kù)。在每個(gè)回合中,觀察到的圖像和模擬器的反饋?zhàn)鳛橛脩糨斎耄伎己托袆?dòng)則作為助手輸出。在訓(xùn)練過(guò)程中,我們僅對(duì)思考和行動(dòng) token 計(jì)算損失。

為了增強(qiáng)推理能力,Embodied-Reasoner 設(shè)計(jì)了三個(gè)訓(xùn)練階段:模仿學(xué)習(xí)、拒絕采樣微調(diào)和反思調(diào)優(yōu),這些階段將通用視覺語(yǔ)言模型逐步提升為具有深度思考能力的具身交互模型:

  • 第一階段模仿學(xué)習(xí):使用數(shù)據(jù)引擎生成少量的指令-軌跡對(duì),大多數(shù)包含有限的搜索過(guò)程或僅由關(guān)鍵動(dòng)作組成(觀察-思考-關(guān)鍵動(dòng)作)。然后在此數(shù)據(jù)集上微調(diào) Qwen2-VL-7B-Instruct,使其學(xué)會(huì)理解交織的圖像-文本上下文,輸出推理和動(dòng)作 token。經(jīng)過(guò)微調(diào)得到 Embodied-Interactor。
  • 第二階段拒絕采樣微調(diào),學(xué)習(xí)搜索:使用上一階段的模型采樣大量生成軌跡進(jìn)行進(jìn)一步訓(xùn)練,并且使用數(shù)據(jù)引擎來(lái)評(píng)估這些采樣軌跡。該階段一共保留了 6,246 個(gè)成功軌跡進(jìn)行微調(diào),最后得到 Embodied-Explorer。

打開網(wǎng)易新聞 查看精彩圖片

  • 第三階段反思微調(diào):上一階段的模型有時(shí)會(huì)產(chǎn)生不合理的動(dòng)作,特別是在長(zhǎng)序列交互任務(wù)中,如幻覺。此外,機(jī)器人經(jīng)常會(huì)遇到臨時(shí)硬件故障,這要求模型能夠?qū)Σ缓侠硇袨檫M(jìn)行自我反思,識(shí)別異常狀態(tài),并及時(shí)糾正。如上圖所示,第三階段使用 Embodied-Explorer 在先前任務(wù)上采樣大量軌跡。對(duì)于失敗的軌跡,我們定位第一個(gè)錯(cuò)誤動(dòng)作并構(gòu)建自我糾正軌跡。對(duì)于成功的軌跡,我們插入異常狀態(tài)來(lái)模擬硬件故障。這一步驟補(bǔ)充了 2,016 條反思軌跡(每條軌跡平均 8.6 步)。

交織思維鏈分析

統(tǒng)計(jì)結(jié)果:我們?yōu)槿齻€(gè)訓(xùn)練階段合成了 9,390 個(gè)獨(dú)特的任務(wù)指令及其觀察-思考-行動(dòng)軌跡,即〈場(chǎng)景, 指令, 交織的多模態(tài)思維鏈〉。如下面表格所示,在第一階段,數(shù)據(jù)引擎合成了 1,128 條軌跡數(shù)據(jù)。在第二階段,通過(guò)拒絕采樣保留了 6,246 條探索軌跡。在第三階段,數(shù)據(jù)引擎合成了 2,016 條自我糾正軌跡。所有合成的數(shù)據(jù)集涵蓋 107 個(gè)多樣化的室內(nèi)場(chǎng)景(如廚房和客廳),包括 2,100 個(gè)可交互物體(如雞蛋、筆記本電腦)和 2,600 個(gè)容器(如冰箱、抽屜)。所有軌跡包含 64K 張第一人稱視角的觀察圖像和 8M 個(gè)思考 token。

測(cè)試任務(wù):此外,我們?cè)?12 個(gè)全新場(chǎng)景中構(gòu)建了 809 個(gè)測(cè)試案例,這些場(chǎng)景與訓(xùn)練場(chǎng)景不同。然后,人工設(shè)計(jì)了任務(wù)指令并標(biāo)注相應(yīng)的關(guān)鍵動(dòng)作和最終狀態(tài):〈指令,關(guān)鍵動(dòng)作,最終狀態(tài)〉。值得注意的是,測(cè)試集還包含 25 個(gè)精心設(shè)計(jì)的超長(zhǎng)序列決策任務(wù),每個(gè)任務(wù)涉及四個(gè)子任務(wù)的組合,并涵蓋至少 14 個(gè)、最多 27 個(gè)關(guān)鍵動(dòng)作。

打開網(wǎng)易新聞 查看精彩圖片

思考模式的分布:本節(jié)統(tǒng)計(jì)了所有軌跡中五種思考模式的頻率。如下圖所示,Task Planning 和 Spatial Reasoning 出現(xiàn)最頻繁,分別為 36.6k 和 26.4k 次。這意味著每條軌跡包含約四次 Task Planning 和三次 Spatial Reasoning。此外,Self-Reflection 通常在搜索失敗后出現(xiàn),每條軌跡平均出現(xiàn)兩次。這些多樣化的思考促進(jìn)了模型的推理能力。

思考模式之間的轉(zhuǎn)換:五種思考模式之間的轉(zhuǎn)移概率如下圖所示。實(shí)驗(yàn)發(fā)現(xiàn)它們之間的關(guān)系是靈活的,取決于具體情況。通常從 Situation Analysis 開始,隨后是 Task Planning(55%)和 Spatial Reasoning(45%)。在導(dǎo)航到未知區(qū)域時(shí),它經(jīng)常依賴 Spatial Reasoning(Action→S:42%)。如果搜索嘗試失敗,它會(huì)轉(zhuǎn)向 Self-Reflection(Action→R:33%),當(dāng)(子)任務(wù)完成時(shí),它有時(shí)會(huì)進(jìn)行 Double Verification(Action→V:3%,S→V:6%)。這種多樣化的結(jié)構(gòu)使模型能夠?qū)W習(xí)自發(fā)思考和靈活適應(yīng)性。

打開網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)分析

對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)對(duì)比了通用的 VLMs 和近期出現(xiàn)的視覺推理模型,例如 o1、Claude-3.7-sonnet-thinking 等。

打開網(wǎng)易新聞 查看精彩圖片

從上表的實(shí)驗(yàn)結(jié)果來(lái)看,Embodied-Reasoner 顯著優(yōu)于所有推理模型和 VLMs,成功率比 GPT-o1 高出 9.6%,比 GPT-o3-mini 高出 24%,比 Claude-3.7-Sonnet-thinking 高出 13%。它在搜索效率和任務(wù)完成度方面也明顯領(lǐng)先,尤其在復(fù)雜任務(wù)(如復(fù)合和運(yùn)輸任務(wù))上表現(xiàn)更為突出,在復(fù)合任務(wù)上比第二好的模型 GPT-4o 高出 39.9%。通過(guò)三階段訓(xùn)練(模仿學(xué)習(xí)、拒絕采樣調(diào)優(yōu)和自我糾正軌跡微調(diào)),模型性能從基礎(chǔ)的 14.7% 逐步提升至 80.9%,減少了其他模型常見的重復(fù)搜索和不合理規(guī)劃問(wèn)題,展現(xiàn)出更強(qiáng)的深度思考和自我反思能力,盡管規(guī)模小于先進(jìn)推理模型。

分析:深度思考范式如何增強(qiáng)具身搜索任務(wù)?

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

對(duì)長(zhǎng)序列任務(wù)更具魯棒性:Embodied-Reasoner 在處理復(fù)雜的長(zhǎng)序列決策任務(wù)時(shí)表現(xiàn)出顯著優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果顯示,當(dāng)任務(wù)所需的關(guān)鍵動(dòng)作數(shù)量增加時(shí),基線模型的成功率急劇下降,特別是在任務(wù)超過(guò)五個(gè)動(dòng)作時(shí)。而 Embodied-Reasoner 在大多數(shù)復(fù)雜情況下仍能保持超過(guò) 60% 的成功率,展現(xiàn)出對(duì)長(zhǎng)序列任務(wù)的強(qiáng)大魯棒性。

自發(fā)地為復(fù)雜任務(wù)生成更長(zhǎng)的推理鏈:面對(duì)復(fù)雜任務(wù)時(shí),Embodied-Reasoner 會(huì)自動(dòng)生成更深入的思考過(guò)程。數(shù)據(jù)顯示,隨著任務(wù)復(fù)雜度增加,其輸出 token 從 1,000 增長(zhǎng)到 3,500 左右,幾乎是 Gemini-2.0-flash-thinking 的五倍。這種深度思考能力使其能夠規(guī)劃更高效的搜索路徑并避免冗余動(dòng)作,而其他模型如 Gemini-2.0-flash-thinking 則無(wú)法通過(guò)擴(kuò)展推理時(shí)間來(lái)應(yīng)對(duì)更復(fù)雜的具身任務(wù)。

深度思考減輕了重復(fù)搜索行為:實(shí)驗(yàn)引入重復(fù)探索率(RER)來(lái)衡量模型在軌跡中重復(fù)導(dǎo)航到同一區(qū)域的頻率。Embodied-Reasoner 和 Explorer 在所有任務(wù)類型中都表現(xiàn)出顯著較低的 RER。在復(fù)合任務(wù)中,Embodied-Explorer 的 RER 僅為 26%,而 GPT-o3-mini 和 Qwen2-VL-72B 分別達(dá)到 54% 和 43%。Embodied-Reasoner 通過(guò)回憶過(guò)去觀察、反思先前探索動(dòng)作并制定新計(jì)劃,增強(qiáng)了時(shí)序推理能力,有效減少了重復(fù)搜索行為。

真實(shí)世界實(shí)驗(yàn)

為了評(píng)估 Embodied-Reasoner 的泛化能力,本節(jié)設(shè)計(jì)了一個(gè)關(guān)于物體搜索的真實(shí)世界實(shí)驗(yàn),涵蓋三個(gè)場(chǎng)景中的 30 個(gè)任務(wù):6 個(gè)廚房任務(wù)、12 個(gè)浴室任務(wù)和 12 個(gè)臥室任務(wù)。在測(cè)試過(guò)程中,人類操作員手持?jǐn)z像機(jī)捕捉實(shí)時(shí)視覺輸入。模型分析每張圖像并生成動(dòng)作命令,然后由操作員執(zhí)行這些動(dòng)作。

打開網(wǎng)易新聞 查看精彩圖片

上圖展示了一個(gè)例子:「你能幫我找到咖啡并加熱它嗎?」Embodied-Reasoner 在兩次探索(步驟 1、2)后排除了臺(tái)面和餐桌,最終在櫥柜中找到咖啡(#7)并將其放入微波爐加熱(#11)。然而,實(shí)驗(yàn)觀察到 OpenAI o3-mini 未能制定合理的計(jì)劃,先前往微波爐而不是搜索咖啡。此外,它經(jīng)常忘記搜索并表現(xiàn)出重復(fù)搜索行為,這與本章節(jié)之前的分析一致。

打開網(wǎng)易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/yO0uylWGF8Mv7T9y1tjDcA

總結(jié)

Embodied-Reasoner 的貢獻(xiàn)包括:

  • 一個(gè)將深度思考擴(kuò)展到具身場(chǎng)景的框架,解決了交互式推理的獨(dú)特挑戰(zhàn);
  • 一個(gè)數(shù)據(jù)引擎,合成多樣化的多模態(tài)思維鏈,包含交錯(cuò)的觀察、思考和行動(dòng);
  • 一個(gè)三階段訓(xùn)練流程,逐步增強(qiáng)交互、探索和反思能力;
  • 廣泛的評(píng)估,相比最先進(jìn)模型取得了顯著改進(jìn),特別是在復(fù)雜的長(zhǎng)序列交互任務(wù)中。

Embodied-Reasoner 已發(fā)布于 AGIROS 智能機(jī)器人操作系統(tǒng)開源社區(qū)。AGIROS 智能機(jī)器人操作系統(tǒng)開源社區(qū)由中國(guó)科學(xué)院軟件研究所發(fā)起,旨在通過(guò)凝聚智能機(jī)器人操作系統(tǒng)產(chǎn)學(xué)研用各方力量,共同推動(dòng)智能機(jī)器人操作系統(tǒng)技術(shù)及生態(tài)的發(fā)展,全面推進(jìn)智能機(jī)器人領(lǐng)域的開源開放協(xié)同創(chuàng)新,為智能機(jī)器人產(chǎn)業(yè)夯實(shí)基礎(chǔ)。

研究團(tuán)隊(duì)來(lái)自浙江大學(xué)、中科院軟件所、阿里巴巴和中科南京軟件技術(shù)研究院,在多模態(tài)模型、具身智能體、機(jī)器人共用算法框架技術(shù)等方面擁有豐富的研究經(jīng)驗(yàn)。共同一作為張文祺(浙江大學(xué)博士生)與王夢(mèng)娜(中科院軟件所碩士生),通訊作者為中科院軟件所副研究員李鵬與浙大莊越挺教授。該團(tuán)隊(duì)曾開發(fā)了數(shù)據(jù)分析智能體 Data-Copilot,在 github 上獲得超過(guò) 1500 stars, 開發(fā)multimodal textbook,首月在huggingface上超過(guò)15000次下載。