AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的主要作者來自上海交通大學(xué)電子信息與電氣工程學(xué)院 i-WiN 中心團(tuán)隊(duì),團(tuán)隊(duì)負(fù)責(zé)人是上海交通大學(xué)講席教授關(guān)新平。本文的第一作者為上海交通大學(xué)博士生王思宇,研究方向涉及多模態(tài)大模型、大模型的可靠生成及其工業(yè)應(yīng)用。本文的通訊作者和主要指導(dǎo)老師為i-WiN中心陳彩蓮教授、樂心怡副教授和許齊敏副研究員。
計(jì)算機(jī)輔助設(shè)計(jì)(CAD)已經(jīng)成為許多行業(yè)設(shè)計(jì)、繪圖和建模的標(biāo)準(zhǔn)方法。如今,幾乎每一個制造出來的物體都是從參數(shù)化 CAD 建模開始的。CAD 構(gòu)造序列是 CAD 模型表示的一種類型,不同于 Mesh 類型的三角網(wǎng)格、B-rep 格式的點(diǎn)、線、面表示,它被描述為一系列建模操作,包括確定草圖 3D 起點(diǎn)和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實(shí)體形狀的完整參數(shù)和過程,以 JSON 代碼格式儲存和表示。這類表示方法與專業(yè)建模工程師構(gòu)建 CAD 模型的過程最為近似,可以直接被導(dǎo)入 AutoDesk、 ProE 等建模軟件。構(gòu)建這些 CAD 模型需要領(lǐng)域?qū)I(yè)知識和空間推理能力,也需要較高的學(xué)習(xí)成本。

圖 1. CAD 建模代碼示意圖
作為空間智能的關(guān)鍵能力之一,空間建模能力對 MLLM 提出了嚴(yán)峻的挑戰(zhàn)。盡管 MLLM 在生成 2D 網(wǎng)頁布局代碼等方面展現(xiàn)出了卓越的性能,這類方法在 3D 建模領(lǐng)域仍然存在問題,比如生成 4 個平行于車底方向車輪的小車。這是因?yàn)?MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性,難以理解復(fù)雜數(shù)字背后真正的空間含義。

圖 2. 原始多模態(tài)大模型 3D 建模效果差原因分析
近期,來自上海交通大學(xué)的 i-WiN 研究團(tuán)隊(duì)提出了專門用于 CAD 建模的多模態(tài)大語言模型 CAD-GPT,結(jié)合專門設(shè)計(jì)的 3D 建??臻g定位機(jī)制,將 3D 參數(shù)映射到 1D 語言信息維度,提高了 MLLM 的空間推理能力,實(shí)現(xiàn)了基于單張圖片或一句話描述的精準(zhǔn) CAD 建模構(gòu)造序列生成。該項(xiàng)研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題,被 AAAI 2025 接收。

- 論文標(biāo)題:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
- 論文地址:https://arxiv.org/abs/2412.19663
- 項(xiàng)目地址:https://OpenIWIN.github.io/CAD-GPT/
方法介紹
3D 建??臻g定位機(jī)制
我們把關(guān)鍵的 3D、2D 建模參數(shù)定義為大語言模型可以理解的建模語言,便于大模型理解和生成。具體來說,設(shè)計(jì)了 3 個系列的定位 token 來代替 3D 草圖平面起點(diǎn)坐標(biāo)、3D 草圖平面角度和 2D 草圖曲線坐標(biāo)的參數(shù)。通過將全局空間 3D 坐標(biāo)、草圖平面 3D 旋轉(zhuǎn)角度的特征展開到一維語言特征空間,將它們轉(zhuǎn)換為兩類不同的 1D 位置 tokens。此外,2D 草圖被離散化并轉(zhuǎn)換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時,納入了 3 類適配 3 種 token 的自定義可學(xué)習(xí)的位置嵌入,以彌合語言和空間位置之間的差距。
數(shù)據(jù)集構(gòu)建
基于 DeepCAD 數(shù)據(jù)集,生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應(yīng)的自然語言描述數(shù)據(jù)集,構(gòu)建專門用于訓(xùn)練多模態(tài)大語言模型的 CAD 建模數(shù)據(jù)集,便于后續(xù)其他工作訓(xùn)練大模型生成 CAD 模型建模序列。
訓(xùn)練策略與細(xì)節(jié)
我們采用 LLaVA - 1.5 7B 版本作為基礎(chǔ)模型。訓(xùn)練包括兩個階段:首先在 image2CAD 任務(wù)上進(jìn)行訓(xùn)練,然后在 text2CAD 任務(wù)上降低學(xué)習(xí)率進(jìn)行微調(diào)。此外,因 CAD 建模序列長度較長,我們基于外推法,通過超參調(diào)整,擴(kuò)展 LLM 的窗口長度到 8192。

圖 3. CAD-GPT 原理框架圖
實(shí)驗(yàn)效果展示

圖 4. CAD-GPT 生成的各種 CAD 模型展示
圖 4 中的模型展示了包含精準(zhǔn)語義草圖生成能力(如心形和字母 “E”)、帶有類別的 CAD 生成能力(如桌子、椅子和鑰匙)、空間推理能力(如桌子和相互垂直的圓柱體),以及生成不同尺寸的相同模型的能力(如三個有兩個圓孔的不同尺寸連接器)。
基于單張圖片的生成效果
將 CAD-GPT 與三種代表性方法進(jìn)行了比較。第一個是 DeepCAD,它演示了 CAD 建模中的先進(jìn)生成技術(shù)。第二個是 GPT-4,代表了閉源多模態(tài)大型模型的前沿。第三個是 Qwen2-VL-Max,這是領(lǐng)先的開源多模態(tài)大型模型之一。相比之下,CAD-GPT 產(chǎn)生的輸出既準(zhǔn)確又美觀。

圖 5. 基于圖片的 CAD 生成效果對比

基于一句話描述生成效果展示
本文選擇了兩個有代表性的大型語言模型:領(lǐng)先的閉源模型 GPT-4 和最先進(jìn)的開源模型 LLaMA-3.1(405B)。如圖 6 所示,我們的模型始終生成高精度、美觀的輸出,并且展示出了與文本描述對應(yīng)的語義信息。

圖 6. 基于文本描述的 CAD 生成效果對比

消融實(shí)驗(yàn)
圖 7 展示了是否添加 3D 建??臻g定位機(jī)制訓(xùn)練模型的差異。如圖所示,添加定位機(jī)制后,CAD-GPT 可以精準(zhǔn)的推理空間角度、位置變化,以及生成準(zhǔn)確的 2D 草圖。

圖 7. 消融實(shí)驗(yàn)效果展示

總結(jié)
本文提出 CAD-GPT,一種具有三維建??臻g定位機(jī)制的多模態(tài)大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準(zhǔn)確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現(xiàn)出卓越的性能。
熱門跟貼