場(chǎng)景生成與3D資產(chǎn)的結(jié)合是一項(xiàng)復(fù)雜的挑戰(zhàn),既需要高層次的語(yǔ)義理解,也需要低層次的幾何推理。雖然多模態(tài)大語(yǔ)言模型(MLLMs)在語(yǔ)義任務(wù)上表現(xiàn)出色,但其在3D場(chǎng)景生成中的應(yīng)用受限于對(duì)3D幾何的有限理解。如何最有效地利用MLLMs來(lái)完成物體擺放任務(wù)。為此,谷歌提出了一個(gè)名為FirePlace的創(chuàng)新框架,該框架利用現(xiàn)有的MLLMs來(lái):(1)進(jìn)行3D幾何推理,并從3D場(chǎng)景中提取相關(guān)的幾何細(xì)節(jié);(2)構(gòu)建并求解從低級(jí)幾何信息中提取的幾何約束;(3)進(jìn)行篩選,以確保最終的物體擺放符合常識(shí)。

通過(guò)將幾何推理與MLLMs的現(xiàn)實(shí)世界理解相結(jié)合,FirePlace方法能夠提出同時(shí)滿足幾何約束和高級(jí)語(yǔ)義常識(shí)的物體擺放方案。通過(guò)批量視覺(jué)選擇(Batched Visual Selection)實(shí)現(xiàn)視覺(jué)選擇任務(wù)的推理計(jì)算擴(kuò)展,F(xiàn)irePlace 能夠?qū)⒄Z(yǔ)言指令轉(zhuǎn)換為可落地的 3D 約束,從而生成既符合幾何可行性,又在美學(xué)、功能性和可達(dá)性等方面合理的物體擺放方案。(鏈接在文章底部)

01 技術(shù)原理

FirePlace 流水線:[步驟1]FirePlace 首先生成一組約束概要,以文本形式描述適用的約束條件以及相應(yīng)的交互表面。[步驟2-4]FirePlace 使用批量視覺(jué)選擇(Batched Visual Selection)在實(shí)例分割掩碼上選擇錨定物體,提取與約束概要最匹配的表面,并利用約束求解器生成可行的布局方案。[步驟5]最后,F(xiàn)irePlace 通過(guò)MLLMs選擇符合常識(shí)原則的擺放方案子集,確保最終結(jié)果既合理又實(shí)用。

FirePlace 使多模態(tài)大語(yǔ)言模型(MLLMs)能夠在復(fù)雜的預(yù)設(shè)3D場(chǎng)景放置新的3D物體,其輸入包括:一個(gè) 3D 場(chǎng)景,一個(gè) 3D 物體,一條語(yǔ)言指令。FirePlace 結(jié)合MLLMs的常識(shí)推理低級(jí)幾何約束,按照所述流程執(zhí)行物體擺放,F(xiàn)irePlace 生成的物體擺放位置以紅色標(biāo)示。

02 物體擺放三個(gè)挑戰(zhàn)

獲取精細(xì)幾何信息:實(shí)現(xiàn)逼真的放置需要超越邊界框的幾何信息。但幾何細(xì)節(jié)應(yīng)如何傳遞給多模態(tài)大模型(MLLMs)?先前的研究通常傳遞邊界框參數(shù)。例如,"椅子上的泰迪熊"并不等同于[泰迪熊] 在 [椅子]上方。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)對(duì)象實(shí)例的上下文理解:被放置到現(xiàn)有場(chǎng)景中的對(duì)象需要一種方法來(lái)區(qū)分相同類型的不同實(shí)例,利用它們所處的上下文信息。左邊的椅子有人坐了,所以我們應(yīng)該把泰迪熊放在右邊的椅子上。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

關(guān)于物體放置的常識(shí)推理:滿足幾何約束的放置方式可能并不符合關(guān)于美觀性、可達(dá)性或功能性的常識(shí)推理。而這些因素很難僅通過(guò)原始幾何約束來(lái)傳達(dá)。在展示的四種泰迪熊放置方式中,有一種最“合理”。你之所以知道,是因?yàn)槟隳芸匆?jiàn)它們。

https://arxiv.org/pdf/2503.04919
https://fireplace3d.github.io/

歡迎交流~,帶你學(xué)習(xí)AI,了解AI