SpatialLM 是一種強(qiáng)大的三維大語言模型,能夠處理點(diǎn)云數(shù)據(jù)并理解復(fù)雜的三維場(chǎng)景。它可以識(shí)別出場(chǎng)景中的建筑元素,比如墻壁、門和窗戶,還能標(biāo)注帶方向的物體邊界框和它們的語義類別。與傳統(tǒng)方法相比,SpatialLM 不再依賴昂貴的專用設(shè)備,而是能夠接收來自單目視頻、RGBD 圖像或 LiDAR 等多種來源的點(diǎn)云數(shù)據(jù),適應(yīng)性更強(qiáng)。(鏈接在文章底部)
通過多模態(tài)架構(gòu),它能把零散、無序的三維幾何信息轉(zhuǎn)化為結(jié)構(gòu)化的語義表示,從而提升系統(tǒng)的空間理解和推理能力,廣泛應(yīng)用于具身機(jī)器人、自主導(dǎo)航等場(chǎng)景。在實(shí)際應(yīng)用中,SpatialLM 結(jié)合 MASt3R-SLAM 技術(shù),可以僅用一段普通的單目 RGB 視頻就重建出完整的三維空間布局。這些重建結(jié)果會(huì)與真實(shí)的相機(jī)軌跡進(jìn)行對(duì)齊,以便更直觀地進(jìn)行可視化展示,讓我們更清晰地看到模型對(duì)場(chǎng)景的理解效果。
01 技術(shù)原理
給定一段 RGB 視頻,我們首先使用 MASt3R-SLAM 重建三維點(diǎn)云。隨后,SpatialLM 將這些稠密的點(diǎn)云轉(zhuǎn)換為結(jié)構(gòu)化表示。具體來說,點(diǎn)云編碼器會(huì)將點(diǎn)云編碼為緊湊的特征表示,大語言模型(LLM)則生成描述場(chǎng)景的場(chǎng)景代碼,這些代碼最終可以被轉(zhuǎn)換為三維結(jié)構(gòu)布局。

SpatialLM 在大規(guī)模、逼真的數(shù)據(jù)集上進(jìn)行訓(xùn)練。該數(shù)據(jù)集中的墻體和物體布局真實(shí),準(zhǔn)確反映了現(xiàn)實(shí)世界的場(chǎng)景,并確保了物理上的合理性。
SpatialLM 的預(yù)測(cè)結(jié)果具有高度的通用性和跨平臺(tái)兼容性。輸出可以采用多種格式表示,包括三維定向邊界框等結(jié)構(gòu)化布局、二維平面圖,以及 IFC(Industry Foundation Classes)等行業(yè)標(biāo)準(zhǔn)格式。

提供了107個(gè)預(yù)處理點(diǎn)云及其對(duì)應(yīng)的GT布局測(cè)試集,點(diǎn)云通過MASt3R-SLAM從RGB視頻重建。與干凈的RGBD掃描數(shù)據(jù)集相比,SpatialLM-Testset因單目RGB視頻重建中的噪聲和遮擋,更具挑戰(zhàn)性。
得益于其源自最先進(jìn)(SOTA)強(qiáng)大大語言模型的能力和多樣化的輸出形式,SpatialLM 在未來可以擴(kuò)展至更多任務(wù),例如作為智能助手與人類交互,或賦能具身智能體在復(fù)雜環(huán)境中執(zhí)行高難度任務(wù)。
https://github.com/manycore-research/SpatialLM
https://huggingface.co/manycore-research/SpatialLM-Llama-1B
歡迎交流~,帶你學(xué)習(xí)AI,了解AI
熱門跟貼