打開網易新聞 查看精彩圖片

想象一下,只需一張圖像,就能構建出一個3D環(huán)境,隨后可通過Meta Quest進行沉浸式探索,甚至將其應用于家庭環(huán)境之中。蘇黎世現(xiàn)實實驗室(Reality Labs Zurich)的一支研究團隊正致力于將這一愿景化為現(xiàn)實,并且提出了一種全新的實現(xiàn)途徑。

根據(jù)上周發(fā)表的研究論文所述,現(xiàn)有的生成式人工智能模型雖能夠基于單張圖像生成視頻,然而在生成完全沉浸式場景方面卻面臨諸多挑戰(zhàn)。而該研究團隊開發(fā)的流程則取得了突破,在多個定量圖像質量指標上超越了當前最先進的基于視頻合成的方法。此流程不僅所需訓練工作量極少,還能在現(xiàn)有的生成模型上運行。

研究團隊成員Katja Schwarz、Denis Rozumny、Samuel Rota Bulo、Lorenzo Porzi和Peter Kontschieder指出:“我們的核心觀點是,從單張圖像生成3D環(huán)境這一任務本身極為復雜且具有模糊性,但可將其拆解為一系列更易于處理的子問題,而每個子問題都能夠借助現(xiàn)有技術加以解決?!?/p>

研究人員進一步闡釋了方法:“我們的流程主要分為兩個步驟。首先,運用預先訓練的擴散模型生成連貫的全景圖,接著利用度量深度估計器將其轉化為3D狀態(tài)。之后,通過在渲染的點云上對修復模型進行調節(jié),以此填充未觀測到的區(qū)域,這一過程僅需極少的微調?!?最終生成的是一個采用高斯濺射渲染的3D環(huán)境,能夠在VR頭戴式設備的2米(6.5英尺)立方體內進行查看與導航。

值得一提的是,該方法不僅適用于合成圖像,對于照片同樣有效。甚至場景的文字描述也能作為輸入,進而生成適用于 VR頭顯的高質量3D環(huán)境。

不過,研究論文中也提及了一些限制與挑戰(zhàn)。例如,將可導航區(qū)域拓展至兩米以上存在較大難度,因為這會大幅增加任務的復雜性。此外,目前該流程還無法實現(xiàn)實時場景合成。但研究團隊表示,一旦高斯?jié)u變環(huán)境創(chuàng)建完成,便可在VR設備上實時顯示。

雖然目前尚不確定這項技術何時會被整合到Quest產品中,但從種種跡象來看,其商業(yè)化進程似乎已近在咫尺。

「93913原創(chuàng)內容,轉載請注明出處」