打開網(wǎng)易新聞 查看精彩圖片

本文的主要作者來自北京航空航天大學、清華大學和中國人民大學。本文的第一作者為清華大學碩士生封皓然,共同第一作者暨項目負責人為北京航空航天大學碩士生黃澤桓,團隊主要研究方向為計算機視覺與生成式人工智能。本文的通訊作者為北京航空航天大學副教授盛律。

打開網(wǎng)易新聞 查看精彩圖片

個性化圖像生成是圖像生成領域的一項重要技術,正以前所未有的速度吸引著廣泛關注。它能夠根據(jù)用戶提供的獨特概念,精準合成定制化的視覺內(nèi)容,滿足日益增長的個性化需求,并同時支持對生成結果進行細粒度的語義控制與編輯,使其能夠精確實現(xiàn)心中的創(chuàng)意愿景。隨著圖像生成模型的持續(xù)突破,這項技術已在廣告營銷、角色設計、虛擬時尚等多個領域展現(xiàn)出巨大的應用潛力和商業(yè)價值,正在深刻地改變著我們創(chuàng)造和消費視覺內(nèi)容的方式。

然而當人們對個性化圖像生成的期望不斷上升時,傳統(tǒng)的個性化圖像生成方法面臨著以下幾個挑戰(zhàn):①細節(jié)還原瓶頸(如何更精準地還原物體細節(jié),尤其是在多物體的情況下)② 交互控制難題(如何在進行個性化生成的同時,支持對物體位置等空間因素的精準控制)③ 應用拓展受限(如何將個性化和編輯統(tǒng)一在同一框架,以滿足更多應用需求)。這些挑戰(zhàn)嚴重制約著個性化圖像生成技術的進一步突破,亟需構建更高效的生成框架。

因此,清華大學、北京航空航天大學團隊推出了全新的架構設計 ——Personalize Anything,它能夠在無需訓練的情況下,完成概念主體的高度細節(jié)還原,支持用戶對物體進行細粒度的位置操控,并能夠擴展至多個應用中,為個性化圖像生成引入了一個新范式。

總結而言,Personalize Anything 的特點如下:

  • 高效的免訓練框架:無需訓練,具備較高的計算效率,僅需一次反演(inversion)和一次推理過程
  • 高保真度與可控性:在保持高精度細節(jié)的同時兼顧了物體姿態(tài)的多樣性,并支持位置控制
  • 高擴展性:同時支持多種任務,包括多物體處理、物體與場景的整合、inpainting 和 outpainting 等

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標題:Personalize Anything for Free with Diffusion Transformer
  • 論文鏈接:https://arxiv.org/abs/2503.12590
  • 項目主頁:https://fenghora.github.io/Personalize-Anything-Page/
  • 代碼倉庫:https://github.com/fenghora/personalize-anything

效果展示:無需訓練,支持個性化、多物體組合、編輯

Personalize Anything 能夠在多種任務上表現(xiàn)出色,可以對多組物體與場景進行組合,并同時自由控制主體位置,這是以往個性化圖像生成模型難以做到的。

打開網(wǎng)易新聞 查看精彩圖片

下面圖像中依次展示了 Personalize Anything 在布局引導生成、inpainting、outpainting 三種任務上的表現(xiàn)??梢钥吹?,Personalize Anything 在多種任務上都能夠生成貼合文本的高質量圖像。

打開網(wǎng)易新聞 查看精彩圖片

技術突破:從 DiT 架構的新發(fā)現(xiàn)到個性化任意內(nèi)容

個性化圖像生成的傳統(tǒng)方法通常需要對定制概念進行微調,或者在大規(guī)模數(shù)據(jù)集上進行預訓練,這不僅消耗大量計算資源,還影響模型的泛化能力。最近,無需訓練的方法嘗試通過注意力共享機制來避免這些問題,但這些方法難以保持概念的一致性。此外,由于這些方法主要針對傳統(tǒng)的 UNet 架構設計,無法應用于最新的 DiT 架構模型,導致它們無法應用在更大規(guī)模和更好效果的圖像生成模型上。

注意力共享機制不適用于 DiT 架構

在了解 Personalize Anything 技術細節(jié)前,先來看看為什么傳統(tǒng)無需訓練的方法不能夠應用在 DiT 架構的圖像生成模型上。

打開網(wǎng)易新聞 查看精彩圖片

如上文所述,傳統(tǒng)無需訓練的方法多通過注意力共享機制,也就是在運算自注意力時,將概念圖像特征直接與生成圖像特征進行拼接,但是經(jīng)由團隊實驗發(fā)現(xiàn),對于 DiT 架構而言,由于位置編碼的影響,當去噪圖像和參考圖像共用同一套位置編碼時,會導致過度關注,從而在生成的圖像中產(chǎn)生重影(圖 a);當調整參考圖像的位置編碼避免沖突時,生成圖像的注意力幾乎不出現(xiàn)在參考圖像中,導致主體一致性較弱(如圖 b 和圖 c),這限制了傳統(tǒng)方法在 DiT 架構上的應用。

通過上述實驗發(fā)現(xiàn),DiT 中顯式編碼的位置信息對其注意力機制具有強烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統(tǒng)的注意力共享中正確地關注參考對象的標記。

DiT 架構的新啟發(fā):標記替換引發(fā)主體重建

打開網(wǎng)易新聞 查看精彩圖片

基于對 DiT 架構顯式位置編碼的認識,團隊繼續(xù)對 DiT 的特征表示進行了探索。團隊發(fā)現(xiàn),將參考圖像未帶位置編碼的標記替換進去噪圖像的指定位置,能夠重建出良好的主體圖像。而傳統(tǒng) Unet 架構所具有的卷積操作會導致位置編碼與圖像特征混雜在一起,導致在進行特征替換時影響最后的圖像質量。

這一發(fā)現(xiàn)使團隊意識到,簡單但有效的特征替換,對于 DiT 架構而言是一個可行的個性化圖像生成方法。

定制任意內(nèi)容:時間步適應替換策略與特征擾動

打開網(wǎng)易新聞 查看精彩圖片

基于上述發(fā)現(xiàn),團隊將特征替換引入個性化圖像生成方法中,并創(chuàng)新地提出了時間步適應標記替換機制(Timestep-adaptive Token Replacement) 。

在整個流程中,首先對參考圖像進行反演,并通過 mask 獲取參考圖像未帶位置編碼的標記。在去噪過程的早期階段,為了保留物體特征細節(jié),將參考圖像主體的標記直接替換進生成圖像中。而在后期,則轉為傳統(tǒng)的注意力共享機制。這種時間適應特征替換機制能夠增圖像生成后概念主體的多樣性,同時減少生成圖像的割裂感。

為了進一步保證概念主體姿態(tài)的多樣性,團隊又額外提出了特征擾動,旨在通過對概念圖像特征進行重排,或者調整 mask,來控制特征替換時的概念圖像特征代表的物體姿態(tài)等,從而為生成的圖像引入多樣性。

更多應用:無縫擴展至布局引導、多物體組合、編輯等

打開網(wǎng)易新聞 查看精彩圖片

Personalize Anything 除了在核心任務上表現(xiàn)出色,還具有強大的擴展能力,可以應用于更復雜的實際場景。首先,可以通過自由選擇特征注入的位置,來實現(xiàn)位置引導的生成;其次,框架支持對多物體進行自由組合,采取順序注入的方式,支持物體間層級關系的控制;并且 Personalize Anything 支持用戶將將圖像視為整體,允許用戶保留部分圖像內(nèi)容,同時對另一部分進行可控編輯。這種靈活的可擴展性為未來的研究和應用開辟了更為廣闊的前景。

卓越性能:在保真度和多功能性等多個維度上表現(xiàn)突出

團隊從單物體定制,多物體組合,物體 - 場景組合這三個任務入手,與眾多優(yōu)秀的開源模型進行定性定量的對比。可以看到 Personalize Anything 的結果基本都優(yōu)于現(xiàn)有方法,并在后續(xù)的人類偏好測試中取得了顯著優(yōu)勢。

單物體個性化生成

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

多物體組合生成

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

物體 - 場景組合

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

未來展望

Personalize Anything 研究團隊揭示了 DiT 中位置解耦表示的性質,為免訓練的圖像空間操縱、個性化生成奠定基礎。團隊期待 DiT 的幾何編程原理能夠進一步拓展到視頻、3D 生成等領域,實現(xiàn)更復雜、更精細的場景構建與編輯。希望通過深入研究和廣泛應用,讓這一思路激發(fā)更多可控生成的研究,推動 AI 在創(chuàng)意內(nèi)容生成、虛擬現(xiàn)實、數(shù)字孿生等領域的廣泛應用。