好消息!好消息~ 歡迎科研團(tuán)隊供稿 免費(fèi)分享學(xué)術(shù)、項目成果

當(dāng)前基于學(xué)習(xí)的主題定制方法,主要依賴于U-Net架構(gòu),存在泛化能力有限和圖像質(zhì)量降低的問題。與此同時,基于優(yōu)化的方法需要針對特定主題進(jìn)行微調(diào),這不可避免地會削弱文本控制能力。為了解決這些挑戰(zhàn),騰訊提出了InstantCharacter—一個基于擴(kuò)散變壓器(diffusion transformer)的可擴(kuò)展角色定制框架。(鏈接在文章底部,可在線體驗)

InstantCharacter能夠?qū)崿F(xiàn)跨多樣角色外觀、姿勢和風(fēng)格的開放域個性化,同時保持高保真度的結(jié)果。InstantCharacter基于強(qiáng)大的FLUX1.0-dev模型實現(xiàn),具有三大優(yōu)勢:一是實現(xiàn)了跨多種角色外觀、姿勢和風(fēng)格的開放域個性化,同時保持高保真度;二是開發(fā)了可擴(kuò)展的適配器架構(gòu),能有效處理角色特征并與擴(kuò)散變壓器潛在空間交互;三是通過三階段訓(xùn)練方法,結(jié)合千萬級數(shù)據(jù)集,優(yōu)化角色一致性和文本控制。

01 技術(shù)原理

現(xiàn)代擴(kuò)散變壓器(DiTs)相比傳統(tǒng)的基于UNet的架構(gòu),展現(xiàn)了前所未有的保真度和能力,為生成和編輯任務(wù)提供了更強(qiáng)大的基礎(chǔ)。然而,現(xiàn)有方法主要基于UNet,在角色一致性和圖像保真度之間存在基本的權(quán)衡,限制了其在開放域角色中的泛化能力。此外,先前的研究尚未成功驗證在大規(guī)模擴(kuò)散變壓器(例如120億參數(shù))上的角色定制,導(dǎo)致該領(lǐng)域存在顯著空白。通過靈活的適配器設(shè)計和階段性學(xué)習(xí)策略的協(xié)同作用,增強(qiáng)了通用角色定制能力,同時最大限度地保留了基礎(chǔ)DiT模型的生成先驗。

打開網(wǎng)易新聞 查看精彩圖片

InstantCharacter框架將可擴(kuò)展的適配器與預(yù)訓(xùn)練的DiT模型無縫集成。適配器由多個堆疊的變壓器編碼器組成,逐步優(yōu)化角色表示,能夠有效地與DiT的潛在空間進(jìn)行交互。訓(xùn)練過程采用三階段漸進(jìn)策略,首先進(jìn)行未配對的低分辨率預(yù)訓(xùn)練,最終進(jìn)行配對的高分辨率微調(diào)。

打開網(wǎng)易新聞 查看精彩圖片

02 對比與演示效果

InstantCharacter與最先進(jìn)的基于FLUX的方法進(jìn)行了定性比較:OminiControl、EasyControl、ACE+ 和 UNO;以及大型多模態(tài)模型GPT4o。為了評估,收集了一組訓(xùn)練數(shù)據(jù)中未出現(xiàn)的開放域角色圖像。分析表明,現(xiàn)有方法存在局限性:OminiControl和EasyControl未能保持角色身份特征,ACE++僅在簡單場景中保持部分特征,而在處理動作導(dǎo)向的提示時表現(xiàn)不佳。UNO過度保持一致性,導(dǎo)致行動和背景的可編輯性降低。

值得注意的是,與當(dāng)前的SoTA方法GPT4o取得了相當(dāng)?shù)慕Y(jié)果,盡管GPT4o并未開源。相比之下,InstantCharacter始終表現(xiàn)最佳。具體而言,InstantCharacter在高保真度的同時,能夠優(yōu)越地保持角色細(xì)節(jié),并精確地控制文本,即使在復(fù)雜的動作提示下也是如此。

https://github.com/Tencent/InstantCharacter
https://arxiv.org/abs/2504.12395
https://huggingface.co/spaces/InstantX/InstantCharacter

歡迎交流~,帶你學(xué)習(xí)AI,了解AI