始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
傳統(tǒng)潛在擴散模型長期面臨「重建」與「生成」的博弈:提升圖像重建質量需增加特征維度,卻導致生成性能斷崖式下跌。
華中科技大學王興剛團隊最新提出VA-VAE框架,通過預訓練視覺大模型對齊潛在空間,一舉打破性能瓶頸!搭配優(yōu)化LightningDiT訓練架構,ImageNet 256×256生成任務FID刷新SOTA至1.35,僅需64個epoch即可達到原DiT模型1400 epoch的性能,訓練效率提升21倍!VA-VAE、LightningDiT框架已上線始智AI-wisemodel開源社區(qū),歡迎前去體驗。此外,我們熱烈歡迎各位研究者將頂會開源成果發(fā)布到社區(qū)。

模型地址
https://www.wisemodel.cn/models/qingke/VA-VAE-imagenet256-f16d32-dinov2
https://wisemodel.cn/models/qingke/LightningDiT-XL-imagenet256-800epoch
01.
VA-VAE技術亮點
傳統(tǒng)視覺標記器(VAE)通過構建潛在空間,將圖像映射到低維向量表示,從而實現(xiàn)對圖像信息的壓縮和編碼。在后續(xù)的任務中,再利用這些編碼信息進行圖像的重建或生成。然而,在實際應用中,VAE在提升維度時面臨著艱難且難以平衡的兩難抉擇:
高維度:細節(jié)重建更清晰,但擴散模型訓練成本指數(shù)級增長
低維度:生成效率高,卻犧牲圖像保真度
1)破局利器——VA-VAE
在訓練高latents dim VAE這類視覺大模型時,視覺大模型對齊技術發(fā)揮著關鍵作用。通過引入DINOv2等視覺基礎模型預訓練模型的語義空間約束,能顯著優(yōu)化訓練效果。這里的即插即用損失函數(shù)(VF Loss)設計精妙,包含了:
邊際余弦損失,專注于像素級對齊特征,使模型對圖像細節(jié)的處理更加精準;
距離矩陣損失,能夠保持全局結構一致性,讓模型從整體上把握圖像的結構特征;
自適應權重調節(jié),動態(tài)平衡重建與對齊目標,根據(jù)訓練過程中的實際情況,靈活調整兩者權重,進一步提升模型的性能和穩(wěn)定性 ,助力訓練出更加優(yōu)質高效的視覺大模型。
2)LightingDiT加速引擎
從架構設計、訓練策略優(yōu)化等角度大幅加速了傳統(tǒng)DiT的訓練效果。在使用SD-VAE的情況下,即使不增加任何額外計算代價,也能達到和REPA、MDTv2等工作媲美的訓練效果。
02.
視覺基礎模型對齊損失VF Loss
邊際余弦相似度損失
我們將視覺標記器編碼器輸出的圖像潛在特征投影后,與凍結的視覺基礎模型輸出的特征計算余弦相似度,通過 ReLU 函數(shù)和設置邊際值,使相似度低于邊際值的特征對損失有貢獻,從而聚焦于對齊差異較大的特征對。

邊際余弦相似度損失
我們將視覺標記器編碼器輸出的圖像潛在特征投影后,與凍結的視覺基礎模型輸出的特征計算余弦相似度,通過ReLU函數(shù)和設置邊際值,使相似度低于邊際值的特征對損失有貢獻,從而聚焦于對齊差異較大的特征對。

結合自適應權重組合為VF-Loss
03.
視覺基礎模型對齊的VAE
我們著重探究不同視覺分詞器(Tokenizer)在重建性能與生成性能間的權衡關系,以及引入VF Loss后帶來的改進成效,核心結論如圖所示。

1)優(yōu)化困境驗證
隨著分詞器維度提升(如f16d16→f16d64),重建指標(rFID↓/PSNR↑)顯著改善,但生成FID↑明顯惡化。例如f16d64的LightningDiT-XL生成FID從8.28(d16)升至17.24(d64),體現(xiàn)了維度增加帶來的生成性能下降。
2)VF Loss的改進作用
在高維分詞器(如f16d32/d64)中,VF Loss(尤其是DINOv2)顯著提升生成性能:
f16d32的LightningDiT-XL生成FID從10.92→8.22(降幅24.7%)
f16d64的LightningDiT-L生成FID從20.73→14.95(降幅27.9%)
重建性能僅輕微下降(如f16d32的rFID從0.26→0.28),說明VF Loss有效緩解了優(yōu)化困境。

圖5(對應文章第5.3節(jié))通過模型參數(shù)規(guī)模與生成性能的關系曲線,揭示了關鍵結論
優(yōu)化困境的規(guī)模依賴性
基線對比(藍色 vs 綠色曲線):
未使用VF Loss的高維分詞器(f16d32)在參數(shù)規(guī)模增大時(0.1B→1.6B),生成FID僅從29.35→8.37,而低維分詞器(f16d16)從20.18→6.68?!?表明單純增加模型參數(shù)無法完全彌補高維分詞器的生成性能損失。
VF Loss的擴展性優(yōu)勢(橙色曲線)
使用VF Loss的高維分詞器(f16d32 VF DINOv2)在模型參數(shù)超過0.6B時,生成FID開始顯著低于未對齊的高維分詞器。 表明VF Loss通過優(yōu)化潛在空間的可學習性,使模型參數(shù)規(guī)模的收益被更高效地轉化為生成性能提升。
04.
系統(tǒng)性能ImageNet
本次實驗基于廣泛使用的 ImageNet 數(shù)據(jù)集展開,該數(shù)據(jù)集涵蓋了豐富多樣的圖像類別,是評估圖像生成算法性能的重要基準。
為了全面衡量所開發(fā)系統(tǒng)的圖像生成能力,采用了 rFID(相對 Frechet 初始距離)和 gFID(全局 Frechet 初始距離)這兩個重要指標。在經過多輪的算法優(yōu)化和參數(shù)調整后,系統(tǒng)在 ImageNet 數(shù)據(jù)集上進行測試,最終得到了性能結果:ImageNet rFID=0.28,gFID=1.35 。

編輯丨成蘊年
----- END -----
wisemodel相關:
系統(tǒng)升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續(xù)關注和支持
開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術, 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質內容
歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。
向上滑動查看
熱門跟貼