
論文有兩位共同一作。鄭凱文為清華大學(xué)計算機(jī)系三年級博士生,何冠德為德州大學(xué)奧斯汀分校(UT Austin)一年級博士生。
擴(kuò)散模型(Diffusion Models)近年來在生成任務(wù)上取得了突破性的進(jìn)展,不僅在圖像生成、視頻合成、語音合成等領(lǐng)域都實現(xiàn)了卓越表現(xiàn),推動了文本到圖像、視頻生成的技術(shù)革新。然而,標(biāo)準(zhǔn)擴(kuò)散模型的設(shè)計通常只適用于從隨機(jī)噪聲生成數(shù)據(jù)的任務(wù),對于圖像翻譯或圖像修復(fù)這類明確給定輸入和輸出之間映射關(guān)系的任務(wù)并不適合。

為了解決這一問題,一種名為去噪擴(kuò)散橋模型(Denoising Diffusion Bridge Models, DDBMs)的變種應(yīng)運(yùn)而生。DDBM 能夠建模兩個給定分布之間的橋接過程,從而很好地應(yīng)用于圖像翻譯、圖像修復(fù)等任務(wù)。然而,這類模型在數(shù)學(xué)形式上依賴復(fù)雜的常微分方程 / 隨機(jī)微分方程,在生成高分辨率圖像時通常需要數(shù)百步的迭代計算效率低下,嚴(yán)重限制了其在實際中的廣泛應(yīng)用。
相比于標(biāo)準(zhǔn)擴(kuò)散模型,擴(kuò)散橋模型的推理過程額外涉及初始條件相關(guān)的線性組合和起始點的奇異性,無法直接應(yīng)用標(biāo)準(zhǔn)擴(kuò)散模型的推理算法。為此,清華大學(xué)朱軍團(tuán)隊提出了一種名為擴(kuò)散橋隱式模型(DBIM)的算法,無需額外訓(xùn)練即可顯著加速擴(kuò)散橋模型的推理。

- 論文標(biāo)題:Diffusion Bridge Implicit Models
- 論文鏈接:https://arxiv.org/abs/2405.15885
- 代碼倉庫:https://github.com/thu-ml/DiffusionBridge
方法介紹
DBIM 的核心思想是對擴(kuò)散橋模型進(jìn)行推廣,提出了一類非馬爾科夫擴(kuò)散橋(non-Markovian Diffusion Bridges)。這種新的橋接過程不僅與原來的 DDBM 擁有相同的邊緣分布與訓(xùn)練目標(biāo),而且能夠通過減少隨機(jī)性,實現(xiàn)從隨機(jī)到確定性的靈活可控的采樣過程。
具體而言,DBIM 在模型推理過程中引入了一個方差控制參數(shù)ρ,使得生成過程能夠在隨機(jī)采樣與確定性采樣之間自由切換。當(dāng)完全采用確定性推理模式時,DBIM 能夠直接以隱式的形式表示生成過程。這種思想是標(biāo)準(zhǔn)擴(kuò)散模型的著名推理算法 DDIM 在擴(kuò)散橋模型上的推廣與拓展。
更進(jìn)一步,DBIM 算法可以導(dǎo)出擴(kuò)散橋的一種全新的常微分方程(ODE)表達(dá)形式,相較于 DDBM 論文中的常微分方程形式更加簡潔有效。

在此基礎(chǔ)上,作者首次提出了針對擴(kuò)散橋模型的高階數(shù)值求解方法,進(jìn)一步提升了推理的精度與效率。

此外,為了避免確定性采樣過程中出現(xiàn)的初始奇異性問題,作者提出了一種「啟動噪聲」(booting noise)機(jī)制,即僅在初始步驟中加入適當(dāng)隨機(jī)噪聲,從而保證了模型的生成多樣性,并同時保留了對數(shù)據(jù)的編碼與語義插值能力。

實驗結(jié)果
作者在經(jīng)典的圖像翻譯和圖像修復(fù)任務(wù)上進(jìn)行了如下實驗:
- 在 Edges→Handbags(64×64)和 DIODE-Outdoor(256×256)圖像翻譯任務(wù)中,DBIM 僅需 20 步推理即可達(dá)到甚至超越 DDBM 模型 118 步推理的生成質(zhì)量。當(dāng)推理步數(shù)增至 100 步時,DBIM 進(jìn)一步提升生成質(zhì)量,在更高分辨率任務(wù)上全面領(lǐng)先。

- 在更具挑戰(zhàn)的 ImageNet 256×256 圖像修復(fù)任務(wù)中,DBIM 僅需 20 步推理便顯著超越了傳統(tǒng)擴(kuò)散橋模型 500 步推理的效果,實現(xiàn)了超過 25 倍的推理加速。在 100 步推理時,DBIM 進(jìn)一步刷新了這一任務(wù)的 FID 記錄。


通過參數(shù) η 控制采樣過程中的隨機(jī)性大小,論文發(fā)現(xiàn)確定性采樣模式在低步數(shù)時具備顯著優(yōu)勢,而適當(dāng)增加隨機(jī)性能夠在較高步數(shù)下進(jìn)一步提升生成多樣性與 FID 指標(biāo)。這與標(biāo)準(zhǔn)擴(kuò)散模型推理的性質(zhì)相似。

此外,高階采樣器能夠在不同采樣步數(shù)下一致提升生成質(zhì)量,增強(qiáng)圖像細(xì)節(jié)。

論文所用訓(xùn)練、推理代碼及模型文件均已開源。如果你對 DBIM 感興趣,想要深入了解它的技術(shù)細(xì)節(jié)和實驗結(jié)果,可訪問論文原文和 GitHub 倉庫。
熱門跟貼