
本篇論文是由南洋理工大學(xué) S-Lab 與普渡大學(xué)提出的無(wú)分類引導(dǎo)新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 與 ComfyUI。

- 論文標(biāo)題:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
- 論文地址:https://arxiv.org/abs/2503.18886
- 項(xiàng)目主頁(yè):https://weichenfan.github.io/webpage-cfg-zero-star/
- 代碼倉(cāng)庫(kù):https://github.com/WeichenFan/CFG-Zero-star
隨著生成式 AI 的快速發(fā)展,文本生成圖像與視頻的擴(kuò)散模型(Diffusion Models)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究與應(yīng)用熱點(diǎn)。
近年來(lái),F(xiàn)low Matching 作為一種更具可解釋性、收斂速度更快的生成范式,正在逐步取代傳統(tǒng)的基于隨機(jī)微分方程(SDE)的擴(kuò)散方法,成為主流模型(如 Lumina-Next、Stable Diffusion 3/3.5、Wan2.1 等)中的核心方案。
然而,在這一技術(shù)迭代過(guò)程中,一個(gè)關(guān)鍵問(wèn)題依然存在:如何在推理階段更好地引導(dǎo)生成過(guò)程,使模型輸出更加符合用戶提供的文本描述。
Classifier-Free Guidance(CFG)是當(dāng)前廣泛采用的引導(dǎo)策略,但其引導(dǎo)路徑在模型尚未充分訓(xùn)練或估計(jì)誤差較大時(shí),容易導(dǎo)致樣本偏離真實(shí)分布,甚至引入不必要的偽影或結(jié)構(gòu)崩塌。
對(duì)此,南洋理工大學(xué) S-Lab 與普渡大學(xué)的研究者聯(lián)合提出了創(chuàng)新方法——CFG-Zero*,針對(duì)傳統(tǒng) CFG 在 Flow Matching 框架下的結(jié)構(gòu)性誤差進(jìn)行了理論分析,并設(shè)計(jì)了兩項(xiàng)輕量級(jí)但效果顯著的改進(jìn)機(jī)制,使生成圖像/視頻在細(xì)節(jié)保真度、文本對(duì)齊性與穩(wěn)定性上全面提升。

研究動(dòng)機(jī):CFG 為何失效?
傳統(tǒng)的 CFG 策略通過(guò)對(duì)有條件與無(wú)條件預(yù)測(cè)結(jié)果進(jìn)行插值來(lái)實(shí)現(xiàn)引導(dǎo)。然而在 Flow Matching 模型中,推理過(guò)程是通過(guò)解常微分方程(ODE)進(jìn)行的,其每一步依賴于前一步的速度估計(jì)。
當(dāng)模型訓(xùn)練不足時(shí),初始階段的速度往往較為不準(zhǔn)確,而 CFG 此時(shí)的引導(dǎo)反而會(huì)將樣本推向錯(cuò)誤軌跡。研究者在高斯混合分布的可控實(shí)驗(yàn)中發(fā)現(xiàn),CFG 在初始步的引導(dǎo)效果甚至不如「靜止不動(dòng)」,即設(shè)速度為 0。
方法介紹
研究者提出了 CFG-Zero*,并引入以下兩項(xiàng)關(guān)鍵創(chuàng)新:

1.優(yōu)化縮放因子(Optimized Scale):在每個(gè)時(shí)間步中動(dòng)態(tài)計(jì)算有條件速度與無(wú)條件速度的內(nèi)積比值,從而調(diào)整 CFG 中無(wú)條件項(xiàng)的強(qiáng)度,避免「過(guò)度引導(dǎo)」導(dǎo)致的誤差。
2.零初始化(Zero-init):將 ODE 求解器的前 K 步速度置為零(默認(rèn) K=1),跳過(guò)模型最不可靠的預(yù)測(cè)階段,有效降低初始誤差傳播。
這兩項(xiàng)策略可無(wú)縫集成至現(xiàn)有的 CFG 推理流程中,幾乎不引入額外計(jì)算開(kāi)銷。下面我們具體介紹該方法的細(xì)節(jié):
優(yōu)化縮放因子
首先,CFG 的目標(biāo)是能夠估計(jì)出一個(gè)修正的速度,能夠盡可能接近真實(shí)速度:

為了提升引導(dǎo)的精度,研究者引入了一個(gè)修正因子 s:

基于此可以建立優(yōu)化的目標(biāo):

代入化簡(jiǎn)可以得到:

求解最優(yōu)值為:

因此新的 CFG 形式為:

零初始化
研究者在 2D 多元高斯分布上進(jìn)行進(jìn)一步定量分析,可以求解得到擴(kuò)散過(guò)程中每一步的最優(yōu)速度的 closed-form:

基于此,他們?cè)谟?xùn)練了一個(gè)模型,并分析訓(xùn)練不同輪數(shù)下模型的誤差,如下圖所示。

研究者發(fā)現(xiàn)在訓(xùn)練早期階段,無(wú)分類引導(dǎo)得到的速度誤差較大,甚至不如將速度設(shè)置為 0:

他們進(jìn)一步在高維情況下驗(yàn)證了這一觀察,如下圖所示。

研究者對(duì)比原始 CFG 與僅使用零初始化的 CFG,發(fā)現(xiàn)隨著模型的收斂,零初始化的收益逐漸變小,在 160 輪訓(xùn)練后出現(xiàn)拐點(diǎn),與多元高斯實(shí)驗(yàn)結(jié)果吻合。
實(shí)驗(yàn)結(jié)果
研究者在多個(gè)任務(wù)與主流模型上驗(yàn)證了 CFG-Zero* 的有效性,涵蓋了文本生成圖像(Text-to-Image)與文本生成視頻(Text-to-Video)兩大方向。
在圖像生成任務(wù)中,研究團(tuán)隊(duì)選用了 Lumina-Next、SD3、SD3.5、Flux 等當(dāng)前 SOTA 模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示 CFG-Zero* 在 Aesthetic Score 與 CLIP Score 兩項(xiàng)核心指標(biāo)上均優(yōu)于原始 CFG。
例如在 Stable Diffusion 3.5 上,美學(xué)分有明顯提高,不僅圖像美感更強(qiáng),而且語(yǔ)義一致性更好。在 T2I-CompBench 評(píng)測(cè)中,CFG-Zero* 在色彩、紋理、形狀等多個(gè)維度均取得更優(yōu)表現(xiàn),特別適用于需要精準(zhǔn)表達(dá)復(fù)雜語(yǔ)義的生成任務(wù)。
在視頻生成任務(wù)中,研究者將 CFG-Zero* 集成到 Wan2.1 模型中,評(píng)估標(biāo)準(zhǔn)采用 VBench 基準(zhǔn)套件。結(jié)果表明,改進(jìn)后的模型在 Aesthetic Quality、Imaging Quality、Motion Smoothness 等方面均有所提升,呈現(xiàn)出更連貫、結(jié)構(gòu)更穩(wěn)定的視頻內(nèi)容。CFG-Zero* 有效減少了圖像跳變與不自然的位移問(wèn)題。

實(shí)際測(cè)試
CFG-Zero* 在開(kāi)源社區(qū)中實(shí)現(xiàn)了快速落地。目前,該方法已正式集成至 ComfyUI 與 Diffusers 官方庫(kù),并被納入視頻生成模型 Wan2.1GP 的推理流程。借助這些集成,普通開(kāi)發(fā)者與創(chuàng)作者也能輕松體驗(yàn)該方法帶來(lái)的畫(huà)質(zhì)與文本對(duì)齊提升。

該方法可以用于圖生視頻。我們使用官方的 repo 用這張測(cè)試圖:
輸入 prompt:「Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.」
得到的視頻如下:(第一個(gè)為原始 CFG 生成的,第二個(gè)為 CFG-Zero* 生成的),效果還是比較明顯,值得嘗試。
該方法對(duì) Wan2.1 文生視頻同樣適用:(圖 1 為原始 CFG,圖 2 為 CFG-Zero*)
使用的 Prompt:「A cat walks on the grass, realistic.」
該方法同時(shí)兼容 LoRA:
使用的 LoRA 為:https://civitai.com/models/46080?modelVersionId=1473682
Prompt:「Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.」

該方法對(duì)最強(qiáng)文生圖模型 Flux 同樣支持:

使用的 Prompt:「a tiny astronaut hatching from an egg on the moon.」
該方法實(shí)現(xiàn)也比較簡(jiǎn)單,作者在附錄中直接附上了代碼,如下圖:

熱門(mén)跟貼