機(jī)器之心報(bào)道,編輯:澤南、Panda。

霸榜數(shù)天的神秘文生圖模型 Mogao,什么來頭?

這兩天,不少業(yè)內(nèi)人已在詢問「這個(gè)魔法般模型」的出處。

打開網(wǎng)易新聞 查看精彩圖片

有人對(duì)模型效果頗為認(rèn)可,好奇如何體驗(yàn)。

打開網(wǎng)易新聞 查看精彩圖片

神秘模型 Mogao 的橫空出世,始于近期它在盲測(cè)打分的 Artificial Analysis 文生圖排行榜上迅速躥升,一度排名第一,位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模型之前。

從社交媒體也能看到,網(wǎng)友對(duì)該模型近乎一水的好評(píng)。

打開網(wǎng)易新聞 查看精彩圖片

昨晚,Mogao 的神秘面紗終于被揭下。

它背后是圖像生成基礎(chǔ)模型 Seedream 3.0,來自字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)。

打開網(wǎng)易新聞 查看精彩圖片

在 Artificial Analysis 文生圖榜單上,除了拿下總榜第一,Seedream 3.0 在真實(shí)、圖形設(shè)計(jì)與數(shù)字渲染、動(dòng)漫、卡通與插圖、復(fù)古風(fēng)、傳統(tǒng)藝術(shù)等不同風(fēng)格,以及文字、商務(wù)、人像、自然、幻想等不同維度均表現(xiàn)領(lǐng)先。

打開網(wǎng)易新聞 查看精彩圖片

圖片從左至右展示了在真實(shí)感、動(dòng)漫、人像這三個(gè)細(xì)分項(xiàng)上的前 10 名。

尤其海報(bào)設(shè)計(jì)方面,Seedream 3.0 表現(xiàn)尤為突出,不僅小字崩壞率低,輸出圖像的設(shè)計(jì)感也很強(qiáng)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

眾所周知,Seedream 3.0 已于 4 月初在字節(jié)自家的即夢(mèng)和豆包平臺(tái)上線,其在文字生成和排版上的出色能力備受關(guān)注。

而就在今天,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)也對(duì)外發(fā)布了 Seedream 3.0 技術(shù)報(bào)告,詳細(xì)披露了模型的性能表現(xiàn)和技術(shù)細(xì)節(jié)。

機(jī)器之心帶大家一睹為快。

打開網(wǎng)易新聞 查看精彩圖片

  • 技術(shù)報(bào)告:https://team.doubao.com/zh/tech/seedream3_0
  • arXiv:https://arxiv.org/abs/2504.11346

定性定量評(píng)估俱佳

文生圖 SOTA 實(shí)至名歸

Seedream 3.0 不久前開放使用時(shí),我們已經(jīng)專門體驗(yàn)了一番,參閱《實(shí)測(cè)完 Seedream 3.0,我后悔大學(xué)選了設(shè)計(jì)專業(yè)……》。

總結(jié)起來,相比于市面上其它同類產(chǎn)品,Seedream 3.0 優(yōu)勢(shì)體現(xiàn)在 —— 速度與質(zhì)量兼?zhèn)?、文字?zhǔn)且美、原生支持 2K 圖像輸出三個(gè)方面。

根據(jù)官方披露的技術(shù)報(bào)告也能發(fā)現(xiàn),模型在結(jié)構(gòu)、指令遵循、美感、人像、文本可用性等多個(gè)維度均表現(xiàn)突出。

打開網(wǎng)易新聞 查看精彩圖片

綜合能力之外,團(tuán)隊(duì)還強(qiáng)調(diào)了密集文本渲染和逼真人像生成兩方面能力。

具體來說,在生成結(jié)果中,Seedream 3.0 中文和英文字符的文本可用率均達(dá)到 94%,基本讓文本渲染不再成為圖像生成的掣肘。

打開網(wǎng)易新聞 查看精彩圖片

除了可用率的整體提升之外,相比 2.0 版本,Seedream 3.0 渲染密集文本的能力也有重大提升,同時(shí)其小字符生成的準(zhǔn)確率和文本布局的自然度也顯著明顯進(jìn)步。

打開網(wǎng)易新聞 查看精彩圖片

在人像真實(shí)感方面,團(tuán)隊(duì)為評(píng)估模型表現(xiàn),專門構(gòu)建了一個(gè)采用 Elo 競(jìng)賽機(jī)制、包含 100 個(gè)提示的人像評(píng)估新基準(zhǔn),囊括表情、姿勢(shì)、角度、發(fā)質(zhì)、膚質(zhì)、服飾、配飾等人像生成的方方面面。

經(jīng)過超過 50000 輪的公開評(píng)估,Seedream 3.0 與 Midjourney V6.1 同處第一梯隊(duì),相比其他模型優(yōu)勢(shì)明顯。

打開網(wǎng)易新聞 查看精彩圖片

從示例可以看到,Seedream 3.0 能有效消除人像生成的「AI 感」,可生成帶有皺紋、絨毛和疤痕等真實(shí)特征的皮膚質(zhì)感,逼真度已基本接近專業(yè)攝影水平。

打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心還在實(shí)際評(píng)測(cè)發(fā)現(xiàn),Seedream 3.0 不需要像之前一樣執(zhí)行超分辨率操作,而是可以一鍵直出 2K 分辨率圖像。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

對(duì)比其他模型,Seedream 3.0 也展現(xiàn)出極快的生成效率。

根據(jù)實(shí)測(cè)體驗(yàn),Seedream 3.0 基本十幾秒左右就能生成 4 張 2K 分辨率待選圖像,生成高清圖像(1K)時(shí)長(zhǎng)更是短至數(shù)秒。相較之下,業(yè)界同類模型生成一張高清內(nèi)容的耗時(shí)基本在 10 秒以上,而效果較好的 GPT-4o 生成一張高清圖耗時(shí)往往超過 1 分鐘。

打開網(wǎng)易新聞 查看精彩圖片

從數(shù)據(jù)過濾到后訓(xùn)練

大量底層技術(shù)升級(jí)

Seedream 3.0 究竟是如何煉成的?在技術(shù)報(bào)告中,我們看到了 Seed 研究團(tuán)隊(duì)在數(shù)據(jù)、預(yù)訓(xùn)練和后訓(xùn)練上的多項(xiàng)工作。

數(shù)據(jù)準(zhǔn)備階段

在數(shù)據(jù)上,因之前偏保守的數(shù)據(jù)過濾策略會(huì)極大限制可用數(shù)據(jù)集大小,團(tuán)隊(duì)引入了一種全新的缺陷感知型訓(xùn)練范式。

該范式包含一個(gè)專門的缺陷檢測(cè)器,可通過邊界框預(yù)測(cè)精確定位缺陷區(qū)域。當(dāng)檢測(cè)到的缺陷總面積小于圖像空間的 20%(可配置閾值)時(shí),就會(huì)選擇保留這些樣本(之前會(huì)被丟棄),同時(shí)使用掩碼隱含空間優(yōu)化。

團(tuán)隊(duì)認(rèn)為,這種創(chuàng)新方法的效果很好:在保證模型穩(wěn)定性的同時(shí),將有效訓(xùn)練數(shù)據(jù)集擴(kuò)展了21.7%。

為了優(yōu)化數(shù)據(jù)分布,他們提出了一個(gè)雙軸協(xié)同數(shù)據(jù)采樣框架,可從視覺形態(tài)和語義分布兩個(gè)維度進(jìn)行聯(lián)合優(yōu)化。

團(tuán)隊(duì)還自主研發(fā)了一套跨模態(tài)檢索系統(tǒng),進(jìn)一步增強(qiáng)數(shù)據(jù)生態(tài)系統(tǒng)的協(xié)調(diào)性,針對(duì)圖像 - 文本對(duì),建立了一個(gè)聯(lián)合嵌入空間。該系統(tǒng)在所有基準(zhǔn)測(cè)試中均取得了最佳性能。

預(yù)訓(xùn)練階段

Seedream 3.0 的基本架構(gòu)設(shè)計(jì)繼承自 2.0 版,采用 MMDiT 來處理圖像和文本 token ,并捕捉兩種模態(tài)之間的關(guān)系。不過,在 Seedream 3.0 中,團(tuán)隊(duì)增加了基礎(chǔ)模型的總參數(shù),并引入了多項(xiàng)關(guān)鍵改進(jìn),提高了模型的可擴(kuò)展性、泛化能力和視覺語言對(duì)齊能力,其中包括:

混合分辨率訓(xùn)練:每個(gè)訓(xùn)練階段中,不同寬高比和分辨率的圖像會(huì)被打包在一起,首先在平均分辨率為 2562 的圖像上預(yù)訓(xùn)練模型,然后在更高分辨率的圖像(從 5122 到 20482)上對(duì)其進(jìn)行微調(diào)。Seed 團(tuán)隊(duì)還采用了尺寸嵌入作為另一個(gè)條件,使模型能夠感知目標(biāo)分辨率。

跨模態(tài) RoPE:Seedream 2.0 中的 Scaling RoPE 被擴(kuò)展成了跨模態(tài) RoPE,從而進(jìn)一步增強(qiáng)了視覺文本 token 的對(duì)齊效果和文本渲染精度。其中,文本 token 被視為形狀為 [1, L] 的二維 token,并對(duì)文本 token 應(yīng)用二維 RoPE。

后訓(xùn)練階段

Seedream 3.0 后訓(xùn)練流程則包含以下幾個(gè)階段:持續(xù)訓(xùn)練(CT)、監(jiān)督微調(diào)(SFT)、人工反饋對(duì)齊(RLHF)和提示工程(PE)。各階段效果對(duì)比如下圖所示。

打開網(wǎng)易新聞 查看精彩圖片

為進(jìn)一步提升美感,在新模型上,團(tuán)隊(duì)專門訓(xùn)練了多個(gè)版本的描述模型。

這些模型能在審美、風(fēng)格、排版等專業(yè)領(lǐng)域提供精準(zhǔn)的描述,確保 Seedream 3.0 能夠更有效地響應(yīng)相關(guān)提示,不僅增強(qiáng)了模型的可控性,也提升了提示工程后模型的性能。

另外在獎(jiǎng)勵(lì)模型上,Seedream 3.0使用了 VLM 作為獎(jiǎng)勵(lì)建模框架,而不再是 CLIP,并提升了其參數(shù)量。

團(tuán)隊(duì)借鑒語言模型中生成式 RM 經(jīng)驗(yàn),進(jìn)行獎(jiǎng)勵(lì)建模,依靠 LLM 原本的 Scaling 能力,提升獎(jiǎng)勵(lì)準(zhǔn)確性與魯棒性;此外,團(tuán)隊(duì)還將獎(jiǎng)勵(lì)模型參數(shù)量從 0.8B 拓展至 20B 以上。

推理加速相關(guān)工作

為促使 Seedream 3.0 擁有更高生成效率,團(tuán)隊(duì)專門針對(duì)推理加速進(jìn)行了優(yōu)化。

框架方面,模型采用了Hyper-SD 和 RayFlow。這使得生成路徑得到了優(yōu)化,每個(gè)數(shù)據(jù)點(diǎn)會(huì)被引導(dǎo)至特定實(shí)例的目標(biāo)分布,從而實(shí)現(xiàn)每個(gè)樣本的軌跡定制。這可顯著減少路徑碰撞,并提高生成穩(wěn)定性和樣本多樣性。

該團(tuán)隊(duì)還引入一種重要性采樣機(jī)制來提升效率,其可以學(xué)習(xí)在訓(xùn)練過程中關(guān)注最關(guān)鍵的時(shí)間步。此外,Seedream 3.0 的框架也支持高效的少步數(shù)采樣,且不會(huì)影響生成質(zhì)量。

打榜一時(shí)超越 4o

就比它更強(qiáng)?

看到這,相信不少人也會(huì)提問,Seedream 3.0 比起 GPT-4o 如何?打榜超過就一定強(qiáng)么?

在技術(shù)報(bào)告中,我們發(fā)現(xiàn)團(tuán)隊(duì)專門對(duì)比了 Seedream 3.0 與 GPT-4o 的表現(xiàn)。需要強(qiáng)調(diào)的是,GPT-4o 本質(zhì)上是一款文本 + 圖像的多模態(tài)模型,而這里的對(duì)比僅限于圖像生成能力。不過,通過一些案例比較,該團(tuán)隊(duì)也找到了這兩個(gè)模型各自的優(yōu)勢(shì)和短板。

例如密集文本渲染方面,團(tuán)隊(duì)發(fā)現(xiàn) GPT-4o 在小英文字符的準(zhǔn)確性和某些 LaTeX 符號(hào)的渲染方面表現(xiàn)出色。然而, GPT-4o 在渲染中文字體方面表現(xiàn)相對(duì)不足,相比之下,Seedream 3.0 可以輕松生成密集的中文文本,并且在排版和構(gòu)圖美感方面優(yōu)于 GPT-4o。

下圖給出了一些示例,其中上列來自 Seedream 3.0,下列來自 GPT-4o。

打開網(wǎng)易新聞 查看精彩圖片

此外,團(tuán)隊(duì)還系統(tǒng)性地對(duì)比了包括顏色、紋理、清晰度和美觀度在內(nèi)的生成質(zhì)量。

下圖展示了多組示例,每組圖像的左圖來自 Seedream 3.0,右圖來自 GPT-4o。

在生成質(zhì)量方面,Seedream 系列模型色彩更為飽滿,GPT-4o 生成圖像部分伴有噪點(diǎn)。

打開網(wǎng)易新聞 查看精彩圖片

值得一提的是,在連續(xù)性圖片生成(比如:漫畫、流程圖)方面,GPT-4o 的能力依然讓人感到驚艷,這也是 Seedream 3.0 需要進(jìn)一步提升之處。

文生圖開卷

全面落地時(shí)代已來

最近,文生圖模型又開始卷到飛起,字節(jié) Seedream 3.0 正式亮相的同時(shí),僅在國(guó)內(nèi),就有好幾家 Artificial Analysis 上榜模型同期發(fā)布。

從多模態(tài)對(duì)齊到高分辨率輸出,再到密集文字渲染與人像真實(shí)感優(yōu)化, Seedream 3.0、GPT-4o 等模型在這一波集體躍遷,MJ、Flux 等曾經(jīng)的明星模型被逐漸淡忘。而背后的技術(shù)演進(jìn)、系統(tǒng)設(shè)計(jì)哲學(xué)與產(chǎn)品化思路,也將越來越多地決定 AI 在真實(shí)世界中的落地路徑與生態(tài)潛力。

一輪新競(jìng)賽已經(jīng)悄然開場(chǎng),這些新模型在吸引關(guān)注的同時(shí),也有望催生出全新的創(chuàng)作范式。