GPT-4o 在3月底掀起的“吉卜力”風(fēng)潮過(guò)去還沒(méi)多久,字節(jié)又加入了圖像生成競(jìng)賽。
4月15日,字節(jié)Seed團(tuán)隊(duì)發(fā)布了中英雙語(yǔ)圖像生成基礎(chǔ)模型 Seedream 3.0,主要在文本渲染能力增強(qiáng)、美學(xué)質(zhì)量提升、原生高分辨率輸出、高效推理成本方面進(jìn)行了優(yōu)化。
Seedream 3.0支持原生 2K 分辨率圖像生成,無(wú)需后處理,同時(shí)兼容更高分辨率,適應(yīng)多種比例輸出。在不使用位置編碼(PE)情況下,生成一張 1K 分辨率圖像僅需約 3 秒,速度遠(yuǎn)超當(dāng)前主流商用模型。
字節(jié)還針對(duì) CT(對(duì)比學(xué)習(xí))和 SFT(監(jiān)督微調(diào))階段的數(shù)據(jù),專門訓(xùn)練了多個(gè)版本的字幕模型。這些描述模型覆蓋了美學(xué)、風(fēng)格、版式等多個(gè)專業(yè)領(lǐng)域,極大增強(qiáng)了 Seedream 3.0 對(duì)提示詞的響應(yīng)能力。
?
Seedream 3.0 繼續(xù)采用 MMDiT 架構(gòu)來(lái)處理圖像和文本的 token。團(tuán)隊(duì)采用混合分辨率訓(xùn)練策略,在每一階段訓(xùn)練中,將不同縱橫比和分辨率的圖像打包在一起進(jìn)行訓(xùn)練。為提高泛化能力,團(tuán)隊(duì)將 2.0 中的 Scaling RoPE 擴(kuò)展為“跨模態(tài) RoPE”,進(jìn)一步增強(qiáng)圖文 token 之間的對(duì)齊能力。
?
與2.0 中采用 CLIP 作為獎(jiǎng)勵(lì)模型不同,Seedream 3.0 使用視覺(jué)-語(yǔ)言模型(VLMs)作為獎(jiǎng)勵(lì)建??蚣埽瑢⒅噶蠲鞔_地構(gòu)建為查詢(Query),并通過(guò)“Yes”響應(yīng) token 的歸一化概率來(lái)計(jì)算獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)模型的規(guī)模也從 10 億參數(shù)擴(kuò)展到了 200 億以上。
字節(jié)在論文中表示,在人工智能評(píng)測(cè)平臺(tái) Artificial Analysis 的公開測(cè)試中,Seedream 3.0 在多個(gè)維度表現(xiàn)領(lǐng)先,位居圖文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。
?
另外,字節(jié)還特地跟GPT-4o進(jìn)行了對(duì)比。
OpenAI 的 GPT-4o 雖具強(qiáng)大多模態(tài)能力,但在圖像生成方面仍存在短板。對(duì)比顯示,Seedream 3.0 在中文文本渲染、圖像編輯一致性和整體畫質(zhì)上表現(xiàn)更優(yōu)。
GPT-4o 擅長(zhǎng)英文小字與符號(hào),但中文排版欠佳;圖像編輯功能靈活,卻難保原圖一致性。SeedEdit 則在保留人物 ID 和提示詞遵循上更穩(wěn)健。畫質(zhì)方面,Seedream 圖像更清晰自然,而 GPT-4o 常出現(xiàn)偏色和噪點(diǎn)。











熱門跟貼