作者|沐風(fēng)
來源|AI先鋒官
前兩天,OpenAI剛剛開源了AI生圖模型GPT-image-1,緊接著,階躍星辰就上線并開源了與GPT-4o和Gemini2 Flash等閉源模型相當(dāng)?shù)牡膱D像編輯模型Step1X-Edit。
你可以用它新增、刪除圖片中的目標(biāo),換句話說,它其實(shí)就是“開源AI版Adobe Photoshop”
并且,階躍星辰將Step1X-Edit的論文、模型、代碼、評測數(shù)據(jù)集一次性全部放出來來了。
現(xiàn)在登錄階躍AI官網(wǎng)(stepfun.com)或App即可使用。
在針對自然語言圖像編輯任務(wù),Step1X-Edit具備以下核心能力:
語義精準(zhǔn)解析:支持自然語言描述的復(fù)雜組合指令,指令無需模板,能夠靈活應(yīng)對多輪、多任務(wù)編輯需求,同時(shí)支持對圖像中文字進(jìn)行識別、替換與重構(gòu);
身份一致性保持:編輯后能穩(wěn)定保留人臉、姿態(tài)與身份特征;
高精度區(qū)域級控制:支持對指定區(qū)域進(jìn)行文字、材質(zhì)、色彩等定向編輯,保持圖像風(fēng)格統(tǒng)一。
據(jù)介紹,Step1X-Edit首次在開源體系中實(shí)現(xiàn)MLLM與DiT的深度融合。
MLLM 模塊負(fù)責(zé)處理自然語言指令與圖像內(nèi)容,具備多模態(tài)語義理解能力,可將復(fù)雜編輯需求解析為latent控制信號;
Diffusion模塊再根據(jù)MLLM生成的latent信號完成圖像的重構(gòu)或局部修改,確保圖像細(xì)節(jié)保真與風(fēng)格統(tǒng)一。
這一結(jié)構(gòu)使得模型在編輯精度與圖像保真度上實(shí)現(xiàn)大幅提升,換句話說就是“聽得懂、改得準(zhǔn)、保得住”。
為了訓(xùn)練模型,階躍星辰構(gòu)建了一個(gè)高質(zhì)量的數(shù)據(jù)集,共生成2000萬條圖文指令三元組,最終保留樣本超過100萬條。
數(shù)據(jù)覆蓋11類高頻圖像編輯任務(wù)類型,包括文字替換、風(fēng)格遷移、材質(zhì)變換、人物修圖等需求。
另外,階躍星辰還開發(fā)了一個(gè)植根于真實(shí)世界用戶指令的新型基準(zhǔn)測試GEdit-Bench。
基于該基準(zhǔn),在語義一致性、圖像質(zhì)量與綜合得分三項(xiàng)指標(biāo)上,評測了包括開源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)和閉源模型(GPT-4o、豆包、Gemini 2.0 Flash)。
針對閉源模型(如GPT-4o)因安全策略拒絕部分指令的情況,報(bào)告分為兩類測試結(jié)果,分別為:
交集子集:所有模型均成功返回結(jié)果的樣本
全集:基準(zhǔn)中所有樣本(僅統(tǒng)計(jì)模型成功生成的案例)。
測試結(jié)果表明,Step1X-Edit在11個(gè)評估維度上全面超越開源模型,比肩GPT-4o、豆包和Gemini 2.0 Flash。


同時(shí),為全面測試多語言能力,每個(gè)樣本均配對了中英文指令:


在中文指令測試集(GEdit-Bench-CN)中,Step1X-Edit表現(xiàn)穩(wěn)定,部分指標(biāo)超越Gemini 2.0 Flash和豆包。
官方也放出了Step1X-Edit與多個(gè)的模型(豆包、Gemini、GPT-4o)在相同輸入下的圖像編輯效果。


可以發(fā)現(xiàn):Step1X-Edit的圖像編輯效果更好,生成的圖像更自然一些。
當(dāng)然,小編還是更傾向與實(shí)際體驗(yàn),所以這就讓它來改幾張圖試試。
左為原圖,右為Step1X-Edit修改圖


提示詞:給小姐姐脖子上增加一條適合她的項(xiàng)鏈


提示詞:去除圖片中人物脖子上的項(xiàng)鏈


提示詞:將圖片中的小熊形狀的月餅更換為小兔子形狀


提示詞:將圖片里的場景改為“草原”


提示詞:將頭發(fā)從自然披散改為馬尾辮


提示詞:將圖片改為像素風(fēng)格


提示詞:將圖片中的小男孩改為女孩,頭發(fā)自然披散至肩部,吉卜力風(fēng)格
整體看起來相當(dāng)不錯(cuò)。
不過,小編建議,在修改圖片時(shí)將你的需求盡量寫詳細(xì),不然的話......如下。


提示詞:將圖片中的小男孩改為女孩
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
熱門跟貼