
北京時(shí)間3月26日凌晨,OpenAI發(fā)布GPT-4o的原生圖像生成功能。這兩天,隨著吉卜力風(fēng)格AI圖像成了社交平臺(tái)的焦點(diǎn),大家才重新審視這次“重磅”發(fā)布。

此文作者張好蔚,95后,從零開始接觸AI,自學(xué)用comfy生圖流搭建了一套“文生圖”視覺系統(tǒng)——目前大部分文生圖應(yīng)用也是這么來(lái)的。但GPT-4o來(lái)了,似乎她媽媽這樣的外行動(dòng)動(dòng)手指也能完成她的工作,無(wú)數(shù)個(gè)通宵達(dá)旦的努力突然就沒了支點(diǎn)。
3月27日,凌晨2點(diǎn),距離前一日GPT-4o的更新剛過(guò)去一天。
杭州的雨下得很大很大,一聲驚雷過(guò)后,我就再也睡不著了,掏出手機(jī)刷著朋友圈,看到許久未發(fā)新動(dòng)態(tài)的同行朋友木可寫著:這真是沮喪的一天,測(cè)試了許久后大概率確認(rèn)了,4o是真的可以取代80%的comfy生圖流能力了……
木可在圈子里小有名氣,國(guó)內(nèi)許多使用comfy搭建工作流的人都或多或少用過(guò)他做的插件。震驚于這個(gè)評(píng)價(jià),我速刷了b站和社交媒體的所有相關(guān)動(dòng)態(tài),然后越刷越心驚,越刷越清醒……如果說(shuō)此前的谷歌大模型Gemini flash還像一個(gè)未來(lái)可期的學(xué)生,讓人看到了多模態(tài)模型的潛力卻又不那么滿意它的表現(xiàn),那么4o的圖像能力是真的將改變整個(gè)行業(yè)的生態(tài)了。
先來(lái)簡(jiǎn)單解釋下comfy生圖流,以當(dāng)前世界AI生圖的能力來(lái)說(shuō),Midjourney風(fēng)格化優(yōu)秀但可控性差,基于diffusion框架的可控性高但操作復(fù)雜。comfy生圖流其實(shí)就是一條流水線,讓AI在生圖的每一個(gè)重要環(huán)節(jié)都有人工的指引,因?yàn)锳I能力不夠,實(shí)際應(yīng)用時(shí)往往需要進(jìn)行多步操作,甚至在幾個(gè)軟件之間相互倒騰。
比如,下面這張圖就是我在工作中搭建的一個(gè)comfy生圖流:

圖表1 工作流通常需要經(jīng)過(guò)多個(gè)節(jié)點(diǎn)的參與和調(diào)整才能完成AI圖片的生成

圖表2 封裝完使用的平臺(tái)生圖為了確保生圖質(zhì)量依然要上傳參考選擇參數(shù)
當(dāng)工作流的參數(shù)設(shè)置對(duì)當(dāng)前生圖需求不那么適用時(shí),你經(jīng)常會(huì)得到一張讓你很崩潰的圖片,然后就是漫長(zhǎng)的參數(shù)反復(fù)修改+測(cè)試。
然而,當(dāng)4o上線的一刻,這一切都不需要了。
用戶要做的事情只有,打開輸入框,告訴4o你的想法,甚至你都可以不需要說(shuō)全,它都會(huì)自行理解。比如:

再來(lái)看下面這個(gè)人臉互換的經(jīng)典案例。在此之前,如果使用comfy或者傳統(tǒng)ps來(lái)做下述需求,是需要通過(guò)redux等技術(shù)先把產(chǎn)品換了,再串聯(lián)換臉換裝的節(jié)點(diǎn)來(lái)跑一遍工作流,精修后再重新跑一遍圖以高清化和優(yōu)化光影的。
功能能實(shí)現(xiàn),但效果也不會(huì)比4o好更多,而4o卻只需要一句大白話的提示詞,就這樣水靈靈地出圖了。
如果對(duì)部分不滿意,還可以接著告訴他怎么修改,真的“只用嘴就行”。不忙時(shí)期的生成速度也只需要等待1-2分鐘,完全是連我媽這樣智能手機(jī)都摸不太明白的人也能操作的程度,根本沒有學(xué)習(xí)成本可言。

再看看這樣的例子,PS和當(dāng)前各大AI消除功能都能完成,但得要很多步精細(xì)手工操作才能有滿意的效果,在這個(gè)過(guò)程中,圖像還有可能出現(xiàn)明顯的涂抹感和修正錯(cuò)誤,而4o的結(jié)果:清晰、正確、高效。

在文字生成領(lǐng)域,甚至是中文生成領(lǐng)域,4o也展現(xiàn)出了目前最先進(jìn)級(jí)別的能力。在此之前,剪映旗下的“即夢(mèng)”中文海報(bào)生成能力已經(jīng)足夠讓人驚艷,而現(xiàn)在4o,不僅僅是簡(jiǎn)單的banner設(shè)計(jì),連風(fēng)格化字體都能做得這么好了。
天知道曾經(jīng)字體設(shè)計(jì)在平面領(lǐng)域有多麻煩多讓我頭痛,這下好了,不僅省時(shí)省力,連字體版權(quán)都可以規(guī)避了。

說(shuō)真的,心情很復(fù)雜。除去新技術(shù)所帶來(lái)的興奮,說(shuō)不清的迷茫和失落也像這幾天的天氣一樣揮之不去。所有人都知道,這才是AI應(yīng)該展現(xiàn)的姿態(tài),但當(dāng)它真正來(lái)臨時(shí),你作為受到?jīng)_擊的從業(yè)者,就像一個(gè)站在拳擊臺(tái)上的選手,一下子被技術(shù)性擊倒。更別提,它可以繼續(xù)進(jìn)步。
這幾日中外AI社區(qū),對(duì)4o的測(cè)試層出不窮,它確實(shí)存在一些問(wèn)題,比如一致性仍需加強(qiáng)、細(xì)節(jié)度不夠、無(wú)法批量化處理圖片、隱私問(wèn)題等等,comfy仍然會(huì)是很長(zhǎng)一段時(shí)間里本地部署的最優(yōu)策略。
但這些問(wèn)題,終究會(huì)在某一個(gè)來(lái)日被不動(dòng)聲響地攻克。只要價(jià)格合適,吃過(guò)蘋果肉的人不會(huì)甘愿再去舔蘋果核,未來(lái)的大模型一定會(huì)以更加易用、更加高質(zhì)的方式改變普通人的行為模式——就先從圖片設(shè)計(jì)領(lǐng)域開始??萍季揞^們?cè)斐龅氖⒀纾矊螠缫恢币詠?lái)無(wú)數(shù)小團(tuán)隊(duì)和個(gè)人開發(fā)者的堅(jiān)持和努力。

就像這位大佬說(shuō)的一樣,過(guò)去一年的時(shí)間里,無(wú)數(shù)個(gè)點(diǎn)燈熬油的晚上,凝聚了我對(duì)曾經(jīng)優(yōu)秀大模型新技術(shù)的研究和期待。接近一個(gè)T的硬盤空間里,裝著上百個(gè)測(cè)試模型和節(jié)點(diǎn)數(shù)據(jù),這些心血卻在一次大模型的更新面前變得如此蒼白無(wú)力。如同地球人在看見三體文明的那一刻,所感知到的無(wú)助和震撼。
“大模型的能力才是一切的基礎(chǔ)” 這是一年之前我在和同事分享AI資訊時(shí)寫在ppt上的一句話,如今4o再次驗(yàn)證了這點(diǎn)。我突然想到那句話“這是一個(gè)最好的時(shí)代,也是一個(gè)最壞的時(shí)代”,我們被科技力量裹挾著前進(jìn),努力在時(shí)代洪流中掙出自己的未來(lái);見證著這個(gè)世紀(jì)最偉大的變革,也將承受最多的動(dòng)蕩和挑戰(zhàn)。
但無(wú)論如何,這都是一輪新升的太陽(yáng),當(dāng)未來(lái)多模態(tài)模型兼具音視頻一體的功能時(shí),生產(chǎn)方式將會(huì)被徹底改變,優(yōu)秀的內(nèi)容才會(huì)不受限制地被表達(dá)被看見,想必世界一定會(huì)變得更有趣更精彩。
所以,只能祝福我自己和屏幕前的你,努力跟上這個(gè)時(shí)代吧。
文 | 張好蔚
VIEW MORE
@杭州城北藏著一個(gè)“瘋狂星期四” >>
@15年后他再次站到黃仁勛旁邊 >>
@這屆AI逼瘋每一個(gè)古人 >>
@華人“芯”事>>
熱門跟貼