打開網(wǎng)易新聞 查看精彩圖片

作者 | 褚杏娟、華衛(wèi)

策劃|Tina

ChatGPT 的新 AI 圖像生成功能上線僅兩天,社交媒體上便已充斥著以日本動畫工作室吉卜力風(fēng)格的 AI 生成梗圖,埃隆·馬斯克、《指環(huán)王》和美國總統(tǒng)唐納德·特朗普都沒“逃過”,甚至 OpenAI 首席執(zhí)行官薩姆·奧爾特曼也將他的新頭像設(shè)置為吉卜力風(fēng)格的圖片。(吉卜力工作室以制作《龍貓》和《千與千尋》等熱門影片而聞名。)

大量用戶正在將現(xiàn)有的圖像上傳到 ChatGPT,并要求聊天機(jī)器人以新的風(fēng)格重新創(chuàng)作這些圖像。今天,奧爾特曼在 X 上發(fā)文表示:“看到大家如此喜愛 ChatGPT 的圖像功能非常有趣,但我們的 GPU 快扛不住了?!彪m未具體說明限制次數(shù),但 Altman 稱該措施不會持續(xù)太長時間,因?yàn)樗麄冋趪L試提升處理海量請求的效率,免費(fèi)用戶將“很快”能每天最多生成三張圖像。

打開網(wǎng)易新聞 查看精彩圖片

雖然后續(xù) OpenAI 又宣布了對 GPT-4o 進(jìn)行了更新,但顯然人們的注意力還在“玩圖”上。

“我認(rèn)為,這個功能是過去半年里 OpenAI 發(fā)布的 GPT-4o 中最有價值的一個,它確實(shí)非常炸裂。相比之下,正式上線的 Sora 以及后來連續(xù) 12 天的直播所展示的內(nèi)容,大多都沒有超出人們的預(yù)期?!痹焓挚蓤D大模型負(fù)責(zé)人李巖說道。

與 SD 等模型比,

GPT-4o 贏在了哪里?

“昨天還在看 SD 教程,今天發(fā)現(xiàn)白看了……”知名開發(fā)者 Jimmy Cheung 發(fā)帖說道,“今天情緒非常低落,壓力非常大,我不清楚我現(xiàn)在做什么,是從現(xiàn)在開始到將來都還有價值的?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

李巖表示,這次 GPT-4o 火爆的關(guān)鍵在于實(shí)現(xiàn)了對話式圖像生成。

實(shí)際上,基于自然語言指令的圖像編輯能力之前已經(jīng)有了,比如字節(jié) SeedEdit 和 Google Gemini 2.0 都具備相似能力。但在實(shí)際生成過程中,指令響應(yīng)能力沒有那么強(qiáng),效果做得沒有那么好。

例如在一致性保持方面,當(dāng)要求去除背景中的某個物體時,模型可能還去掉了其他的東西;或者在對人物進(jìn)行特定修改時,最終效果可能是不像原來的人了。此外,還存在指令不響應(yīng)的問題,比如要求添加某些元素時未能執(zhí)行。

但這次 GPT-4o 的交互方式所達(dá)到的文本跟圖像的響應(yīng)是非常精準(zhǔn)的,大大超出了大家的預(yù)期。

李巖分析,雖然 OpenAI 沒有發(fā)布詳細(xì)的技術(shù)報告,但有一點(diǎn)非常明確:他們一定采用了自回歸框架(Autoregressive Model, AR),只有自回歸框架才能實(shí)現(xiàn)如此自然的圖文交互效果。后續(xù)大概率也接入了 decode 模塊后再做圖像生成,但其整體框架已經(jīng)完全統(tǒng)一到了自回歸框架之下。

具體說來,F(xiàn)lux、Stable Diffusion 等模型,現(xiàn)在的做法都是將文本表征和圖像生成過程進(jìn)行解耦,然后擴(kuò)散模型出圖。這種方式通常要先對文本進(jìn)行完整表征,例如通過 CLIP 或大語言模型提取特征,然后將該特征直接輸入擴(kuò)散模型,并要求擴(kuò)散模型在生成圖像的整個過程中持續(xù)參考這個固定的文本特征。這個文本特征的來源是用戶輸入的 prompt,某種編碼器的方式會對 prompt 進(jìn)行特征提取。

然而問題在于:特征提取完成后,信息量就被固定了。在文本到圖像的生成過程中,100% 的原始信息都存在于用戶輸入的文本 prompt 中,但經(jīng)過文本編碼或表征提取后可能只剩下 70% 的信息,這意味著后續(xù)最多就只能基于這 70% 的信息量進(jìn)行圖像生成。

當(dāng)前幾乎所有圖像生成模型都采用了上述模式。但可以看出,這些模型在生成文本表征時都會不可避免地造成信息損失,而這種損失一旦形成固定的 embedding 或表征就無法挽回,這一階段出現(xiàn)的信息缺失,后續(xù)擴(kuò)散模型在生成圖像時是無法回溯彌補(bǔ)的。

當(dāng)前,擴(kuò)散模型的擴(kuò)充方式是 prompt engineering(提示詞工程)。但是,提示詞工程只能擴(kuò)展成顯式描述,比如輸入“一個漂亮的小女孩”,系統(tǒng)會將其擴(kuò)展為非常詳細(xì)的描述,包括小女孩戴著什么樣的帽子、出現(xiàn)在什么樣的背景下等等。但這種方式在后續(xù)建模中仍然需要提取文本特征,依然會造成信息損失。只要是采用二階段的方式,即先建模文本再以文本為條件輸入擴(kuò)散模型,就必然會因?yàn)槲谋窘_^程中的信息損失導(dǎo)致最終生成的圖像無法與文本描述 100% 對齊。

GPT-4o 之所以強(qiáng)大,關(guān)鍵在于它能有效處理用戶提供的簡潔信息。例如,用戶通常只會簡單地輸入:“幫我畫一只小貓或小狗”,但不會給出具體是什么樣的貓或狗?,F(xiàn)在,GPT-4o 統(tǒng)一到大語言模型的自回歸框架下,所以天然具備了語義泛化能力。這種能力本質(zhì)上源于模型本身的知識儲備,使其能夠準(zhǔn)確理解用戶簡單文字背后代表的真正的、稠密的信息量是什么。

正是由于 GPT-4o 擁有強(qiáng)大的大語言模型作為知識基礎(chǔ),它才能在完整的端到端框架中實(shí)現(xiàn)如此精準(zhǔn)的理解和生成能力,這一點(diǎn)至關(guān)重要。模型輸入的就是用戶的原始 prompt,然后直接出圖,中間過程中沒有二階段損失,都是一階段做的,可以充分利用大語言模型所帶來的隱式知識,包括擴(kuò)充 prompt 等。

另外一點(diǎn)是,原來的方法僅支持單輪操作,即輸入文字生成提示詞,再通過特征提取生成圖像,但無法支持多輪條件控制。

GPT-4o 可以直接將圖片按照上傳圖片的風(fēng)格生成新圖像,其中關(guān)鍵在于需要理解上下文中的具體指向,如“剛才提到的狗的照片是哪一張”,這需要大語言模型具備跨模態(tài)理解能力。在自回歸框架下,上下文從純文本擴(kuò)展到了文本 + 圖像,因此模型能輕松 get 上下文,甚至遠(yuǎn)程的上下文。

值得注意的是,從出圖質(zhì)量來看,目前基于自回歸框架的生成效果并沒有碾壓式地超過擴(kuò)散模型,甚至可能還不如擴(kuò)散模型的表現(xiàn)?,F(xiàn)階段,兩者的生成質(zhì)量水平其實(shí)相差不大。

李巖指出,這僅僅是就出圖效果而言,我們更應(yīng)該關(guān)注的是交互方式的差異。未來在交互體驗(yàn)方面,自回歸框架顯然具有更大的理論優(yōu)勢,它能夠更好地兼容完全開放的自由度,實(shí)現(xiàn)更接近自然語言對話式的交互方式。

“這種 Interleaved 的圖文交錯技術(shù)才是真正原生的多模態(tài)大模型?!崩顜r認(rèn)為,在當(dāng)前行業(yè)中,真正意義上的原生全模態(tài)的大模型領(lǐng)域里,OpenAI 還是走在最靠前的。

此外,李巖表示,“文生圖架構(gòu)沒有什么可以爭議的了,在 2025 年這個話題就不是話題了。”

自回歸框架對于多模態(tài)里面的文本模態(tài)、音頻模態(tài),自不用多說,基本上已經(jīng)證明了是可行的,難點(diǎn)在于視覺模態(tài)?,F(xiàn)在行業(yè)內(nèi)最好的模型,包括開源的 Flux、閉源的可靈、Sora 等,還在用 DIT 的架構(gòu),真正做到高精度的視覺生成現(xiàn)在還離不開擴(kuò)散模型,但圖像生成領(lǐng)域,單靠自回歸框架實(shí)際上是有可能達(dá)到一個新的高度的,這件事情 GPT-4o 已經(jīng)給出了答案。

李巖還大膽設(shè)想,如果 GPT-4o 接入聯(lián)網(wǎng)功能并整合 RAG 技術(shù),其在圖像生成方面的潛力將更加巨大。通過 RAG 技術(shù),模型可以直接檢索到用戶所指的網(wǎng)絡(luò)流行?;驘狳c(diǎn),用戶就不需要再上傳參考圖片了。例如,當(dāng)用戶想生成網(wǎng)絡(luò)流行表情包時,GPT-4o 可能無需參考圖片,僅憑對網(wǎng)絡(luò)流行文化的理解就能準(zhǔn)確捕捉到用戶想要的梗,這將進(jìn)一步提升文生圖應(yīng)用的便捷性和準(zhǔn)確性。

是否會吞噬所有產(chǎn)品?

OpenAI 發(fā)布 GPT-4o 文生圖功能后,Jimmy Cheung 的評價是:GPT-4o 的圖像能力,直接干翻了之前很多創(chuàng)業(yè)公司的產(chǎn)品,他們花了那么多時間、人力、投資人的錢去調(diào)優(yōu)的算法、工作流、模型,直接被一次大模型的更新就取代了。

除了 Jimmy Cheung 吐槽“SD 白學(xué)了”,還有網(wǎng)友感嘆,學(xué)了兩年的作圖工具流 comfyUI 也白學(xué)了。一部分人直接大呼:工作流已死。事實(shí)上,對于像 comfyUI 這樣的工作流產(chǎn)品而言,情況可能沒有那么悲觀。

“GPT-4o 目前為止的結(jié)果確實(shí)挺顛覆,但在真正的商業(yè)化可用的能力上,現(xiàn)在不太行,相當(dāng)長一段時間還是要依賴 comfyUI?!崩顜r說道。

比如,當(dāng)前 GPT-4o 的出圖大小并不能滿足實(shí)際商拍場景里的需求,分辨率的提高會需要一些外接能力。另外,OpenAI 在照片改換風(fēng)格時是做全圖的重繪,細(xì)化到了圖像的每一個像素點(diǎn),但在實(shí)際情況中,用戶可能只需要改某一塊地方,其他地方,甚至一個像素值都不能動,這樣的需求就需要 comfyUI 這類非常細(xì)粒度的工作流方式去精細(xì)化處理。

comfyUI 里面有后處理、摳圖、調(diào)整亮度等很多鏈路,支持使用基于圖形、節(jié)點(diǎn)和流程圖的界面來設(shè)計和執(zhí)行高級的穩(wěn)定擴(kuò)散流水線。

打開網(wǎng)易新聞 查看精彩圖片

“對于輕娛樂場景或者要求沒有那么高的批量生產(chǎn)場景,GPT-4o 現(xiàn)在已經(jīng)可以發(fā)揮價值了。但對于容忍度比較低、項目要求非常高的場景,未來相當(dāng)長一段時間里還是要依賴 comfyUI。”李巖總結(jié)道。

但是,GPT-4o 對于 Prompt 工程可能會是致命打擊。

“Prompt 工程這件事有可能以后變得也沒那么重要了?!崩顜r解釋稱,現(xiàn)在 Prompt 對文生圖、文生視頻模型很重要,是因?yàn)檎麄€文本側(cè)和圖像側(cè)還沒有辦法做到那么強(qiáng)的 alignment 效果,所以需要盡可能把文本側(cè)的內(nèi)容寫明確、減少信息損失,因此誕生了 prompt engineer。但實(shí)際上未來這部分工作如果如果能統(tǒng)一到 GPT-4o 的框架里,這份工作大家慢慢就不需要了。就算 Prompt 寫的不好也沒關(guān)系,還可以再改,只需把不滿意的改進(jìn)點(diǎn)用自然語言描述給模型,模型就會理解到底應(yīng)該怎么改。

在李巖看來,GPT-4o 這次更加證明了工具型產(chǎn)品會更容易被大模型能力吞噬。比如美顏類工具,對于不懂美顏的男生來說,語言交互就可以得到理想的效果。

但顯然,作為正在遭受“沖擊”的 Midjourney 并不這樣想。Midjourney CEO David Holz 犀利指出:GPT-4o 的圖像生成速度慢、效果又差,OpenAI 只是為了籌集資金,而且在以一種不良競爭的方式行事。這不過是一時的噱頭,并非創(chuàng)作工具,不出一周就沒人會再談?wù)撍恕?/p>

打開網(wǎng)易新聞 查看精彩圖片

據(jù)稱,Midjourney 準(zhǔn)備在下周推出最新的 V7 版。值得注意的是,領(lǐng)導(dǎo) Midjourney V2 至 V7 模型開發(fā)的核心人物 theseriousadult 在 3 月 21 日宣布離職,之后將加入 Cursor 轉(zhuǎn)做 AI 編程 Agent。

而早在 GPT-4o 掀起此次關(guān)于“大模型是否會吞噬所有產(chǎn)品”的熱議之前,AI 科技公司 Pleias 聯(lián)合創(chuàng)始人 Alexander Doria 就提出了“模型就是產(chǎn)品”的觀點(diǎn)。他明確指出:所有投資者一直都在押注應(yīng)用層,但在人工智能進(jìn)化的下一階段,應(yīng)用層很可能是最先被自動化和顛覆的。同時,Doria 還認(rèn)為,OpenAI 的 DeepResearch 和 Claude Sonnet 3.7,以及“不僅把模型當(dāng)作產(chǎn)品,而且將其視為通用基礎(chǔ)設(shè)施層”的 DeepSeek,都是“模型作為產(chǎn)品”的典型示例。

不過,就目前的大模型能力來看,大模型暫不能覆蓋到所有的應(yīng)用產(chǎn)品。但這種低門檻的使用形式,似乎正一步步瓦解許多現(xiàn)有的各類產(chǎn)品邏輯和形態(tài)。

結(jié)束語

大模型更多是在做技術(shù)平權(quán)這件事,就是讓很多不懂技術(shù)的人逐漸都可以公平地使用大模型。在技術(shù)迅速變化的當(dāng)下,每個人,甚至企業(yè)都很容易被迫進(jìn)行戰(zhàn)略調(diào)整,甚至轉(zhuǎn)向。

李巖的建議是,首先,要明確自己在這個行業(yè)中的具體業(yè)務(wù)需求。其次,在實(shí)際工作中,每個人都應(yīng)該采取兩種策略:一是“低頭走路”,確保自己對所用工具的理解和運(yùn)用熟練,從而穩(wěn)步前進(jìn);二是“抬頭看路”,關(guān)注行業(yè)的發(fā)展和變化。這兩者不是相互排斥,而是需要同時進(jìn)行,以便我們在專注工作的同時,及時調(diào)整方向。

李巖認(rèn)為,未來大模型的發(fā)展將深刻影響各行業(yè)的組織形態(tài)和人員能力結(jié)構(gòu)。以傳統(tǒng)的人才金字塔為例,其結(jié)構(gòu)通常分為底層、中腰部和頂層。目前看來,底層能力畫像的人會被大面積“吞噬”,接著是腰部能力的人群,而最頭部的那部分人永遠(yuǎn)不會被大模型吞噬,因?yàn)榇竽P捅旧硪残枰麄兊?feedback 和教化。

“所以,每一個人應(yīng)該盡量避免做技術(shù)含量低的工作,而是慢慢往上去走?!崩顜r說道。

聲明:本文為 InfoQ 原創(chuàng),不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

在 AI 大模型重塑軟件開發(fā)的時代,我們?nèi)绾伟盐兆兏??如何突破技術(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無限可能。

本次大會將匯聚頂尖技術(shù)專家、創(chuàng)新實(shí)踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實(shí)踐經(jīng)驗(yàn),深度參與 DeepSeek 主題圓桌,洞見未來趨勢。