
視覺末日或許即將來臨,但或許“眼見未必為實”。
2022 年春季,OpenAI 推出的 DALL-E 2 標志著人工智能領(lǐng)域的一個轉(zhuǎn)折點,當時文本到圖像的生成突然對一部分用戶開放,創(chuàng)建了一個由數(shù)字探索者組成的社區(qū),他們在體驗這項技術(shù)自動化視覺創(chuàng)作的同時,也經(jīng)歷了驚奇與爭議。
但與許多早期的 AI 系統(tǒng)一樣,DALL-E 2 在一致的文本渲染方面存在困難,經(jīng)常在圖像中生成亂碼的單詞和短語。它在遵循包含多個元素的復(fù)雜提示時也存在局限性,有時會遺漏關(guān)鍵細節(jié)或曲解指令。這些不足為 OpenAI 在后續(xù)迭代中進行改進留下了空間,例如在 2023 年推出的 DALL-E 3。
周二,OpenAI 宣布了直接集成到其 GPT-4o AI 語言模型中的全新多模態(tài)圖像生成功能,使其成為 ChatGPT 界面中的默認圖像生成器。這種名為“4o 圖像生成”(以下簡稱“4o IG”)的集成使模型能夠更準確地遵循提示(文本渲染效果優(yōu)于 DALL-E 3),并根據(jù)聊天上下文響應(yīng)圖像修改指令。

由 OpenAI 的 4o 圖像生成模型創(chuàng)建的一只在車內(nèi)喝啤酒的 AI 生成貓咪圖像。

由 OpenAI 的 4o 圖像生成模型創(chuàng)建的亞伯拉罕·林肯舉著 “Ars Technica” 標志的 AI 生成照片。
由 OpenAI 的 4o 圖像生成模型創(chuàng)建的“一個帶武器的肌肉野蠻人站在 CRT 電視機旁,電影級,8K,工作室照明”的 AI 生成圖像。

由 OpenAI 的 4o 圖像生成模型創(chuàng)建的“宇宙女王”AI 生成圖像。
由 OpenAI 的 4o 圖像生成模型創(chuàng)建的一盤泡菜的 AI 生成圖像。
在 ChatGPT 中使用 OpenAI 的 4o 圖像生成模型生成的一臺擁有 1000 個 RGB 燈的游戲電腦。
這項新的圖像生成功能已于周二開始向 ChatGPT 免費版、Plus 版、Pro 版和團隊用戶推出,企業(yè)版和教育版將在稍后推出。該功能也可在 OpenAI 的 Sora 視頻生成工具中使用。OpenAI 告訴 Ars,當在 ChatGPT 界面中選擇 GPT-4.5 時,圖像生成調(diào)用的是與選擇 GPT-4o 相同的基于 4o 的圖像生成模型。
像之前的 DALL-E 2 一樣,4o IG 必將引發(fā)爭論,因為它將曾經(jīng)屬于科幻小說和熟練人類創(chuàng)作者的復(fù)雜媒體操縱能力轉(zhuǎn)變?yōu)橐粋€人們可以通過簡單文本提示使用的便捷 AI 工具。它也可能引發(fā)新一輪關(guān)于藝術(shù)風格和版權(quán)的爭議——但更多相關(guān)內(nèi)容將在下文討論。

4o IG 可以改變我們對媒體現(xiàn)實的感知。給定這張狗的真實照片……
……AI 模型可以以逼真的方式改變狗的行為,例如與插入場景中的虛擬小狗玩耍。
一些社交媒體用戶最初報告了困惑,因為沒有用戶界面指示哪個圖像生成器處于活動狀態(tài),但如果生成速度非常慢并且從上到下進行,您就會知道它是新模型。之前的 DALL-E 模型仍然可以通過專用的“DALL-E GPT”界面使用,而 GPT-4o 圖像生成的 API 訪問預(yù)計將在幾周內(nèi)推出。
4o IG 代表著向“原生多模態(tài)圖像生成”的轉(zhuǎn)變,其中大型語言模型直接將圖像數(shù)據(jù)作為標記進行處理和輸出。這是一件大事,因為這意味著圖像標記和文本標記共享同一個神經(jīng)網(wǎng)絡(luò)。它為圖像創(chuàng)建和修改帶來了新的靈活性。
盡管在 2024 年 5 月 GPT-4o 推出時就內(nèi)置了多模態(tài)圖像生成功能——當時 GPT-4o 中的“o”被吹捧為代表“omni”(全能),以突出其理解和生成文本、圖像和音頻的能力——但 OpenAI 花了 10 多個月的時間才向用戶提供該功能,盡管 OpenAI 總裁 Greg Brock 去年在 X 上預(yù)告了該功能。
OpenAI 很可能是受到谷歌上周發(fā)布的基于多模態(tài) LLM 的圖像生成器“Gemini 2.0 Flash (Image Generation) Experimental”的刺激。科技巨頭們繼續(xù)進行他們的人工智能軍備競賽,彼此試圖超越對方。
也許我們知道 OpenAI 等待的原因:在合理的分辨率和細節(jié)水平下,新的 4o IG 過程非常慢,每張圖像需要 30 秒到 1 分鐘(或更長時間)。

在 ChatGPT 中使用 OpenAI 的 4o 圖像生成模型生成的四格漫畫。
在 ChatGPT 中使用 OpenAI 的 4o 圖像生成模型為四格漫畫中的男子添加胡須。
即使它很慢(目前),使用純自回歸方法生成圖像的能力對于 OpenAI 來說也可以說是向前邁出了一大步,因為它具有靈活性。但它也非常消耗計算資源,因為模型逐個標記地生成圖像,依次構(gòu)建它。這與基于擴散的方法(如 DALL-E 3)形成對比,后者從隨機噪聲開始,并在多次迭代步驟中逐漸細化整個圖像。
對話式圖像編輯
在一篇博文中,OpenAI 將 4o 圖像生成定位為超越了早期 AI 圖像生成器所見的“超現(xiàn)實、令人驚嘆的場景”的生成,而是轉(zhuǎn)向創(chuàng)建用于交流的“實用圖像”,如徽標和圖表。
該公司特別提到了圖像中改進的文本渲染,這是以前的文本到圖像模型經(jīng)常出現(xiàn)嚴重失敗的功能,經(jīng)常將“生日快樂”變成類似外星象形文字的東西。
OpenAI 聲稱有幾個關(guān)鍵改進:用戶可以通過對話改進圖像,同時保持視覺一致性;系統(tǒng)可以分析上傳的圖像并將它們的細節(jié)合并到新的生成中;它提供了更強的照片級真實感——盡管什么是照片級真實感(例如,HDR 相機功能的模仿、細節(jié)級別和圖像對比度)可能是主觀的。

OpenAI 的 4o 圖像生成模型在 ChatGPT 中的屏幕截圖。我們看到現(xiàn)有的野蠻人與電視機的 AI 生成圖像,然后是點燃電視機的請求。
在其博文中,OpenAI 提供了圖像生成器的預(yù)期用途示例,包括創(chuàng)建圖表、信息圖表、使用特定顏色代碼的社交媒體圖形、徽標、指導(dǎo)海報、名片、具有透明背景的自定義庫存照片、編輯用戶照片或可視化聊天對話中先前討論的概念。
值得注意的是,沒有任何提及可能會受到這項技術(shù)影響的藝術(shù)家和平面設(shè)計師。正如我們在 2022 年和 2023 年所報道的那樣,工作影響仍然是 AI 生成圖形批評者最關(guān)心的問題。
流暢的媒體操縱
在 OpenAI 推出 4o 圖像生成后不久,X 上的 AI 社區(qū)就對該功能進行了測試,發(fā)現(xiàn)它能夠?qū)⒛橙说拿娌坎迦氍F(xiàn)有圖像、創(chuàng)建虛假屏幕截圖并將模因照片轉(zhuǎn)換為吉卜力工作室、南方公園、毛絨玩具、瑞克與莫蒂、惡搞之家等風格。
看起來,我們正在進入一個完全流暢的媒體“現(xiàn)實”,得益于一個可以輕松將視覺媒體在不同風格之間轉(zhuǎn)換的工具。這些風格也可能侵犯受保護的知識產(chǎn)權(quán)。鑒于吉卜力工作室聯(lián)合創(chuàng)始人宮崎駿之前對 AI 生成藝術(shù)作品的看法(“我強烈感覺這對生命本身是一種侮辱”),看來他目前不太可能欣賞 X 上流行的 AI 生成吉卜力風潮。

X 上的人們將互聯(lián)網(wǎng)模因轉(zhuǎn)換為“吉卜力工作室”風格的藝術(shù)。

為了了解 4o IG 的功能,我們進行了些非正式測試,包括一些常見的 CRT 野蠻人、宇宙女王和喝啤酒的貓,您已經(jīng)在上面看到了(當然,還有那盤泡菜)。
帶有新 4o 圖像模型的 ChatGPT 界面是對話式的(就像之前的 DALL-E 3 一樣),但您可以隨著時間的推移建議更改。例如,我們使用了作者的 EGA 像素頭像(就像我們上周對谷歌的模型所做的那樣),并試圖給它一個完整的身體??梢哉f,谷歌功能更有限的圖像模型比 4o IG 做得更好。

在 ChatGPT 中使用 OpenAI 的 4o 圖像生成模型為作者的像素頭像添加身體。
盡管我的像素頭像是由非常人性化(且有才華)的 Julia Minamata 在 2020 年委托制作的,但我也嘗試將我頭像的靈感圖像(其中包括我和傳奇游戲工程師 Ed Smith)轉(zhuǎn)換為 EGA 像素風格,看看會發(fā)生什么。在我看來,結(jié)果證明了人類藝術(shù)性和對細節(jié)的關(guān)注的持續(xù)優(yōu)越性。

使用 OpenAI 的 4o 圖像生成模型在 ChatGPT 中將 Benj Edwards 和傳奇游戲工程師 Ed Smith 的照片轉(zhuǎn)換為 “EGA 像素藝術(shù)”。
我們還嘗試看看 4o 圖像生成器能在一張圖像中塞入多少物體,這一靈感來自 Nathan Shipley 在 DALL-E 3 發(fā)布后不久的 2023 年推文。我們沒有計算每一個物體,但看起來大多數(shù)都在。

使用 OpenAI 的 4o 圖像生成模型在 ChatGPT 中生成一張沖浪者手持大量物品的圖像,靈感來自 Nathan Shipley 在 2023 年的 Twitter 帖子。
在社交媒體上,其他人已經(jīng)使用 4o IG 操縱圖像(如 Simon Willison 的熊自拍),所以我們嘗試更改去年一篇文章中出現(xiàn)的 AI 生成的筆記。效果相當不錯,盡管它并未真正模仿所請求的書寫風格。
使用 OpenAI 的 4o 圖像生成模型在 ChatGPT 中修改圖像中的文本。

為了進一步測試文本生成,我們使用 ChatGPT 生成了一首關(guān)于野蠻人的詩,然后將其輸入圖像提示。結(jié)果感覺大致相當于基于擴散的 Flux 的能力——也許稍好一些——但仍有一些明顯的錯誤,例如字母重復(fù)。
在 ChatGPT 中使用 OpenAI 的 4o 圖像生成模型測試文本生成。

我們還測試了該模型創(chuàng)建包含我們最喜歡的虛構(gòu) Moonshark 品牌徽標的能力。這里未展示的一個徽標以帶有 alpha 通道的透明 PNG 文件形式交付。這可能在緊急情況下對一些人有用,但在價格為 $o(不包括 OpenAI 訂閱)的情況下,模型可能會生成“足夠好”(不算出色,但乍看之下還可以)的徽標,可能會與一些人類徽標設(shè)計師競爭,這很可能會引起專業(yè)藝術(shù)家們的一些不安。
使用 OpenAI 的 4o 圖像生成模型在 ChatGPT 中生成一個 “Moonshark Moon Pies” 徽標。

坦率地說,這個模型太慢了,我們在需要發(fā)布這篇文章之前沒有時間測試所有功能。它可以做的遠不止我們在這里展示的——比如向場景中添加物品或移除它們。我們可能會在未來的文章中探索更多功能。
限制
到目前為止,您已經(jīng)看到,與之前的 AI 圖像生成器一樣,4o IG 在質(zhì)量上并不完美:它始終以不正確的尺寸渲染作者的鼻子。
除此之外,雖然這是有史以來功能最強大的 AI 圖像生成器之一,但 OpenAI 公開承認該模型存在重大局限性。例如,4o IG 有時會將圖像裁剪得太緊,或者在模糊提示或渲染其訓(xùn)練數(shù)據(jù)中未遇到的主題時包含不準確的信息(虛構(gòu))。
該模型在同時渲染超過 10-20 個對象或概念時也往往會失?。ㄊ沟蒙蓽蚀_的元素周期表等任務(wù)目前無法實現(xiàn)),并且難以處理非拉丁文字字體。圖像編輯在多次傳遞中目前不可靠,OpenAI 表示計劃很快修復(fù)影響面部編輯一致性的特定錯誤。它不擅長處理密集的圖表或準確渲染圖形或技術(shù)圖表。在我們的測試中,4o 圖像生成器產(chǎn)生了大部分準確但有缺陷的電子電路圖。
快速行動,打破一切
即使存在這些限制,多模態(tài)圖像生成器也是邁向更廣闊的完全可塑媒體現(xiàn)實世界的早期一步,在這個世界中,任何像素都可以按需進行操作,而無需任何特定的照片編輯技能。這帶來了潛在的好處、倫理陷阱和可怕濫用的可能性。
與 DALL-E 的顯著轉(zhuǎn)變是,OpenAI 現(xiàn)在允許 4o IG 生成成年公眾人物(而非兒童)的圖像,并采取某些安全措施,同時允許公眾人物根據(jù)需要選擇退出。與 DALL-E 一樣,該模型仍然會阻止違反政策的內(nèi)容請求(例如圖形暴力、裸體和性內(nèi)容)。
4o 圖像生成器模仿名人肖像、品牌徽標和吉卜力工作室電影的能力強化并提醒我們,GPT-4o 部分(除了一些獲許可的內(nèi)容外)是通過大規(guī)模抓取互聯(lián)網(wǎng)而成的產(chǎn)品,未考慮版權(quán)或藝術(shù)家的同意。這種大規(guī)模抓取的做法過去已經(jīng)導(dǎo)致針對 OpenAI 的訴訟,我們不會感到驚訝,如果有更多的訴訟或至少來自名人(或其遺產(chǎn))的公開投訴,關(guān)于他們的肖像可能被濫用。
在 X 上,OpenAI 首席執(zhí)行官 Sam Altman 寫道,談到公司對 4o IG 的有些不在乎的立場:“這代表了我們在允許創(chuàng)造自由方面的新高峰。人們將會創(chuàng)造一些非常驚人的東西,也會有一些可能冒犯他人的東西;我們的目標是,除非您希望如此,否則該工具不會創(chuàng)建冒犯性的內(nèi)容,在合理范圍內(nèi),它會這樣做。”

作者旁邊的原始照片與由 OpenAI 的 4o 圖像生成模型創(chuàng)建的 AI 生成圖像。從左到右:吉卜力工作室風格、布偶風格和意大利面風格。
作者旁邊的原始照片與由 OpenAI 的 4o 圖像生成模型創(chuàng)建的 AI 生成圖像。從第二左到右:吉卜力工作室風格、布偶風格和意大利面風格。
總的來說,GPT-4o 的圖像生成模型(以及其背后的技術(shù),一旦開源)似乎進一步侵蝕了對遠程制作媒體的信任。雖然我們一直需要通過上下文和可信來源來驗證重要媒體,但這些新工具可能進一步擴大了在 AI 時代已成為必要的“深度懷疑”媒體懷疑論。通過將照片級真實感的圖像操縱開放給大眾,更多的人能夠無需專業(yè)技能就能創(chuàng)建或更改視覺媒體。
雖然 OpenAI 在所有生成的圖像中包含了 C2PA 元數(shù)據(jù),但這些數(shù)據(jù)可能會被剝離,并且在欺騙性的社交媒體帖子中可能并不重要。但 4o IG 并未改變一直以來的事實:我們主要通過信息傳遞者的聲譽來判斷信息,而不是通過像素本身。偽造在 AI 之前就已經(jīng)存在。它強化了每個人都需要具備媒體素養(yǎng)技能——理解上下文和來源驗證一直是媒體真實性的最佳裁決者。
目前,Altman 準備好承擔將這項技術(shù)釋放到世界上的風險。“正如我們在模型規(guī)格中所討論的,我們認為將這種智力自由和控制權(quán)交到用戶手中是正確的做法,但我們將觀察其發(fā)展并傾聽社會的聲音,”Altman 在 X 上寫道?!拔覀冋J為尊重社會最終為 AI 設(shè)定的非常廣泛的界限是正確的做法,并且隨著我們越來越接近 AGI,這一點變得越來越重要。在我們解決這一問題的過程中,提前感謝大家的理解。”
關(guān)注【黑客聯(lián)盟】帶你走進神秘的黑客世界
熱門跟貼