GPT-4o推出原生圖像掀起的熱潮不減。OpenAI故伎重演,光芒蓋過了同時發(fā)布的DeepSeek-V3 0324和Gemini 2.5 pro。

無數(shù)用戶使用吉卜力畫風生成和變化圖片,樂此不疲。就連奧特曼也換了頭像,得意地說:

“我們的GPU都熔化了”。

然后宣布對使用量臨時設限,即使放開之后,ChatGPT免費用戶每天只能生成三張圖。

打開網易新聞 查看精彩圖片

這次由多模態(tài)大模型原生出來的圖像,已經融入了大模型的語言、推理、上下文學習等能力,有時體現(xiàn)出令人震撼的能力——它能讓人感到畫片背后所要表達的意味。

大模型原生出來的能力是如此強大,讓那些五花八門的AI工具、垂類的智能體、甚至Midjourney和Stable Diffusion,開始懷疑人生。

統(tǒng)一多模態(tài)大模型

OpenAI并沒有為此而改變4o的名稱,它還叫4o,顯示OpenAI正在構建強大的統(tǒng)一多模態(tài)大模型。

原生圖像能準確地渲染文字、細膩地理解提示、并且調動起4o內在的知識庫、交談的上下文;還能轉變上傳的圖片,以及用它們來啟發(fā)更有創(chuàng)意的視覺效果。

正如OpenAI所說,圖像生成本來就應該是大語言模型的主要能力。關于訓練,有一小段高度概括的文字:

我們在網絡圖像與文本的聯(lián)合分布上訓練了模型,不僅學習圖像與語言之間的關系,也學習圖像彼此之間的關聯(lián)。結合強力的后訓練策略,最終得到的模型展現(xiàn)出令人驚訝的視覺流暢性,能夠生成實用、一致且具備上下文感知能力的圖像。

從中可以看到,一個原生的、統(tǒng)一的多模型大模型,可以把語言、視覺和聲音的理解有機地結合在一起,更加接近世界知識。

正因為圖像生成已經內嵌于4o中,用戶可以通過自然對話來轉變圖像。而且由于4o模型是在上下文中構建圖像和文本的,圖像的一致性得到保持。例如,如果設計一個游戲中的形象,用戶對它進行修正和試樣,在多次迭代之后,形象仍不會走樣。它還解決了圖中嵌入文字的問題,并且產生了圖文并茂的效果(但我們試用發(fā)現(xiàn),仍然不能處理好圖中較多的中文)。

而且由于它原生嵌入在我們全模態(tài)模型 GPT-4o 的深層架構中,4o 圖像生成可以調動模型所掌握的全部知識,將這些能力以微妙而富有表現(xiàn)力的方式發(fā)揮出來。

模型即產品。大模型的第一性原理,仍然需要不斷提升理解的境界。

怎么訓練出來的

OpenAI在其技術報告中,重點談了安全。對于訓練提到了這么幾點:

系統(tǒng)卡重點談了安全,提及這是一種自回歸模型。“與采用擴散模型的 DALL·E 不同,4o 圖像生成是一種自回歸模型,原生嵌入在 ChatGPT中?!?/p>

清華與字節(jié)的研究人員,去年底曾提出了 ACDIT(Autoregressive blockwise Conditional Diffusion Transformer),一種將擴散過程與自回歸范式融合的模型。根據(jù)論文,具體的工作機制如下:

實現(xiàn)ACDiT 并不難,僅需在現(xiàn)有的擴散Transformer架構上添加一個 Skip-Causal Attention Mask 即可。在推理過程中,生成以兩個階段交替進行:一是在塊內進行條件擴散去噪(以完整的干凈上下文為條件),二是以自回歸方式生成新的塊,并將其作為新的上下文追加進來。借助這種方式,可以使用 KV-Cache 來加速推理過程。

總體而言,ACDiT 具有以下天然優(yōu)勢:

(i)ACDiT 同時學習了塊與塊之間的因果依賴(通過自回歸建模)以及塊內部的非因果依賴(通過擴散建模);

(ii)ACDiT 以 clean 的連續(xù)視覺特征作為輸入,無需進行向量量化,從而提升了模型在完成生成任務后向視覺理解任務遷移的能力;

(iii)ACDiT 可以充分利用 KV-Cache,在任意長度下實現(xiàn)靈活的自回歸生成,并有潛力結合文本領域最新的長上下文技術,進一步拓展至長視頻生成任務。

如圖所示:

打開網易新聞 查看精彩圖片

(a):對于每個帶噪塊 nin_i,它只能關注之前的 clean 潛在塊 c0,c1,…,ci?1c_0, c_1, \ldots, c_{i-1} 以及它自己對應的 clean 表示。每個 clean 塊 cic_i 只能關注之前的 clean 潛在塊。

(b):ACDiT 可以高效地利用 KV-Cache 進行自回歸推理。

(c):ACDiT 的三維視圖,其中 B 表示塊大小,L 表示塊的數(shù)量,T 表示去噪的時間步。顏色越深表示噪聲越高。

ACDiT不僅可以用來生成圖像,而且可以用來生成視頻。

DeepSeek的動作

ACDiT的共同一作是清華博士胡聲鼎,相當了得。

打開網易新聞 查看精彩圖片

因為是與字節(jié)合作的論文,他被科技媒體晚點報道將加入字節(jié)的AGI研究團隊Seed Edge。

晚點稱字節(jié)號稱正要打造國內人才密度最高的AI研究團隊,甚至張一鳴都親自下場去見一些頂尖的博士和科學家。

但是已經有傳聞,胡聲鼎并沒有加入字節(jié),而是選擇了DeepSeek。

DeepSeek創(chuàng)始人梁文鋒,去年接受暗涌采訪時,就已經表示要進入多模型大模型領域。他眼中的AGI,包括要應用于機器人領域。

以梁文鋒在國內頂尖學校招收頂尖博士的做法,胡升鼎加入DeepSeek順理成章。多模態(tài)與推理,正統(tǒng)一于下一代大模型中。

看起來已經成為一種趨勢!自回歸條件塊注意力(autoregressive conditional block attention)或許就是我們統(tǒng)一多模態(tài)所需要的一切。

打開網易新聞 查看精彩圖片

女藝術家對AI爆粗口

不久前,OpenAI以國家安全的名義,向白宮建言:必須給我們在知識產權保護方面松綁,否則我們將輸給中國AI企業(yè)(DeepSeek)。

緊接著,OpenAI試圖施壓《紐約時報》放棄對其發(fā)起的訴訟。

4o推出圖片生成和編輯功能之后,社交媒體上開始充斥著吉卜力風的圖像和meme。

日本漫畫大師宮崎駿是吉卜力工作室的主要創(chuàng)始人,其獨特的藝術風格和深刻的主題,超越了文化和語言的障礙,經典作品《千與千尋》、《龍貓》在全球產生了巨大的影響力。

4o驚人的復制畫風能力,加上之前Gemini稍早發(fā)布類似功能中,可以除去圖像中的水印,以及馬斯克的Grok模型,以言論自由之名更無忌憚地生成模仿,很快激起了許多藝術創(chuàng)作者的反擊。

OpenAI有可能用吉卜力電影的數(shù)百萬幀來訓練其模型,否則怎能如此相似。OpenAI和 Google的最新工具,只要輸入文本提示,只要動動嘴,就重現(xiàn)受版權保護作品的風格。這顯然對藝術家和創(chuàng)意者的生存空間,又產生的前所未有的沖擊和擠壓,包括其中一部分人剛剛學會掌握的其他專用的圖像生成工具。

OpenAI是否在對受版權保護的作品進行訓練?如果是,這是否違反了版權法?但使用受版權保護的作品訓練 AI 模型,是否屬于“合理使用” (fair use),從而受到法律保護,這在一些法院依然是未決的問題。

有人用宮崎駿2016年對AI模仿的憤怒,也生成了一張吉卜力:“我簡直惡心透了,AI在侮辱生活本身。”

打開網易新聞 查看精彩圖片

這位女藝術家,已經憤怒得對AI爆粗口了。

打開網易新聞 查看精彩圖片

原生圖像提出了一個嚴峻的問題:AI如果能以如此高效的方式訓練并模仿出所有的創(chuàng)作風格,那些藝術家、作家、創(chuàng)意者、創(chuàng)作者的工作價值何在?

這涉及到奧特曼所說的“創(chuàng)作自由”,還有科技右翼一直倡導的“言論自由”,在不斷拓展AI的能力邊界。這位Tech Bro高呼:

Memes always win!

打開網易新聞 查看精彩圖片

GPU都被熔化了,不得不對用戶設限了,難怪奧特曼需要5000億美元的星際之門計劃。

打開網易新聞 查看精彩圖片

釋放創(chuàng)作自由”

AI放大的“創(chuàng)作自由”,人類藝術家的創(chuàng)作自由以及他們的版權,兩者之間,如何平衡?

OpenAI在提出一種理念。其模型行為負責人Joanne Jang,把奧特曼的AI創(chuàng)作自由理論進行了系統(tǒng)化的闡述。

從中可以看出,OpenAI主張,因為AI在不斷發(fā)展出新的能力,這些能力會同時給人類帶來福利與風險,應該首先鼓勵推出這些能力并釋放福利,同時用一種新的責任、新的方法去控制可能產生的風險,而不是用現(xiàn)有的法律,一刀切地拒絕新的能力。

這樣的問題,DeepSeek和Owen們,豆包和元寶們,如果想做出同樣強大的統(tǒng)一多模態(tài)大模型,也無法回避。

打開網易新聞 查看精彩圖片

(Joanne Jang,來源:個人X賬號)

下面是她的博客文章:

AI新能力制定政策的思考

我在OpenAI負責模型行為方面的工作。

本周,我們通過GPT-4o在 ChatGPT 中上線了原生圖像生成功能。

這是一次特別的發(fā)布,原因有很多——其中之一是我們 CEO 山姆 所強調的:“這是我們在釋放創(chuàng)作自由方面的新高峰”。

我想稍微展開說說,因為如果你不是深入AI領域,或者沒有緊跟我們對模型行為的最新思考(什么?你居然沒在空閑時間讀那份60頁的《模型規(guī)范》??),可能會很容易忽略這點。

簡而言之:我們正在從對敏感領域的一刀切拒絕,轉向一種更精細的策略,核心是防止現(xiàn)實世界中的實際傷害。我們的目標是擁抱“謙遜”——承認我們仍有很多未知,并以便于學習和適應的方式前進。

圖像具有直觀的沖擊力

圖像有一種獨特而強烈的力量,能帶來難以比擬的愉悅與震撼。與文字不同,圖像超越語言障礙,喚起多樣的情緒反應,也能瞬間闡明復雜的想法。

正因為圖像具有如此強烈的影響力,我們在制定相關政策和模型行為時,也感受到比以往發(fā)布更多的責任與分量。

對“新能力”的發(fā)布,態(tài)度也在演變

每當發(fā)布一種“看似全新”的能力,我們的視角也在不斷演變:

  • 信任用戶的創(chuàng)造力,而不是依賴我們的假設。AI 實驗室的員工不該決定什么是人們“可以”或“不可以”創(chuàng)造的。我們總是在發(fā)布之后被用戶的創(chuàng)意所震撼,發(fā)現(xiàn)許多我們從未想象的用途——甚至是一些現(xiàn)在看來“理所當然”的場景,事先我們也根本沒想到。

  • 清楚看到風險,但不忽視用戶日常使用中的價值。人們很容易專注于潛在的風險,而大范圍的限制聽起來總是最安全(也最簡單)的。但我們常常會問自己:“我們真的需要更強大的 meme 生成能力嗎?畢竟這些 meme 也可能被用來冒犯他人?!钡艺J為這種思維方式本身就是有問題的。它意味著日常的小樂趣、小幽默和連接必須為“最壞情況”讓步,而這低估了這些微小瞬間對人們生活帶來的真實改善。

  • 重視那些我們未曾想象的可能性。也許是因為我們天然傾向于避免損失,我們很少認真思考“無所作為”的負面影響。有人稱之為“看不見的墓地”,雖然這聽起來有些陰郁。這些“新能力”往往會帶來間接的積極影響——無數(shù)原本可能發(fā)生的互動、創(chuàng)新和想法,可能就因為我們過度擔心最壞的情況而從未誕生。

決定政策的Day1考量

我們希望在保護現(xiàn)實安全的前提下,盡可能釋放創(chuàng)造自由。以下是我們在首次發(fā)布時的一些政策案例:

  • 公眾人物:我們知道公眾人物的圖像生成很敏感,尤其是在新聞、諷刺和個人形象權益之間界線模糊的時候。我們希望政策對所有人都公平適用,不管“身份地位”為何。但我們不想扮演決定“誰夠重要”的角色,因此我們引入了“主動退出名單”機制——任何可能被模型生成形象的人,都可以自行選擇退出。

  • “冒犯性”內容:關于“冒犯性”,我們反思了哪些內容是不舒服,是因為它真的可能造成傷害,還是只是因為我們自己的偏好或不適。模型曾默認拒絕一些請求,比如“讓這個人看起來更像亞洲人”或“讓這個人更胖”,這其實在無意中暗示了這些特征本身是“冒犯的”。

  • 仇恨符號:我們清楚像納粹符號這樣的標志承載著深重的歷史痛苦,但它們也可能出現(xiàn)在真正的教育或文化語境中。全面封禁反而可能抹除重要的對話和思想探索。因此我們正研發(fā)更精準的技術手段,識別并攔截有害濫用的情況。

  • 未成年人:凡是涉及青少年的政策,我們都選擇更加謹慎,優(yōu)先保護未滿 18 歲的用戶,不論是在研究還是產品中。

最終,這些考量,加上我們在技術控制能力上的進步,引導我們制定了更具包容性的政策。我們理解這可能會被誤讀為“OpenAI 降低了安全標準”,但我個人認為,這種解讀無法體現(xiàn)我們團隊所投入的大量研究、深度討論,以及對用戶和社會的真誠關懷。

我有位同事 Jason Kwon 曾對我說過一句話:

“船停在港口最安全,模型如果什么都拒絕最安全。但那不是造船或訓練模型的目的?!?/blockquote>

未來,是靠想象力和冒險精神構建的。隨著研究繼續(xù)、社會反饋不斷涌現(xiàn),我們相信可以在“負責任”與“自由”之間不斷找到新的平衡。我們的政策也將隨現(xiàn)實反饋而持續(xù)更新——這不是失敗,而正是我們“逐步部署”理念的核心。

參考論文及文章:

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

https://reservoirsamples.substack.com/p/thoughts-on-setting-policy-for-new

https://arxiv.org/pdf/2412.07720

https://arxiv.org/pdf/2503.09573