打開網(wǎng)易新聞 查看精彩圖片

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

想象一下,耗費動畫大師宮崎駿數(shù)十年心血、一幀一畫精雕細琢的藝術風格——比如《起風了》中耗時一年多的四秒人群場景,或是《幽靈公主》里那個生物鉆地鏡頭背后一年零七個月的 5300 幀手繪,如今,在GPT-4o手中,似乎變得“唾手可得”。用戶們興奮地將個人照片、網(wǎng)絡梗圖甚至歷史影像紛紛“一鍵吉卜力化”,其效果之逼真、風格之統(tǒng)一,迅速點燃了網(wǎng)絡。無數(shù)人的時間線都被塞入了宮崎駿的平行宇宙。OpenAI CEO Sam Altman透露,4o的圖像生成功能在一小時內就吸引了百萬新用戶。

打開網(wǎng)易新聞 查看精彩圖片

但如果你認為這僅僅是OpenAI用一個更強的模型替換了之前的DALL-E,那可能就忽視了全貌。有敏銳的網(wǎng)友指出:“這不僅僅是一次產品更新——這很可能是一個徹底的范式轉變。” OpenAI 似乎正在解決那些長期困擾AI圖像生成過程中,讓創(chuàng)作者望而卻步的問題。

那么,秘密武器是什么?OpenAI自己給出了線索:這次的圖像生成是直接內置在GPT-4o模型中的,并且,與廣泛采用擴散模型(Diffusion Models)的DALL-E、Midjourney、Stable Diffusion 不同,OpenAI在模型卡片中聲明:“與作為擴散模型運行的DALL·E不同,4o圖像生成是一個原生嵌入在ChatGPT中的自回歸模型”

值得注意的是,將自回歸思想應用于圖像生成并非OpenAI的獨創(chuàng)。事實上,如何讓擅長序列預測的自回歸模型在視覺領域發(fā)揮潛力,一直是AI研究者們試圖攻克的方向之一,意在尋找不同于主流擴散模型的新范式。

例如此前獲得頂級學術會議NeurIPS 2024最佳論文獎等《視覺自回歸建模:通過下一尺度預測實現(xiàn)可擴展的圖像生成》(Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)的研究,它不僅提出了一種創(chuàng)新的 VAR 方法,顯著提升了自回歸模型生成圖像的質量和效率,更是在實驗中首次證明了類 GPT 的純自回歸模型在圖像生成任務上,有潛力超越當時頂尖的擴散 Transformer 模型。

這篇論文由北京大學與字節(jié)跳動的研究者共同完成。而為這篇技術含量極高的論文增添了更多話題性的,是其第一作者田柯宇的另一重身份——他正是那位因被指控惡意攻擊字節(jié)跳動訓練集群、面臨巨額索賠而備受關注的前字節(jié)實習生。

這位“含金量還在上升”的實習生,以一種意想不到的方式,與AI圖像生成的前沿探索交織在了一起。

1

自回歸的“復興”

GPT-4o 在圖像生成上的突破,關鍵之一在于其宣稱采用的自回歸技術(AR)路徑,這與主流的擴散模型截然不同。理解這一差異,是把握這場潛在“范式轉變”的核心。

擴散模型,如Midjourney和Stable Diffusion,其原理是從隨機噪聲出發(fā),通過學習數(shù)據(jù)分布逐步去噪,最終生成圖像,強項在于生成高質量、逼真的圖像,但在速度、計算成本以及精確理解復雜指令(尤其是文字渲染)方面常顯不足。

自回歸模型則借鑒了GPT處理文本的方式:按順序預測下一個元素。在圖像上,這意味著模型基于已生成的部分(如像素或圖像標記),逐步構建出完整圖像。理論上,這賦予了AR在上下文理解、細節(jié)控制和連貫性上的優(yōu)勢。然而,傳統(tǒng)AR方法存在效率低、易出錯的問題,長期以來難以在效果上匹敵擴散模型。

近年來,以 VAR(Visual Autoregressive Modeling)、掩碼自回歸建模(MAR)等研究,開始為 AR “正名”。VAR提出的“下一尺度預測”(從粗到細生成)等創(chuàng)新,顯著提升了AR模型的圖像質量和生成效率,證明了AR路徑不僅可行,甚至有潛力超越擴散模型。VAR等研究可能為GPT-4o提供了理論啟發(fā),而GPT-4o的實踐進一步驗證了自回歸模型在視覺生成中的可行性,讓 AR 在圖像生成領域迎來了“復興”的可能。

打開網(wǎng)易新聞 查看精彩圖片

那么,GPT-4o 的圖像生成具體是如何運作的?OpenAI強調其圖像功能原生集成于模型核心,而非獨立模塊。這意味著4o能充分利用其強大的語言理解和世界知識來指導圖像生成,實現(xiàn)前所未有的上下文理解和指令遵循能力——比如準確畫出包含特定公式的白板。這種深度融合是 4o 效果出色的關鍵。

然而,一張流出的內部白板圖(標注了Transformer -> Diffusion流程)引發(fā)了對其“純粹”自回歸的質疑,可能采用了混合架構:即利用 AR 的理解能力生成中間表示,再結合 Diffusion 的像素生成優(yōu)勢輸出最終圖像。這種猜測認為4o可能融合了兩條路線的優(yōu)點,以規(guī)避各自的短板。不過也不能排除是OpenAI在故意混淆事實。

打開網(wǎng)易新聞 查看精彩圖片

由于沒有任何技術報告,其具體實現(xiàn)細節(jié)仍是謎團,但OpenAI的戰(zhàn)略意圖清晰可見:一是將自回歸原則置于下一代多模態(tài)模型圖像生成的核心位置;二是依托其超大規(guī)模的模型為這一切提供算力和智能基礎。 無論最終的技術“配方”如何,GPT-4o 都已將自回歸推向了前沿,這很可能會改變AI圖像生成的未來發(fā)展方向。

1

中美溫差

GPT-4o圖像生成功的成功,引出了一個值得關注的現(xiàn)象:無論是語言模型還是視頻模型,中國的企業(yè)追趕迅速,但在尖端圖像生成上,似乎總是美國公司在前沿“獨奏”?無論是從Midjourney到Gemini Image再到4o,在中國似乎都看不到能與之“對標”的企業(yè)或產品。

我們可以從技術和商業(yè)兩個視角來看待這種“溫差”。技術上,美國頂尖公司似乎更傾向于探索和押注如自回歸(AR)等可能帶來范式革命的新路徑,這或許得益于其在基礎研究上的長期投入和對風險的更高容忍度。OpenAI在2020年就推出的自回歸圖像生成模型Image GPT,旨在將自然語言處理中的Transformer架構應用于圖像生成領域。

打開網(wǎng)易新聞 查看精彩圖片

而國內力量可能更集中于優(yōu)化成熟的Diffusion路線并快速落地應用,這在追趕階段十分有效,但也可能帶來一定的路徑依賴。同時,頂尖模型所需的算力、高質量數(shù)據(jù)和核心算法創(chuàng)新,本身就構成了不低的壁壘。有觀點認為, Diffusion模型可能已觸及瓶頸,亟待新的突破。

商業(yè)上,市場定位和變現(xiàn)模式也塑造了不同的發(fā)展方向。Midjourney、GPT-4o等似乎更瞄準對效果要求極致的專業(yè)用戶或付費意愿強的市場,追求打造“爆款”工具并直接收費。而中國龐大的應用場景(電商、社交、營銷等)或許更看重成本、效率和與現(xiàn)有生態(tài)的融合,促使技術發(fā)展更偏向工程優(yōu)化和平臺賦能,而非單一工具的極限探索。不同的資本偏好和生態(tài)整合策略也加劇了這種分野。

當然,這并非說中國在生圖領域毫無建樹。阿里巴巴、字節(jié)、DeepSeek等公司也在持續(xù)推出有競爭力的模型。只是在全球“爆款”層面,暫時由美國公司領跑。

歸根結底,技術和商業(yè)的合力共同塑造了當前的格局。隨著 GPT-4o可能引領的自回歸新浪潮,我們無疑等不及要看到這個方向的開源進展,或是中國企業(yè)的快速跟進與實現(xiàn)了。

打開網(wǎng)易新聞 查看精彩圖片

點個 “愛心”,再走吧