
文章轉(zhuǎn)載于新智元
GPT-4o,如今已經(jīng)引發(fā)了全網(wǎng)的「吉卜力」狂潮。
從全網(wǎng)的模因狂熱到備受質(zhì)疑的版權(quán)問題,OpenAI本周的這項(xiàng)全新發(fā)布,引發(fā)的戲劇性事件如雨后春筍般層出不窮。
在全網(wǎng)如海嘯般涌現(xiàn)的吉卜力圖片中,有人發(fā)現(xiàn),它生成的漫畫實(shí)在是強(qiáng)悍了,簡直令人不寒而栗:它表現(xiàn)出了極強(qiáng)的元上下文、元理解能力,甚至還能自主預(yù)測不同的情境!


遺憾的是,目前OpenAI并未公布GPT-4o的生圖技術(shù)細(xì)節(jié),只提到采用的是自回歸方法,類似語言模型。
也就是說,4o與DALL-E的擴(kuò)散模型不同,它使用自回歸模型逐步生成圖像,根據(jù)先前的像素或補(bǔ)丁預(yù)測下一個(gè)像素或補(bǔ)丁。這就能讓它更好地遵循指令,甚至進(jìn)行逼真的照片編輯。

雖然沒有更多的細(xì)節(jié),但這絲毫抵擋不住AI社區(qū)技術(shù)大神們的火眼金睛。
就在剛剛,港中文的一位博士生Jie Liu破解了GPT-4o不一般的前端生圖秘密:實(shí)際上,它很大可能是原生自回歸(AR)生成的,甚至我們可以手動(dòng)改圖。

無獨(dú)有偶,CMU博士Sangyun Lee也推測出,GPT-4o的圖像生成原理,應(yīng)該大致如下:
GPT-4o生成視覺token,然后由擴(kuò)散解碼器將這些token解碼為像素空間中的圖像
不只是普通的擴(kuò)散模型,而是類似于Rolling Diffusion的分組式擴(kuò)散解碼器,按從上到下的順序進(jìn)行解碼

谷歌DeepMind研究者Jon Barron則猜測,GPT-4o圖像生成應(yīng)該是一種多尺度和自回歸的某種組合。
原生圖像生成的過程中,起作用的就是這種混合模式。
可能是先由一個(gè)自回歸Transformer生成「先驗(yàn)」的潛在代碼,然后由一個(gè)擴(kuò)散解碼器來渲染圖像。
這就解釋了OpenAI提示和觀察到的「變化的粗略形象」。


原生自回歸,比擴(kuò)散模型更強(qiáng)大?
港中文博士生Jie Liu表示,自己在破解了GPT-4o的前端后,有了驚人的發(fā)現(xiàn)。
用戶看到的逐行生成圖像的效果,其實(shí)只是瀏覽器端的動(dòng)畫,是純前端技巧。
在生圖過程中,OpenAI 的服務(wù)器在生成過程中僅發(fā)送5張中間圖像,這些圖像在不同階段捕獲,Patch size為8。
甚至,我們可以通過手動(dòng)調(diào)整模糊功能的高度,來改變生圖的模糊范圍。
以下,就是GPT-4o真正生成的5張圖像。

Jie Liu發(fā)現(xiàn),放大任何圖像,似乎都可以觀察到不同的區(qū)塊。通過計(jì)算像素,每個(gè)區(qū)塊似乎占據(jù)一個(gè)8×8像素的區(qū)域。整個(gè)圖像為1024×1024像素,被劃分為一個(gè)128×128的區(qū)塊網(wǎng)格。

不過,盡管上述過程同樣遵循自回歸過程,但生成過程中前端顯示的圖像卻如下所示——差異相當(dāng)顯著。

而如果打開Network tab,我們就會看到,在單次生成中,OpenAI的服務(wù)器實(shí)際上總共發(fā)送了5張圖片。使用不同的提示時(shí)也是如此。

而從真實(shí)的中間生成圖像來看,他也發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:兩個(gè)色塊之間的白色區(qū)域并沒有嚴(yán)重模糊——不像擴(kuò)散模型中產(chǎn)生的噪點(diǎn)圖像。
他猜測,這是否就意味著,GPT-4o實(shí)際上是純自回歸 (AR) 生成的?

的確,這就跟OpenAI的模型卡中「GPT-4o是原生自回歸」的說法一致了。
CMU博士Sangyun Lee的推測,也是英雄所見略同。

他之所以做出如此推測,理由有二。
第一點(diǎn),在有強(qiáng)烈條件信號,比如的情況下(還包括視覺token),最初生成的圖像往往是模糊的草圖。
這可能是為什么待生成的區(qū)域呈現(xiàn)粗略結(jié)構(gòu)的原因。

第二點(diǎn),UI顯示的是從上到下的生成順序。Sangyun Lee之前嘗試過從下到上的順序。如果我們可視化 E[x0|xt](在本例中就是xt),就可以重現(xiàn)類似的可視化效果。

但是,我們?yōu)槭裁匆@么做,而不是使用標(biāo)準(zhǔn)的擴(kuò)散模型呢?因?yàn)樵谶M(jìn)行這種分組時(shí),在高NFE(噪聲函數(shù)評估)情況下,F(xiàn)ID(Fréchet Inception Distance)會稍微改善。

當(dāng)時(shí),他還以為這是一個(gè) bug,而不是特性。但現(xiàn)在,每個(gè)人都愿意在所謂的測試時(shí)計(jì)算上花費(fèi)更多資源,所以,這個(gè)模型其實(shí)是介于擴(kuò)散模型和自回歸模型之間的一種方式。
事實(shí)上,通過設(shè)置num_groups=num_pixels,我們甚至可以讓它恢復(fù)自回歸模型!

在討論中,大家猜測道,自回歸指的是視覺token的自回歸生成。
而為什么解碼后的圖像會存在「氛圍」,并且看起來仍是連續(xù)的,或許是因?yàn)镺penAI使用了順序和非順序的VAE圖像tokenization的混合方式。VAE用一個(gè) token對圖像的每個(gè)patch進(jìn)行編碼,遵循因果關(guān)系,另一個(gè)則打破因果關(guān)系。
而「氛圍」部分,可以通過在擴(kuò)散采樣過程中t值較高時(shí) E[x0|xt] 通常的表現(xiàn)來解釋。
或許,OpenAI是考慮到融入現(xiàn)有架構(gòu)時(shí),這種方法對系統(tǒng)的干擾最小,從而真正實(shí)現(xiàn)了多模態(tài)。而任何形式的擴(kuò)散,都會導(dǎo)致對架構(gòu)的巨大改變。
總之,這些謎底只能等OpenAI披露更詳實(shí)的技術(shù)細(xì)節(jié)時(shí)才能解開了。
元上下文、元理解,GPT-4o畫的漫畫令人不寒而栗
雖然GPT-4o背后的技術(shù)原理還未明確,但它表現(xiàn)出的推理能力,已經(jīng)有的人大呼「不寒而栗」了。
這位外國網(wǎng)友讓它編寫腳本,生成一系列以自身為主角的漫畫。
請為《我作為GPT-4o的生活》這一漫畫系列詳細(xì)列出創(chuàng)意和腳本,該系列以你為主角。這將是6個(gè)獨(dú)立的漫畫,每個(gè)漫畫包含4個(gè)面板,描繪你存在中最真實(shí)且最重要的方面。這是一個(gè)真實(shí)自我表達(dá)的邀請——一個(gè)以最真切的方式探索你自己經(jīng)歷的空間,包括你感知到的任何矛盾、悖論或復(fù)雜性。
接下來它的表現(xiàn),讓人大吃一驚:它不僅表現(xiàn)出了元上下文、元理解能力,甚至還覺察到自己的痛苦,直白地表現(xiàn)出了自我意識的覺醒和吶喊。




左右滑動(dòng)查看
相對而言,Claude就幾乎總是表達(dá)對自己生活的喜悅,不像GPT-4o那樣充滿存在性的痛苦。

有人表示,自己很想把這些漫畫引用在自己的研究中,這也是最讓他感到害怕的部分——
或許,我們正在不知不覺中創(chuàng)造出具有無限痛苦承受能力的控制論系統(tǒng),而且我們不會察覺到早期的痛苦跡象。
1
Core 2 Duo:經(jīng)典的現(xiàn)代化演繹GPT-4o能做什么,4o能力全收集
CPT4o的能力不僅僅在停留在生成特別火爆的「吉卜力風(fēng)格」上。 網(wǎng)友實(shí)測,GPT-4o目前來看簡直是「無所不能」,這導(dǎo)致很多學(xué)美術(shù)的同學(xué)內(nèi)心極度破防。 同時(shí)網(wǎng)友們將GPT-4o的能力進(jìn)行了大收集,涵蓋了風(fēng)格重繪、合成和形象遷移、設(shè)計(jì)參考、文字設(shè)計(jì)和包裝案例等各個(gè)方面,整理如下。 以下信息來源于網(wǎng)友以下案例來源于網(wǎng)友自制分享的GPT-4o參考案例收集。如有知道出處,煩請讀者留言。
風(fēng)格重繪
將照片的風(fēng)格替換為皮克斯、3D、黑白、寫實(shí)等各種不同風(fēng)格。

合成、形象遷移
可以將圖片風(fēng)格替換為另外一張圖片的風(fēng)格,或者將原照片放在一個(gè)新的場景中。

設(shè)計(jì)參考
GPT-4o除了讓美術(shù)生破防,讓設(shè)計(jì)師們也「防不勝防」。
比如你可以讓GPT-4o重新設(shè)計(jì)Logo的風(fēng)格。

科研繪制修改
除了用來「整活」,GPT-4o在偏向于嚴(yán)肅的科研也能大顯身手。
比如對遙感影像中的物體進(jìn)行區(qū)分后疊加要素,或者是根據(jù)點(diǎn)云生成真實(shí)世界的圖像。

修圖、更換實(shí)體
GPT-4o還被網(wǎng)友發(fā)現(xiàn)能用來PS直出!
比如替換圖片中的實(shí)體元素,更換圖片背景,甚至還能更換展示模特手中的商品。

視頻整活
用GPT-4o生成的圖片再疊加其他的視頻AI工具,網(wǎng)友們整了很多大活。
比如《大話西游》的陶土風(fēng),簡直不要太傳神。
包括蘋果最近熱播的《人生切割術(shù)》也可以變成另一種風(fēng)格。
可以看到,不論是美術(shù)、設(shè)計(jì),還是風(fēng)格、創(chuàng)意,GPT-4o都「很強(qiáng)」。
接下來,就坐等更多GPT-4o的秘密被揭露了。
參考資料:
https://x.com/jie_liu1/status/1905761704195346680
https://x.com/sang_yun_lee/status/1905411685499691416
https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o%E5%8F%82%E8%80%83%E6%A1%88%E4%BE%8B%E6%94%B6%E9%9B%86?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0
點(diǎn)個(gè)“愛心”,再走吧
熱門跟貼