今天日子是2025年3月26日。
OpenAI又是臨時發(fā)了一個直播預(yù)告。

凌晨2點要發(fā)東西。
我:??????????
當熬到2點看完了直播以后,我人都恍惚了,我怎么好像去年5月的時候,見過這個東西?怎么感覺特娘的我時間穿越回到1年前了?

翻了一下,果然。。。
2024年5月13號,GPT4o正式發(fā)布,那時候的blog里面,就說了GPT4o是一個原生多模態(tài)模型,不僅支持端到端的語音輸入輸出,其實也支持圖片的端到端輸入輸出。

只不過,這一鴿,就鴿了一年,鴿的我都快忘了GPT4o原來也支持圖片輸出的。。。
感覺是Gemini的原生多模態(tài)用嘴改圖給OpenAI逼急了,沒辦法,只能臨時加塞把這玩意掏出來。
OpenAI的發(fā)布節(jié)奏,真的已經(jīng)越來越不對勁了。
但是回到4o生圖這個產(chǎn)品能力本身。
雖然說節(jié)奏稀碎,可OpenAI一年后掏出的這個的產(chǎn)品,質(zhì)量直接拉到頂,就跟DeepResearch把google的按在地上摩擦一樣。
大家雖然都是原生多模態(tài),都可以用嘴改圖,但是GPT4o的繪圖質(zhì)量,就是可以把Gemini按在地上摩擦,就是當今的王,太牛逼了。
作為200刀的pro會員,我也在第一時間,就拿到了體驗資格。
目前,有兩個渠道可以使用4o Image Generation。
一個事ChatGPT,一個是單獨的那個Sora的網(wǎng)站。
在ChatGPT上,當你畫圖的選項變成這個的時候,就說明用的不是Dalle3了,而是4o。

你就直接可以用嘴畫圖。

也可以,直接用嘴改圖。

但是在ChatGPT上用,有一個問題就是,即使我作為200刀的Pro會員,他居然也限我流,才生成十幾張,就給我限了,讓我7分鐘以后再用。

而在Sora上用的話,有個好處,就是速度極快,一次性可以跑4張,而且還無限用。

質(zhì)量頂?shù)斤w起。
你可以把這個位置,改成image就OK了。

但是最大的問題,就是生成完以后的圖片,不能進行多輪對話修改了。
現(xiàn)在ChatGPT和Sora的關(guān)系,越來越像豆包和即夢的關(guān)系了。
我從2點,跑圖跑到4點,坦率的講,我對4o的生圖質(zhì)量,是非常震驚的。
比我想象的還要好。。
用過Gemini的就知道,雖然可以實現(xiàn)多模態(tài)改圖,但是那個生圖的質(zhì)量,丑的不忍直視,能用,但是到不了生產(chǎn)力級別。
但是,4o可以。
我直接放一下我跑的純生圖case,改圖的case放后面。
先看生圖。
Prompt:冰霜巨龍盤踞在雪峰上,周身冰晶閃耀,龍息噴出寒氣,背景狂風(fēng)席卷雪花。

Prompt:山姆奧特曼在摘棉花。

Prompt: 制作一張漫畫風(fēng)格的生日卡,上面寫著“我希望你今天像動漫開場中的超新星一樣閃耀!"

Prompt: 創(chuàng)建一個多步驟表單用戶界面設(shè)計的圖像,簡約一點,好看一點。

Prompt:創(chuàng)建一個索隆的女孩版動漫角色。

Prompt: 創(chuàng)建一個包含所有元素的周期表卡通圖像。確保每個元素框都標有元素的全名(如氦或氫)。在每個元素的框中,包含一個代表該元素的卡通圖像。同時也包括一些完全隨機的物品,而不是實際的元素,仿佛是在幻覺中看到周期表的成員。

Prompt: 做一個用火龍果的外皮做的蜥蜴,照片必須逼真,整個鱗片都要是火龍果。

Prompt: 一張?zhí)孤实墓纷酗L(fēng)格照片,卡爾·馬克思匆忙走過美國購物中心的停車場,回頭用驚訝的表情看著,試圖避免被拍照。他手里抓著多個裝滿奢侈品的光滑購物袋。他的外套在風(fēng)中飄動,其中一個袋子在他邁步時搖擺。模糊的背景中有汽車和發(fā)光的購物中心入口,以強調(diào)運動。相機的閃光燈部分過曝了圖像,給人一種混亂的小報感覺。

Prompt:畫 一個包含機器人運動學(xué)和動力學(xué)詳細信息的海報。

Prompt: 描繪一只對冒煙的計算機服務(wù)器機架感到困惑的水豚。

Prompt:一只貓用粉筆在街上寫下“我是一只貓”的圖片。

我還有太多太多太多跑出來的圖想放給大家看了。
受限于篇幅,我只能放這么多,我推薦你們每一個人,都去試試。
誠然,4o當然還有很多小問題,比如手指細節(jié)可能有問題,比如海報里的公式都是錯的,比如上面的元素周期表很多是不對的,比如你讓他畫中文有時候會干出英文或者日文等等。
但是,但是,這個質(zhì)量,這個自由度,這個語義理解。
讓我可以在這個階段,無視他的所有那些細小的瑕疵。
我已經(jīng)很久沒有跑圖跑的興奮了,跑圖跑的不想睡覺,這樣的感覺,還在兩年前,第一次看到Midjourney v5更新的時候。
太酷了。
當然,你并不是只可以文生圖,當然也可以,圖生圖。
如今,你再也不需要什么SD、什么Comfyui、什么ControlNET插件,你就可以實現(xiàn)很多很多效果。

效果就是這樣的,BUG就是4o無法區(qū)分句和勾:

又或者,把雷總經(jīng)典手勢轉(zhuǎn)一下風(fēng)格。


再或者,把拼多多的logo,改成青花風(fēng)格。

又或者,把幾張圖融起來。


人物臉的一致性有一點瑕疵,但是這個融合效果,已經(jīng)無敵到?jīng)]邊了。
Sora差不多就這樣,ChatGPT上也可以用,效果跟Sora一樣,反正背后都是4o,但是ChatGPT最大的好處,就是可以進行后續(xù)對話。
比如我先跑一個妹子的圖片。
Prompt:創(chuàng)建一幅史詩般的現(xiàn)實主義圖像,特寫,1 個女孩,漂浮的藍色頭發(fā),長發(fā),水滴,濕潤,手持武士刀,帶有圖案的藍色和服,超詳細。

我現(xiàn)在,想把她放到游戲海報上,直接嘴說就可以。

雖然在中文標題字的審美,跟即夢2.1相比還有一點差距,但是已經(jīng)很好了,畢竟4o的主語言,是英文。
用嘴給圖片改色調(diào)。

用嘴改變材質(zhì)。

用嘴改屏幕里的UI(雖然有點亂碼就是了)

用嘴來改性別。

還有他們自己官方跑的,幾個我覺得屌炸天的case,我覺得必須拿給大家看看。

上面這是AI直出的,甚至玻璃上的影子都是對的。。。




當年,Midjourney讓世界見識到AI畫師的潛能。
后來,Stable Diffusion把開源的火炬交到社區(qū)手里。
再后來,Gemini顯露多模態(tài)的雛形,卻始終差點火候。
如今,GPT4o原生多模態(tài)橫空出世,用幾乎成熟得可怕的質(zhì)量,宣布了圖像生成的新紀元。
如此高的生成質(zhì)量,如此絲滑的多模態(tài)對話,已經(jīng)不是能不能用的問題,而是能否徹底改變現(xiàn)有的AI繪圖生態(tài)。
以及人們,做AI繪圖的交互方式。
這是AI時代,也是我們的時代。
最后,說句題外話。
今天除了GPT-4o原生多模態(tài)上線,同時也是Gemini 2.5 pro發(fā)布。

然后,當4o發(fā)了之后。
我的X上的時間線。。。
就幾乎全部被4o出圖攻占了。
Gemini 2.5 Pro這一次,還是沒搶過GPT-4o。
1.5 Pro被Sora淹,2.5 Pro被4o淹。
真的,聽哥一句勸。
要不然以后咱就別發(fā)Pro,改個名叫Ultra吧。
你說好不。。。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
熱門跟貼