今天是2025年3月26日,科技圈再次被OpenAI點(diǎn)燃!就在谷歌發(fā)布Gemini 2.5的同一時(shí)間,OpenAI毫無預(yù)警地甩出“王炸”——GPT-4o原生多模態(tài)圖像生成功能正式上線。這一次,AI不僅能聽懂你的話,還能“畫”出你腦中每一個(gè)像素級的想象。從逼真照片到奇幻插畫,從精準(zhǔn)圖表到品牌Logo,只需一句話,甚至一個(gè)眼神(如果你用語音輸入),AI就能在1分鐘內(nèi)交出答卷。
更瘋狂的是,免費(fèi)用戶也能用!

(提示:「創(chuàng)建一張逼真的照片,內(nèi)容是兩名 20 多歲的女巫(一名是灰白色挑染發(fā)型,另一名是長卷的紅褐色頭發(fā))正在閱讀一個(gè)街標(biāo)。
背景:紐約威廉斯堡一條普通的城市街道,一根電線桿上完全被許多詳細(xì)的街標(biāo)覆蓋(例如,街道清掃時(shí)間、需要停車許可證、車輛分類、拖車規(guī)則),包括中間的幾個(gè)荒謬的標(biāo)志:Broom Parking for Witches Not Permitted in Zone C,Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。
人物:一名女巫拿著一把掃帚,另一名女巫拿著一個(gè)卷起的魔法地毯。她們在前景中,身體微微背向相機(jī),頭部微微傾斜,仔細(xì)查看標(biāo)志。
從背景到前景的構(gòu)圖:街道 + 停放的汽車 + 建筑物 → 街標(biāo) → 女巫。人物必須是離拍攝相機(jī)最近的?!?
一、顛覆認(rèn)知:這不是DALL-E,而是“全能大腦”的降維打擊
過去,ChatGPT生成圖像依賴DALL-E 3模型,而這次GPT-4o的突破在于——圖像生成不再是獨(dú)立模塊,而是直接嵌入多模態(tài)大模型的“原生能力”。簡單來說,同一個(gè)AI大腦既能寫詩、寫代碼,又能畫圖、改圖,甚至結(jié)合上下文“邊聊邊改”。
三大核心革新讓行業(yè)顫抖:
- 精準(zhǔn)到變態(tài)的文本渲染
過去AI生成帶文字的圖像總像“抽象藝術(shù)”,但GPT-4o能完美呈現(xiàn)菜單、Logo甚至信息圖中的每一個(gè)字符。有用戶測試生成了一張“紐約女巫看街標(biāo)”的圖片,連“Broom Parking for Witches Not Permitted in Zone C”這種荒誕標(biāo)語都清晰可辨。
- 多輪對話修圖,像指揮設(shè)計(jì)師一樣
“把貓P上偵探帽,再加個(gè)游戲UI界面”“把電鋸廣告改成奶奶切火雞”——GPT-4o能基于聊天記錄持續(xù)優(yōu)化圖像,甚至保持角色設(shè)計(jì)的一致性。一位游戲開發(fā)者稱:“迭代10版角色,發(fā)型和服裝細(xì)節(jié)都能無縫銜接,簡直像有個(gè)AI美工團(tuán)隊(duì)隨叫隨到!”
- 知識(shí)庫+多模態(tài)聯(lián)動(dòng),讓AI真正“懂”創(chuàng)作
上傳一張蝸牛圖片,要求“設(shè)計(jì)三角形車輪的車輛”,GPT-4o不僅能畫出結(jié)構(gòu)圖,還會(huì)自動(dòng)標(biāo)注專利信息;輸入“舊金山多霧成因”,它能生成帶科學(xué)圖表的信息圖,甚至調(diào)用地理知識(shí)標(biāo)注關(guān)鍵數(shù)據(jù)。
打開網(wǎng)易新聞 查看精彩圖片
(提示:「我在 Marin 開設(shè)了一家名為 Haein 的傳統(tǒng)概念餐廳,主打采用有機(jī)農(nóng)場新鮮食材烹制的韓式料理,并根據(jù)時(shí)令供應(yīng)輪換菜單。請您設(shè)計(jì)一份菜單圖片,需包含以下菜品 —— 整體風(fēng)格要兼顧傳統(tǒng) / 鄉(xiāng)村韻味與高端精致感。請為每道菜品配上優(yōu)雅的彼得兔風(fēng)格的插畫,確保所有文字正確呈現(xiàn),并使用白色背景。
頂部:大醬湯(發(fā)酵大豆燉菜) - 18 美元
大醬湯是用當(dāng)?shù)氐哪⒐?、豆腐和時(shí)令蔬菜做成的,配上米飯……
底部:時(shí)令米酒 —— 每杯 12 美元」)
二、實(shí)測效果:這些圖你敢信是AI畫的?
OpenAI官方放出的案例已讓網(wǎng)友驚呼“瘋狂”,而普通用戶的實(shí)測更讓人瞠目結(jié)舌:
- 場景1:韓式餐廳菜單設(shè)計(jì)
用戶描述“傳統(tǒng)與高端融合的韓餐菜單,配彼得兔風(fēng)格插畫”,GPT-4o生成的圖片中,菜品名稱、價(jià)格、插畫排版堪比專業(yè)設(shè)計(jì)師作品,連“時(shí)令米酒”的字體陰影都細(xì)膩逼真。
- 場景2:科幻級游戲角色迭代
一位開發(fā)者上傳草圖后,通過對話逐步添加“賽博朋克機(jī)械臂”“發(fā)光紋身”,GPT-4o在10次修改中始終保持角色面部特征一致,最終輸出可直接用于3D建模的設(shè)定圖。
- 場景3:學(xué)術(shù)圖表秒變PPT
用戶輸入“牛頓棱鏡實(shí)驗(yàn)圖解”,生成信息圖后追加指令:“把圖放到咖啡桌上,加個(gè)畫圖的人”,GPT-4o立即輸出第一視角場景,連桌面的反光都真實(shí)到離譜。
網(wǎng)友辣評:
“OpenAI這是把Midjourney+Photoshop+PPT三合一了,還附贈(zèng)一個(gè)24小時(shí)待命的藝術(shù)總監(jiān)!” “以后甲方說‘感覺不對’的時(shí)候,我可以當(dāng)場改給他看,再也不用熬夜了……”三、技術(shù)內(nèi)幕:人類訓(xùn)練師如何“教AI畫畫”?
GPT-4o的突破背后,是一套**“人類反饋強(qiáng)化學(xué)習(xí)(RLHF)”**的殺手锏。OpenAI研究員Gabriel Goh透露,團(tuán)隊(duì)雇傭了大量人類訓(xùn)練師,專門標(biāo)注AI生成圖像中的錯(cuò)別字、畸形手腳、透視錯(cuò)誤等問題,再讓模型從錯(cuò)誤中學(xué)習(xí)。
四大技術(shù)升級點(diǎn):
- 文本-圖像聯(lián)合訓(xùn)練
模型同時(shí)學(xué)習(xí)文本、代碼和圖像的關(guān)聯(lián),而非單獨(dú)處理圖像;
- 上下文感知生成
能記住聊天歷史中的圖像和描述,確保多次輸出風(fēng)格統(tǒng)一;
- 超強(qiáng)多對象處理
單張圖可容納10-20個(gè)不同物體,且能精準(zhǔn)綁定屬性(比如“穿紅裙拿藍(lán)氣球的女人”);
- 風(fēng)格無縫切換
從手繪草圖到4K寫實(shí),只需一句指令。
- 設(shè)計(jì)行業(yè)
Logo、海報(bào)、包裝設(shè)計(jì)成本直降90%,小型企業(yè)甚至個(gè)人博主都能擁有“專屬設(shè)計(jì)團(tuán)隊(duì)”。
- 游戲開發(fā)
NPC角色、場景原畫、UI界面均可AI生成,有團(tuán)隊(duì)實(shí)測“3天做完過去1個(gè)月的美術(shù)工作量”。
- 教育出版
“牛頓棱鏡實(shí)驗(yàn)”“細(xì)胞結(jié)構(gòu)圖”等教學(xué)素材可一鍵生成,還能根據(jù)教材版本定制風(fēng)格。
- 廣告營銷
“生成100版母親節(jié)海報(bào)A/B測試”成為可能,品牌方驚呼“再也不用為改稿扯皮了”。
- 影視概念設(shè)計(jì)
《流浪地球4》團(tuán)隊(duì)被曝已接入GPT-4o,用于快速迭代科幻場景設(shè)定。
即日起,**所有ChatGPT用戶(包括免費(fèi)版)**均可通過以下步驟嘗鮮:
打開ChatGPT,輸入“/image”觸發(fā)圖像模式;
用自然語言描述需求,例如:“一張賽博朋克風(fēng)格的貓咪偵探海報(bào),背景是雨夜東京,文字標(biāo)題《Whisker Code》”;
添加細(xì)節(jié)參數(shù)(可選):“比例16:9,主色調(diào)#FF5733,右側(cè)留白20%”;
生成后輸入“把貓改成三只,加上霓虹燈邊框”,AI會(huì)自動(dòng)迭代。
高階技巧:
- 上傳圖片+指令
:拍下你的草圖,讓AI轉(zhuǎn)化成專業(yè)設(shè)計(jì)稿;
- 知識(shí)庫調(diào)用
:輸入“用GPT-4o的知識(shí)解釋量子計(jì)算,并生成信息圖”;
- 多模態(tài)組合
:先讓AI寫一首詩,再命令“把這首詩變成蛋殼紋理的卡片”。
盡管GPT-4o強(qiáng)到逆天,OpenAI也坦承其局限:
- 長圖易翻車
:生成海報(bào)時(shí)底部可能被裁剪,需多次調(diào)整;
- 非拉丁文字偶現(xiàn)亂碼
:中文標(biāo)語建議生成后人工校對;
- 版權(quán)黑洞
:訓(xùn)練數(shù)據(jù)含大量未授權(quán)藝術(shù)作品,商用需謹(jǐn)慎。
Sam Altman說這是“創(chuàng)作自由的新高度”,但藝術(shù)家群體已分裂成兩派:
- 樂觀派
“AI把重復(fù)勞動(dòng)自動(dòng)化,人類終于可以專注真正的創(chuàng)意!”
- 悲觀派
“當(dāng)甲方自己會(huì)生成100版方案,設(shè)計(jì)師連改稿的機(jī)會(huì)都沒了……”
無論如何,一個(gè)事實(shí)已無法逆轉(zhuǎn):誰先掌握GPT-4o,誰就握住了視覺時(shí)代的入場券。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
熱門跟貼