作者|沐風(fēng)
來(lái)源|AI先鋒官
就在谷歌宣布Gemini 2.5 Pro推出的當(dāng)天,OpenAI緊隨其后,在GPT-4o中推出了圖片生成的新功能。
2024年5月,OpenAI正式推出GPT-4o,作為一個(gè)原生多模態(tài)模型,現(xiàn)在它能夠直接從文本提示生成精確、逼真的圖像。
據(jù)OpenAI官方博客,GPT-4o圖像生成在準(zhǔn)確渲染文本、精確遵循提示以及利用4o的固有知識(shí)庫(kù)和聊天上下文方面表現(xiàn)出色,包括轉(zhuǎn)換上傳的圖像或?qū)⑵渥鳛橐曈X(jué)靈感。這些能力使得創(chuàng)建圖像更容易也更準(zhǔn)確。
GPT-4o還支持多輪生成,用戶可以通過(guò)自然對(duì)話來(lái)優(yōu)化圖像。
并且,由于GPT-4o是在聊天上下文中構(gòu)建圖像和文本,所以整個(gè)過(guò)程它可以完美的保持角色的一致性。
例如,當(dāng)你設(shè)計(jì)一個(gè)視頻游戲角色,在后續(xù)進(jìn)行任何優(yōu)化和試驗(yàn)時(shí),該角色的外觀可以在多個(gè)迭代中可以保持連貫。
我們先來(lái)看看OpenAI官方展示的案例。

下方這張圖片則為通過(guò)對(duì)話進(jìn)一步的修改結(jié)果:

再比如給下面這只貓戴一頂偵探帽和單片眼鏡。

你就會(huì)得到這張圖片:

那再將其更新為橫向圖像16:9比例,在UI中添加更多法術(shù),并取消縮放視覺(jué)對(duì)象,以便我們以第三人稱視角看到貓走過(guò)蒸汽朋克曼哈頓,從而產(chǎn)生美麗的對(duì)比和照明,就像在最好的3A游戲中一樣,具有冷色調(diào)。

以前,在AI生成的圖片中,文字往往會(huì)出現(xiàn)崩壞、亂碼等問(wèn)題,現(xiàn)在GPT-4o在生成文字能力上實(shí)現(xiàn)了躍升,無(wú)論是餐廳菜單、邀請(qǐng)函、科學(xué)實(shí)驗(yàn)示意圖還是品牌宣傳海報(bào)等,它都能搞定。




對(duì)此,讓它制作一個(gè)漫畫(huà)那也是手到擒來(lái)。

并且,GPT-4o的指令遵循能力也非常強(qiáng),用戶可以更精確的控制生成圖像的內(nèi)容,它還可以處理包含10-20個(gè)不同物體的場(chǎng)景,例如:



GPT-4o還可以直接從大模型中獲取知識(shí),從而生成與現(xiàn)實(shí)世界知識(shí)相符的圖像。
例如使用代碼生成圖像:


抹茶的制作過(guò)程:

雞尾酒配方:

當(dāng)然,也可以直接上傳圖片給GPT-4o,它可以分析和學(xué)習(xí)用戶上傳的圖像,精準(zhǔn)生成用戶想要的圖片,如:



不過(guò),GPT-4o也存在一些問(wèn)題,如:
GPT-4o 偶爾會(huì)裁剪較長(zhǎng)的圖像,例如海報(bào),尤其是在圖片底部。

與文本模型一樣,GPT-4o在圖像生成時(shí)也有可能產(chǎn)生幻覺(jué),尤其是在低上下文提示中。

在處理非拉丁語(yǔ)言時(shí),字符也可能出現(xiàn)不夠準(zhǔn)確或產(chǎn)生幻覺(jué)等情況,尤其是在復(fù)雜性更高的情況下。

文本如果過(guò)于密集也不行。

并且,在生成依賴于其知識(shí)庫(kù)的圖像時(shí),它可能難以一次準(zhǔn)確呈現(xiàn)10-20個(gè)不同的概念,例如完整的元素周期表。

而且,在對(duì)圖像特定部分(例如拼寫(xiě)錯(cuò)誤)提出修改的請(qǐng)求時(shí),可能會(huì)出bug,并且還可能以修改圖像的其他部分或引入更多錯(cuò)誤。

值得一提的是,從25日起,該功能向所有免費(fèi)和付費(fèi)用戶推出,替換DaLLE作為默認(rèn)圖像生成器,并將在未來(lái)幾周內(nèi)向開(kāi)發(fā)者開(kāi)放API調(diào)用。
但免費(fèi)版的每日?qǐng)D片生成數(shù)量仍然有限制(此前DALL-E為每天3張,GPT-4o具體數(shù)字暫未公布,但預(yù)計(jì)相似)。
另外,GPT-4o生成圖片的速度略慢于之前的DALL-E 3。對(duì)此OpenAI表示,“這點(diǎn)延遲完全值得,因?yàn)閳D片質(zhì)量和知識(shí)整合的提升遠(yuǎn)超等待幾秒帶來(lái)的不便。”
并且,就在今天凌晨,OpenAI在X上宣布GPT-4o再次迎來(lái)升級(jí)。
?更擅長(zhǎng)理解并執(zhí)行詳細(xì)的指令,尤其是同時(shí)包含多個(gè)請(qǐng)求的提示。
?在處理復(fù)雜的技術(shù)問(wèn)題和編程任務(wù)時(shí)表現(xiàn)更佳。
?直覺(jué)和創(chuàng)造力進(jìn)一步提升。
?更少使用表情符號(hào)。
并且,升級(jí)后的GPT-4o現(xiàn)已對(duì)所有付費(fèi)用戶開(kāi)放,免費(fèi)用戶將在未來(lái)幾周內(nèi)陸續(xù)體驗(yàn)到。

目前,已經(jīng)有許多網(wǎng)友在X上發(fā)布了自己生成的圖片,就讓我們一起來(lái)看看吧。








有意思的是,吉卜力風(fēng)在X上一夜爆火,網(wǎng)友紛紛開(kāi)始用GPT-4o生成吉卜力工作室風(fēng)格的圖片。




感興趣的小伙伴趕快去試試吧!
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢(qián)技能。
往期文章回顧
熱門(mén)跟貼