打開網(wǎng)易新聞 查看精彩圖片

出品|虎嗅科技組

作者|余楊

編輯|苗正卿

頭圖|視覺中國

在大模型熱火朝天的戰(zhàn)斗之中,吉卜力拉了OpenAI一把。

4月7日消息,OpenAI正在測試為GPT-4o圖像生成模型加入水印。

這是一款最初只對ChatGPT Plus用戶開放的ImageGen模型,能夠生成帶有文字的圖片和逼真的視覺作品。OpenAI表示,該模型通過大量圖像與文本的聯(lián)合訓練,展現(xiàn)出驚艷的視覺表現(xiàn)力和良好的上下文理解能力。

一周前的愚人節(jié),OpenAI首席執(zhí)行官山姆·奧特曼剛剛宣布,ChatGPT圖像生成功能將向所有免費用戶推出。很快,吉卜力風格的 AI 圖迅速全網(wǎng)刷屏。

緊隨其后,Midjourney 發(fā)布 AI 圖片生成模型 Midjourney V7 版本并開啟 alpha 測試。全新的“草圖模式”,支持對話式交互界面、實時編輯、語音識別生成功能。作為OpenAI的“同款”,Midjourney不甘示弱,和OpenAI 暗暗較勁。

打開網(wǎng)易新聞 查看精彩圖片

“吉卜力”(Ghibli)是宮崎駿的動畫工作室和美術(shù)館的名稱,其含義指的是撒哈拉沙漠上吹過的熱風。風格特點主要是水粉與水彩的結(jié)合,動畫的核心多與自然相關(guān),又在自然中注入了高級灰,呈現(xiàn)出輕盈溫柔、舒適幽靜的視覺效果。

不僅如此,這種風格擅長通過同類色的色彩濾鏡傳達畫面情緒,在同類色比重較高的畫面中,又通過筆觸和細微配色差異性來調(diào)度畫面層次,運用暖光加強深淺層次。人物設計上則強調(diào)簡約與繪本風格,使用干練的簡筆線條勾勒形象。

OpenAI正在為免費用戶生成的圖像測試水印,而ChatGPT Plus用戶則可保存無水印圖像。

今天就一起來看看ChatGPT的魔法,測評一下OpenAI 的吉卜力實力。

prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風格

prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風格

prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風格

參與測評的玩家則有即夢、可靈和ChatGPT,也看看各家所長。

即夢AI

即夢AI

即夢的文生圖,速度很快,平均10秒。

不僅如此,支持圖片比例的調(diào)整,在完成圖片生成后,可以挑選圖片進行編輯,支持高清、細節(jié)修復、局部重繪、生成視頻、擴圖、消除筆等功能。

打開網(wǎng)易新聞 查看精彩圖片

最終生成圖如下。

prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

可靈AI

可靈AI

可靈的等待時間略長于即夢,大約30秒生成完畢。

不過,可靈有著較好的生態(tài)組合,prompt輸入框的右上角就有著DeepSeek的提示詞優(yōu)化入口,圖片生成完成后,又可以一鍵點擊生成視頻。也就是說,從文到圖、再從圖到視頻,可靈給安排得明明白白。

打開網(wǎng)易新聞 查看精彩圖片

最終生成效果如下。

prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

ChatGPT

ChatGPT

根據(jù)OpenAI在官網(wǎng)的介紹,它的文生圖模型DALL·E 3 是基于 ChatGPT 原生構(gòu)建的,它適用于利用 ChatGPT 做頭腦風暴創(chuàng)意,只需要詢問 ChatGPT 想在從簡單句子到詳細段落的任何內(nèi)容中看到什么即可。

和可靈借助DeepSeek一樣,ChatGPT 會自動為 DALL·E 3 生成量身定制的詳細提示。

同時支持對圖片的微調(diào),即如果對某張圖片大致滿意,但又有不太合適的地方,可以要求 ChatGPT 用幾句話進行調(diào)整。

點開右邊的更多,可以看到創(chuàng)建圖片的選項。選擇創(chuàng)建圖片,輸入prompt即可。

打開網(wǎng)易新聞 查看精彩圖片

整體來說,操作簡單,流程絲滑,30秒左右的時候已經(jīng)產(chǎn)生基本色調(diào),但整個過程的平均等待時長達到了150秒。

下面是成果。

prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風格

打開網(wǎng)易新聞 查看精彩圖片

總結(jié)

總結(jié)

即夢以平均10秒的生成速度脫穎而出,這種即時性對于需要快速迭代創(chuàng)意的用戶來說是巨大的優(yōu)勢。然而,速度的提升往往伴隨著細節(jié)把控的妥協(xié)。從生成效果來看,即夢的圖像雖然能夠快速呈現(xiàn)吉卜力風格的基調(diào),但在情緒傳達和層次調(diào)度上稍顯不足。尤其是prompt1中“沒有圓柏的北京”這一復雜場景,即夢的生成結(jié)果未能完全捕捉到“高級灰”與“自然氛圍”的微妙平衡。

相比之下,可靈雖然生成速度稍慢(約30秒),但通過DeepSeek的提示詞優(yōu)化和視頻生成能力,構(gòu)建了一個從文到圖再到視頻的完整生態(tài)。這種生態(tài)整合能力,尤其適合需要多模態(tài)輸出的用戶,比如動畫創(chuàng)作者或短視頻制作者。

從生成圖片的質(zhì)量上看,ChatGPT對吉卜力風格有著更好的理解,色調(diào)和情緒的把控都相對準確。例如,在prompt3“自由女神在電腦前辦公”這一腦洞場景中,ChatGPT成功捕捉到了“防藍光眼鏡”與“牛馬的苦惱”之間的微妙情緒張力,同時保持了吉卜力風格的輕盈與溫柔。

這種優(yōu)勢源于ChatGPT的提示詞優(yōu)化機制。它能夠根據(jù)用戶輸入的prompt,自動生成更詳細的描述,從而提升生成圖像的精準度。此外,ChatGPT支持對圖像的微調(diào)功能,允許用戶通過簡單的語言描述調(diào)整細節(jié),這種靈活性進一步增強了其在創(chuàng)意表達上的競爭力。

官網(wǎng)的展示中,ChatGPT所生成的圖片風格并不限于吉卜力,還有如下的細節(jié)圖、腦洞圖和創(chuàng)意圖。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

而對于圖片版權(quán)問題,大方開源,使用 DALL·E 3 創(chuàng)建的圖像歸屬用戶,無需獲得OpenAI許可即可重印、出售或銷售。

不僅如此,OpenAI確認正在開發(fā)ImageGen API,未來開發(fā)者可利用該API構(gòu)建應用產(chǎn)品,拓展圖像生成模型的應用場景。開發(fā)者可以利用該API構(gòu)建自己的應用產(chǎn)品,比如教育工具、設計輔助平臺等。這種開放生態(tài)的構(gòu)建,將推動AI生成圖像技術(shù)的普及與創(chuàng)新。

ChatGPT這次換了個思路。似乎顯示著,大語言模型一枝獨秀還不夠,集成多種生態(tài)的多元賽道勢頭正好。用產(chǎn)品cue著中國的大模型:該你出牌了。

本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4218368.html?f=wyxwapp