最近兩周,“吉卜力畫風”突然就火了。

事情的開始是這樣的,3月26日,OpenAI推出了基于GPT-4o多模態(tài)大模型的高精度圖像生成功能“4o Image Generation”,按照他們的說法,現在用戶只需一句簡單的文字描述,就能實現精美的廣告或平面圖的制作、應用界面的UI設計、LOGO或圖片風格的切換等等。

結果呢?整個互聯網的人,都在用它變身“賽博宮崎駿”。

不開玩笑,小雷是真被這玩意給刷屏了,這兩天一打開群聊,就能看到無法無天的群友們在拿GPT-4o瘋狂整活,有做頭像的,有做表情包的,甚至還有把“黃O大道東”變成吉卜力畫風的,推特上的國外網友玩得更是樂此不疲,看得我都有點心癢癢的。

打開網易新聞 查看精彩圖片

(圖源:X)

幸好,類似的功能,國內大模型并不是沒有。

比如說字節(jié)跳動的SeedEdit,同樣可以實現“自然語意修圖”,用戶只需輸入簡單的自然語言,便可對圖像進行多樣化編輯操作。

最重要的是,這功能可不需要你想方設法翻出去用,在字節(jié)跳動的豆包官網就直接能用,而且目前豆包的“圖像生成”功能是完全免費且不存在限制的,這一波甚至能把開會員的錢也給直接省下來。

話不說多,我們這邊直接開整!

豆包這款產品,讓人人都是宮崎駿

想體驗這個功能的話,其實還蠻簡單的就是了。

打開豆包網頁版,在輸入框下面就有「圖片生成」,應該就能看到上傳參考圖的選項了,這里就是SeedEdit模型的入口。

要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內容。

打開網易新聞 查看精彩圖片

圖源:雷科技)

話不多說,先來看圖。

首先,小雷這邊選用了一張來自知名音樂錄像帶里的截圖,讓豆包和最近巨火的GPT-4o都試著“幫我換成吉卜力風格”。

這是原圖:

打開網易新聞 查看精彩圖片

(圖源:Youtube)

這是豆包的成品:

打開網易新聞 查看精彩圖片

(圖源:豆包)

這是GPT-4o的成品:

打開網易新聞 查看精彩圖片

(圖源:GPT)

對比下來,GPT-4o的衣服還原度更高,手部沒有變形,只是沒有維持原圖比例;豆包雖然整體構圖、配色更加貼近原圖,但是衣服有些微變化,手部有些變形,甚至多了一只抓著麥克風的手。

接著試一下大家都關心的名人,比如說馬斯克

打開網易新聞 查看精彩圖片

(圖源:豆包)

比方說喬布斯

打開網易新聞 查看精彩圖片

(圖源:豆包)

再給喬布斯換個迪士尼風格:

打開網易新聞 查看精彩圖片

(圖源:豆包)

從結果來看,豆包的轉換效果可以說是非常成熟。

最后,我們試一試影視劇集里的名場面,這次就拿《和平使者》里面約翰·塞納飾演的克里斯多福·史密斯的名場面做例子:

打開網易新聞 查看精彩圖片

(原圖,圖源:HBO Max)

打開網易新聞 查看精彩圖片

(圖源:豆包)

打開網易新聞 查看精彩圖片

(圖源:GPT)

這次差距其實更加明顯一些,GPT-4o甚至把金屬頭盔保留了下來,身邊的兩名角色也做到了精準的畫風轉制,但是圖片比例有所修改,文字信息也沒有保留下來。

作為對比,豆包則是試圖在整幅畫面上進行對齊,然而人數一多起來,角色的服裝和樣子就沒多少能對上的。

但是,接著我就要說但是了,豆包的效果還是比Gemini 2.0要強上一大截的,谷歌這玩意雖然支持自然語意修圖,但是既不懂吉卜力風格是啥意思,也搞不清楚怎么修改圖片比例。

打開網易新聞 查看精彩圖片

(圖源:Gemini 2.0)

可惡的谷歌,不要給我看這一堆不知所謂的東西!

其實把思路反過來,把畫改成真實風格,豆包搞得也不錯,我上傳了一張刻在不少人基因里的Meme圖片,讓它以此為原型,生成一張真實照片。

打開網易新聞 查看精彩圖片

(圖源:豆包)

嗯...只能說像是挺像的,就是沒了那種沖擊感。

如果再簡單調整一下的話,就能做出下面這種效果:

打開網易新聞 查看精彩圖片

(圖源:豆包)

雖說臉型有點不對,笑得也是有點猙獰,但是這種打破次元壁的做法,還真就只有AI大模型能夠實現。

豆包圖片處理能力在線,但仍有較大改進空間

豆包圖片處理能力在線,但仍有較大改進空間

不過,人人都在用吉卜力畫風,也帶來了新一輪的版權問題。

畢竟早在2016年,宮崎駿評價AI動畫技術時就直言:這是對生命本身的侮辱。

宮崎駿反對用技術代替手工創(chuàng)作,他認為AI生成圖像缺乏對生命力的敬畏,而在2025年的今天,技術力的進步,反而讓大家對這件事情變得更肆無忌憚了起來,確實是有點諷刺的。

打開網易新聞 查看精彩圖片

(圖源:Youtube)

既然如此,我們不妨轉換一下思路,把它當成PS來用?

比如在設計行業(yè)里源遠流長的梗,“讓大象轉個身”這種要求,我們在豆包上能不能實現呢?

打開網易新聞 查看精彩圖片

答案是“完全可以,輕易可以”

可以看到,SeedEdit生成的大象背面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當不錯,周圍的環(huán)境也保持了高度的一致,很難看出畫面上有什么破綻。

不過類似海報的效果,豆包就做得不咋樣了,和GPT-4o可以說一眼就能看出差別了。

打開網易新聞 查看精彩圖片

(圖源:豆包)

打開網易新聞 查看精彩圖片

(圖源:GPT)

只能說,豆包在審美這塊,還真有挺多要學的地方。

最后,我也試了一下豆包憑空進行“圖片生成”的效果。

提示詞如下:

一位年輕的印度女性,黑發(fā)扎著敞開的馬尾辮,身穿黑色夾克,站在大學校園里,直視著鏡頭。該圖像具有1990年代風格的電影靜態(tài)美學,在陽光明媚的日子里拍下的特寫肖像。

打開網易新聞 查看精彩圖片

(圖源:雷科技)

對比豆包,GPT-4o產出的圖更有特寫感;Midjourney V7產出的圖片光線更加自然,人物臉部的膚色也相對更加清晰,細節(jié)更加豐富,畫面焦點更加清晰,但總的來說,三者都沒啥肉眼可見的問題。

AI修圖,爆發(fā)在即

AI修圖,爆發(fā)在即

不可否認,如今AI大模型在“繪畫”上足以獨當一面了。

但是在圖像編輯領域,AI大模型依然是相對落后的,無法進行精準編輯一直是行業(yè)的老大難問題。

前些年,這類需求一般可以通過Stable Diffusion的ControlNet插件來實現。

它可以獲取額外的輸入圖像,通過不同的預處理器轉換為控制圖,進而作為Stable Diffusion擴散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細節(jié)。

打開網易新聞 查看精彩圖片

(圖源:新浪微博,識別特征并進行重新繪制)

然而本地部署AI應用這事,和大部分小白是基本無緣的。

所以在進入今年后,包括GPT-4o、Gemini 2、Midjourney V7等先后上線了通過自然語意修圖的功能。

個人認為,這種只需給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像的功能,甚至可以被視為重大突破,曾經被視為必備技能的PS,如今似乎陷入了“可學可不學”的微妙處境。

當然了,目前這類模型在生成圖片時還是有一些問題存在的。

直到今天,豆包AI修圖依然缺乏人像前后的一致性,也缺乏圖片內容的方向性,只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,豆包本身也很難判斷你要修改的是圖片里的哪個元素。

打開網易新聞 查看精彩圖片

(圖源:豆包)

倒是文字處理能力,相較以往有了一定提升,現在SeedEdit在修圖時已經不會隨便編造文字內容,但是圖片生成時的錯字現象依然需要改善。

不管怎么說,豆包SeedEdit算是彌補了國產大模型在語義AI修圖應用這塊的空白。

可以預見的是,隨著AI圖像編輯技術的不斷發(fā)展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴圖那樣走進尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現出來。

修圖有手就行?或許真的不是夢。