作者| 吳玖玖

編輯| 李尋歡

全球AI文生影像技術(shù),再次迎來(lái)爆發(fā)式迭代。

OpenAI推出的GPT-4o,正以“吉卜力風(fēng)格的照片”生成能力席卷全網(wǎng),在全球范圍內(nèi)掀起創(chuàng)作熱潮。從《泰坦尼克號(hào)》的經(jīng)典鏡頭,到《讓子彈飛》的“敢殺我的馬”,從周潤(rùn)發(fā)的美元點(diǎn)煙,到張敏的回眸一笑,沒(méi)有什么照片是不能吉卜力化的。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在這場(chǎng)技術(shù)浪潮中,中國(guó)AI生態(tài)圈并未缺席,甚至在吉卜力化這件事上,比OpenAI還要早。比如去年《你想活出怎樣的人生》大爆時(shí),宮崎駿濾鏡就在抖音相當(dāng)火爆。

從短視頻平臺(tái)的千萬(wàn)級(jí)用戶培育,到微短劇的工業(yè)化生產(chǎn),本土企業(yè)以“場(chǎng)景驅(qū)動(dòng)”為核心,走出了一條差異化發(fā)展路徑??焓帧⒆止?jié)、阿里云等頭部玩家通過(guò)深耕電商、影視、游戲等垂直領(lǐng)域,不僅縮短了與國(guó)際頂尖技術(shù)的代差,更讓AI從實(shí)驗(yàn)室工具升級(jí)為產(chǎn)業(yè)變革的核心引擎。

隨著OpenAI Sora模型拉高文生視頻的技術(shù)門檻,國(guó)內(nèi)頭部企業(yè)選擇“兩條腿走路”:一方面,通過(guò)算法優(yōu)化逼近國(guó)際頂尖水平;另一方面,深耕本土化需求,技術(shù)的差異化價(jià)值逐漸顯現(xiàn),商業(yè)化成果成為最佳注腳

站在千億級(jí)市場(chǎng)的門檻上,中國(guó)文生影像生態(tài)正面臨新挑戰(zhàn)??耧j突進(jìn)的技術(shù)仍需回答關(guān)鍵問(wèn)題:當(dāng)算法能精準(zhǔn)復(fù)刻藝術(shù)風(fēng)格,如何在效率與原創(chuàng)性間找到平衡?當(dāng)AI生成內(nèi)容滲透至影視工業(yè),傳統(tǒng)人力智慧的價(jià)值將如何重構(gòu)?

GPT-4o變“祺貴人告發(fā)”為動(dòng)畫名場(chǎng)面,技術(shù)平權(quán)還是版權(quán)暗戰(zhàn)?

近日,有網(wǎng)友借助OpenAI最新推出的GPT-4o多模態(tài)模型,將經(jīng)典宮斗劇《甄嬛傳》進(jìn)行“吉卜力風(fēng)格”轉(zhuǎn)換,生成的動(dòng)畫版視頻上線后,讓網(wǎng)友大呼“人類對(duì)《甄嬛傳》的開(kāi)發(fā)進(jìn)度不足1%”。

人物方面,GPT-4o 對(duì)甄嬛、皇后、葉瀾依等角色進(jìn)行了細(xì)膩的風(fēng)格化處理,在保留原特征的同時(shí),放大了二次元審美元素——面部輪廓更柔和、眼睛更大且更具神采。

例如在“吉卜力版祺貴人告贏沒(méi)”視頻中,當(dāng)動(dòng)畫版的祺貴人做出那個(gè)經(jīng)典的發(fā)誓動(dòng)作告發(fā)甄嬛時(shí),觀眾既能瞬間識(shí)別出原劇情節(jié),又能享受到風(fēng)格轉(zhuǎn)換帶來(lái)的新鮮視覺(jué)體驗(yàn)。

在場(chǎng)景渲染上,AI 的調(diào)整更為顯著:原本肅穆的宮殿被賦予童話般的夢(mèng)幻感,屋頂線條更流暢,色彩飽和度提升卻不刺眼,輔以雕欄畫棟、繁花、蝴蝶等細(xì)節(jié),使整個(gè)畫面宛如直接從吉卜力工作室的動(dòng)畫中截取而來(lái)。

在相關(guān)視頻評(píng)論區(qū),"求AI做番外"的呼聲此起彼伏,甚至有網(wǎng)友腦洞大開(kāi)地設(shè)想"甄嬛和安陵容騎著掃帚飛"的奇幻劇情。

《瘋狂的麥克斯》《西游記》《讓子彈飛》等經(jīng)典影視作品也紛紛被網(wǎng)友用AI"吉卜力化",其中《泰坦尼克號(hào)》杰克與露絲在船頭相擁等經(jīng)典鏡頭都獲得了數(shù)十萬(wàn)的播放量,被網(wǎng)友戲稱為“GPT-4o殺死比賽”。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這場(chǎng)創(chuàng)作熱潮已從單純的影視改編擴(kuò)展至全領(lǐng)域內(nèi)容創(chuàng)作:從網(wǎng)紅表情包到名人惡搞,從經(jīng)典名場(chǎng)面到普通用戶的生活照,全網(wǎng)都充斥著吉卜力風(fēng)格的AI作品。

OpenAI首席執(zhí)行官Sam Altman也親自下場(chǎng)參與,不僅將自己的社交賬號(hào)頭像更換為吉卜力風(fēng)格的AI圖像,還在X發(fā)文分享使用體驗(yàn)。

GPT-4o的圖片生成功能展現(xiàn)出了強(qiáng)大的性能,用戶只需在提示詞中包含“吉卜力”或其英文“ghibli”,該模型便能精準(zhǔn)理解需求,生成唯美而富有故事感的畫面。

它不僅能精準(zhǔn)還原吉卜力的色彩與筆觸,最多還能處理10-20個(gè)不同對(duì)象,且元素布局合理,連倒影效果都能呈現(xiàn)。如今,由于訪問(wèn)量過(guò)大,OpenAI不得不對(duì)生圖速率進(jìn)行限制,目前免費(fèi)用戶每天可生成3次圖片。

GPT-4o掀起的"吉卜力熱"現(xiàn)象,推動(dòng)了“視覺(jué)表達(dá)權(quán)”的普惠化——AI技術(shù)正重塑數(shù)字時(shí)代的創(chuàng)作邊界。通過(guò)算法對(duì)藝術(shù)風(fēng)格的精準(zhǔn)解構(gòu)與再創(chuàng)造,普通用戶得以跨越專業(yè)門檻,以前所未有的自由度實(shí)現(xiàn)個(gè)性化視覺(jué)敘事,本質(zhì)上是技術(shù)對(duì)創(chuàng)作主體性的再分配。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

GPT-4o圖像生成功能推出的同時(shí),也帶來(lái)了版權(quán)爭(zhēng)議。

因?yàn)樵撃P湍軌颉熬珳?zhǔn)還原”吉卜力工作室的獨(dú)特風(fēng)格,這引發(fā)了關(guān)于OpenAI是否在未經(jīng)許可的情況下使用吉卜力作品進(jìn)行訓(xùn)練的質(zhì)疑。目前,利用版權(quán)作品訓(xùn)練AI模型是否屬于合理使用,以及從網(wǎng)絡(luò)爬取內(nèi)容用于數(shù)據(jù)庫(kù)是否構(gòu)成侵權(quán),這些問(wèn)題仍處于法律的灰色地帶,尚未有明確的法律定論。

此外,吉卜力工作室的聯(lián)合創(chuàng)辦人宮崎駿曾在2016年明確表示對(duì)AI生成內(nèi)容的不滿,認(rèn)為這種技術(shù)是對(duì)“生命本身的侮辱”,并強(qiáng)調(diào)不會(huì)將其融入自己的作品。

如今,他的擔(dān)憂正在變成現(xiàn)實(shí):從分鏡繪制到場(chǎng)景設(shè)計(jì),傳統(tǒng)動(dòng)畫制作中的人力智慧正面臨算法的高效挑戰(zhàn)。技術(shù)便利與原創(chuàng)保護(hù)的矛盾,正在重塑整個(gè)行業(yè)的成本結(jié)構(gòu)與發(fā)展邏輯。

“百模大戰(zhàn)”三年,AI文生影像更好了嗎?

當(dāng)OpenAI的GPT-4o在2025年春季掀起圖像生成技術(shù)新浪潮時(shí),中國(guó)AI生態(tài)圈同步上演“技術(shù)共振”——深度求索(DeepSeek)推出DeepSeek-V3-0324版本升級(jí),阿里巴巴則開(kāi)源參數(shù)規(guī)模達(dá)320億的Qwen2.5-Omni。

2022年8月,Stable Diffusion以開(kāi)源模式向全球開(kāi)放模型代碼,憑借其出色的成本效益、高質(zhì)量的圖像輸出和強(qiáng)大的邏輯理解能力,迅速成為AI繪畫領(lǐng)域的標(biāo)桿。受此技術(shù)浪潮影響,國(guó)內(nèi)短視頻平臺(tái)抖音迅速跟進(jìn),推出“抖音AI繪畫(二次元)”功能,成功培育出國(guó)內(nèi)首個(gè)規(guī)模突破千萬(wàn)的AI繪畫用戶群體

被視為大模型元年的2023年,也開(kāi)啟了“百模大戰(zhàn)”的序幕。3月,百度率先發(fā)布“文心一言”,成為國(guó)內(nèi)首個(gè)公開(kāi)的生成式AI大模型。隨后,華為、阿里、360等國(guó)內(nèi)科技巨頭紛紛跟進(jìn),相繼推出了各自的大模型產(chǎn)品,涉及文生圖、圖像編輯等功能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

國(guó)內(nèi)文生影像模型初期以中文語(yǔ)義理解優(yōu)化為主,在中文創(chuàng)作場(chǎng)景中展現(xiàn)出更強(qiáng)的適配性,尤其受到中小企業(yè)和內(nèi)容創(chuàng)作者的青睞。不過(guò),在生成質(zhì)量層面,相較于Midjourney等國(guó)際頭部產(chǎn)品,國(guó)內(nèi)模型在光影層次、細(xì)節(jié)精致度等藝術(shù)表現(xiàn)力上仍存在可見(jiàn)差距。

AI文生影像技術(shù)在2024年迎來(lái)質(zhì)變突破。2月,OpenAI推出革命性的Sora模型,將文生視頻技術(shù)推向新高度——根據(jù)文本指令生成長(zhǎng)達(dá)60秒的高清視頻,支持多鏡頭視角和復(fù)雜任務(wù)處理,重新定義了行業(yè)標(biāo)準(zhǔn)。

這階段,在國(guó)內(nèi)AI文生影像的發(fā)展主要集中在場(chǎng)景化落地與技術(shù)追趕。一方面通過(guò)算法優(yōu)化縮短核心能力差距;另一方面深耕本土化場(chǎng)景,將文生視頻技術(shù)快速接入短視頻創(chuàng)作、電商展示等實(shí)際應(yīng)用。

2024年,中國(guó)AI文生影像領(lǐng)域迎來(lái)密集創(chuàng)新。字節(jié)跳動(dòng)9月推出的PixelDance和Seaweed模型,精準(zhǔn)切合短視頻生產(chǎn)需求——前者通過(guò)復(fù)雜運(yùn)鏡和連貫動(dòng)作生成,大幅提升內(nèi)容創(chuàng)作效率;后者憑借60秒快速出片能力,成為短視頻創(chuàng)作者的效率工具。

阿里云通義則展現(xiàn)了商業(yè)化深度:通過(guò)歷史場(chǎng)景還原、多人物互動(dòng)等功能的強(qiáng)化,配合免費(fèi)額度策略,已深度嵌入電商平臺(tái)的商品素材生產(chǎn)全流程。而美圖"奇想大模型"另辟蹊徑,以國(guó)風(fēng)元素訓(xùn)練數(shù)據(jù)為基礎(chǔ),打造出兼具文化特色與級(jí)質(zhì)感的生成效果,成為MCN機(jī)構(gòu)內(nèi)容生產(chǎn)的重要工具。

在artificialanalaysis.ai的全球盲測(cè)中,快手可靈1.5 Pro版本與Google Veo 2并列前兩名,展現(xiàn)了中國(guó)視頻生成技術(shù)的國(guó)際競(jìng)爭(zhēng)力。2024年6月面世以來(lái),該軟件相繼開(kāi)放了圖生視頻、視頻續(xù)寫等能力,還具備 AI 試衣等功能。商業(yè)化方面,截至2025年2月,快手可靈AI已實(shí)現(xiàn)超1億元營(yíng)收,服務(wù)小米、亞馬遜云科技等數(shù)千家企業(yè)客戶,并開(kāi)創(chuàng)性地推動(dòng)了AI在影視制作領(lǐng)域的深度應(yīng)用——國(guó)內(nèi)首部全AIGC微短劇《山海奇鏡之劈波斬浪》的誕生。

當(dāng)前國(guó)內(nèi)AI生成技術(shù)已實(shí)現(xiàn)重要突破,正從單一模態(tài)向多模態(tài)協(xié)同創(chuàng)作演進(jìn)。在電商產(chǎn)品展示、游戲素材制作等商業(yè)場(chǎng)景中,動(dòng)態(tài)生成技術(shù)已實(shí)現(xiàn)深度應(yīng)用,大幅提升內(nèi)容生產(chǎn)效率。頭部產(chǎn)品在圖像細(xì)節(jié)處理與文本指令匹配精度上已逼近國(guó)際頂尖水平,技術(shù)代差顯著縮小。

但在創(chuàng)意表達(dá)的豐富性和藝術(shù)風(fēng)格的多樣性方面,國(guó)內(nèi)模型仍有提升空間,這或?qū)⒊蔀橄乱浑A段技術(shù)攻關(guān)的重點(diǎn)方向。

文生影像,開(kāi)始狂飆

如今,國(guó)內(nèi)文生影像技術(shù)已進(jìn)入商業(yè)化爆發(fā)期,頭部平臺(tái)的技術(shù)突破正在重塑內(nèi)容生產(chǎn)生態(tài),千億級(jí)市場(chǎng)規(guī)模加速形成。這一進(jìn)程的核心首先在于技術(shù)能力從“基礎(chǔ)可用”向“專業(yè)好用”的跨越式發(fā)展。

例如,快手自研的"可靈"視頻大模型率先實(shí)現(xiàn)多項(xiàng)突破,不僅將單次生成時(shí)長(zhǎng)提升至3分鐘、分辨率達(dá)1080P,并支持自由寬高比調(diào)整,物理規(guī)律模擬能力接近真實(shí)世界。用戶只需上傳一張照片,即可生成“AI舞王”等趣味動(dòng)態(tài)視頻,技術(shù)門檻大幅降低。

專業(yè)化場(chǎng)景的深耕則代表下一階段方向。預(yù)計(jì)4月7日全量開(kāi)放的字節(jié)即夢(mèng)3.0模型選擇人像生成作為突破口,通過(guò)2K超清輸出與亞表皮級(jí)細(xì)節(jié)渲染,首次在數(shù)字生成領(lǐng)域?qū)崿F(xiàn)了“以假亂真”的視覺(jué)效果。該模型展現(xiàn)出的構(gòu)圖能力和光影處理水平已接近專業(yè)攝影師水準(zhǔn),特別是對(duì)中國(guó)元素的精準(zhǔn)呈現(xiàn),使其在中文內(nèi)容創(chuàng)作領(lǐng)域建立起獨(dú)特優(yōu)勢(shì)。

市場(chǎng)反饋進(jìn)一步驗(yàn)證了技術(shù)的成熟度。2024年Q4,快手AIGC短視頻素材日均消耗飆升至3000萬(wàn)元,短劇營(yíng)銷消耗同比激增300%以上。這一增長(zhǎng)背后,是磁力引擎平臺(tái)通過(guò)DeepSeek-R1模型的深度整合,實(shí)現(xiàn)了從文案生成到數(shù)字人視頻制作的端到端AI化,使廣告制作成本從過(guò)去的“萬(wàn)元級(jí)”降至“百元級(jí)”。

據(jù)報(bào)道,目前已有近2萬(wàn)商家借助快手AI工具實(shí)現(xiàn)高效內(nèi)容生產(chǎn),AIGC技術(shù)已從實(shí)驗(yàn)室走向規(guī)?;虡I(yè)落地。此外,文生影像技術(shù)正在賦能和改編傳統(tǒng)影視工業(yè)。央視推出的AI全流程微短劇《中國(guó)神話》,從分鏡到配音均由AI完成,開(kāi)創(chuàng)主流媒體應(yīng)用先例。2024年末,快手“可靈AI”聯(lián)合李少紅、賈樟柯等9位導(dǎo)演推出AIGC電影短片,涵蓋奇幻、科幻等多元類型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

當(dāng)前,國(guó)內(nèi)文生影像發(fā)展已呈現(xiàn)出"平臺(tái)生態(tài)+垂直深耕"的雙輪驅(qū)動(dòng)格局。頭部平臺(tái)通過(guò)大模型構(gòu)建基礎(chǔ)設(shè)施,專業(yè)團(tuán)隊(duì)在細(xì)分領(lǐng)域打磨差異化能力。從算法突破到產(chǎn)業(yè)落地,國(guó)內(nèi)文生影像技術(shù)正以場(chǎng)景為錨點(diǎn),構(gòu)建起技術(shù)迭代與商業(yè)價(jià)值的正向循環(huán)。

快手、字節(jié)跳動(dòng)、騰訊等平臺(tái)通過(guò)降低創(chuàng)作門檻、提升內(nèi)容品質(zhì),已推動(dòng)AIGC從“實(shí)驗(yàn)性工具”升級(jí)為“生產(chǎn)力引擎”。

從行業(yè)整體來(lái)看,文生影像技術(shù)正在沿著兩個(gè)維度快速發(fā)展。

橫向拓展應(yīng)用場(chǎng)景。從短視頻、直播延伸到電商、教育等領(lǐng)域。縱向深耕專業(yè)能力。在畫質(zhì)、時(shí)長(zhǎng)、交互性等方面持續(xù)突破。技術(shù)突破與商業(yè)變現(xiàn)已形成良性循環(huán)。

一方面,AIGC內(nèi)容日均消耗的快速增長(zhǎng)印證了市場(chǎng)認(rèn)可度;另一方面,商業(yè)收益又反哺技術(shù)研發(fā),推動(dòng)產(chǎn)品迭代。

隨著多模態(tài)協(xié)同能力的深化,文生影像有望在影視工業(yè)化、教育可視化等領(lǐng)域釋放更大潛力,持續(xù)推動(dòng)數(shù)字內(nèi)容生態(tài)的進(jìn)化與革新。