編者按:DeepSeek R1 面世之后,似乎整個(gè) AI 行業(yè)再次被推入了一個(gè)前所未有的加速軌道。

「深度思考」成為模型的標(biāo)配,Manus 這樣會(huì)干活的 Agent 也開始介入我們的工作流,GPT-4o 的生圖功能讓每個(gè)人都能作出媲美專業(yè)的的風(fēng)格。

今天凌晨,Runway 的新版本 Gen-4 又試圖解決 AI 視頻的一個(gè)關(guān)鍵難題,讓 AI 視頻更靠近電影級(jí)。

這一切都只發(fā)生在短短的 2 個(gè)多月內(nèi),很難想象今年 AI 會(huì)發(fā)展到什么程度,或許今年將會(huì)是 GPT-3.5 后真正的 AI 爆發(fā)年。

這是一個(gè)導(dǎo)演醞釀了十余年卻始終未能用 AI 實(shí)現(xiàn)的故事。

在此之前,要用 AI 打造這部視頻,需攻克一系列難題:角色形象的連貫性、情感表達(dá)的細(xì)膩度、物理效果的真實(shí)感、敘事的連續(xù)性,以及整體風(fēng)格的統(tǒng)一性。

 一張照片生成連貫全片!Runway Gen-4 深夜發(fā)布,終于捅破 AI 視頻多年的天花板
打開網(wǎng)易新聞 查看更多視頻
一張照片生成連貫全片!Runway Gen-4 深夜發(fā)布,終于捅破 AI 視頻多年的天花板

直到老牌 AI 視頻生成巨頭最新模型 Runway Gen-4 的到來,這款號(hào)稱全球首款實(shí)現(xiàn)「世界一致性」的模型橫空出世,意味著用戶可以創(chuàng)建具有一致環(huán)境、物體、位置和角色的連貫世界,才讓導(dǎo)演的夢(mèng)想照進(jìn)現(xiàn)實(shí)。

現(xiàn)在 Runway Gen-4 已向所有付費(fèi)用戶和企業(yè)客戶開放。Runway 團(tuán)隊(duì)還透露,用于角色、位置和物體一致性的場(chǎng)景參考功能即將推出。

官網(wǎng)顯示,Gen-4 的核心亮點(diǎn)包括:

世界一致性:能在多個(gè)場(chǎng)景中保持人物、場(chǎng)景和物體的一致性,無需額外精調(diào)。

參考圖能力:僅憑一張參考圖,即可在不同光線和場(chǎng)景中生成一致的角色或物體。

場(chǎng)景覆蓋:從任意角度重建和捕捉場(chǎng)景,只需提供參考圖和描述。

物理效果:模擬真實(shí)世界物理規(guī)律,呈現(xiàn)逼真的光照、陰影和動(dòng)態(tài)效果。

視頻質(zhì)量:具備極強(qiáng)的提示理解能力和世界構(gòu)建能力。

生成式視覺特效:提供快速、可控的視頻特效,可與實(shí)拍和傳統(tǒng)特效無縫融合。

打開網(wǎng)易新聞 查看精彩圖片

Runway 聯(lián)合創(chuàng)始人兼 CEO Cristóbal Valenzuela Barrera 在 X 平臺(tái)發(fā)文稱:

我們新一代用于媒體生成與世界一致性的 AI 模型系列來了。歡迎 Gen-4 的到來。這個(gè)模型非常特別,我們從零開始完全為一個(gè)目標(biāo)打造它:講述精彩的故事。

如開篇所說,Gen-4 的最大亮點(diǎn)在于實(shí)現(xiàn)了「世界一致性」——能夠在多個(gè)場(chǎng)景中精準(zhǔn)生成人物、場(chǎng)景和物體,并保持其視覺特征的一致性。

用戶只需設(shè)定好整體風(fēng)格和視覺效果,模型就能在保持每一幀獨(dú)特風(fēng)格、氛圍和電影質(zhì)感的同時(shí),維持連貫的世界環(huán)境。而這一切無需精調(diào)或額外訓(xùn)練。

通過結(jié)合視覺參考和文字指令,Gen-4 能夠生成風(fēng)格、主題、場(chǎng)景高度一致的圖像和視頻,大幅簡(jiǎn)化了專業(yè)內(nèi)容創(chuàng)作的流程,用戶現(xiàn)在可以制作 5 秒和 10 秒的 720p 高清視頻片段。

為了展現(xiàn) Gen-4 的潛力,Runway 團(tuán)隊(duì)精心打造了一系列短片。

開場(chǎng)鏡頭設(shè)定了《The Lonely Little Flame》整個(gè)短片的基調(diào)、感覺和氛圍。在其中一個(gè)場(chǎng)景中,有一只臭鼬在尋找什么東西。借助 Gen 4,創(chuàng)作者可以直接指導(dǎo)主體穿越場(chǎng)景。

他們?yōu)槌赭O(shè)定了兩個(gè)關(guān)鍵標(biāo)記點(diǎn),精確控制其移動(dòng)路徑——先移動(dòng)到場(chǎng)景一側(cè),再折返回來,成功營(yíng)造出「尋找」的動(dòng)態(tài)感。

打開網(wǎng)易新聞 查看精彩圖片

「就像所有偉大的動(dòng)畫一樣,你可以在角色設(shè)計(jì)和場(chǎng)景移動(dòng)中看到豐富的表現(xiàn)力,」團(tuán)隊(duì)成員解釋道,「同一角色在不同場(chǎng)景、不同光照條件下保持一致性,同時(shí)能夠表現(xiàn)不同的情緒和動(dòng)作?!?/p>

為了制作這個(gè)片段,Runway 團(tuán)隊(duì)的一名成員在幾個(gè)小時(shí)內(nèi)生成了幾百個(gè)單獨(dú)的視頻片段,然后將它們編輯成一個(gè)連貫的片段。音效是另外添加的。

在接受彭博社的采訪時(shí),Runway 聯(lián)合創(chuàng)始人兼 CEO Cristóbal Valenzuela Barrera 表示,整個(gè)過程花了幾天時(shí)間。

傳統(tǒng)的視覺特效制作往往需要耗費(fèi)大量時(shí)間進(jìn)行建模、渲染和后期調(diào)整,Runway Gen-4 引入生成式視覺特效(GVFX)技術(shù),能夠通過 AI 驅(qū)動(dòng)的生成能力,大幅縮短了這一過程。

GVFX 的技術(shù)核心在于其高效性和適應(yīng)性。

用戶只需提供簡(jiǎn)單的視覺參考或文字描述,例如角色的動(dòng)作、場(chǎng)景的氛圍或特定的特效需求,Gen-4 便能在短時(shí)間內(nèi)生成高質(zhì)量的視頻片段。

打開網(wǎng)易新聞 查看精彩圖片

一個(gè)具體的應(yīng)用案例是 Runway 團(tuán)隊(duì)在演示中展示的「木制玩具」場(chǎng)景。

Runway 團(tuán)隊(duì)成員拿出一個(gè)木制玩具,用手機(jī)拍攝照片后導(dǎo)入 Gen-4 作為參考,同時(shí)上傳了此前拍攝的紐約街景作為背景。通過一句簡(jiǎn)單描述:「木制玩具靠在紐約街道的人行道旁」,Gen-4 迅速生成了四張圖像。

挑選其中一張,挑選一張,并為畫面添加了行人從玩具前走過的動(dòng)畫效果?!改憧梢詫⑦@個(gè)玩具放在任何地方——山脈中、沙漠里,基本上你想做什么都可以?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

《牛群》是一部扣人心弦短片,講述了一名年輕男子在夜晚被追趕穿越一片牛群的故事。僅憑 Gen-4 和幾張簡(jiǎn)單的圖像參考,Runway 團(tuán)隊(duì)構(gòu)建了角色的每個(gè)鏡頭以及霧氣彌漫的牛群場(chǎng)景。

與此同時(shí),Runway 還運(yùn)用了 Act-One 技術(shù),進(jìn)一步增強(qiáng)了畫面的表現(xiàn)力與連貫性。

在這部短片中,制作團(tuán)隊(duì)特別強(qiáng)調(diào)了兩大技術(shù)亮點(diǎn):在牛的眼睛中可以看到人物的倒影,以及火焰在草地上蔓延的逼真物理效果。

這個(gè)案例展現(xiàn)了 Gen-4 如何利用一致的角色、物體和環(huán)境貫穿多個(gè)場(chǎng)景。創(chuàng)作者可以從一個(gè)精心設(shè)計(jì)的角色入手,構(gòu)建氛圍與外觀,再生成全新圖像,并為不同鏡頭和視角提供多樣變化。

打開網(wǎng)易新聞 查看精彩圖片

Gen-4 對(duì)現(xiàn)實(shí)物理世界的理解達(dá)到了新高度。

《紐約》短片將紐約不同區(qū)域的真實(shí)照片結(jié)合動(dòng)物的真實(shí)照片,清晰地展示了 Gen-4 對(duì)物理、動(dòng)物重量、它們?nèi)绾卧诒砻嬉苿?dòng)以及與環(huán)境互動(dòng)方式的理解。

打開網(wǎng)易新聞 查看精彩圖片

復(fù)雜的創(chuàng)意作品往往從一個(gè)簡(jiǎn)單的構(gòu)想開始。

視頻創(chuàng)作的過程也能像滾雪球一樣逐漸壯大,Runway 團(tuán)隊(duì)以一個(gè)音樂視頻為例,最初只是一張普普通通的猴子圖像,最終發(fā)展成一部?jī)?nèi)容豐富、節(jié)奏緊湊的完整音樂視頻。

 一張照片生成連貫全片!Runway Gen-4 深夜發(fā)布,終于捅破 AI 視頻多年的天花板
打開網(wǎng)易新聞 查看更多視頻
一張照片生成連貫全片!Runway Gen-4 深夜發(fā)布,終于捅破 AI 視頻多年的天花板

Runway CEO 去年曾做出過一個(gè)重要論斷,「AI 正在成為像電力或互聯(lián)網(wǎng)一樣的基礎(chǔ)設(shè)施。在今天稱自己為 AI 公司,就像在 2024 年稱自己為互聯(lián)網(wǎng)公司一樣。這沒有意義,因?yàn)槿巳硕荚谟?—— 每家公司都使用互聯(lián)網(wǎng);每家公司都將使用 AI。

正如電力革命不是關(guān)于發(fā)電廠,而是關(guān)于電燈、電視和電冰箱如何改變生活。在他看來,Runway 不是一家 AI 公司,而是一家媒體和娛樂公司。

Runway 此前已為美劇《大衛(wèi)王朝 》(House of David)生成影視場(chǎng)景,以及為 Puma 制作廣告等。

影視行業(yè)一直是 AI 視頻生成工具攻堅(jiān)的重要一環(huán)。去年 9 月,Runway 與著名電影制作公司獅門影業(yè)(Lionsgate)達(dá)成合作,這是首個(gè)大型電影公司與 AI 視頻模型供應(yīng)商直接簽訂的協(xié)議。

Runway 將利用獅門影業(yè)超過兩萬部影視作品的資料庫(kù),包括《饑餓游戲》等知名影片,構(gòu)建一個(gè)定制的 AI 視頻制作和編輯模型。該模型將應(yīng)用于故事板制作、背景創(chuàng)建和特效制作。

一支好的鋼筆不會(huì)讓作家思考墨水流動(dòng)的物理原理,優(yōu)秀的 AI 創(chuàng)作工具也不應(yīng)讓導(dǎo)演分心于算法細(xì)節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

Valenzuela 也指出,公司在訓(xùn)練其模型時(shí),更多地參考了電影行業(yè)的術(shù)語(yǔ),而不是過去的方式,目的是讓使用該模型的電影制作人在編寫提示時(shí)能夠更加自然。

我們后續(xù)將帶來 Gen-4 具體的實(shí)測(cè),但無論此次實(shí)際效果如何,一個(gè)不爭(zhēng)的趨勢(shì)是,生成 AI 視頻生成工具正在顛覆我們所知的電影和電視行業(yè)。

夢(mèng)工場(chǎng)的聯(lián)合創(chuàng)始人杰弗里·卡森伯格甚至表示,AI 可能會(huì)消滅動(dòng)畫電影 90% 的崗位。

傳統(tǒng)動(dòng)畫制作流程中的許多環(huán)節(jié)——中間幀繪制、背景設(shè)計(jì)、著色潤(rùn)色——可能被 AI 大幅簡(jiǎn)化或取代。但與此同時(shí),新的專業(yè)崗位正在涌現(xiàn),AI 提示工程師、視覺開發(fā)總監(jiān)、AI-人類協(xié)作編導(dǎo)等角色未來也將出現(xiàn)在制作名單中。

能夠渲染視頻,實(shí)現(xiàn)基礎(chǔ)生成功能——這是當(dāng)前 AI 視頻技術(shù)的普遍水平,而在 Runway Gen-4 此次的宣傳中,則強(qiáng)調(diào) AI 能夠創(chuàng)作真實(shí)故事,制作出既美觀又有娛樂性,能夠引起情感共鳴的內(nèi)容。

或許只有當(dāng)工具變得足夠簡(jiǎn)單,創(chuàng)作者才能真正關(guān)注重要的事情——講述觸動(dòng)人心的故事。

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱
hr@ifanr.com

?? 郵件標(biāo)題
「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)

打開網(wǎng)易新聞 查看精彩圖片