
作者|沐風(fēng)
來源|AI先鋒官
今年以來,從深度推理模型DeepSeek R1到混合推理模型Claude3.7、到AI Agent產(chǎn)品Manus、到谷歌最強模型Gemini 2.5 Pro,再到GPT-4o的生圖功能等等,可以說是王炸不斷。
就在昨天,AI初創(chuàng)公司Runway也放出了大招,發(fā)布了其最新研發(fā)的AI視頻生成模型Gen-4,讓AI視頻更靠近電影級。
相較于Gen-3,它在生成高動態(tài)性視頻方面表現(xiàn)更出色,不僅能呈現(xiàn)真實流暢的動作效果,還能保持主題、物體和風(fēng)格的一致性,同時具備卓越的提示遵循能力及場景理解能力。
Runway在其官方的博客中稱,Gen-4在高保真度和、一致性和指令遵循度均達(dá)到了同類頂尖水平。
其的最大亮點還是在于實現(xiàn)了“世界一致性”。
簡單來說,用戶只需提供角色的參考圖像,Gen-4就能夠在不同的視頻場景中保持角色、地點和物體的高度一致性,維持“連貫的世界環(huán)境”,整個過程無需進(jìn)行模型微調(diào)或額外的專門訓(xùn)練。
并且,它還能夠從場景內(nèi)的不同視角和位置重新生成元素。
例如,給它一張參考圖片,Gen-4就能讓圖片中的角色在各種場景、角度中始終保持形象一致。
物體也是如此。
如果你想要獲取場景的任意視角,只需提供拍攝對象的參考圖像并描述鏡頭的構(gòu)圖即可,Gen-4即可完成剩下的工作。
值得一提的是,Runway稱,“ Gen-4 代表了視覺生成模型在模擬真實世界物理能力方面的一個重要的里程碑?!?/p>
其展示演示的視頻中,Gen-4對于水、火、空氣流動以及在一些物理條件中人物和物體的表現(xiàn),都理解得極其細(xì)致入微,幾乎看不出失真的地方。
在Runway發(fā)布的宣傳片中,其還演示了用兩張照片生成影像級視頻的整個過程。
拍攝一張手中的玩具的照片,然后上傳了一張街景圖片,通過簡單的指令就將玩具融入到了街景當(dāng)中。
接著挑選其中一張照片,就能生成人們從玩具旁邊走過的視頻。
除此之外,你還可以將這個玩具放在任何地方,如雪地、山脈、沙漠等。
為了展現(xiàn)Gen-4的實力,Runway還專門放出了一系列完全使用Gen-4制作的視頻短片,每個時長都超過了100秒。
如:
《The Lonely Little Flame》
《The Herd》
《The Retrieval》
《NYC is a Zoo》
《Scimmia Vede》
在第一個《The Lonely Little Flame》短片中,為制作臭鼬尋找東西的片段時,Runway團隊為臭鼬設(shè)定了兩個關(guān)鍵標(biāo)記點,精確控制其移動路徑。
然后其中一名成員在幾個小時內(nèi)生成了幾百個單獨的視頻片段,將它們編輯成一個連貫的片段。
Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela Barrera在接受采訪時表示,整個過程花了幾天時間。
傳統(tǒng)的視覺特效制作往往需要耗費大量時間進(jìn)行建模、渲染和后期調(diào)整,但Gen-4引入了生成式視覺特效(GVFX)技術(shù),大幅縮短了這一過程。
GVFX的技術(shù)核心在于其高效性和適應(yīng)性。
可以快速、可控且靈活的生成視頻,可以與實時動作、動畫和VFX內(nèi)容無縫結(jié)合。
目前,Gen-4已向所有付費用戶和企業(yè)客戶開放,另外,用于角色、位置和物體一致性的場景參考功能也即將推出。
最后,小編也用其中的一個視頻幀發(fā)送給可靈1.6進(jìn)行參考,讓它生成視頻,結(jié)果......
一言難盡。

不僅人物臉部完全崩壞,最后還有個頭從車頂探了出來,唯獨汽車這段視頻在一致性上還做的不錯,只不過最后這輛無人駕駛的轎車像變形金剛似的來了波首尾調(diào)換。

掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
熱門跟貼