打開網(wǎng)易新聞 查看精彩圖片

作者|參商

編輯|星奈

媒體|AI大模型工場

我的朋友圈有一位隱形大佬,他是我在從事影視的時候結識的一位電影導演好友,歐洲學院派出身,曾拍出過一部戛納影展提名短片,不過他長期潛水只給別人點贊。然而就在15號晚上,他極其罕見的發(fā)了一條朋友圈:

打開網(wǎng)易新聞 查看精彩圖片

沒錯,15號是快手可靈2.0模型發(fā)布的日子。雖然以前身邊的影視同行也有在討論生成式AI,特別是在23/24年AI大模型侵權風波期間討論得最為激烈。但當時大家談論的還是傳統(tǒng)電影工業(yè)別具一格的匠心完勝只會抄襲沒有靈魂的AI機器人。

現(xiàn)在,我親眼目睹了越來越多的行業(yè)從業(yè)者認可AI大模型產(chǎn)品所帶來的便利性與高質(zhì)量內(nèi)容。

打開網(wǎng)易新聞 查看精彩圖片

回到可靈2.0本身,這是快手科技4月15日在北京中關村國際創(chuàng)新中心,面向全球發(fā)布的全新圖像生成模型,借此快手可靈完成了基座模型的再次升級。

可靈2.0模型在動態(tài)質(zhì)量、語義響應、畫面美學等維度,保持全球領先。例如在文生視頻領域,可靈2.0對比谷歌Veo2的勝負比為205%,對比Sora的勝負比達367%,在文字相關性、畫面質(zhì)量、動態(tài)質(zhì)量等維度上顯著超越對手。

在去年12月的時候,我們簡單體驗過可靈1.6,現(xiàn)在也是時候來和前作比一比了hhhhhh!

一、從頭到腳,全面升級

現(xiàn)在進入可靈的界面可以看到已經(jīng)可以選擇“可靈2.0大師版”了,這個模型適用于圖生視頻和文生視頻。此外還新增加了“多模態(tài)編輯”這個功能,支持基于視頻+文字圖片,進行多種靈活修改和再創(chuàng)作(此功能依舊由可靈1.6提供):

打開網(wǎng)易新聞 查看精彩圖片

我的Prompt是“生成一個模擬真實世界的,在大海中遠洋航行的萬噸貨輪,畫面從貨輪慢慢搖到茫茫大海”。我們來看看這次可靈2.0的杰作:

打開網(wǎng)易新聞 查看精彩圖片

可以看到可靈2.0非常還原真實,些微有點過曝的天空,更穩(wěn)定的船體和尾跡,都讓可靈2.0所生成的內(nèi)容,全面超越了可靈1.6的質(zhì)感,更具真實物理世界效果。

如果是在真實物理世界的效果已經(jīng)有這么高的水平了,那在非真實物理世界,兩者的差距又體現(xiàn)在哪里呢?這次我們的Prompt是“生成一個模擬迪士尼早期手繪畫風的童話世界,女主角在與森林里的動物交流,并快樂的起舞”,我們來看看可靈1.6的生成效果:

打開網(wǎng)易新聞 查看精彩圖片

可以看到整體呈現(xiàn)的效果雖然很符合我們的要求,但是客觀的來說,這并不能算是視頻,更像是畫面平滑運動關鍵幀動畫,畫面本體沒有任何變化只是一張純圖,然后攝像機從左到右掃了一下而已。然后我們再來看看可靈2.0的大作:

打開網(wǎng)易新聞 查看精彩圖片

對比下來不難發(fā)現(xiàn),可靈2.0真的是秒了可靈1.6。雖然畫面內(nèi)容已經(jīng)不符合早期迪士尼的那種手繪畫風,而是那種3D建模風,但畫面細膩動作流暢,小動物們圍著主人繞,頗有一絲《愛麗絲夢游仙境》內(nèi)味。當然缺陷還是有的,細節(jié)做的不夠到位,特別是動物的尾巴。但是靈動的畫面質(zhì)量已經(jīng)撐得起流媒體時代觀眾的檢閱了。

既然剛剛我們已經(jīng)接連測試過兩個文生視頻了,我們接著再來看看這次“可靈2.0大師版”對比可靈1.6在圖生視頻的效果上的提升吧,原圖如下:

打開網(wǎng)易新聞 查看精彩圖片

美漫的畫風是非常粗糙大線條的,并且美漫對于光線質(zhì)感的運用是頂級的,同時美漫高對比、高色彩飽的特點更是瘋狂挑戰(zhàn)生成式AI對細節(jié)的把控。

這張圖的難點是墻上和地面斑駁的紋理、摩托與蝙蝠俠自身形成的強冷暖對比、尾氣和輪胎摩擦地面形成的細膩煙霧,以及隨風飄揚的斗篷,可謂是難點值全部拉滿了。我們還是先來看可靈1.6的效果:

打開網(wǎng)易新聞 查看精彩圖片

咋一看很不錯,但其實禁不起推敲。斑駁的紋理沒有了,變成了平滑到像摸了10頓凡士林一樣的油畫質(zhì)地,雖然保留了冷暖對比色調(diào)但是沒有了煙霧這種細節(jié),整個摩托像是懸在半空中,并且斗篷明明都被吹變形成這樣了還是始終朝著一個方向一個輪廓飄,綁個塑料袋也不是這樣的吧(流汗~),活脫脫像是有根線在后面拉著斗篷,整體非常的不自然。當然能做到這一步,在可靈1.6剛發(fā)布的時候是非常牛的,但是現(xiàn)在是25年4月了,越來越多的廠商能達到這個水平了,和文生視頻一樣,還是能打的,但是也不多了。

再來看可靈2.0的:

打開網(wǎng)易新聞 查看精彩圖片

兩個對比下來不難發(fā)現(xiàn)這質(zhì)覺都不像一個時代的產(chǎn)物??伸`2.0雖然也帶有一些油畫質(zhì)感,但是增加了地面反光效果,同時豐富了城市面貌的整體光影,再加上摩天高樓和 招牌上的各類霓虹燈光,整體像是開了“光追”,充滿了顯卡的味道。而且2.0給畫面編了一套運鏡,并且還加入了摩托的運動軌跡和蝙蝠俠騎車姿態(tài)的調(diào)度,斗篷也有了更符合物理邏輯的飄動,整體頗有一絲“電影感”。

從上述三個實測案例不難發(fā)現(xiàn),整體而言可靈2.0補在局限于只是單純的讓畫面動起來這么簡單了,而是如何動得好看美觀、更有邏輯更加精致。

最后來看一下這次新增的“多模態(tài)編輯”功能,你可以使用圖片或者描述,對上傳的視頻進行畫面內(nèi)元素的替換、增加、刪減。聽起來是真的非常牛B,于是我決定給可靈上個難度,在這里上傳了一段天壇的延時影像:

打開網(wǎng)易新聞 查看精彩圖片

我的要求是去除掉畫面當中的游客,系統(tǒng)會讓我框選一下需要進行修改的選區(qū):

打開網(wǎng)易新聞 查看精彩圖片

選擇完成并確定后就可以開始生成了,我們來看看可靈的能力:

打開網(wǎng)易新聞 查看精彩圖片

客觀的來說,不太行??梢钥吹娇伸`確實是把我的選區(qū)里的人給去掉了,但是天壇的底座也完全變了模樣。而且我沒有選中的天壇本體大致還是用的視頻原,但底座是全新渲染的一個,顯得上下兩部分非常割裂。一個實景一個虛擬,一個銳化一個涂抹,觀感上不太舒服,糊弄糊弄老人小孩還行,對于大對數(shù)人來說,都會產(chǎn)生“你這個怎么這么假呢”的感嘆,所以這個“多模態(tài)編輯”功能,目前還僅停留在圖一樂階段。

整體而言這次可靈2.0的提升是巨大的,是肉眼可見的巨大的。雖然新加入的“多模態(tài)編輯”功能因為目前還只能依靠可靈1.6模型來實現(xiàn),效果也不盡如人意,但至少也是補齊了缺失相關AI生成式視頻修改功能的短板??傮w看下來,這一次可靈的視頻生成版塊的全面升級,可以視作是一次從頭到腳的極大升級,特別是可靈2.0的面世,再一次帶領快手可靈走在視頻生成大模型領域的前列。

二、用心與創(chuàng)作者鏈接

這次的發(fā)布會很特殊。快手高級副總裁、社區(qū)科學線負責人蓋坤除了聊產(chǎn)品參數(shù),還給出了一些額外信息:自去年6月可靈發(fā)布以來,可靈AI已累計完成超20次迭代。作為全球首個用戶可用的DiT視頻生成模型,截至目前,可靈AI全球用戶規(guī)模已突破2200萬,累計生成1.68億個視頻及3.44億張圖片素材。自去年6月上線至今的10個月時間里,可靈AI的月活用戶數(shù)量增長25倍。

打開網(wǎng)易新聞 查看精彩圖片

蓋坤認為,AI在輔助創(chuàng)意表達上擁有巨大潛力,但當前的行業(yè)發(fā)展現(xiàn)狀還遠遠無法滿足用戶需求,在AI生成內(nèi)容的穩(wěn)定性、以及用戶復雜創(chuàng)意的精確傳達上仍有“很多挑戰(zhàn)”。也因此,要真正實現(xiàn)“用AI講好每一個故事”的愿景,必須對基模型能力進行全方位提升,定義人和AI交互的“全新語言”。

在本文剛開始的時候我提到過,在我還在影視行業(yè)的時候,身邊的從業(yè)者談論大模型最多的問題并不是生成的內(nèi)容有多好,而是侵權。討論的永遠是“今天又扒了哪個大觸的本子,明天又‘借鑒’了哪個導演的畫風”,似乎生成質(zhì)量并不重要,因為不論好壞都是盜用的別人心血來訓練的,最關鍵的是沒給錢還大張旗鼓的宣傳,顯得“小人得志”。

而快手的可靈選擇了另辟蹊徑。用多模態(tài)參考信息去生成多模態(tài)內(nèi)容,是這次可靈2.0整體所帶來的最大升級,也是快手可靈長期與用戶(即創(chuàng)作者)交流下來所交出的答卷??焓挚萍际冀K作為一個提供內(nèi)容創(chuàng)作的平臺,正在持續(xù)的以用戶角度出發(fā),去平衡科技與內(nèi)容的關系。

蓋坤披露,來自世界各地的超1.5萬開發(fā)者,已將可靈的API應用于不同的行業(yè)場景中,累計生成的圖像數(shù)量約1200萬個,生成的視頻素材超過4000萬個。現(xiàn)在的可靈正在成為AI時代視頻創(chuàng)作的新基礎設施。AIGC技術正在重構多個創(chuàng)意行業(yè)。

就像可靈AI超級創(chuàng)作者、《新世界加載中》總導演、異類Outliers創(chuàng)始人陳翔宇在發(fā)布會中介紹的一樣,AIGC相較于實拍和動畫“可靈AI可全面融入劇集級創(chuàng)作流程”,不僅是效率的提升,更是試錯空間的革命性釋放:

打開網(wǎng)易新聞 查看精彩圖片

在上次快手發(fā)布可靈1.6的同時,快手就搞了個大動作:宣布中國首個AIGC導演共創(chuàng)計劃在快手平臺上線。由可靈聯(lián)合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉等9位極具行業(yè)代表力的知名一線大導,打造了9部風格迥異的AIGC電影短片。

打開網(wǎng)易新聞 查看精彩圖片

并且這9部AIGC電影短片均被中國電影博物館永久收藏、放映展示,以作為對中國首個AIGC導演共創(chuàng)計劃成果的認可與意義的肯定。這是國內(nèi)主流導演屆第一次大規(guī)模的集體使用AI產(chǎn)品進行內(nèi)容的創(chuàng)作。

而這一次發(fā)布會上張迪同樣發(fā)起了一項名為“可靈AI NextGen 新影像創(chuàng)投計劃”的新計劃。該計劃將加大可靈對于AIGC創(chuàng)作者的扶持力度,通過千萬資金投入、全球宣發(fā)、IP打造和保障,以全資出品、聯(lián)合出品和技術支持等合作方式,讓AI好故事走向世界。同時,可靈AI面向全球創(chuàng)作者發(fā)出征集邀約,邀請用戶共同打造全球首支用戶共創(chuàng)AI創(chuàng)意短片。

可以預見的是,未來的可靈AI將持續(xù)大力推動技術創(chuàng)新,用人與AI交互的全新語言,幫助用戶實現(xiàn)復雜創(chuàng)意的精確表達,正如張迪所說:“我們的初心,是讓每個人都能用AI講出好的故事,我們也真切地希望這一天更快到來”。相信在將來,在以快手可靈這樣用心鏈接內(nèi)容創(chuàng)作者的平臺帶領下,技術廠商與內(nèi)容創(chuàng)作者終將達成有序持久的和解。