這次,可靈 AI 又出盡了風(fēng)頭。

4 月 15 日,可靈 AI 開了場發(fā)布會,高調(diào)推出最新升級的兩款基礎(chǔ)模型 —— 可靈 2.0 視頻生成模型和可圖 2.0 圖像生成模型。

新模型效果好到什么程度?我們先整幾個 case 開開眼。

教父怒目圓睜,臉部肌肉劇烈扭曲,嘴角下拉,露出緊咬的牙齒。這「演技」是不是和馬龍?白蘭度有一拼?

打開網(wǎng)易新聞 查看精彩圖片

女人手握破碎的手機,面露驚恐,渾身顫抖,一股恐怖氣氛撲面而來,極具視覺引導(dǎo)力和情緒張力。

打開網(wǎng)易新聞 查看精彩圖片

駿馬在草原奔跑,鬃毛隨風(fēng)翻飛,身后揚起陣陣塵土,即使是大幅度運動,畫面也絲毫沒崩。

打開網(wǎng)易新聞 查看精彩圖片

總體來說,相比于之前版本,可靈 2.0 擁有更強的語義響應(yīng)、更優(yōu)的動態(tài)質(zhì)量和更好的畫面美學(xué)。

同時,圖像生成模型可圖 2.0 也完成了重磅更新,不僅提升了語義遵循能力,畫面更具電影質(zhì)感,還能響應(yīng)近百種風(fēng)格。

打開網(wǎng)易新聞 查看精彩圖片

prompt :現(xiàn)代城市被切割成一塊塊懸浮在空中的片段,每塊中都有正常的、完整的生活場景(例如行人、交通、建筑),但它們彼此之間由不可見的空間分離,有城市被切割開的斷裂感,營造出一種 “現(xiàn)實感中的超現(xiàn)實”??苹么笃|(zhì)感,細(xì)節(jié)完美。

打開網(wǎng)易新聞 查看精彩圖片

prompt 擺滿了白色桌子的宴會廳,周圍坐著的人在享用一頓美餐。

打開網(wǎng)易新聞 查看精彩圖片

多種風(fēng)格響應(yīng)

最重要的是,可靈 AI 不搞期貨,發(fā)布即上線,全球會員都能上手體驗。

可靈 AI 鏈接:https://app.klingai.com/

有史以來最強大視覺生成模型

「雙模型」同時迭代讓可靈 AI 展現(xiàn)出了向?qū)I(yè)級創(chuàng)作工具邁進的潛力,也真正開啟了 AI 生成內(nèi)容的黃金時代。

接下來,我們就用 20 組鏡頭,來看看這兩個模型到底升級了啥,又是怎么玩出新高度的。

可靈 2.0 視頻生成模型

相比于 1.6 模型,可靈 2.0 主要有三大優(yōu)勢。

首先,在語義遵循方面,它對動作、表情、運鏡響應(yīng)更佳,并支持描述時序更復(fù)雜的鏡頭。

比如輸入 Prompt:男人先是開心的笑著,突然變得憤怒,手錘桌子起身。

這段文本描述看似簡單,實則很考驗?zāi)P偷那楦胁蹲?、動作生成以及?xì)節(jié)表現(xiàn)能力。

可靈 2.0 不僅成功捕捉到了男子從開心到憤怒的情感轉(zhuǎn)變,還在時間上合理銜接每個階段的表情和動作,并通過運鏡來實現(xiàn)視覺的自然過渡。

打開網(wǎng)易新聞 查看精彩圖片

可靈 2.0 生成效果

相比之下,1.6 模型在生成中就存在明顯差距,沒有呈現(xiàn)「手錘桌子起身」的動作,而且手部細(xì)節(jié)還出現(xiàn)肉眼可見的崩壞。

打開網(wǎng)易新聞 查看精彩圖片

可靈 1.6 生成效果

再來看看 2.0 模型的運鏡響應(yīng)能力。

Prompt:鏡頭捕捉身穿白色連衣裙和草帽的女孩在海邊漫步,鏡頭圍繞女孩環(huán)繞運鏡,女孩面帶微笑,眼神溫柔,夕陽的余暉灑在海面上。

打開網(wǎng)易新聞 查看精彩圖片

可靈 2.0 環(huán)繞運鏡

Prompt:鏡頭 1:手持鏡頭特寫男子在直升機艙內(nèi)強風(fēng)吹拂面部扭曲,自然光下背景廣闊天空,表情堅定;鏡頭 2:男子縱身躍出機艙急速下墜,高空云層翻滾,鏡頭跟隨展現(xiàn)自由落體動態(tài);鏡頭 3:降落傘在空中猛然展開,鏡頭拉遠(yuǎn)呈現(xiàn)全景,陽光穿透云層照亮傘面,緊張氛圍瞬間緩解。

打開網(wǎng)易新聞 查看精彩圖片

可靈 2.0 鏡頭組合運鏡

由此可見,可靈 2.0 不僅能 get 到推拉搖移等基礎(chǔ)運鏡術(shù)語,還能通過提示詞激活環(huán)繞運鏡、跟隨運鏡以及鏡頭組合運鏡等。

而所謂的時序響應(yīng)能力,就是在同一個 Prompt 中按照時間順序進行分段描述,模型嚴(yán)格按照時間順序生成。

比如 Prompt:女孩從靜坐在公園長椅上,到慢慢走出畫面,晨光逐漸轉(zhuǎn)為正午烈日再過渡至暮色四合,天空色彩從粉橙漸變?yōu)檎克{(lán)再轉(zhuǎn)為紫紅,來往行人形成流動的虛影軌跡,固定鏡頭,突出光影在長椅木紋上的緩慢爬行,飄落的樹葉在長椅下堆積又隨風(fēng)卷起。

打開網(wǎng)易新聞 查看精彩圖片

可靈2.0生成效果

這段提示詞既包括復(fù)雜的光影色彩變化,又涉及固定鏡頭、靜態(tài)場景(長椅)和動態(tài)元素(行人、風(fēng)、樹葉),這對 AI 的生成能力提出了極高的要求。

不過 2.0 模型嚴(yán)格遵循了文本提示,無論是女孩的肢體動作,還是背景的光線、色彩變化,以及行人的虛影軌跡,它都處理得很到位。

其次,在動態(tài)質(zhì)量方面,可靈 2.0 生成的運動幅度更大,速度更流暢,復(fù)雜動作也更自然、更合理。

比如小男孩在街頭玩滑板,這一過程包含滑行、跳躍、翻轉(zhuǎn)、落地等一系列動作,可靈 2.0 生成的視頻呈現(xiàn)出一種快速且流暢的運動感,即使涉及復(fù)雜運動,人物動作也沒有變形扭曲。

打開網(wǎng)易新聞 查看精彩圖片

可靈2.0生成效果。圖生視頻。Prompt:滑板運動,圍繞滑板少年不斷運動

而 1.6 模型生成的視頻則像開了慢速,而且滑板在空中翻轉(zhuǎn)時畫面出現(xiàn)了偽影和閃爍。

打開網(wǎng)易新聞 查看精彩圖片

可靈1.6生成效果.。圖生視頻。Prompt:滑板運動,圍繞滑板少年不斷運動

此前,Sora 等 AI 視頻生成模型只要碰上體育運動就歇菜,不是順拐就是腦袋亂飛,而現(xiàn)在可靈 2.0 竟能輕松生成「飛檐走壁」的跑酷運動,整套動作行云流水、一氣呵成。

打開網(wǎng)易新聞 查看精彩圖片

可靈2.0生成效果

還有下面這個視頻,身穿貂皮大衣的男人為躲避爆炸在雪地里狂奔,如此大幅度的運動,可靈 2.0 也沒有出現(xiàn)左右腿不分的問題。

打開網(wǎng)易新聞 查看精彩圖片

可靈2.0生成效果

此外,可靈 2.0 生成的畫面美感也大幅提升。

其中文生視頻可響應(yīng)影視級別的畫面描述,極具大片質(zhì)感。

比如 Prompt:鏡頭跟隨蜜蜂快速的在花叢中穿行,最后聚焦在一刻沾滿露珠的鮮花上。

可靈 2.0 模型生成的畫面中,蜜蜂表面的絨毛、花瓣的紋理以及露珠全都清晰可見。

打開網(wǎng)易新聞 查看精彩圖片

圖生視頻則可以更好地保持原圖畫風(fēng),延續(xù)更多美感。

比如「喂」給它一幅孩子們在海邊奔跑的油畫,可靈 2.0 立馬讓畫面「活」起來,并且視頻的每一幀都保留了原圖獨特的油畫紋理感。

打開網(wǎng)易新聞 查看精彩圖片

除了基礎(chǔ)模型迭代優(yōu)化以外,可靈還基于 1.6 模型上線了多模態(tài)編輯功能。只需上傳一段 1-5 秒的視頻,它就能對畫面元素進行增、刪、改、替。

可圖 2.0 圖像生成模型

據(jù)快手副總裁、可靈 AI 負(fù)責(zé)人張迪透露,當(dāng)前,圖生視頻約占到可靈 AI 視頻創(chuàng)作量的 85%,圖片質(zhì)量對視頻的生成效果產(chǎn)生重要作用。

為了更好賦能創(chuàng)作者,可圖 2.0 文生圖能力也迎來全面升級,包括大幅提升指令遵循能力、顯著增強電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。

打開網(wǎng)易新聞 查看精彩圖片

Prompt:低飽和度,大師構(gòu)圖,電影畫面,歐洲電影,磨砂質(zhì)感,高質(zhì)量畫面,穿著白色裙子的女孩,背包里都是野花,她站在草地上,空中飄著非常多的迎春花的花朵。

打開網(wǎng)易新聞 查看精彩圖片

Prompt: 電影質(zhì)感,法國影片,復(fù)古,自然光線,暖光,一個穿著淺綠色茶歇裙的女生抱著一捧花,躺在湖心的小木船閉眼哭泣,湖中有大片睡蓮,前景有一棵大樹,夕陽灑在湖中,水面波光粼粼。

打開網(wǎng)易新聞 查看精彩圖片

prompt:兩位年輕亞洲高中生在一架豪華黑色三角鋼琴前并排坐著,沉浸在演奏中。左側(cè)是一位短發(fā)女性,穿著正式的黑色燕尾服式演出服,白色蝴蝶結(jié),黑色背心,閉著眼睛,表情專注而陶醉。右側(cè)是一位短黑發(fā)男性,身著灰色V領(lǐng)毛衣,白色襯衫和紫色領(lǐng)帶,微微低頭專注于琴鍵。鋼琴蓋完全打開,露出內(nèi)部精致的銅色琴弦和復(fù)雜的機械結(jié)構(gòu)。場景位于一個古典風(fēng)格的音樂廳或豪宅內(nèi),背景墻面呈淡綠色,裝飾有金色相框中的古典畫作。整個畫面采用電影般的復(fù)古色調(diào),帶有輕微顆粒感,主要光源從側(cè)面柔和地照射,在鋼琴表面和演奏者臉上形成溫暖的高光。構(gòu)圖從鋼琴側(cè)面略微俯視角度拍攝,前景是鋼琴邊緣的模糊輪廓,中景是兩位演奏者,背景是模糊的墻面和畫作。畫面氛圍優(yōu)雅、莊重而富有藝術(shù)感,捕捉了音樂演奏的深度專注與情感交流的瞬間。

打開網(wǎng)易新聞 查看精彩圖片

Prompt:電影靜幀,鏡頭正面跟隨一位身穿紅色連衣裙的女子在雨中奔跑,她的頭發(fā)被風(fēng)吹亂,臉上混合著雨水和淚水,背景是模糊的霓虹燈光,街道濕滑反光。

瞅瞅這配色、這光影、這構(gòu)圖,乍一看還真以為是電影劇照。

此外,可圖 2.0 還支持近百種風(fēng)格響應(yīng),涵蓋特殊材質(zhì)、數(shù)字藝術(shù)和繪畫技法等。什么吉卜力、賽博朋克、透明玻璃、極簡攝影…… 通通能搞定。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

如果想對畫面細(xì)節(jié)或尺寸進行修改,我們還可以使用局部重繪或擴圖功能。

只要一涂一抹,再輸入提示詞描述,就能對圖片元素進行增加、修改等操作。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

或者隨意拖拽原圖位置,就能改變原圖大小,自由擴充圖片內(nèi)容,而且完全看不出擴圖痕跡。

打開網(wǎng)易新聞 查看精彩圖片

不僅如此,在圖像的多模態(tài)可控生成中,可圖 2.0 還上線了全新的風(fēng)格轉(zhuǎn)繪功能,只需上傳圖片并輸入風(fēng)格描述,就能一鍵切換藝術(shù)風(fēng)格。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

圖一:原圖;圖二:吉卜力風(fēng);圖三: 手辦風(fēng);圖四:3D卡通風(fēng);圖五:美少女風(fēng);圖六:平涂插畫風(fēng);圖七:棉花娃娃風(fēng)

可靈 AI 如何穩(wěn)居 AI 視頻賽道 C 位?

自去年 6 月 6 日上線以來,可靈 AI 就開啟狂飆模式,僅 10 個月就迭代 20 多次,并發(fā)布 9 個具有里程碑意義的產(chǎn)品。

模型從 1.0 不斷升級到如今的 2.0 版本,不僅顯著提升了視頻生成質(zhì)量,也奠定了其在全球市場的領(lǐng)先地位。

此次發(fā)布會上,快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤透露,可靈 2.0 在團隊內(nèi)部的多項勝負(fù)率評測中,均穩(wěn)居業(yè)內(nèi)第一。

比如在文生視頻領(lǐng)域,可靈 2.0 對比谷歌 Veo2 的勝負(fù)比為 205%,對比 Sora 的勝負(fù)比達(dá) 367%,在文字相關(guān)性、畫面質(zhì)量、動態(tài)質(zhì)量等維度上顯著超越對手。(注:勝負(fù)比為 100% 說明兩個模型同樣厲害)

打開網(wǎng)易新聞 查看精彩圖片

3 月 27 日,全球知名 AI 基準(zhǔn)測試機構(gòu) Artificial Analysis 發(fā)布最新全球視頻生成大模型榜單,快手可靈 1.6 pro(高品質(zhì)模式)以 1000 分的 Arena ELO 基準(zhǔn)測試評分,登頂「圖生視頻」賽道榜首,超越了 Google Veo 2 與 Runaway Gen-4 等國際頂尖模型。

打開網(wǎng)易新聞 查看精彩圖片

而模型能力的迭代自然離不開技術(shù)上的創(chuàng)新支撐。這既包括基礎(chǔ)模型架構(gòu)上的升級,也包括訓(xùn)練和推理策略上的突破。

一方面,可靈 2.0 采用了全新設(shè)計的 DiT 架構(gòu),提升了視覺 / 文本模態(tài)信息融合能力;全新設(shè)計的視覺 VAE,使復(fù)雜動態(tài)場景下過渡更自然;同時可靈 2.0 首次系統(tǒng)性研究視頻生成 DiT 架構(gòu)的 Scaling Law 特性??梢哉f,全新設(shè)計的視頻生成基礎(chǔ)模型,使得可靈 2.0 打開了建模和仿真能力空間。

另一方面,可靈 2.0 全面升級訓(xùn)練和推理策略,強化對于復(fù)雜運動、主體交互的生成能力,強化對運鏡語言、構(gòu)圖術(shù)語等專業(yè)表達(dá)的理解和響應(yīng)能力,還進一步對齊人類偏好,讓模型更懂「常識」和「審美」。

在圖像生成大模型領(lǐng)域,可圖 2.0 同樣處于行業(yè)領(lǐng)先水平,在團隊內(nèi)部的多項勝負(fù)率評測中,相較于 Midjourney V7、FLUX1.1 [pro] 以及 Reve 等圖像模型,均保持明顯優(yōu)勢。

可圖 2.0 的基座升級,背后也對應(yīng)著大量的技術(shù)突破。在預(yù)訓(xùn)練階段更精準(zhǔn)地建模了文本到視覺模態(tài)的映射,在后訓(xùn)練階段使用了更多的強化學(xué)習(xí)進行美學(xué)和人類偏好的對齊,在圖像生成階段則使用了全新的提示詞工程和推理策略來優(yōu)化圖像的生成。

在圖像和視頻的多模態(tài)控制能力方面,可靈團隊則使用了統(tǒng)一的模型架構(gòu)處理文本、圖像和視頻表示及輸入,實現(xiàn)有效的多模態(tài)控制效果;同時,通過高效的 Token 壓縮與緩存算法,支持長序列的上下文學(xué)習(xí);最后通過帶 COT 能力的多模態(tài)推理技術(shù),幫助精確理解用戶意圖,模型可以提供更好的基于多模態(tài)理解的視覺生成。

AI 視頻進入 2.0 時代

定義人與 AI 的交互新方式

作為全球領(lǐng)先的視頻生成大模型,可靈 AI 基礎(chǔ)模型「雙子星」的重磅升級,標(biāo)志著 AI 視頻創(chuàng)作正式邁進了 2.0 時代。

那么,這個新時代最核心的變革是什么?簡單來說,就是人人都能用 AI 講好故事。

在 1.0 時代,各科技大廠隔空斗法,通過持續(xù)的技術(shù)創(chuàng)新,解決了 AI 視頻生成領(lǐng)域多個核心難題。比如,可靈 AI 陸續(xù)上線了人臉建模、口型同步、智能配音、運動質(zhì)量、風(fēng)格化、首尾幀、AI 音效以及資產(chǎn)管理等關(guān)鍵功能,并深度接入 DeepSeek,全面打通文案、圖像、視頻、音效等內(nèi)容形態(tài),實現(xiàn)真正的一站式智能創(chuàng)作鏈路。

得益于此,視頻生成大模型的用戶規(guī)模也迎來爆發(fā)式增長。截至目前,可靈 AI 全球用戶規(guī)模突破 2200 萬。過去的 10 個月里,月活用戶量增長 25 倍,累計生成超過 1.68 億個視頻及 3.44 億張圖片。

不過,蓋坤在發(fā)布會上坦言,盡管 AI 在輔助創(chuàng)意表達(dá)上擁有巨大潛力,但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無法滿足用戶需求,尤其在 AI 生成內(nèi)容的穩(wěn)定性、以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有「很多挑戰(zhàn)」。也因此,要真正實現(xiàn)「用 AI 講好每一個故事」的愿景,必須對基模型能力進行全方位提升,定義人和 AI 交互的「全新語言」。

在本次 2.0 模型的迭代中,可靈 AI 正式發(fā)布 AI 視頻生成的全新交互理念 Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中包含身份、外觀、風(fēng)格、場景、動作、表情、運鏡在內(nèi)的多維度復(fù)雜創(chuàng)意,直接高效地傳達(dá)給 AI。

「大家應(yīng)該很自然地會感受到文字在表達(dá)影像信息時,是不完備的。我們需要有新的方式,能讓人真正精準(zhǔn)地表達(dá)出心中所想?!股w坤指出,MVL 由 TXT(Pure Text,語義骨架)和 MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個層面,精準(zhǔn)實現(xiàn) AI 創(chuàng)作者們的創(chuàng)意表達(dá)。

為了進一步激發(fā) AI 愛好者們的創(chuàng)作熱情,快手副總裁、可靈 AI 負(fù)責(zé)人張迪還在發(fā)布會現(xiàn)場正式發(fā)起「可靈 AI NextGen 新影像創(chuàng)投計劃」。該計劃將加大對于 AIGC 創(chuàng)作者的扶持力度,通過千萬資金投入、全球宣發(fā)、IP 打造和保障,以全資出品、聯(lián)合出品和技術(shù)支持等靈活多樣的合作方式,讓 AI 好故事走向世界。

如今,從 UGC(用戶生成內(nèi)容)到 PGC(專業(yè)生成內(nèi)容),從社交短視頻到廣告營銷,可靈 AI 在各類場景中的應(yīng)用趨勢日益明顯,這也意味著,未來「人人都能用 AI 講好故事」不再是一句口號,而成為每個人的創(chuàng)作現(xiàn)實。