這次,可靈 AI 又出盡了風(fēng)頭。
4 月 15 日,可靈 AI 開了場發(fā)布會,高調(diào)推出最新升級的兩款基礎(chǔ)模型 —— 可靈 2.0 視頻生成模型和可圖 2.0 圖像生成模型。
新模型效果好到什么程度?我們先整幾個 case 開開眼。
教父怒目圓睜,臉部肌肉劇烈扭曲,嘴角下拉,露出緊咬的牙齒。這「演技」是不是和馬龍?白蘭度有一拼?
女人手握破碎的手機,面露驚恐,渾身顫抖,一股恐怖氣氛撲面而來,極具視覺引導(dǎo)力和情緒張力。
駿馬在草原奔跑,鬃毛隨風(fēng)翻飛,身后揚起陣陣塵土,即使是大幅度運動,畫面也絲毫沒崩。
總體來說,相比于之前版本,可靈 2.0 擁有更強的語義響應(yīng)、更優(yōu)的動態(tài)質(zhì)量和更好的畫面美學(xué)。
同時,圖像生成模型可圖 2.0 也完成了重磅更新,不僅提升了語義遵循能力,畫面更具電影質(zhì)感,還能響應(yīng)近百種風(fēng)格。

prompt :現(xiàn)代城市被切割成一塊塊懸浮在空中的片段,每塊中都有正常的、完整的生活場景(例如行人、交通、建筑),但它們彼此之間由不可見的空間分離,有城市被切割開的斷裂感,營造出一種 “現(xiàn)實感中的超現(xiàn)實”??苹么笃|(zhì)感,細(xì)節(jié)完美。

prompt 擺滿了白色桌子的宴會廳,周圍坐著的人在享用一頓美餐。

多種風(fēng)格響應(yīng)
最重要的是,可靈 AI 不搞期貨,發(fā)布即上線,全球會員都能上手體驗。
可靈 AI 鏈接:https://app.klingai.com/
有史以來最強大視覺生成模型
「雙模型」同時迭代讓可靈 AI 展現(xiàn)出了向?qū)I(yè)級創(chuàng)作工具邁進的潛力,也真正開啟了 AI 生成內(nèi)容的黃金時代。
接下來,我們就用 20 組鏡頭,來看看這兩個模型到底升級了啥,又是怎么玩出新高度的。
可靈 2.0 視頻生成模型
相比于 1.6 模型,可靈 2.0 主要有三大優(yōu)勢。
首先,在語義遵循方面,它對動作、表情、運鏡響應(yīng)更佳,并支持描述時序更復(fù)雜的鏡頭。
比如輸入 Prompt:男人先是開心的笑著,突然變得憤怒,手錘桌子起身。
這段文本描述看似簡單,實則很考驗?zāi)P偷那楦胁蹲?、動作生成以及?xì)節(jié)表現(xiàn)能力。
可靈 2.0 不僅成功捕捉到了男子從開心到憤怒的情感轉(zhuǎn)變,還在時間上合理銜接每個階段的表情和動作,并通過運鏡來實現(xiàn)視覺的自然過渡。
可靈 2.0 生成效果
相比之下,1.6 模型在生成中就存在明顯差距,沒有呈現(xiàn)「手錘桌子起身」的動作,而且手部細(xì)節(jié)還出現(xiàn)肉眼可見的崩壞。
可靈 1.6 生成效果
再來看看 2.0 模型的運鏡響應(yīng)能力。
Prompt:鏡頭捕捉身穿白色連衣裙和草帽的女孩在海邊漫步,鏡頭圍繞女孩環(huán)繞運鏡,女孩面帶微笑,眼神溫柔,夕陽的余暉灑在海面上。
可靈 2.0 環(huán)繞運鏡
Prompt:鏡頭 1:手持鏡頭特寫男子在直升機艙內(nèi)強風(fēng)吹拂面部扭曲,自然光下背景廣闊天空,表情堅定;鏡頭 2:男子縱身躍出機艙急速下墜,高空云層翻滾,鏡頭跟隨展現(xiàn)自由落體動態(tài);鏡頭 3:降落傘在空中猛然展開,鏡頭拉遠(yuǎn)呈現(xiàn)全景,陽光穿透云層照亮傘面,緊張氛圍瞬間緩解。
可靈 2.0 鏡頭組合運鏡
由此可見,可靈 2.0 不僅能 get 到推拉搖移等基礎(chǔ)運鏡術(shù)語,還能通過提示詞激活環(huán)繞運鏡、跟隨運鏡以及鏡頭組合運鏡等。
而所謂的時序響應(yīng)能力,就是在同一個 Prompt 中按照時間順序進行分段描述,模型嚴(yán)格按照時間順序生成。
比如 Prompt:女孩從靜坐在公園長椅上,到慢慢走出畫面,晨光逐漸轉(zhuǎn)為正午烈日再過渡至暮色四合,天空色彩從粉橙漸變?yōu)檎克{(lán)再轉(zhuǎn)為紫紅,來往行人形成流動的虛影軌跡,固定鏡頭,突出光影在長椅木紋上的緩慢爬行,飄落的樹葉在長椅下堆積又隨風(fēng)卷起。
可靈2.0生成效果
這段提示詞既包括復(fù)雜的光影色彩變化,又涉及固定鏡頭、靜態(tài)場景(長椅)和動態(tài)元素(行人、風(fēng)、樹葉),這對 AI 的生成能力提出了極高的要求。
不過 2.0 模型嚴(yán)格遵循了文本提示,無論是女孩的肢體動作,還是背景的光線、色彩變化,以及行人的虛影軌跡,它都處理得很到位。
其次,在動態(tài)質(zhì)量方面,可靈 2.0 生成的運動幅度更大,速度更流暢,復(fù)雜動作也更自然、更合理。
比如小男孩在街頭玩滑板,這一過程包含滑行、跳躍、翻轉(zhuǎn)、落地等一系列動作,可靈 2.0 生成的視頻呈現(xiàn)出一種快速且流暢的運動感,即使涉及復(fù)雜運動,人物動作也沒有變形扭曲。
可靈2.0生成效果。圖生視頻。Prompt:滑板運動,圍繞滑板少年不斷運動
而 1.6 模型生成的視頻則像開了慢速,而且滑板在空中翻轉(zhuǎn)時畫面出現(xiàn)了偽影和閃爍。
可靈1.6生成效果.。圖生視頻。Prompt:滑板運動,圍繞滑板少年不斷運動
此前,Sora 等 AI 視頻生成模型只要碰上體育運動就歇菜,不是順拐就是腦袋亂飛,而現(xiàn)在可靈 2.0 竟能輕松生成「飛檐走壁」的跑酷運動,整套動作行云流水、一氣呵成。
可靈2.0生成效果
還有下面這個視頻,身穿貂皮大衣的男人為躲避爆炸在雪地里狂奔,如此大幅度的運動,可靈 2.0 也沒有出現(xiàn)左右腿不分的問題。
可靈2.0生成效果
此外,可靈 2.0 生成的畫面美感也大幅提升。
其中文生視頻可響應(yīng)影視級別的畫面描述,極具大片質(zhì)感。
比如 Prompt:鏡頭跟隨蜜蜂快速的在花叢中穿行,最后聚焦在一刻沾滿露珠的鮮花上。
可靈 2.0 模型生成的畫面中,蜜蜂表面的絨毛、花瓣的紋理以及露珠全都清晰可見。
圖生視頻則可以更好地保持原圖畫風(fēng),延續(xù)更多美感。
比如「喂」給它一幅孩子們在海邊奔跑的油畫,可靈 2.0 立馬讓畫面「活」起來,并且視頻的每一幀都保留了原圖獨特的油畫紋理感。
除了基礎(chǔ)模型迭代優(yōu)化以外,可靈還基于 1.6 模型上線了多模態(tài)編輯功能。只需上傳一段 1-5 秒的視頻,它就能對畫面元素進行增、刪、改、替。
可圖 2.0 圖像生成模型
據(jù)快手副總裁、可靈 AI 負(fù)責(zé)人張迪透露,當(dāng)前,圖生視頻約占到可靈 AI 視頻創(chuàng)作量的 85%,圖片質(zhì)量對視頻的生成效果產(chǎn)生重要作用。
為了更好賦能創(chuàng)作者,可圖 2.0 文生圖能力也迎來全面升級,包括大幅提升指令遵循能力、顯著增強電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。

Prompt:低飽和度,大師構(gòu)圖,電影畫面,歐洲電影,磨砂質(zhì)感,高質(zhì)量畫面,穿著白色裙子的女孩,背包里都是野花,她站在草地上,空中飄著非常多的迎春花的花朵。

Prompt: 電影質(zhì)感,法國影片,復(fù)古,自然光線,暖光,一個穿著淺綠色茶歇裙的女生抱著一捧花,躺在湖心的小木船閉眼哭泣,湖中有大片睡蓮,前景有一棵大樹,夕陽灑在湖中,水面波光粼粼。

prompt:兩位年輕亞洲高中生在一架豪華黑色三角鋼琴前并排坐著,沉浸在演奏中。左側(cè)是一位短發(fā)女性,穿著正式的黑色燕尾服式演出服,白色蝴蝶結(jié),黑色背心,閉著眼睛,表情專注而陶醉。右側(cè)是一位短黑發(fā)男性,身著灰色V領(lǐng)毛衣,白色襯衫和紫色領(lǐng)帶,微微低頭專注于琴鍵。鋼琴蓋完全打開,露出內(nèi)部精致的銅色琴弦和復(fù)雜的機械結(jié)構(gòu)。場景位于一個古典風(fēng)格的音樂廳或豪宅內(nèi),背景墻面呈淡綠色,裝飾有金色相框中的古典畫作。整個畫面采用電影般的復(fù)古色調(diào),帶有輕微顆粒感,主要光源從側(cè)面柔和地照射,在鋼琴表面和演奏者臉上形成溫暖的高光。構(gòu)圖從鋼琴側(cè)面略微俯視角度拍攝,前景是鋼琴邊緣的模糊輪廓,中景是兩位演奏者,背景是模糊的墻面和畫作。畫面氛圍優(yōu)雅、莊重而富有藝術(shù)感,捕捉了音樂演奏的深度專注與情感交流的瞬間。

Prompt:電影靜幀,鏡頭正面跟隨一位身穿紅色連衣裙的女子在雨中奔跑,她的頭發(fā)被風(fēng)吹亂,臉上混合著雨水和淚水,背景是模糊的霓虹燈光,街道濕滑反光。
瞅瞅這配色、這光影、這構(gòu)圖,乍一看還真以為是電影劇照。
此外,可圖 2.0 還支持近百種風(fēng)格響應(yīng),涵蓋特殊材質(zhì)、數(shù)字藝術(shù)和繪畫技法等。什么吉卜力、賽博朋克、透明玻璃、極簡攝影…… 通通能搞定。















如果想對畫面細(xì)節(jié)或尺寸進行修改,我們還可以使用局部重繪或擴圖功能。
只要一涂一抹,再輸入提示詞描述,就能對圖片元素進行增加、修改等操作。


或者隨意拖拽原圖位置,就能改變原圖大小,自由擴充圖片內(nèi)容,而且完全看不出擴圖痕跡。

不僅如此,在圖像的多模態(tài)可控生成中,可圖 2.0 還上線了全新的風(fēng)格轉(zhuǎn)繪功能,只需上傳圖片并輸入風(fēng)格描述,就能一鍵切換藝術(shù)風(fēng)格。







圖一:原圖;圖二:吉卜力風(fēng);圖三: 手辦風(fēng);圖四:3D卡通風(fēng);圖五:美少女風(fēng);圖六:平涂插畫風(fēng);圖七:棉花娃娃風(fēng)
可靈 AI 如何穩(wěn)居 AI 視頻賽道 C 位?
自去年 6 月 6 日上線以來,可靈 AI 就開啟狂飆模式,僅 10 個月就迭代 20 多次,并發(fā)布 9 個具有里程碑意義的產(chǎn)品。
模型從 1.0 不斷升級到如今的 2.0 版本,不僅顯著提升了視頻生成質(zhì)量,也奠定了其在全球市場的領(lǐng)先地位。
此次發(fā)布會上,快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤透露,可靈 2.0 在團隊內(nèi)部的多項勝負(fù)率評測中,均穩(wěn)居業(yè)內(nèi)第一。
比如在文生視頻領(lǐng)域,可靈 2.0 對比谷歌 Veo2 的勝負(fù)比為 205%,對比 Sora 的勝負(fù)比達(dá) 367%,在文字相關(guān)性、畫面質(zhì)量、動態(tài)質(zhì)量等維度上顯著超越對手。(注:勝負(fù)比為 100% 說明兩個模型同樣厲害)

3 月 27 日,全球知名 AI 基準(zhǔn)測試機構(gòu) Artificial Analysis 發(fā)布最新全球視頻生成大模型榜單,快手可靈 1.6 pro(高品質(zhì)模式)以 1000 分的 Arena ELO 基準(zhǔn)測試評分,登頂「圖生視頻」賽道榜首,超越了 Google Veo 2 與 Runaway Gen-4 等國際頂尖模型。

而模型能力的迭代自然離不開技術(shù)上的創(chuàng)新支撐。這既包括基礎(chǔ)模型架構(gòu)上的升級,也包括訓(xùn)練和推理策略上的突破。
一方面,可靈 2.0 采用了全新設(shè)計的 DiT 架構(gòu),提升了視覺 / 文本模態(tài)信息融合能力;全新設(shè)計的視覺 VAE,使復(fù)雜動態(tài)場景下過渡更自然;同時可靈 2.0 首次系統(tǒng)性研究視頻生成 DiT 架構(gòu)的 Scaling Law 特性??梢哉f,全新設(shè)計的視頻生成基礎(chǔ)模型,使得可靈 2.0 打開了建模和仿真能力空間。
另一方面,可靈 2.0 全面升級訓(xùn)練和推理策略,強化對于復(fù)雜運動、主體交互的生成能力,強化對運鏡語言、構(gòu)圖術(shù)語等專業(yè)表達(dá)的理解和響應(yīng)能力,還進一步對齊人類偏好,讓模型更懂「常識」和「審美」。
在圖像生成大模型領(lǐng)域,可圖 2.0 同樣處于行業(yè)領(lǐng)先水平,在團隊內(nèi)部的多項勝負(fù)率評測中,相較于 Midjourney V7、FLUX1.1 [pro] 以及 Reve 等圖像模型,均保持明顯優(yōu)勢。
可圖 2.0 的基座升級,背后也對應(yīng)著大量的技術(shù)突破。在預(yù)訓(xùn)練階段更精準(zhǔn)地建模了文本到視覺模態(tài)的映射,在后訓(xùn)練階段使用了更多的強化學(xué)習(xí)進行美學(xué)和人類偏好的對齊,在圖像生成階段則使用了全新的提示詞工程和推理策略來優(yōu)化圖像的生成。
在圖像和視頻的多模態(tài)控制能力方面,可靈團隊則使用了統(tǒng)一的模型架構(gòu)處理文本、圖像和視頻表示及輸入,實現(xiàn)有效的多模態(tài)控制效果;同時,通過高效的 Token 壓縮與緩存算法,支持長序列的上下文學(xué)習(xí);最后通過帶 COT 能力的多模態(tài)推理技術(shù),幫助精確理解用戶意圖,模型可以提供更好的基于多模態(tài)理解的視覺生成。
AI 視頻進入 2.0 時代
定義人與 AI 的交互新方式
作為全球領(lǐng)先的視頻生成大模型,可靈 AI 基礎(chǔ)模型「雙子星」的重磅升級,標(biāo)志著 AI 視頻創(chuàng)作正式邁進了 2.0 時代。
那么,這個新時代最核心的變革是什么?簡單來說,就是人人都能用 AI 講好故事。
在 1.0 時代,各科技大廠隔空斗法,通過持續(xù)的技術(shù)創(chuàng)新,解決了 AI 視頻生成領(lǐng)域多個核心難題。比如,可靈 AI 陸續(xù)上線了人臉建模、口型同步、智能配音、運動質(zhì)量、風(fēng)格化、首尾幀、AI 音效以及資產(chǎn)管理等關(guān)鍵功能,并深度接入 DeepSeek,全面打通文案、圖像、視頻、音效等內(nèi)容形態(tài),實現(xiàn)真正的一站式智能創(chuàng)作鏈路。
得益于此,視頻生成大模型的用戶規(guī)模也迎來爆發(fā)式增長。截至目前,可靈 AI 全球用戶規(guī)模突破 2200 萬。過去的 10 個月里,月活用戶量增長 25 倍,累計生成超過 1.68 億個視頻及 3.44 億張圖片。
不過,蓋坤在發(fā)布會上坦言,盡管 AI 在輔助創(chuàng)意表達(dá)上擁有巨大潛力,但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無法滿足用戶需求,尤其在 AI 生成內(nèi)容的穩(wěn)定性、以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有「很多挑戰(zhàn)」。也因此,要真正實現(xiàn)「用 AI 講好每一個故事」的愿景,必須對基模型能力進行全方位提升,定義人和 AI 交互的「全新語言」。
在本次 2.0 模型的迭代中,可靈 AI 正式發(fā)布 AI 視頻生成的全新交互理念 Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中包含身份、外觀、風(fēng)格、場景、動作、表情、運鏡在內(nèi)的多維度復(fù)雜創(chuàng)意,直接高效地傳達(dá)給 AI。
「大家應(yīng)該很自然地會感受到文字在表達(dá)影像信息時,是不完備的。我們需要有新的方式,能讓人真正精準(zhǔn)地表達(dá)出心中所想?!股w坤指出,MVL 由 TXT(Pure Text,語義骨架)和 MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個層面,精準(zhǔn)實現(xiàn) AI 創(chuàng)作者們的創(chuàng)意表達(dá)。
為了進一步激發(fā) AI 愛好者們的創(chuàng)作熱情,快手副總裁、可靈 AI 負(fù)責(zé)人張迪還在發(fā)布會現(xiàn)場正式發(fā)起「可靈 AI NextGen 新影像創(chuàng)投計劃」。該計劃將加大對于 AIGC 創(chuàng)作者的扶持力度,通過千萬資金投入、全球宣發(fā)、IP 打造和保障,以全資出品、聯(lián)合出品和技術(shù)支持等靈活多樣的合作方式,讓 AI 好故事走向世界。
如今,從 UGC(用戶生成內(nèi)容)到 PGC(專業(yè)生成內(nèi)容),從社交短視頻到廣告營銷,可靈 AI 在各類場景中的應(yīng)用趨勢日益明顯,這也意味著,未來「人人都能用 AI 講好故事」不再是一句口號,而成為每個人的創(chuàng)作現(xiàn)實。
熱門跟貼