打開網(wǎng)易新聞 查看精彩圖片

圖片由可靈AI生成,提示詞為本文標(biāo)題。

4月15日,鈦媒體APP獲悉,可靈AI宣布基座模型升級(jí),面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。

可靈是全球首個(gè)用戶可用的DiT(Diffusion Transformer)視頻生成模型,其2.0版本的模型在動(dòng)態(tài)質(zhì)量、語義響應(yīng)和畫面美學(xué)做了相應(yīng)提升,而可圖2.0模型主要集中在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面。

可靈AI官方披露,截至目前,全球用戶規(guī)模已經(jīng)突破2200萬,累計(jì)生成1.68億個(gè)視頻及3.44億張圖片素材。自去年6月上線以來,10個(gè)月內(nèi),可靈AI的月活用戶數(shù)量增長25倍。

“去年3、4月的時(shí)候,當(dāng)我在內(nèi)部看到可靈第一個(gè)DiT模型的產(chǎn)出結(jié)果時(shí),我心中涌現(xiàn)出一個(gè)想法,什么時(shí)候我能夠用AI把我心目中的《三體》拍攝出來。”快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在發(fā)布會(huì)現(xiàn)場表示。

在視頻生成方向上,鈦媒體APP觀察到,可靈AI正在朝著電影工業(yè)級(jí)美學(xué)上演進(jìn),然而,當(dāng)前行業(yè)模型發(fā)展,遠(yuǎn)遠(yuǎn)無法符合這一需求,AI在生成內(nèi)容的穩(wěn)定性及用戶復(fù)雜創(chuàng)意的傳達(dá)上,仍有很多缺陷。

蓋坤發(fā)現(xiàn),各家視頻模型都存在一些共性問題,主要來自兩方面:一是,語義分析能力問題,創(chuàng)作者們的文字表達(dá),有的時(shí)候,AI不能很精準(zhǔn)地輸出和控制生成結(jié)果;二是,動(dòng)態(tài)質(zhì)量的問題,通常是物體運(yùn)動(dòng)過快,或者不符合物理規(guī)律。

他認(rèn)為,必須對(duì)基模型能力進(jìn)行全方位提升。

在2.0模型中,可靈AI提出了AI視頻生成的新的交互理念Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考和視頻片段等多模態(tài)信息,將腦海中包含身份、外觀、風(fēng)格、場景、動(dòng)作、表情、運(yùn)鏡在內(nèi)的多維度復(fù)雜創(chuàng)意,直接傳達(dá)給AI。

MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向,以及精細(xì)控制這兩個(gè)層面,實(shí)現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達(dá)。

基于MVL理念,可靈AI正式推出多模態(tài)編輯功能。據(jù)蓋坤介紹,MMW(多模態(tài)描述子)將不只局限于圖片和視頻,也可以引入其他模態(tài)的信息,例如聲音和運(yùn)動(dòng)軌跡等。

與此同時(shí),基于MVL這一全新交互方式,可靈AI還發(fā)布了可靈2.0大師版,在語義響應(yīng)、動(dòng)態(tài)質(zhì)量和畫面美學(xué)等方面提升生成效果。

可靈2.0大師版升級(jí)了視頻及圖像創(chuàng)作可控生成與編輯能力,上線新的多模態(tài)視頻編輯功能,能靈活理解用戶意圖,支持在一段視頻的基礎(chǔ)之上,通過輸入圖片或文字,對(duì)生成的視頻內(nèi)容實(shí)現(xiàn)元素的增加、刪減、替換,讓創(chuàng)作者可以二次編輯和處理。

據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪披露,當(dāng)前,圖生視頻約占到可靈AI視頻創(chuàng)作量的85%,圖片質(zhì)量對(duì)視頻的生成效果有重要作用。

在圖像生成大模型領(lǐng)域,可圖2.0的優(yōu)勢體現(xiàn)在復(fù)雜語義理解能力,電影級(jí)的畫面質(zhì)感,以及多條件的可控風(fēng)格化生成等。

新升級(jí)的可圖2.0版本,提升了指令遵循能力、增強(qiáng)電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。在風(fēng)格化響應(yīng)上,可圖2.0支持60多種風(fēng)格化的效果轉(zhuǎn)繪。

同時(shí),可圖2.0上線了圖像可控編輯功能,即,局部重繪和擴(kuò)圖,支持圖片的增加、修改和修復(fù)。在圖像的多模態(tài)可控生成中,可圖2.0上線了新的風(fēng)格轉(zhuǎn)繪功能,用戶上傳一張圖片加上風(fēng)格描述,能一鍵切換圖片的藝術(shù)風(fēng)格,同時(shí)保留原圖的語義內(nèi)容。

除了C端訂閱用戶,可靈AI面向B端商家提供API接入等服務(wù)。蓋坤披露,來自世界各地的超過1.5萬名開發(fā)者,已將可靈的API應(yīng)用于不同的行業(yè)場景中,累計(jì)生成的圖像數(shù)量約1200萬個(gè),生成的視頻素材超過4000萬個(gè)。

此外,可靈AI還發(fā)布了“可靈AI NextGen 新影像創(chuàng)投計(jì)劃”,計(jì)劃加大對(duì)AIGC創(chuàng)作者的扶持力度,并通過千萬資金投入、全球宣發(fā)、IP打造和保障,以全資出品、聯(lián)合出品和技術(shù)支持等合作方式,激發(fā)AI愛好者們的創(chuàng)作熱情。(本文首發(fā)于鈦媒體APP,作者|李程程)