“我見過你們不會(huì)相信的東西:戰(zhàn)艦群在獵戶星座上沿燃燒,C射線在唐豪瑟之門處的黑暗中閃耀。這些時(shí)刻都將隨著時(shí)間消逝,就像雨中的眼淚?!?/p>
這是著名科幻電影《銀翼殺手》的臺(tái)詞,被奉為影史經(jīng)典時(shí)刻。遺憾的是,電影并未呈現(xiàn)這段描述中的畫面,但43年后,可靈把它“拍”出來了。
4月15日,可靈AI正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。除模型基礎(chǔ)質(zhì)量和模型效果提升外,可靈AI的這次更新還聚焦“多模態(tài)編輯功能”。
《每日經(jīng)濟(jì)新聞》記者實(shí)測(cè)后發(fā)現(xiàn),可靈2.0大師版對(duì)提示詞的語義理解更加準(zhǔn)確,表述中的細(xì)節(jié)都會(huì)在畫面中呈現(xiàn)。而多模態(tài)編輯功能,可以實(shí)現(xiàn)替換畫面主體等元素,還可隨意增刪元素,無需重新描述生成。
除了功能“上新”,快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤透露,截至目前,可靈全球用戶規(guī)模突破2200萬??焓智安痪冒l(fā)布的年度業(yè)績(jī)公告中披露,自開始商業(yè)化至今年2月,可靈AI累計(jì)收入超1億元。
這場(chǎng)關(guān)于AI的“豪賭”,不僅在快手發(fā)生。技術(shù)更迭、版本推新,誰能搶先在AI市場(chǎng)擁有“話語權(quán)”,誰就有機(jī)會(huì)先拿到下一賽段的門票。
實(shí)測(cè)可靈2.0:指令遵循更準(zhǔn)確 畫面細(xì)節(jié)有提升
所謂的“多模態(tài)編輯功能”,簡(jiǎn)單來說就是輸入關(guān)鍵詞時(shí),還可在文本描述中插入圖片、視頻,或者引入其他模態(tài)的信息——如聲音、運(yùn)動(dòng)軌跡等。在視頻生成后,可以直接二次編輯處理,包括替換、增刪畫面內(nèi)的元素。
記者實(shí)測(cè)該功能后發(fā)現(xiàn),視頻生成后的畫面中,無論是主體還是涉及的其他元素,都可以通過上傳圖片、文字描述等方式直接編輯替換。目前,“多模態(tài)編輯功能”只能在可靈1.6模型下生成,2.0大師版還不支持。
不過,記者注意到,在替換相關(guān)元素后,也存在部分原細(xì)節(jié)丟失的情況。如,“熊貓彈吉他”視頻中,太陽被替換為月亮后,原描述中的“戴墨鏡”、“吐氣”等要求并未表現(xiàn)(如下圖)。

此外,記者也實(shí)測(cè)了可靈2.0大師版。如基于同一提示詞,無論是主體的生成、主體間的關(guān)聯(lián)邏輯、描述中的細(xì)節(jié)元素捕捉和動(dòng)態(tài)效果呈現(xiàn),2.0版本對(duì)語義的理解較于此前的1.6模型都更加準(zhǔn)確。

可靈2.0大師版生成的圖片

可靈1.6模型生成的圖片
同時(shí),記者也測(cè)試了可靈2.0大師版圖生視頻的功能。記者先是上傳一幅油畫圖片,并描述畫面轉(zhuǎn)動(dòng)態(tài)的要求后,其生成后的效果也與1.6模型生成后的效果有著較明顯差距。
首先是畫面風(fēng)格。1.6模型生成的視頻,在原油畫風(fēng)格上未有任何改變,但2.0大師版生產(chǎn)的動(dòng)態(tài)畫面,則從原油畫風(fēng)格變成了較寫實(shí)的風(fēng)格。其次是動(dòng)作幅度,2.0大師版生成的畫面中,無論是主體的動(dòng)作還是其他元素,動(dòng)作幅度明顯更大。最后是細(xì)節(jié)呈現(xiàn)。1.6模型生成的畫面中,部分元素有扭曲變形現(xiàn)象,2.0大師版則未出現(xiàn)。

可靈2.0大師版生成的圖片

可靈1.6模型生成的圖片
AIGC是下一代內(nèi)容結(jié)構(gòu)的雛形?
在發(fā)布可靈2.0大師版時(shí),蓋坤表示,文字在表達(dá)影像信息時(shí)不完備。因此,2.0新模型采用了Multi-modal Visual Language(簡(jiǎn)稱MVL)交互理念。
記者了解到,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從基礎(chǔ)方向以及精細(xì)控制兩個(gè)層面,精準(zhǔn)實(shí)現(xiàn)創(chuàng)意表達(dá)。
在這個(gè)交互理念下,用戶可以結(jié)合圖像參考、視頻片段等多模態(tài)信息,將包含身份、外觀、風(fēng)格、場(chǎng)景、動(dòng)作、表情、運(yùn)鏡等多個(gè)維度的復(fù)雜創(chuàng)意傳達(dá)給AI。
在這個(gè)升級(jí)邏輯下,圖片質(zhì)量會(huì)對(duì)視頻的生成效果產(chǎn)生重要影響。因此,快手的圖像生成大模型“可圖”也迎來了2.0升級(jí)??焓指笨偛谩⒖伸`AI負(fù)責(zé)人張迪介紹,當(dāng)前,圖生視頻約占到可靈AI視頻創(chuàng)作量的85%。
4月16日,工業(yè)和信息化部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,視頻生成賽道的最終受益者,可能還是內(nèi)容創(chuàng)作平臺(tái)。因?yàn)?,這些平臺(tái)具備兩樣?xùn)|西:其一是最相關(guān)的用戶群體,視頻生成未來可能更多還是為短視頻自媒體服務(wù);其二是最大規(guī)模的用戶受眾,生成式AI帶來的內(nèi)容創(chuàng)作升級(jí),會(huì)進(jìn)一步影響創(chuàng)作者和觀看者。
記者注意到,除了C端(消費(fèi)者)訂閱用戶,可靈AI也面向B端(商家)提供API(應(yīng)用程序接口)接入等服務(wù)。目前,可靈AI已與小米、亞馬遜云科技、阿里云、“Freepik”、藍(lán)色光標(biāo)等建立了合作。
快手想借AI講出新商業(yè)敘事
在商業(yè)化上,可靈的確具備一定的優(yōu)勢(shì)??伸`于去年6月發(fā)布,而自商業(yè)化以來,截至2025年2月,可靈AI的累計(jì)營(yíng)業(yè)收入超1億元。
所以前不久的財(cái)報(bào)電話會(huì)上,幾乎所有分析師提問,都圍繞可靈提出,快手聯(lián)合創(chuàng)始人、董事長(zhǎng)兼CEO程一笑表示,預(yù)計(jì)可靈AI在2025年將實(shí)現(xiàn)收入的跨越式增長(zhǎng)。
盤和林告訴記者,可靈的商業(yè)化還有開發(fā)空間,1億元營(yíng)收對(duì)可靈來說,應(yīng)該僅僅是開始?!拔磥恚枰獙I和內(nèi)容創(chuàng)作的全鏈條結(jié)合起來,提供更豐富的內(nèi)容生成功能,AI營(yíng)收還會(huì)有一定的提升?!彼绱吮硎?。
或許,想要增長(zhǎng),投入就不能停。
“快手將在未來3年甚至更長(zhǎng)時(shí)間內(nèi),進(jìn)行更大規(guī)模的Capex(資本支出)和研發(fā)投入,希望能通過可靈AI的賦能,改造升級(jí)現(xiàn)有業(yè)務(wù)的同時(shí),創(chuàng)造AI視頻內(nèi)容生產(chǎn)的新賽道,進(jìn)一步升級(jí)快手作為短視頻生產(chǎn)和消費(fèi)社區(qū)的領(lǐng)先地位?!背桃恍θ绱吮硎尽?/p>
盤和林認(rèn)為,可靈對(duì)快手整個(gè)生態(tài)來說很重要。未來,快手平臺(tái)上的創(chuàng)作者,需要借助可靈這樣的AI工具來生成內(nèi)容,或者至少輔助內(nèi)容創(chuàng)作,這會(huì)大大提高快手平臺(tái)上內(nèi)容輸出的質(zhì)量,從而更好地吸引用戶,擴(kuò)大快手在內(nèi)容平臺(tái)領(lǐng)域的影響力。
“與此同時(shí),可靈創(chuàng)造出的新的創(chuàng)收點(diǎn),一定程度上也能夠讓快手的收入更加多元化,繼而增加想象空間。無論是從長(zhǎng)期發(fā)展看,還是從吸引投資人的角度看,都對(duì)快手影響巨大。”盤和林進(jìn)一步補(bǔ)充說。
熱門跟貼