
如果DeepSeek等語言大模型代表人類左腦,可靈AI有點像人的右腦。
文|《中國企業(yè)家》記者 趙東山
編輯|張曉迪
圖片來源|中企圖庫
4月18日~19日,由《中國企業(yè)家》雜志社主辦的2025(第十七屆)商界木蘭年會在北京舉辦。圍繞可靈AI的技術(shù)進展和實際應(yīng)用,快手科技副總裁、大模型團隊負責(zé)人張迪發(fā)表了主題演講。
張迪演講的核心觀點如下:
1.以DeepSeek為代表的大語言模型,代表的是人類的左腦,更多是關(guān)于語言和邏輯的部分??伸`AI等視覺大模型,有點像是人的右腦,更多代表的是人類對圖片和視頻的理解以及生成。
2.可靈已經(jīng)發(fā)展成了一個全球化的產(chǎn)品,在全球范圍之內(nèi)累計超過2200萬的用戶,用戶使用可靈生成了1.68億個視頻,其中包括3.44億張圖片,可靈在阿根廷、智利等8個國家和地區(qū)的iOS應(yīng)用市場下載排到了第一,在北美市場的分類下載也排到了第一。
3.整個科技行業(yè)發(fā)展非???,AI發(fā)展非??欤袊竽P蛷那皫啄曜汾s美國的狀態(tài)到今天各個領(lǐng)域跟美國的差距在縮小,最重要的還是AI轉(zhuǎn)化為新質(zhì)生產(chǎn)力。

以下為張迪演講全文:
大語言模型代表左腦,視頻大模型代表右腦
尊敬的各位領(lǐng)導(dǎo),各位企業(yè)家,大家上午好!我非常開心能夠給大家?guī)磉@個分享,我今天分享的主題是“可靈AI助力開啟視頻創(chuàng)作的新業(yè)態(tài)”,前面幾位企業(yè)家都講到了包括影視跟AI的結(jié)合,可以做一個呼應(yīng)。
我是快手的副總裁,主要在快手負責(zé)大模型的研發(fā),我也是一個技術(shù)人員,所以接下來我盡可能給大家講一下中國的AI、中國的大模型發(fā)展到什么階段了。
最開始先說一下整個大模型技術(shù)領(lǐng)域,大概可以分成兩個大的方向,第一,以DeepSeek為代表的大語言模型,代表的是人類的左腦,更多是關(guān)于語言和邏輯的部分。第二,我今天講的這部分是關(guān)于視覺大模型,有點像是人的右腦,更多代表的是人類對于圖片和視頻的理解以及生成。
首先說一下可靈AI這個業(yè)務(wù)的愿景,我們的愿景是建設(shè)全球領(lǐng)先的AI視覺與表達平臺,讓每一個人都能夠用AI講出一個好故事,這是我們做這件事情的初衷,我們想讓每一個人都可以把自己的創(chuàng)意轉(zhuǎn)化成一個好的視覺的故事。
我今天盡可能少一些文字,因為我們是一個視覺大模型,我盡可能多一些視頻素材給大家介紹一下。
可靈AI是去年6月份發(fā)布的,是全球首個用戶可以使用的真實視頻生成大模型,我相信很多人未必了解它是用來做什么的,我說一下2024年春節(jié)的時候一個特別火的模型是OpenAI的Sora,這個在全球范圍之內(nèi)引起了一個很大的討論,Sora發(fā)布之后只發(fā)布了一些demo,相當(dāng)長一段時間都沒有開放給用戶使用,我們也是抓住了這個機會,通過快速研發(fā)率先推出了可靈AI。
我們在去年6月份發(fā)布的版本上已經(jīng)可以根據(jù)文字描述生成接近電影質(zhì)感的、比較美輪美奐、比較寫實的、符合物理規(guī)律的視頻片段。
在之后我們整個大模型在國內(nèi)外引起了很好的一個反響,在國際非常知名的視覺模型評測的榜單上,我們可靈AI也是處于第一名的位置,包括OpenAI的Sora、谷歌的Veo2都排在可靈AI之后。
在海外引起了很大關(guān)注
可靈AI發(fā)布之后無論是國內(nèi)還是海外都引起很大的關(guān)注,尤其在海外引起了很好的反響,包括埃隆·馬斯克都參與到了可靈的討論里面來,除了DeepSeek以外,可靈AI也是在硅谷代表中國影響力最高的一個視覺模型。
我們在這之后也經(jīng)過了10個月的快速研發(fā),不停地更新我們的模型、產(chǎn)品,經(jīng)過了二十幾次的迭代,現(xiàn)在我們的可靈已經(jīng)發(fā)展成了一個全球化的產(chǎn)品,我們在全球范圍之內(nèi)累計超過2200萬的用戶,我們的用戶使用可靈生成了1.68億個視頻,3.44億張圖片,我們的APP也是在阿根廷、智利等8個國家和地區(qū)的iOS應(yīng)用市場下載排到了第一,在北美市場的圖像與設(shè)計分類里面的下載也排到了第一。
講完整個可靈的介紹,我接下來就用一組短片給大家介紹一下可靈有什么樣的能力,4月15日,我們發(fā)布了可靈2.0,在可靈發(fā)布的時候有兩個最核心的模型,一個是可圖大模型2.0,做的是圖像生成的工作,你輸入一段文字,我們就可以按照你的文字指令生成一個圖片;第二個是可靈視頻生成大模型,你輸入一段文字或者輸入一張圖片,我們就可以生成對應(yīng)的你想要的視頻片段。
從指標(biāo)上來說,我們發(fā)布的新版本在全球范圍之內(nèi),在這個領(lǐng)域仍然是行業(yè)領(lǐng)先的,包括我們的可圖在評測上超過了我們的競品,包括大家比較了解的Midjourney,我們可靈大模型在模型的性能上比谷歌Veo2和OpenAI的Sora,包括非常知名的Runway要更好一點,這是一個模型指標(biāo)的參考。
過去一年視頻生成模型在發(fā)生什么?
更直觀的,我想給大家展示一下過去一年的時間視頻生成的能力到底有一個什么樣的變化,大家可以看到這是一年之前我們的模型,左側(cè)是一段非常復(fù)雜的描述詞,它描述的是一個電影場景的人,一個在跑動的場景,一年之前這個畫面沒法看,基本上是一個動圖,這是2024年1月份。2024年6月份我們發(fā)布的版本,雖然畫面還是非常糟糕的,至少這個人動起來了,有點像一個視頻。
2024年12月份已經(jīng)有一點感覺了,雖然整個畫面視頻完成質(zhì)量很低,但有點感覺了,我們發(fā)布的2.0很好地生成了左邊的完整視頻,是跑酷的畫面,整個畫面的質(zhì)量,整個鏡頭的跟隨程度,整個美學(xué)已經(jīng)達到了電影的質(zhì)感,整個技術(shù)的發(fā)展是非??斓?,一年以前整個行業(yè)都不敢想象我們是可以用文字生成近似于影視質(zhì)感的視頻,僅一年的時間,就可以發(fā)展為輸入左邊的文字就可以生成右邊的視頻,接下來用更多的例子給大家做一個展示。
我們怎么用文字生成圖片,再用圖片生成電影短片的,右邊這個例子是超級創(chuàng)作者用圖像模型、視頻模型的例子,上面用文字生成的圖片,下面用這張圖片生成的視頻,我們的模型可以響應(yīng)各種各樣的風(fēng)格,故事片、動作片都可以做得很好,上面這些片段其實是一些電影片段的復(fù)現(xiàn),上面所有的畫面和視頻都是用AI技術(shù)生成的,沒有進行任何的拍攝和設(shè)計。
一些基本功能,文生視頻,輸入左邊的這些詞,右邊就可以看到片段,左邊是我們的老模型,右邊是我們的新模型,對于人物的動作、表情都可以展現(xiàn)得非常詳細,下面是延遲攝影的示例,這是文生視頻。
圖生視頻,給我一張圖片,可以是生成的,也可以是你拍攝的,就可以生成下面的視頻,無論對于寫實類的還是卡通動畫類的都可以做得非常好。
我們也支持多模態(tài)編輯,現(xiàn)有的視頻我們可以對視頻中元素進行增刪改,視頻中的PS也可以實現(xiàn)了,有一個示例,展現(xiàn)我們怎么對現(xiàn)有視頻進行增刪改,這是原始的視頻,可以替換中視頻中的所有元素,讓女生妝容變化、人物變化、吃的東西變化,可以看到這個視頻讓我們感覺現(xiàn)實好像已經(jīng)不“存在”了,所有的視頻也可以進行動態(tài)的變化。
我們知道影視制作除了生成圖片視頻以外,聲音也是很重要的,我們的平臺可以提供聲音、音效生成能力,聲音也是AI生成的,這個短片所有的聲音都是AI生成的,這是一個卡通短片,他講述的是老爺爺和老奶奶回憶自己青春時的經(jīng)歷,所有的聲音都是根據(jù)畫面自動生成的,可以看到無論是圖像、視頻、聲音,AI都代表了新質(zhì)生產(chǎn)力,大幅降低了創(chuàng)作的成本,提高了創(chuàng)作的效率,這是聲音部分。
可靈AI帶來的新商業(yè)機會
AI也可以帶來很多有意思的玩法,我們給木蘭會的LOGO做了一個視頻效果,可以變成非常有意思的動漫特效。
最后我想給大家展示AI做電影、AI做商業(yè)化做到什么程度,接下來的短片能夠震撼到大家,這個是我們超級創(chuàng)作者給我們做的最新電影短片中的片段,《王國》,所有內(nèi)容都是AI生成的,網(wǎng)友們說是AI版《權(quán)力的游戲》,如果用傳統(tǒng)的拍攝技術(shù),拍攝難度、拍攝成本都非常高,我們用AI做這個片子大概是幾個人的工作室,做了一周的成本,這是一個短片,真實片子有20分鐘的長度,我們在5月份會有一個完整系列的短片,每個片子有20~40分鐘,有十部片子在全球發(fā)布,包括了各種各樣的風(fēng)格。
整個科技行業(yè)發(fā)展非???,AI發(fā)展非常快,中國大模型從前幾年追趕美國的狀態(tài)到今天各個領(lǐng)域跟美國的差距在縮小,最重要的還是AI轉(zhuǎn)化為新質(zhì)生產(chǎn)力,跟各行各業(yè)結(jié)合在一起。
熱門跟貼