
智東西5月7日消息,據(jù)外媒VentureBeat報(bào)道AI視頻生成模型有重大突破,數(shù)字創(chuàng)意工具開發(fā)商Lightricks(其代表性產(chǎn)品包括自拍編輯應(yīng)用Facetune 和通用的圖像編輯應(yīng)用VideoLeap)今日宣布推出迄今最強(qiáng)大的AI視頻生成模型——LTXV-13B。
該模型不僅能在消費(fèi)級(jí)GPU上運(yùn)行,還可實(shí)現(xiàn)視頻生成速度提升至同類模型的30倍。目前,LTXV-13B已以開源形式發(fā)布,并正在整合進(jìn)Lightricks的創(chuàng)意工具產(chǎn)品線,包括其旗艦敘事平臺(tái)LTX Studio。
LTXV-13B模型參數(shù)規(guī)模達(dá)130億,引入了“多尺度渲染”的全新技術(shù)路徑,通過(guò)逐層細(xì)化生成視頻,大幅提升效率,使創(chuàng)作者無(wú)需依賴高端企業(yè)級(jí)GPU,僅憑普通臺(tái)式機(jī)或高性能筆記本電腦即可生成高質(zhì)量的AI視頻。
Lightricks聯(lián)合創(chuàng)始人兼CEO Zeev Farbman在接受VentureBeat獨(dú)家專訪時(shí)表示:“130億參數(shù)LTX Video模型的發(fā)布,是AI視頻生成領(lǐng)域中的關(guān)鍵轉(zhuǎn)折點(diǎn)?,F(xiàn)在用戶可在消費(fèi)級(jí)GPU上快速生成高質(zhì)量?jī)?nèi)容,實(shí)現(xiàn)更高一致性、更優(yōu)質(zhì)量與更強(qiáng)可控性的突破性進(jìn)展?!?/p>
一、突破顯存瓶頸,LTXV-13B通過(guò)“多尺度渲染”實(shí)現(xiàn)AI視頻生成本地化運(yùn)行
目前AI視頻生成的一大挑戰(zhàn)在于其對(duì)計(jì)算資源的高要求,業(yè)界領(lǐng)先的模型例如Runway、Pika和 Luma往往需在云端使用多個(gè)80GB或更大顯存的企業(yè)級(jí)GPU運(yùn)行,這使得本地部署幾乎不可能實(shí)現(xiàn)。
消費(fèi)級(jí)GPU與企業(yè)級(jí)GPU的主要分水嶺在于顯存。NVIDIA針對(duì)消費(fèi)級(jí)市場(chǎng)的顯卡進(jìn)行了嚴(yán)格的內(nèi)存限制,如支持實(shí)時(shí)光線追蹤和圖像增強(qiáng)的RTX系列顯卡3090、4090,其顯存上限為24GB,而最新的5090為32GB。相比之下,企業(yè)級(jí)GPU的顯存要高得多?!?/p>
而LTXV-13B模型的設(shè)計(jì)完全考慮了消費(fèi)級(jí)硬件的限制。即使未經(jīng)量化處理、無(wú)近似簡(jiǎn)化,完整模型也能在消費(fèi)級(jí)GPU上運(yùn)行,包括NVIDIA支持實(shí)時(shí)光線追蹤和圖像增強(qiáng)的RTX系列顯卡3090、4090、5090及其筆記本版本。
▲這是LTXV-13B模型在單塊消費(fèi)級(jí)GPU上渲染的未經(jīng)編輯的四秒鐘示例(來(lái)源:Lightricks)
LTXV-13B模型性能提升的核心在于其“多尺度渲染”技術(shù),F(xiàn)arbman稱之為“本次發(fā)布中最重要的技術(shù)突破”?!岸喑叨蠕秩尽痹试S模型逐步生成細(xì)節(jié)。首先在粗略的網(wǎng)格上構(gòu)建場(chǎng)景與物體運(yùn)動(dòng)的大致輪廓,隨后將場(chǎng)景劃分為若干小塊,每個(gè)小塊再逐層填充更多細(xì)節(jié)。
這種處理方式類似于藝術(shù)家的繪畫流程:先起草大致輪廓,再逐步豐富細(xì)節(jié)。對(duì)AI而言,其優(yōu)勢(shì)在于所需的顯存峰值取決于小塊的大小,而非最終視頻的分辨率,同時(shí)該模型還使用更高效的潛空間壓縮機(jī)制,在保證輸出質(zhì)量的同時(shí)顯著降低顯存需求。并且由于視頻在潛空間中具有更高的壓縮率,能進(jìn)一步減少顯存占用。

▲Lightricks 的 LTXV-13B 模型在等效硬件上生成視頻僅需 37.59 秒,而同類模型耗時(shí)超過(guò) 1491 秒,提速近 40 倍(數(shù)據(jù)來(lái)源:Lightricks)
二、開源與免費(fèi)授權(quán)并行,推動(dòng)中小企業(yè)與學(xué)術(shù)界共創(chuàng)生態(tài)
盡管當(dāng)前許多領(lǐng)先的AI模型仍采用封閉API策略,Lightricks選擇將 LTXV-13B完全開源,已發(fā)布于開源平臺(tái)Hugging Face和GitHub。Farbman表示:“一年前還相對(duì)封閉的局面如今已有所改變。我們看到越來(lái)越多優(yōu)秀的大語(yǔ)言模型和擴(kuò)散模型開源發(fā)布。相比半年前,我現(xiàn)在對(duì)開源生態(tài)更為樂觀?!?/p>
開源策略也有助于加速研發(fā)進(jìn)展。“我們開源的主要?jiǎng)右蛑皇墙档脱邪l(fā)成本?!盕arbman指出,“許多高校研究人員會(huì)使用模型寫論文,我們則作為一個(gè)研究成果的‘策展人’,能更快識(shí)別出真正有價(jià)值的研究進(jìn)展。”
同時(shí)Lightricks決定向年收入不超過(guò)1000萬(wàn)美元的企業(yè)免費(fèi)授權(quán)使用LTXV-13B模型。這一在AI行業(yè)鮮有的策略目的在于構(gòu)建開發(fā)者與中小企業(yè)的生態(tài)社區(qū),借此在商業(yè)化前驗(yàn)證模型價(jià)值。
Farbman表示:“學(xué)術(shù)界本就不設(shè)限制,可以自由使用模型。而對(duì)初創(chuàng)企業(yè)和工業(yè)用戶,我們希望創(chuàng)造雙贏局面。光靠AI愛好者或藝術(shù)家的嘗試并不足以帶來(lái)規(guī)?;癄I(yíng)收?!睂?duì)于未來(lái)實(shí)現(xiàn)商業(yè)化的企業(yè),Lightricks計(jì)劃參考游戲引擎的授權(quán)模式,根據(jù)公司營(yíng)收狀況進(jìn)行商業(yè)談判。“一旦某公司營(yíng)收突破1000萬(wàn)美元,我們會(huì)就授權(quán)事宜與其商討。”
三、通過(guò)與Getty和Shutterstock的合作,解決AI訓(xùn)練的數(shù)據(jù)版權(quán)難題
隨著AI模型使用網(wǎng)絡(luò)抓取數(shù)據(jù)進(jìn)行訓(xùn)練所引發(fā)的法律爭(zhēng)議不斷增加,Lightricks已與圖片版權(quán)商Getty Images和Shutterstock達(dá)成合作協(xié)議,獲得用于模型訓(xùn)練的授權(quán)內(nèi)容。
▲兩只由AI生成的兔子在單塊消費(fèi)級(jí)GPU上渲染而成,它們短暫地望向鏡頭后便邁步離開(數(shù)據(jù)來(lái)源:Lightricks)
Farbman坦言:“訓(xùn)練數(shù)據(jù)的收集仍處在法律的灰色地帶。我們的企業(yè)客戶對(duì)此非常重視,因此必須確保能為他們提供合法合規(guī)的模型?!蓖ㄟ^(guò)與上述內(nèi)容提供商的合作,Lightricks能夠在保證合規(guī)性的同時(shí)拓展企業(yè)級(jí)市場(chǎng),降低其在商業(yè)應(yīng)用中的法律風(fēng)險(xiǎn)。
結(jié)語(yǔ):AI視頻生成領(lǐng)域多模態(tài)融合引領(lǐng)技術(shù)突破
Farbman坦言,盡管LTXV-13B已取得顯著進(jìn)展,但當(dāng)前AI視頻生成尚未達(dá)到影視制作所需的精度與復(fù)雜度,即便是最先進(jìn)的模型,距離真正的好萊塢水準(zhǔn)仍有不小差距。
但他也指出,AI視頻已在動(dòng)畫制作等實(shí)際場(chǎng)景中展現(xiàn)出巨大的效率優(yōu)勢(shì),特別是能自動(dòng)化執(zhí)行一些重復(fù)性極強(qiáng)、資源消耗大的環(huán)節(jié)?!案叨藙?dòng)畫制作的預(yù)算中,真正的創(chuàng)意設(shè)計(jì)只占一小部分,而關(guān)鍵幀制作卻是耗費(fèi)最多資源的環(huán)節(jié)之一?!?/p>
展望未來(lái),F(xiàn)arbman預(yù)測(cè)下一個(gè)技術(shù)前沿將是“多模態(tài)視頻模型”,即將圖像、音頻、音樂等內(nèi)容整合至同一潛空間內(nèi)進(jìn)行聯(lián)合建模?!皩脮r(shí)諸如唇形同步等問題將迎刃而解,跨模態(tài)協(xié)同將成為基礎(chǔ)能力?!?/p>
來(lái)源:VentureBeat
熱門跟貼