字節(jié)最近介紹了一個(gè)中等規(guī)模的研究模型,名為Seaweed-7B,該模型從零開始訓(xùn)練,擁有約70 億參數(shù)(7B),共使用了665,000 小時(shí)的 H100 GPU。盡管訓(xùn)練資源適中,Seaweed-7B 在性能上仍表現(xiàn)出極強(qiáng)的競爭力,甚至可與當(dāng)前體量更大的視頻生成模型媲美。(鏈接在文章底部)
盡管該模型表現(xiàn)出良好的潛力,但仍存在若干已知的局限性。首先,在視頻基礎(chǔ)模型的幾乎所有方面仍有大量提升空間。要解決這些挑戰(zhàn),需要科研界與工業(yè)界的共同努力,推動(dòng)數(shù)據(jù)整理、模型設(shè)計(jì)以及訓(xùn)練后處理等方向的進(jìn)步。其次,受限于計(jì)算資源,模型在生成精細(xì)細(xì)節(jié)(如小型人臉或精致圖案)方面仍存在不足。最后,確保負(fù)責(zé)任的視頻生成是一個(gè)亟需關(guān)注的研究方向,需要在安全性、公平性和倫理性方面投入更多努力。
01 演示效果
Seaweed 在生成各種景觀方面表現(xiàn)出色。它能夠創(chuàng)造出細(xì)致入微、構(gòu)圖動(dòng)感十足的視覺環(huán)境,從而增強(qiáng)敘事效果。通過一部短片展示了模型的生成能力。所有視頻內(nèi)容均由模型生成,唯一手動(dòng)添加的部分是背景音樂和片尾字幕。
Seaweed視頻生成模型提供了更強(qiáng)大的控制能力,使用戶能夠精確地創(chuàng)作出他們?cè)O(shè)想的內(nèi)容。通過提供一張圖像作為第一幀,用戶可以引導(dǎo)模型以一致的運(yùn)動(dòng)和風(fēng)格生成后續(xù)的視頻。這使用戶能夠完全掌控視覺美感,非常適用于對(duì)準(zhǔn)確性和創(chuàng)意方向要求較高的應(yīng)用場景。
Seaweed模型還可以通過微調(diào),根據(jù)參考圖像生成視頻,為用戶提供靈活的輸入選項(xiàng)。無論是人物參考圖、物體參考圖,還是多個(gè)參考圖的組合,模型都能夠?qū)⑵浜铣蔀閯?dòng)態(tài)的視頻序列。
以人為中心的視頻生成:Seaweed 結(jié)合 Omnihuman 實(shí)現(xiàn)基于音頻輸入的內(nèi)容生成,能夠創(chuàng)作出與音頻聲音高度契合的真實(shí)人物形象。該模型可精準(zhǔn)同步嘴型與身體動(dòng)作,使其與音頻的語氣和節(jié)奏保持一致,從而打造出自然流暢、栩栩如生的互動(dòng)體驗(yàn)。
生成音頻與視頻:Seaweed 還能夠同時(shí)生成音頻和視頻。生成的音頻與視頻的動(dòng)作、場景、語氣、節(jié)奏和風(fēng)格同步,確保音頻與視頻完美契合。音頻不僅與視頻相輔相成,還能提升視覺敘事,提供無縫的多媒體體驗(yàn)。
一致的敘事:Seaweed 能夠生成一致的、多鏡頭的長篇故事,保持場景和鏡頭之間的連貫性。用戶可以提供整體敘事的全局文本描述,以及每個(gè)獨(dú)立鏡頭的細(xì)致文本描述。
高分辨率生成:Seaweed 原生支持生成最高 1280x720 分辨率的視頻。生成的結(jié)果也可以進(jìn)一步上采樣到 2K QHD(2560x1440)分辨率。
世界探索:Seaweed 可用于通過定義的軌跡建模精確的相機(jī)控制,不僅提供了更強(qiáng)的創(chuàng)意指導(dǎo),還為用戶提供了一種互動(dòng)方式來探索模擬世界。
https://seaweed.video/seaweed.pdf
歡迎交流~,帶你學(xué)習(xí)AI,了解AI
熱門跟貼