本文聚焦于華中科技大學(xué)、南洋理工大學(xué)、大灣區(qū)大學(xué)和上海人工智能實驗室聯(lián)合團(tuán)隊的最新成果 —— WildAvatar 數(shù)據(jù)集。該數(shù)據(jù)集是迄今為止規(guī)模最大的自然場景中 3D 數(shù)字人重建數(shù)據(jù)集。其收錄了超過 10,000 個涵蓋多樣化人物與場景的視頻片段,有效解決了以往 3D 數(shù)字人重建數(shù)據(jù)標(biāo)注成本高昂、數(shù)據(jù)量有限以及場景過于單一等問題。在當(dāng)下大數(shù)據(jù)驅(qū)動的大模型時代,該超大規(guī)模數(shù)據(jù)集有望為 3D 數(shù)字人重建及生成等相關(guān)領(lǐng)域注入強(qiáng)大動力,助力其蓬勃發(fā)展,為相關(guān)研究提供堅實的數(shù)據(jù)基礎(chǔ)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

論文題目: WildAvatar: Learning In-the-wild 3D Avatars from the Web 論文鏈接: https://arxiv.org/abs/2407.02165 代碼鏈接: https://github.com/wildavatar/WildAvatar_Toolbox

一、動機(jī)

3D 數(shù)字人重建技術(shù)在 VR/AR、電影制作、元宇宙等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。然而,當(dāng)前的技術(shù)和數(shù)據(jù)采集方式在現(xiàn)實場景中的應(yīng)用面臨諸多限制。盡管神經(jīng)輻射場(NeRF)等技術(shù)的出現(xiàn)使得從簡單實驗室數(shù)據(jù)中的 2D 圖像或視頻恢復(fù)出逼真的 3D 數(shù)字人成為可能,但現(xiàn)有數(shù)據(jù)的簡單性以及復(fù)雜且昂貴的采集系統(tǒng),嚴(yán)重制約了 3D 數(shù)字人重建技術(shù)在現(xiàn)實場景中的應(yīng)用價值。

目前的 3D 數(shù)字人數(shù)據(jù)集大多依賴于復(fù)雜且昂貴的實驗室系統(tǒng)采集,這些系統(tǒng)需要各種先進(jìn)設(shè)備進(jìn)行準(zhǔn)確標(biāo)注,例如需要精確校準(zhǔn)的多目相機(jī)、深度傳感器、慣性傳感器(IMU)或昂貴的掃描儀,以及專業(yè)的演員和專用舞臺等。然而,在現(xiàn)實場景(例如單目網(wǎng)絡(luò)視頻)或消費(fèi)級應(yīng)用中,這些理想的數(shù)據(jù)條件是不現(xiàn)實的。此外,由于現(xiàn)有 3D 數(shù)字人重建數(shù)據(jù)的采集成本極高,難以實現(xiàn)大規(guī)模數(shù)據(jù)的積累,這極大地限制了可泛化的 3D 數(shù)字人重建方法的通用性和泛化能力。

為了解決這些問題,本研究將目光轉(zhuǎn)向網(wǎng)絡(luò)視頻,收集并標(biāo)注了一個超大規(guī)模的自然場景中的人體重建數(shù)據(jù)集。該數(shù)據(jù)集的構(gòu)建旨在彌補(bǔ)以往人體重建數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)體量小、僅局限于簡單場景等不足,為推動 3D 數(shù)字人重建技術(shù)在更廣泛場景中的應(yīng)用奠定基礎(chǔ)。

二、方法 2.1 標(biāo)注框架

本研究致力于高效構(gòu)建一個大規(guī)模且貼近現(xiàn)實應(yīng)用的 3D 數(shù)字人重建數(shù)據(jù)集。為此,研究團(tuán)隊從互聯(lián)網(wǎng)上爬取了 10 萬個包含人體運(yùn)動的視頻,并通過以下四個階段對這些視頻進(jìn)行處理,以獲取高質(zhì)量的標(biāo)注數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

四階段式單目數(shù)字人視頻處理流程。首先獲取視頻中主體對象的裁剪框(階段I),其次提取人體分割掩碼(階段II)。再次逐幀粗略估計SMPL參數(shù)和相機(jī)參數(shù)(階段III),最后利用幀間平滑與空間對齊信息,迭代優(yōu)化SMPL參數(shù)和相機(jī)參數(shù)(階段IV) 階段 I:人體裁剪框檢測與跟蹤

首先利用現(xiàn)有的 Yolo 檢測方法提取主體人物的裁剪框,隨后剔除過短的視頻片段以及人體檢測與跟蹤結(jié)果置信度低的片段。

階段 II:人體分割掩碼提取

采用最新的 Segment Anything(SAM)方法,僅需輸入人體檢測、跟蹤和 2D 人體姿態(tài)估計中獲得的裁剪框和樣例點,即可自動生成分割掩碼。

階段 III:粗略的 SMPL 參數(shù)和相機(jī)參數(shù)估計

研究團(tuán)隊首先利用基于單張圖像的人體 SMPL 估計方法,逐幀估計 SMPL 參數(shù)和相機(jī)參數(shù)。

階段 IV:優(yōu)化 SMPL 參數(shù)和相機(jī)參數(shù)

在階段 III 中估計的 SMPL 參數(shù)尚未考慮人體運(yùn)動的時序一致性。為了進(jìn)一步優(yōu)化這些參數(shù),研究團(tuán)隊采用梯度下降法對整個視頻片段序列進(jìn)行處理,以逐步平滑標(biāo)注結(jié)果。在此過程中,將估計的 2D 關(guān)鍵點和 SAM 掩碼納入優(yōu)化目標(biāo),從而為 SMPL 參數(shù)的優(yōu)化提供更全面的約束條件。

2.2 篩選策略

為確保收集到的視頻片段滿足高質(zhì)量 3D 數(shù)字人重建的要求,研究團(tuán)隊提出了以下四個篩選策略:

 數(shù)據(jù)篩選策略 策略 I:清晰人體且有顯著運(yùn)動
打開網(wǎng)易新聞 查看精彩圖片
數(shù)據(jù)篩選策略 策略 I:清晰人體且有顯著運(yùn)動

從視頻中篩選出人體清晰且無遮擋的片段,并且要求人體有顯著的運(yùn)動或視角變化。通過檢測人體和 2D 姿態(tài)估計的置信度,排除那些人體被嚴(yán)重遮擋、持續(xù)時間過短以及視角變化不明顯的片段,以確保視頻片段中包含足夠豐富的人體運(yùn)動信息。頻中包含足夠的人體運(yùn)動信息。

策略 II:多模型專家的一致性

為確保不同標(biāo)注模型對同一視頻片段的標(biāo)注結(jié)果保持一致,進(jìn)而提升標(biāo)注質(zhì)量,本研究采用了多種前沿的標(biāo)注模型,包括檢測模型、2D 姿態(tài)估計模型以及 SMPL 估計模型。通過計算這些模型預(yù)測結(jié)果的平均值作為最終標(biāo)注結(jié)果,并以標(biāo)準(zhǔn)差作為衡量標(biāo)注一致性的參考指標(biāo),從而篩選并剔除標(biāo)注結(jié)果不一致的視頻片段。

策略 III:2D 關(guān)鍵點的一致性

檢驗單目 SMPL 估計與 2D 姿態(tài)估計結(jié)果的匹配度,以提升 SMPL 估計的可信度。通過計算投影的 SMPL 關(guān)鍵點與 2D 姿態(tài)估計關(guān)鍵點之間的 PCK 值來實現(xiàn)。只有當(dāng)平均 PCK 值超過設(shè)定閾值時,才認(rèn)為估計結(jié)果可靠。

策略 IV:SMPL 掩碼與 SAM 掩碼的一致性

確保SMPL 投影掩碼與 Segment Anything(SAM)掩碼的匹配度,從而保障標(biāo)注的高質(zhì)量。對比 SMPL 投影掩碼和 SAM 掩碼的重疊部分。通過剔除 SAM 掩碼與 SMPL 掩碼重疊較少的視頻片段,以確保標(biāo)注的準(zhǔn)確性。

三、實驗

本研究廣泛地在 THuman、HuMMan、RenderPeople 和 WildAvatar 數(shù)據(jù)集上展開實驗,并運(yùn)用 PSNR、SSIM 和 LPIPS 等常用指標(biāo)對重建效果進(jìn)行評估。結(jié)果顯示,四階段標(biāo)注框架在提升重建準(zhǔn)確性方面具有顯著優(yōu)勢。此外,為了驗證 WildAvatar 數(shù)據(jù)集的超大規(guī)模體量對可泛化 3D 人體重建方法的提升作用,研究團(tuán)隊進(jìn)行了額外實驗。實驗結(jié)果表明,WildAvatar 數(shù)據(jù)集在現(xiàn)實場景中能夠?qū)F(xiàn)有方法的泛化能力提升近7% 。這些結(jié)果突出了 WildAvatar 數(shù)據(jù)集在提升 3D 人體重建性能方面的潛力,尤其是在復(fù)雜現(xiàn)實場景中的應(yīng)用價值。

打開網(wǎng)易新聞 查看精彩圖片

使用不同標(biāo)注的3D數(shù)字人重建效果的定量結(jié)果對比

打開網(wǎng)易新聞 查看精彩圖片
WildAavtar和之前實驗室數(shù)據(jù)集上的泛化能力對比
打開網(wǎng)易新聞 查看精彩圖片
可泛化3D數(shù)字人重建方法在WildAvatar上的定性對比
四、總結(jié)和展望

本研究提出了 WildAvatar 數(shù)據(jù)集,這是一個從互聯(lián)網(wǎng)收集并標(biāo)注的超大規(guī)模 3D 數(shù)字人重建數(shù)據(jù)集,包含超過 10,000 個不同的人物主體和場景。與傳統(tǒng) 3D 數(shù)字人重建數(shù)據(jù)集相比,WildAvatar 在人物和場景的多樣性上實現(xiàn)了至少十倍的提升。通過對現(xiàn)有 3D 數(shù)字人重建方法在 WildAvatar 數(shù)據(jù)集上的測試,研究揭示了大規(guī)模數(shù)據(jù)驅(qū)動下模型泛化的潛力,同時也暴露了在實際應(yīng)用中仍需解決的挑戰(zhàn)。該數(shù)據(jù)集有望為 3D 數(shù)字人重建及相關(guān)領(lǐng)域的進(jìn)一步研究提供寶貴的數(shù)據(jù)支持,相關(guān)數(shù)據(jù)與代碼已開源

llustration From IconScout By IconScout Store

-The End-

打開網(wǎng)易新聞 查看精彩圖片

掃碼觀看!

本周上新!

打開網(wǎng)易新聞 查看精彩圖片

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

打開網(wǎng)易新聞 查看精彩圖片

點擊右上角,把文章分享到朋友圈

點擊“閱讀原文”按鈕,查看社區(qū)原文