2024 年,在 Brian Tong 的 YouTube 視頻中,Vision Pro 設(shè)備上的 FaceTime 通話首次亮相,其逼真的虛擬化身效果令人贊嘆不已。那么,蘋果是如何實現(xiàn)如此精準的面部表情捕捉的呢?一項新公布的專利為我們揭開了其中的秘密。
本月早些時候,蘋果提交的一項國際專利申請正式公布,該專利聚焦于電子設(shè)備用戶面部及手部姿態(tài)配置的確定方法、系統(tǒng)和設(shè)備。具體而言,它涉及識別頭戴式設(shè)備(HMD)用戶臉頰、下巴、嘴唇、舌頭、手部等部位在三維空間中的精確位置。

專利中詳細公開了多種用于區(qū)分用戶面部變形、手部姿態(tài)配置以及用戶頭部、面部和/或手部表面或組織幾何形狀上各點三維位置的設(shè)備、系統(tǒng)和方法。這些技術(shù)不僅有助于在 XR 環(huán)境中提供更加豐富的虛擬內(nèi)容,還能通過 XR 頭戴設(shè)備利用一個或多個天線獲取的射頻信號,精準區(qū)分用戶的面部變形、手部姿態(tài)配置及相關(guān)表情,并據(jù)此預(yù)測用戶的面部配置,如臉頰、下巴、嘴唇、舌頭等部位的三維關(guān)鍵點,以及手部姿態(tài)配置。
該專利主要針對 Vision Pro 設(shè)備進行設(shè)計,其頭戴式設(shè)備形式多樣,包括頭戴式顯示器、抬頭顯示眼鏡、具有透明鏡片的 AR 眼鏡以及矯正視力眼鏡等。設(shè)備的一個或多個天線可巧妙地集成在頭戴設(shè)備的底部等部位,通過與用戶頭部、面部或手部的特征進行介電式和非接觸式交互,將用戶面部或手部姿態(tài)的變化實時反映在天線的自諧振頻率和/或性能上。

XR 頭戴設(shè)備通過測量這些自諧振頻率和/或性能的值,所獲得的數(shù)據(jù)不僅可用于配置個性化形象,還能深入解讀用戶面部/手部的細微動作,甚至用于唯一標識用戶。個性化形象涵蓋用戶的照片寫實形象、抽象形象(如動畫形象)以及各種類型的虛擬化身等。
為減少用戶手部、面部覆蓋物(如胡須、口罩等)及復雜環(huán)境所帶來的干擾,專利中的一些實施方案采用了一種具有方向性輻射模式的天線設(shè)計,該模式基于射頻波強度的角依賴性,有效降低了外界干擾。部分實施方案還采用了縫隙天線,這種天線在某些場景下具有低剖面和結(jié)構(gòu)簡單的優(yōu)勢,進一步提升了信號的穩(wěn)定性。還有些實施方案采用了可折疊的縫隙天線,為放置次級天線提供了靈活的位置選擇。例如,在 XR 頭戴設(shè)備中心放置垂直極化的 U 形縫隙天線,在側(cè)面放置水平極化的天線,這種設(shè)計使得天線能夠更全面地捕捉用戶的面部和手部動作。

在專利圖 3A 示例中,可以清晰地看到頭戴設(shè)備如何利用天線獲取的射頻信號來預(yù)測用戶的面部配置。圖 3A 展示了頭戴設(shè)備的底部視圖,其底部裝有交叉極化的天線系統(tǒng),這些天線通過低剖面的3D打印底座略微朝向用戶面部進行安裝。這種正交定位的交叉極化天線系統(tǒng)有助于降低環(huán)境噪聲,提高信號分辨率,從而更好地捕捉嘴巴和手部的多種運動細節(jié),如嘴巴閉合、露齒微笑,或手指和關(guān)節(jié)的運動等。
雖然面部和/或手部姿態(tài)表情的捕捉不一定需要高幀率,但高分辨率掃描對于區(qū)分不同的嘴部或手部姿態(tài)至關(guān)重要。說話時的嘴部運動雖然迅速,但只需較低分辨率即可捕捉到嘴部運動的整體輪廓。對此,專利中提出了一種在特定頻率范圍內(nèi)采樣 31 個點的方法,從而在 8.5 FPS 下獲得 124 個值,既保證了捕捉的精度,又提高了處理效率。
熱門跟貼