訓練和驗證輔助駕駛和自動駕駛的AI需要涵蓋多種復雜且關乎安全的場景。然而,僅依賴真實世界的數(shù)據(jù)收集存在成本高昂和時間受限的問題。諸如突然加塞、不可預測的行人行為或極端天氣等罕見但關鍵的情況難以大量捕捉。GAIA-2 解決了這一難題—專為全球自動駕駛打造的最先進視頻生成世界模型。

相比于GAIA-1而言GAIA-2 進一步拓展了合成數(shù)據(jù)生成的能力,提升了可控性、擴大了地理適用范圍,并涵蓋了更多種類的車輛。與通用生成模型不同,GAIA-2 專為自動駕駛的復雜性而設計—能夠處理多攝像頭視角、多樣化的道路狀況以及關鍵的極端案例。其條件控制參數(shù)涵蓋關鍵駕駛因素,包括自車行為變量(如速度、轉(zhuǎn)向曲率)、環(huán)境因素(天氣、時間)以及道路配置(如車道數(shù)量、限速、行人橫道、交叉路口等)。(鏈接在文章底部)

01 技術原理

GAIA-2核心由兩個關鍵組件構成:視頻標記器(video tokenizer)潛變量擴散世界模型(latent diffusion world model),二者協(xié)同工作,生成高保真的仿真場景。

視頻標記器負責將原始像素級視頻壓縮到一個緊湊且具有語義意義的潛在空間,以高效表示駕駛動態(tài),同時保留關鍵細節(jié)。潛變量擴散世界模型則根據(jù)歷史觀測、自車行為(如速度、轉(zhuǎn)向曲率)、動態(tài)智能體行為(基于 3D 邊界框)、環(huán)境因素(如天氣、時間)、道路屬性(如車道數(shù)量、限速、公交與自行車道、人行橫道、交叉路口、交通信號燈等)來預測未來的潛在狀態(tài)。

此外,GAIA-2 還支持從外部模型進行潛變量條件控制(latent conditioning),包括 CLIP 嵌入(embeddings)以及專門針對駕駛優(yōu)化的專有模型,這使其在各種合成數(shù)據(jù)應用場景下具備更強的適應性。該架構支持 GAIA-2 以多種模式進行生成:可以預測未來幀、合成全新場景,或修改已有視頻序列。通過結構化條件控制,GAIA-2 確保了跨多個攝像機視角的時空一致性,使其成為生成多樣化、可擴展、真實感強且包含極端場景的自動駕駛仿真數(shù)據(jù)的強大工具。

GAIA-2可以在多個國家、不同的時間、天氣條件和道路類型下合成駕駛場景。例如,它可以重現(xiàn)英國的左側行駛、美國的獨特交通標志以及德國的歐洲車道標記。除了地理變異性,GAIA-2還可以輕松調(diào)節(jié)一天中的時間和天氣條件,使場景能夠無縫過渡,例如從黎明、中午到夜晚,或從晴天、雨天到霧霾天氣。它還支持在城市、郊區(qū)和高速公路環(huán)境之間的平滑適配。

02 演示效果

GAIA-2 引入了一項強大的能力:基于目標動作合成完整的駕駛場景。通過指定某一駕駛動作(如剎車、讓行或掉頭),GAIA-2 能夠生成多樣化且符合情境的視頻序列,使該動作在生成的場景中既必要又合理。

安全關鍵事件(如險些碰撞、突然加塞、緊急剎車)是現(xiàn)實數(shù)據(jù)中最具挑戰(zhàn)性但又至關重要的場景。由于這些事件在真實駕駛日志中極為罕見,系統(tǒng)難以系統(tǒng)性地訓練和驗證其在高風險決策中的表現(xiàn)。

GAIA-2 通過精確可控的高風險場景生成來解決這一難題,使每個智能體的位置、運動軌跡及交互方式都可以被明確設定。它能夠主動模擬碰撞前情境、緊急避險操作(如急剎車),甚至超出常規(guī)分布的行為(如漂移或突然出現(xiàn)的障礙物)。

https://arxiv.org/pdf/2503.20523
https://wayve.ai/thinking/gaia-2/

歡迎交流~,帶你學習AI,了解AI