
全民智駕的元年到來(lái),AI正成為車企競(jìng)爭(zhēng)的新賽場(chǎng)。
文丨智駕網(wǎng) 王欣
編輯 | 雨來(lái)
全民智駕的元年到來(lái),AI已成為車企競(jìng)爭(zhēng)的新賽場(chǎng)。
3月5日,CVPR 2025成績(jī)單出來(lái)了,其中,理想汽車上榜了4篇。
CVPR國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議是IEEE(電氣和電子工程師協(xié)會(huì))主辦的一年一度的國(guó)際會(huì)議,被公認(rèn)為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議之一,和ICCV、ECCV并稱計(jì)算機(jī)視覺三大頂級(jí)會(huì)議,近年來(lái)也不斷有自動(dòng)駕駛領(lǐng)域的前沿研究獲獎(jiǎng)。
對(duì)于理想汽車的意義在于,這不僅是其首次以車企身份躋身全球頂級(jí)AI會(huì)議,更標(biāo)志著其從“造車新勢(shì)力”向真正發(fā)展為AI公司的戰(zhàn)略轉(zhuǎn)型有了一個(gè)階段性的成果。
當(dāng)天,理想汽車創(chuàng)始人、董事長(zhǎng)、CEO李想在社交媒體上發(fā)文稱:自從特斯拉的全自動(dòng)駕駛(FSD)功能入華后,經(jīng)過(guò)對(duì)比,理想AD Max V13的接管次數(shù)明顯少于特斯拉FSD,表現(xiàn)更好。李想還提到,理想AD Max V13基于1000萬(wàn)條數(shù)據(jù)進(jìn)行訓(xùn)練,并于2月27日全面推送,得到了用戶的好評(píng)。

這次入選的四篇論文背后的署名作者是理想汽車副總裁、智駕負(fù)責(zé)人朗咸朋及其團(tuán)隊(duì)的多名工程師。在不久前的理想汽車AI Talk中,朗咸朋曾在直播中表示,預(yù)計(jì)2025年理想汽車能夠?qū)崿F(xiàn)L3級(jí)的智能駕駛。

此次入選的StreetCrafter、DrivingSphere、DriveDreamer4D與ReconDreamer四篇論文,主要是理想汽車在自動(dòng)駕駛模擬仿真方向做的創(chuàng)新,同時(shí)直面回答自動(dòng)駕駛研發(fā)的核心痛點(diǎn)難題:數(shù)據(jù)成本高企與極端場(chǎng)景覆蓋不足。
下面我們分別解析這四篇論文:
01.
StreetCrafter:基于LiDAR與視頻擴(kuò)散模型的街景合成技術(shù)
StreetCrafter是作為理想汽車聯(lián)合浙江大學(xué)、康奈爾大學(xué)提出的自動(dòng)駕駛仿真技術(shù),其核心目標(biāo)是通過(guò)LiDAR點(diǎn)云與視頻擴(kuò)散模型的融合,解決傳統(tǒng)方法(如NeRF、3D高斯散射)在視角偏離訓(xùn)練軌跡時(shí)渲染模糊或偽影的難題。


其核心技術(shù)包含兩部分:
可控視頻擴(kuò)散模型:通過(guò)多幀LiDAR點(diǎn)云聚合生成全局點(diǎn)云,并渲染為像素級(jí)條件圖像,作為擴(kuò)散模型的輸入。在推理階段,根據(jù)新視角的相機(jī)軌跡生成高保真視頻幀,支持實(shí)時(shí)渲染和場(chǎng)景編輯(如對(duì)象平移、替換和刪除)。

動(dòng)態(tài)3D高斯表示蒸餾:利用生成的新視角圖像作為監(jiān)督信號(hào),優(yōu)化3D高斯的幾何與紋理,結(jié)合混合損失函數(shù)(L1、SSIM、LPIPS)和漸進(jìn)優(yōu)化策略,提升視角外推能力,同時(shí)保持80-113 FPS的實(shí)時(shí)渲染速度。
實(shí)驗(yàn)結(jié)果顯示,在Waymo數(shù)據(jù)集上,StreetCrafter在3米視角偏移下的FID為71.40,顯著優(yōu)于Street Gaussians的93.38,且在復(fù)雜區(qū)域(如車道線和移動(dòng)車輛)的細(xì)節(jié)清晰度更高。

StreetCrafter其應(yīng)用價(jià)值在于降低自動(dòng)駕駛訓(xùn)練對(duì)真實(shí)數(shù)據(jù)的依賴。例如,在訓(xùn)練車輛變道算法時(shí),可通過(guò)調(diào)整相機(jī)軌跡生成多角度變道場(chǎng)景視頻,模擬不同光照、天氣條件下的數(shù)據(jù),以及應(yīng)對(duì)極端場(chǎng)景下的仿真測(cè)試。
在應(yīng)對(duì)突發(fā)障礙物(如行人橫穿、車輛逆行)時(shí),利用場(chǎng)景編輯功能,在LiDAR點(diǎn)云中插入虛擬障礙物(如刪除道路上的車輛并替換為行人),生成測(cè)試視頻。例如,模擬行人突然闖入車道,驗(yàn)證系統(tǒng)緊急制動(dòng)能力。
但局限性包括對(duì)LiDAR標(biāo)注的高成本依賴(數(shù)據(jù)采集成本提升)、生成速度僅0.2FPS,以及對(duì)形變物體(如行人)的建模精度不足。
也許正是意識(shí)到這些不足,日前理想汽車宣布:今年推出的所有車型都將標(biāo)配激光雷達(dá)傳感器。
02.
DrivingSphere:生成式閉環(huán)仿真框架與4D高保真環(huán)境建模
DrivingSphere旨在構(gòu)建一個(gè)支持動(dòng)態(tài)閉環(huán)交互的4D(3D空間+時(shí)間)仿真環(huán)境,以克服傳統(tǒng)開環(huán)仿真數(shù)據(jù)多樣性不足、閉環(huán)仿真視覺保真度低的問(wèn)題。
框架主要通過(guò)兩大模塊和一個(gè)機(jī)制,為智能體構(gòu)建了高保真4D世界,評(píng)估自動(dòng)駕駛算法。

動(dòng)態(tài)環(huán)境組合(DEC模塊):基于OccDreamer(3D占用擴(kuò)散模型)生成靜態(tài)場(chǎng)景,并結(jié)合“Actor Bank”動(dòng)態(tài)管理交通參與者(如車輛、行人),通過(guò)語(yǔ)義相似性或隨機(jī)采樣選擇參與者,實(shí)現(xiàn)城市場(chǎng)景的無(wú)限擴(kuò)展。
該模塊采用OccDreamer,一個(gè)基于鳥瞰圖(BEV)和文本條件控制的3D占用擴(kuò)散模型,用于生成靜態(tài)場(chǎng)景。它通過(guò)VQ-VAE將3D占用數(shù)據(jù)壓縮為潛在表示,并結(jié)合ControlNet分支注入BEV地圖和文本提示,逐步生成城市級(jí)連續(xù)靜態(tài)場(chǎng)景。

視覺場(chǎng)景合成(VSS模塊):利用雙路徑條件編碼(全局幾何特征與局部語(yǔ)義圖)和視頻擴(kuò)散模型(VideoDreamer),生成多視角時(shí)空一致的高保真視頻,并通過(guò)ID感知編碼綁定參與者外觀與位置,解決外觀漂移問(wèn)題。

閉環(huán)反饋機(jī)制:通過(guò)Ego Agent(被測(cè)算法)與環(huán)境Agent(交通流引擎)的交互,實(shí)現(xiàn)“感知-決策-環(huán)境響應(yīng)”的動(dòng)態(tài)閉環(huán)測(cè)試,驗(yàn)證算法在復(fù)雜場(chǎng)景中的魯棒性。
在實(shí)驗(yàn)與結(jié)果方面,DrivingSphere在視覺保真度評(píng)估中表現(xiàn)出色。
在nuScenes數(shù)據(jù)集上,DrivingSphere的OccDreamer模塊生成的場(chǎng)景FID顯著優(yōu)于SemCity,視頻生成結(jié)果在3D目標(biāo)檢測(cè)和BEV分割指標(biāo)上超越MagicDrive與DriveArena。

總的來(lái)看,DrivingSphere其核心貢獻(xiàn)在于將幾何建模與生成式技術(shù)結(jié)合,但論文也指出,需進(jìn)一步優(yōu)化動(dòng)態(tài)行為的復(fù)雜性(如極端場(chǎng)景覆蓋不足)和計(jì)算成本。
03.
DriveDreamer4D:基于世界模型的4D駕駛場(chǎng)景重建與軌跡生成
DriveDreamer4D的目標(biāo)是通過(guò)世界模型(World Model)增強(qiáng)4D駕駛場(chǎng)景重建的時(shí)空一致性與生成質(zhì)量,解決傳統(tǒng)傳感器仿真方法(如NeRF、3DGS)在復(fù)雜動(dòng)作(如變道、加速)下的局限性。
比如,現(xiàn)有傳感器仿真技術(shù)(如NeRF、3D高斯散射)依賴與訓(xùn)練數(shù)據(jù)分布緊密匹配的條件,僅能渲染前向駕駛場(chǎng)景,難以處理復(fù)雜動(dòng)作(如變道、急剎)導(dǎo)致的視角偏移或動(dòng)態(tài)交互問(wèn)題,常出現(xiàn)“鬼影”“拖影”等偽影。

亦或是開環(huán)仿真數(shù)據(jù)多樣性不足,閉環(huán)仿真則面臨視覺保真度低、動(dòng)態(tài)交互不真實(shí)等挑戰(zhàn)。
那么世界模型通過(guò)預(yù)測(cè)未來(lái)狀態(tài)生成多樣化駕駛視頻,但其此前局限于二維輸出,缺乏時(shí)空連貫性,無(wú)法滿足4D場(chǎng)景重建需求。
DriveDreamer4D的核心架構(gòu)分為兩大部分:

新軌跡生成模塊(NTGM):支持文本描述或自定義設(shè)計(jì)生成軌跡(如變道、加減速),并通過(guò)仿真環(huán)境(如CARLA)進(jìn)行碰撞檢測(cè)與安全性評(píng)估,生成控制信號(hào)以驅(qū)動(dòng)視頻合成。
正則化訓(xùn)練策略(CDTS):引入感知一致性損失,優(yōu)化合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布對(duì)齊,并通過(guò)誤差反饋迭代提升軌跡生成質(zhì)量。
實(shí)驗(yàn)表明,DriveDreamer4D在時(shí)空一致性和視覺真實(shí)性上優(yōu)于PVG、S3Gaussian等基線模型。用戶調(diào)研中,其在常規(guī)場(chǎng)景(如單車道變道)的生成效果獲好評(píng),但在跨車道等極端動(dòng)作下仍存在重建失效問(wèn)題。

該研究的應(yīng)用價(jià)值在于降低數(shù)據(jù)采集成本并增強(qiáng)算法魯棒性,但需進(jìn)一步結(jié)合時(shí)序建模與多模態(tài)輸入(如高精地圖)以提升復(fù)雜場(chǎng)景的適應(yīng)性。
04.
ReconDreamer:動(dòng)態(tài)駕駛場(chǎng)景在線修復(fù)與漸進(jìn)式數(shù)據(jù)更新
ReconDreamer聚焦于解決動(dòng)態(tài)場(chǎng)景重建中大幅動(dòng)作導(dǎo)致的偽影問(wèn)題(如 遠(yuǎn)景 ( 參數(shù) 丨 圖片 )扭曲、車輛遮擋)。

針對(duì)這一類問(wèn)題,ReconDreamer依然是利用世界模型的知識(shí),通過(guò)在線修復(fù)(DriveRestore)和漸進(jìn)數(shù)據(jù)更新策略( Progressive Data Update Strategy以下簡(jiǎn)稱PDUS)兩大手段,解決復(fù)雜動(dòng)作的渲染質(zhì)量問(wèn)題。
在線修復(fù)技術(shù)(DriveRestorer):構(gòu)建退化幀與正常幀的修復(fù)數(shù)據(jù)集,通過(guò)擴(kuò)散模型去噪策略修復(fù)偽影,并采用脫敏策略優(yōu)先處理問(wèn)題嚴(yán)重區(qū)域(如天空與遠(yuǎn)景)。

漸進(jìn)式數(shù)據(jù)更新策略(PDUS):分階段生成更大跨度的軌跡數(shù)據(jù)(如1.5米→3米→6米),逐步擴(kuò)展模型對(duì)復(fù)雜動(dòng)作的適應(yīng)能力,直至收斂。

ReconDreamer的創(chuàng)新點(diǎn)在于首次將世界模型與動(dòng)態(tài)重建結(jié)合,實(shí)現(xiàn)了實(shí)時(shí)修復(fù)渲染缺陷,并通過(guò)漸進(jìn)式訓(xùn)練策略解決了大動(dòng)作渲染中的數(shù)據(jù)分布偏移問(wèn)題。

這為自動(dòng)駕駛閉環(huán)仿真提供了高保真?zhèn)鞲衅鲾?shù)據(jù)生成方案,支持復(fù)雜場(chǎng)景(如緊急變道和多車交互)的可靠測(cè)試。
當(dāng)然局限性也包括,比如在線修復(fù)機(jī)制增加了訓(xùn)練時(shí)間,且目前僅在Waymo數(shù)據(jù)集上進(jìn)行了驗(yàn)證,未來(lái)需要擴(kuò)展至更多復(fù)雜環(huán)境(如雨天和夜間)。
定量分析結(jié)果顯示,ReconDreamer在NTA-IoU(車輛檢測(cè)框重合度)上相較于基線方法(如Street Gaussians和DriveDreamer4D)提升了24.87%,在NTL-IoU(車道線重合度)上提升了6.72%,同時(shí)FID(圖像質(zhì)量評(píng)估)降低了29.97%。用戶研究表明,96.88%的用戶認(rèn)為ReconDreamer在大動(dòng)作渲染中優(yōu)于DriveDreamer4D。
定性分析結(jié)果顯示,ReconDreamer有效消除了遠(yuǎn)景模糊和天空噪點(diǎn),保持了車輛位置和形狀的一致性,并確保車道線在大偏移下的平滑無(wú)斷裂。

此外,消融實(shí)驗(yàn)結(jié)果表明,DriveRestorer的主干網(wǎng)絡(luò)基于DriveDreamer-2的掩碼版本效果最佳,而PDUS的步長(zhǎng)設(shè)定為1.5米時(shí)性能最優(yōu),過(guò)大的步長(zhǎng)會(huì)導(dǎo)致噪聲累積。
【關(guān)注智能駕駛,關(guān)注智駕視頻號(hào)】
關(guān)注汽車的智駕時(shí)代上智駕網(wǎng)(http://autor.com.cn)
合作or新聞線索提供,聯(lián)系郵箱:editor@autor.com.cn
聯(lián)系作者,添加微信:xinwell0709
熱門跟貼