隨著輔助駕駛普及的不斷深入,公眾越來(lái)越關(guān)注駕駛系統(tǒng)的安全性,期待輔助駕駛帶來(lái)更安全也更流暢的智慧出行體驗(yàn)。只是許多輔助駕駛方案在遇到新場(chǎng)景時(shí)難以妥善處理,事故時(shí)有發(fā)生,暴露出當(dāng)前技術(shù)方案的諸多瓶頸。

想要提高安全性,端到端模型需要海量高質(zhì)量數(shù)據(jù)訓(xùn)練,然而,即使是百萬(wàn)量產(chǎn)車(chē)回流的數(shù)據(jù)量,極端場(chǎng)景有效信息提取率不足1%。

不僅如此,因?yàn)槎说蕉说姆妒绞悄7聦W(xué)習(xí),遇到?jīng)]有見(jiàn)過(guò)的新場(chǎng)景,它的駕駛決策存在很大的不確定性,安全邊界模糊,給駕駛安全帶來(lái)風(fēng)險(xiǎn),更難以超越人類(lèi)的駕駛能力。

因此,商湯絕影發(fā)布了生成式智駕R-UniAD技術(shù)方案,將強(qiáng)化學(xué)習(xí)引入到智能駕駛,讓端到端智駕與世界交互的不斷深入,通過(guò)生成的方式真實(shí)還原并深度理解駕駛環(huán)境,從而主動(dòng)預(yù)測(cè)并處理復(fù)雜狀況,驗(yàn)證輔助駕駛的安全邊界,讓駕駛安全更有確定性、更加值得信賴,并且超越人類(lèi)的駕駛極限,為智能駕駛行業(yè)樹(shù)立了新路標(biāo)。

商湯絕影構(gòu)建VLAR架構(gòu),突破端到端數(shù)據(jù)、安全、性能三大瓶頸

人工智能技術(shù)的發(fā)展和進(jìn)步推動(dòng)著智能駕駛的演進(jìn)。一開(kāi)始的智駕都是規(guī)則式的,主要通過(guò)物理模型和邏輯預(yù)定義等方式來(lái)實(shí)現(xiàn)輔助駕駛的基礎(chǔ)功能執(zhí)行,但面對(duì)復(fù)雜場(chǎng)景略顯乏力。隨著神經(jīng)網(wǎng)絡(luò)的引入和AI大模型的出現(xiàn),商湯絕影2022年發(fā)布了行業(yè)首個(gè)感知決策一體化的智駕通用模型UniAD,并榮獲CVPR 2023最佳論文,引領(lǐng)了智能駕駛行業(yè)的創(chuàng)新潮流,智駕進(jìn)入到端到端時(shí)代,模型學(xué)會(huì)類(lèi)人交互,性能表現(xiàn)大幅提升。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

隨著端到端路線探索和實(shí)踐的持續(xù)深入,它開(kāi)始觸及瓶頸。首先,端到端是通過(guò)海量的高質(zhì)量人類(lèi)駕駛數(shù)據(jù)學(xué)習(xí)和訓(xùn)練,比如特斯拉就以超700萬(wàn)輛量產(chǎn)車(chē)形成的數(shù)據(jù)回流來(lái)訓(xùn)練端到端模型,但人類(lèi)的日常駕駛中,極難遇到像車(chē)禍等極端場(chǎng)景,這導(dǎo)致了僅有不超過(guò)1%的數(shù)據(jù)可用于最終訓(xùn)練,高價(jià)值數(shù)據(jù)的稀缺性成為制約端到端訓(xùn)練的一大瓶頸。

另一方面,由于端到端的本質(zhì)是對(duì)人類(lèi)駕駛行為的最佳模仿,遇到?jīng)]有見(jiàn)過(guò)的新場(chǎng)景,端到端方案的駕駛決策存在很大的不確定性,為駕駛安全帶來(lái)風(fēng)險(xiǎn),同時(shí),基于模仿學(xué)習(xí)的技術(shù)范式可以做到接近人類(lèi)但難以突破人類(lèi)能力上限。因此,性能和安全性也成為了端到端發(fā)展的兩大瓶頸。

今年年初,DeepSeek-R1基于純強(qiáng)化學(xué)習(xí)的關(guān)鍵創(chuàng)新引發(fā)了廣泛的關(guān)注,基于強(qiáng)化學(xué)習(xí)的大模型技術(shù)路線可以遷移到端到端輔助駕駛算法的訓(xùn)練與研發(fā)之中。2025年2月,商湯絕影發(fā)布了行業(yè)首個(gè)與世界模型協(xié)同交互的端到端技術(shù)方案R-UniAD,通過(guò)世界模型生成在線交互的仿真環(huán)境,以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練,行業(yè)開(kāi)始邁向生成式智駕。

本屆上海車(chē)展上,商湯絕影全面展示了R-UniAD技術(shù)方案,基于世界模型和強(qiáng)化學(xué)習(xí)兩大核心技術(shù),構(gòu)建集“視覺(jué)-語(yǔ)言-行動(dòng)-強(qiáng)化學(xué)習(xí)”于一體的VLAR技術(shù)架構(gòu),實(shí)現(xiàn)生成式智駕的核心突破。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基于世界模型和強(qiáng)化學(xué)習(xí),絕影構(gòu)建集“視覺(jué)-語(yǔ)言-行動(dòng)-強(qiáng)化學(xué)習(xí)”于一體的VLAR技術(shù)架構(gòu)

商湯絕影的R-UniAD是「多階段強(qiáng)化學(xué)習(xí)」端到端技術(shù)方案,具體分為三個(gè)階段,首先是依靠冷啟動(dòng)數(shù)據(jù)通過(guò)模仿學(xué)習(xí)進(jìn)行云端的端到端輔助駕駛大模型訓(xùn)練;然后基于強(qiáng)化學(xué)習(xí),讓云端的端到端大模型與世界模型協(xié)同交互,持續(xù)提升端到端模型的性能;最后云端大模型通過(guò)高效蒸餾的方式,實(shí)現(xiàn)高性能端到端輔助駕駛小模型的車(chē)端部署。

這三個(gè)階段的核心在于第二階段的“強(qiáng)化學(xué)習(xí)與世界模型”,也就是VLAR技術(shù)架構(gòu)。在VLAR技術(shù)架構(gòu)的支持下,R-UniAD能夠重構(gòu)萬(wàn)千世界,讓實(shí)采Corner Case數(shù)據(jù)需求降低2個(gè)量級(jí);同時(shí)依托云端超100萬(wàn)案例和1024場(chǎng)景類(lèi)型,構(gòu)建更加精確、全面的虛擬測(cè)試場(chǎng)景,充分探索安全邊界,賦予了輔助駕駛有確定性的安全感,最終通過(guò)不斷地強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型,相較于人類(lèi)駕駛員的碰撞率降低1個(gè)量級(jí),實(shí)現(xiàn)遠(yuǎn)超人類(lèi)的駕駛能力。

R-UniAD如何讓安全更有確定性:挖掘復(fù)雜場(chǎng)景、4D仿真復(fù)現(xiàn)、強(qiáng)化學(xué)習(xí)、泛化驗(yàn)證

因?yàn)楦黝?lèi)施工防護(hù)設(shè)施搭配不同的空間布局,組合繁雜多變,所以施工占道場(chǎng)景是輔助駕駛領(lǐng)域的棘手難題,也是交通事故頻發(fā)的重要場(chǎng)景。上海車(chē)展發(fā)布會(huì)上,商湯絕影現(xiàn)場(chǎng)演示了針對(duì)“施工占道剎停”場(chǎng)景,R-UniAD如何依托“VLAR”增強(qiáng)模型能力。

首先,以“施工占道剎停”路測(cè)視頻作為輸入,即自車(chē)因?yàn)闆](méi)有識(shí)別錐桶封路,在施工區(qū)域進(jìn)行急剎。

接下來(lái)是R-UniAD對(duì)這個(gè)場(chǎng)景基于“絕影開(kāi)悟”世界模型進(jìn)行4D仿真復(fù)現(xiàn)。第一步是把案例視頻進(jìn)行解耦,分為3D的動(dòng)態(tài)前景與靜態(tài)背景;第二步,使用物理引擎、3DGS等重建和渲染技術(shù)對(duì)場(chǎng)景進(jìn)行復(fù)現(xiàn);第三步,用“絕影開(kāi)悟”世界模型對(duì)場(chǎng)景細(xì)節(jié)進(jìn)行修復(fù),讓場(chǎng)景變得更加逼真。

完成這三步的流程,傳統(tǒng)方案需要數(shù)天時(shí)間,R-UniAD僅需幾個(gè)小時(shí)就能完成,而且場(chǎng)景更為精細(xì)可控,一致性達(dá)到了95%,相比單一的3DGS技術(shù)提高了1.5倍。

然后就是進(jìn)行針對(duì)性強(qiáng)化學(xué)習(xí)的訓(xùn)練。在閉環(huán)仿真工具鏈中設(shè)置對(duì)“施工占道剎?!卑咐攒?chē)軌跡的Reward計(jì)算維度和分值,包括最大最小加速度、是否到達(dá)終點(diǎn)、是否違反交通規(guī)則、是否碰撞等維度,并根據(jù)規(guī)則進(jìn)行組合計(jì)算。端到端模型就在仿真環(huán)境中自行駕駛,系統(tǒng)根據(jù)自車(chē)軌跡給予相應(yīng)Reward分值反饋。

在初期訓(xùn)練中,自車(chē)因?yàn)闆_入對(duì)向車(chē)道或者同向車(chē)道被扣分,如果能夠及時(shí)剎停變道,就會(huì)得到高分。端到端模型不斷生成該場(chǎng)景下各種可能駕駛策略,并與世界模型生成的環(huán)境交互,通過(guò)數(shù)千次強(qiáng)化學(xué)習(xí)訓(xùn)練,經(jīng)過(guò)不斷評(píng)分反饋,端到端模型會(huì)找到最優(yōu)路徑,能預(yù)判施工占道,絲滑變道繞行。

最后,經(jīng)過(guò)泛化訓(xùn)練后,再遇到類(lèi)似前方障礙物場(chǎng)景,端到端模型也能及時(shí)變道,并顯著提升對(duì)此類(lèi)施工場(chǎng)景的泛化交互能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

生成式智駕R-UniAD讓安全更有確定性

強(qiáng)化“施工占道場(chǎng)景”的應(yīng)對(duì)能力只是生成式智駕R-UniAD能力顯化的冰山一角。在VLAR技術(shù)架構(gòu)的助力下,商湯絕影能夠針對(duì)更多復(fù)雜長(zhǎng)尾場(chǎng)景、極端工況,進(jìn)行4D仿真復(fù)現(xiàn)、強(qiáng)化學(xué)習(xí)、泛化驗(yàn)證,讓端到端模型比人類(lèi)“看更多”、“學(xué)更快”、“開(kāi)更好”,讓輔助駕駛的安全更有確定性,超越人類(lèi)駕駛極限。

“絕影開(kāi)悟”世界模型2.0,生成式智駕R-UniAD的核心基石

世界模型是生成式智駕的基石所在。2024年,在2024年11月“絕影實(shí)力AI DAY”上,商湯絕影發(fā)布了行業(yè)標(biāo)桿級(jí)別的“絕影開(kāi)悟”世界模型,并已經(jīng)應(yīng)用于真值數(shù)據(jù)的生產(chǎn)。

去年“絕影開(kāi)悟”世界模型主要聚焦2D視頻生成技術(shù)的打磨,今年上海車(chē)展,“絕影開(kāi)悟”升級(jí)為2.0版本,進(jìn)化為近實(shí)時(shí)在線交互的4D世界模型,能夠?qū)崿F(xiàn)“4D空間自由交互”,推動(dòng)智能體邁向通用空間智能,成為商湯絕影決勝智駕戰(zhàn)場(chǎng)的重磅武器。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

絕影開(kāi)悟世界模型2.0

“絕影開(kāi)悟2.0”具備三大能力,首先是“面向量產(chǎn)的數(shù)據(jù)生成”,它具有多樣性場(chǎng)景的可控生成的能力,為模型訓(xùn)練提供了海量且豐富的訓(xùn)練數(shù)據(jù)。而且,它還能一鍵生成極端高風(fēng)險(xiǎn)場(chǎng)景。

例如,Cut-in 場(chǎng)景是行車(chē)時(shí)極為常見(jiàn)但非常重要的場(chǎng)景,“絕影開(kāi)悟2.0”能夠從100多個(gè)維度組合生成萬(wàn)千Cut-in場(chǎng)景,包括白天、黃昏、凌晨、夜晚等不同光照類(lèi)型;晴天、陰天、雨天等不同天氣;從高速到城市道路等不同道路等級(jí);不同的車(chē)型,不同的Cut-in距離和車(chē)輛速度等等。

此外,極端風(fēng)險(xiǎn)場(chǎng)景(如車(chē)禍、道路塌陷等)難以采集,成本也非常高昂。“絕影開(kāi)悟2.0”只需輸入一段提示詞,就可以生成極端風(fēng)險(xiǎn)場(chǎng)景,讓端到端模型可以在安全的虛擬環(huán)境中,讓系統(tǒng)反復(fù)學(xué)習(xí)和應(yīng)對(duì)這些危險(xiǎn)場(chǎng)景,從而在實(shí)際駕駛中更好地預(yù)判和規(guī)避風(fēng)險(xiǎn)。

細(xì)致的分類(lèi),可控的生成,有助于模型更好應(yīng)對(duì)特定場(chǎng)景,對(duì)提升輔助駕駛的安全性和可靠性有著重要意義。

其次,“絕影開(kāi)悟2.0”能夠?qū)崿F(xiàn)“復(fù)雜場(chǎng)景自由復(fù)現(xiàn)”,根據(jù)不同需求,任意修改和調(diào)整場(chǎng)景中的各種要素,既可以替換特定車(chē)輛、插入新的車(chē)輛,或者刪除不需要的車(chē)輛,也能改變道路的布局、車(chē)輛的速度,創(chuàng)造稀缺復(fù)雜場(chǎng)景,從而豐富訓(xùn)練場(chǎng)景的多樣性。

最后,“絕影開(kāi)悟2.0”具備近實(shí)時(shí)交互能力,比行業(yè) SOTA 提升 5 倍之多,讓仿真訓(xùn)練過(guò)程更加高效和逼真,車(chē)輛的決策和反饋能夠幾乎在瞬間得到響應(yīng);同時(shí)感知結(jié)果接近真實(shí)精標(biāo)數(shù)據(jù)98%,能避免因數(shù)據(jù)風(fēng)格差異帶來(lái)的 Sim-to-Real 遷移時(shí)能力退化問(wèn)題,為端到端模型打造了“云端虛擬訓(xùn)練場(chǎng)”。

厚積薄發(fā),商湯絕影全力推進(jìn)輔助駕駛量產(chǎn)交付

商湯絕影的生成式AI技術(shù)和產(chǎn)品持續(xù)創(chuàng)新,商業(yè)化落地也全面開(kāi)花,量產(chǎn)交付正在加速推進(jìn)。

在“絕影2025上海車(chē)展發(fā)布會(huì)”上,東風(fēng)汽車(chē)集團(tuán)研發(fā)總院智能化技術(shù)首席總工程師張振林透露,他們和絕影團(tuán)隊(duì)正在攜手推動(dòng)UniAD一段式端到端方案的量產(chǎn)落地,“除了端到端的合作,未來(lái)東風(fēng)汽車(chē)也將持續(xù)加大在智能化領(lǐng)域的研發(fā)投入,與絕影在開(kāi)悟世界模型、DriveAGI等方面展開(kāi)深度合作?!?/p>

在輔助駕駛領(lǐng)域,商湯絕影的量產(chǎn)方案目前已合作4家車(chē)企,上車(chē)7款車(chē)型,2025年更將厚積薄發(fā),全力推進(jìn)輔助駕駛方案的量產(chǎn)交付。今年3月底,絕影和廣汽聯(lián)合打造的行業(yè)首批基于地平線征程?6M的輔助駕駛方案正式量產(chǎn)上市。2025年,絕影還有更多基于地平線征程?6打造的輔助駕駛方案量產(chǎn)落地奇瑞等眾多車(chē)企伙伴,在英偉達(dá)DIRVE AGX Thor平臺(tái)部署的絕影UniAD一段式端到端量產(chǎn)方案也將于2025年第四季度量產(chǎn)交付東風(fēng)汽車(chē)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

商湯絕影輔助駕駛的量產(chǎn)成果,并將于2025年全力推進(jìn)輔助駕駛方案的量產(chǎn)交付

不止如此,絕影基于地平線征程?6打造的量產(chǎn)方案得到中汽研的認(rèn)證,是首個(gè)獲得中汽研《CATARC 標(biāo)志認(rèn)證實(shí)施規(guī)則–“征程之星”領(lǐng)航輔助駕駛認(rèn)證》的輔助駕駛產(chǎn)品。

此外,本次上海車(chē)展期間,無(wú)論是基于地平線征程?6打造的高速輔助駕駛、城區(qū)輔助駕駛,還是一段式端到端量產(chǎn)方案的城區(qū)泛化,商湯絕影都在展館外開(kāi)放了實(shí)車(chē)體驗(yàn)。

生成式智駕R-UniAD讓商湯絕影的輔助駕駛模型通過(guò)與世界模型生成的無(wú)限場(chǎng)景進(jìn)行不斷地強(qiáng)化學(xué)習(xí)與交互,在每一次的行駛中成長(zhǎng)、進(jìn)步。豐富的量產(chǎn)經(jīng)驗(yàn),讓絕影具備強(qiáng)大的工程化能力。兩者相互融合,助力絕影打造真正安全、可靠的輔助駕駛方案,和車(chē)企伙伴一起,為用戶創(chuàng)造更加安全可信賴的出行體驗(yàn)。

注:本文所提及的“智駕”、“智能駕駛”等,指L2級(jí)輔助駕駛。