近日,地平線創(chuàng)始人余凱指出,99%的人類駕駛行為是不值得學(xué)習(xí)的,仿真強(qiáng)化學(xué)習(xí)更為重要。這與商湯絕影日前發(fā)布的強(qiáng)化學(xué)習(xí)技術(shù)路線不謀而合。

“某種意義上來(lái)說(shuō),余凱的觀點(diǎn)是有道理的。尤其是在端到端的研究范式下,模型根據(jù)你輸入的視頻去預(yù)測(cè)自車行駛軌跡,但是大部分的時(shí)間,它只是很簡(jiǎn)單的直行狀態(tài)。”

商湯絕影CEO、首席科學(xué)家王曉剛指出,只有駕駛行為發(fā)生改變的數(shù)據(jù)才有價(jià)值,而且通過參差不齊的駕駛行為數(shù)據(jù),以及簡(jiǎn)單場(chǎng)景的數(shù)據(jù),只能讓模型達(dá)到人類平均水平。

基于這種背景,以及強(qiáng)化學(xué)習(xí)的新啟發(fā),商湯絕影(以下簡(jiǎn)稱「絕影」在上海車展發(fā)布了一系列的技術(shù)進(jìn)展。

其中包括生成式智駕R-UniAD技術(shù)方案、近實(shí)時(shí)在線交互的4D世界模型「絕影開悟2.0」,以及專為車載AIOS打造的AI內(nèi)核「絕影千機(jī)」。

打開網(wǎng)易新聞 查看精彩圖片

世界模型步入2.0階段

今年,絕影以DeepSeek為啟發(fā),推出了強(qiáng)化學(xué)習(xí)的新范式——Reinforced-UniAD(R- UniAD),進(jìn)一步拉高模型能力上限。

在車展現(xiàn)場(chǎng),絕影展示了基于構(gòu)建集VLAR (視覺-語(yǔ)言-行動(dòng)-強(qiáng)化學(xué)習(xí))技術(shù)架構(gòu)的R-UniAD技術(shù)方案。

打開網(wǎng)易新聞 查看精彩圖片

例如,以「施工占道剎?!孤窚y(cè)視頻作為輸入,R-UniAD基于絕影開悟世界模型的4D仿真復(fù)現(xiàn),然后端到端模型生成該場(chǎng)景下各種可能駕駛策略,并與世界模型生成的環(huán)境交互,反復(fù)強(qiáng)化學(xué)習(xí)中找到最優(yōu)路徑,能預(yù)判施工占道,絲滑變道繞行。經(jīng)過泛化訓(xùn)練后,遇到類似場(chǎng)景,端到端模型也能及時(shí)變道,并顯著提升對(duì)此類施工場(chǎng)景的泛化交互能力。

同時(shí),絕影也宣布,其世界模型「絕影開悟」升級(jí)為2.0版本,進(jìn)化為近實(shí)時(shí)在線交互的4D世界模型。

它能夠?qū)崿F(xiàn)「復(fù)雜場(chǎng)景自由復(fù)現(xiàn)」,也具備近實(shí)時(shí)交互能力,比行業(yè)SOTA 提升5 倍之多,讓仿真訓(xùn)練過程更加高效和逼真,且感知結(jié)果接近真實(shí)精標(biāo)數(shù)據(jù)98%,能避免因數(shù)據(jù)風(fēng)格差異帶來(lái)的Sim-to-Real 遷移時(shí)能力退化問題。

同時(shí),王曉剛透露稱,絕影也正與車企共同提升L3的解決方案。

“L3會(huì)有更多的冗余備份,對(duì)人機(jī)的協(xié)同性也會(huì)提出相應(yīng)要求,比如要求接管的路徑等。它同時(shí)它對(duì)于廠家融合的要求也會(huì)更高一些?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

在算力需求方面,王曉剛介紹稱,盡管算力和模型能力存在正比關(guān)系,但絕影可通過MoE的架構(gòu),減少在同等規(guī)模參數(shù)的情況下,減少對(duì)端側(cè)算力的依賴。

這是一種類似于DeepSeek的技術(shù)路線,以此方法結(jié)合多模態(tài)模型,絕影的New Member也能帶來(lái)更多可能。

下一代車載OS的「AI內(nèi)核」

在車展現(xiàn)場(chǎng),商湯絕影也發(fā)布了專為車載AIOS打造的AI內(nèi)核「絕影千機(jī)」,其中最核心的三大技術(shù)包括MOE多模態(tài)大模型、類人記憶框架以及原生智能體框架。

同時(shí),AI 基礎(chǔ)系統(tǒng)模塊、AIOS 工具鏈和生成式UI等外圍技術(shù),也可以為三大核心模塊提供支持與交互。

“如今,我們的業(yè)務(wù)模式也不局限于軟件。鑒于未來(lái)云端的研發(fā)占比會(huì)越來(lái)越高,商湯也會(huì)提供AI DC云服務(wù)。”王曉剛指出,絕影是駕艙云三位一體的,將基礎(chǔ)模型工具鏈和云服務(wù)相結(jié)合,已成為其業(yè)務(wù)特色之一。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)了解,依托于「日日新SenseNova V6」基礎(chǔ)模型,絕影構(gòu)建了覆蓋0.1B 至70B汽車垂類模型矩陣,模型首字延遲小于300ms,吐字速度高達(dá)47 Tokens/s,性能超越DeepSeek。

同時(shí),絕影還構(gòu)建了業(yè)內(nèi)首個(gè)端側(cè)類人記憶框架,賦予AIOS認(rèn)知力與成長(zhǎng)性。

在這樣的技術(shù)加持下,New Member擁有了多模態(tài)識(shí)人能力:不需要注冊(cè),它就能結(jié)合相貌,在座艙多人交互的過程推測(cè)出每個(gè)人的名字及關(guān)系。不僅如此,它還能記住你用戶喜好及生活點(diǎn)滴,結(jié)合這些進(jìn)行深度思考。

“當(dāng)我坐上去的時(shí)候,它就會(huì)叫我王老師。那么,人與車的關(guān)系一下子就拉近了。從前,它是需要注冊(cè)和登錄的,今天,我們的小影能夠直接通過面部記憶或聊天對(duì)話,知道用戶姓名和身份。“

王曉剛介紹稱,New Member能夠記住用戶生活當(dāng)中經(jīng)歷的點(diǎn)點(diǎn)滴滴,會(huì)與用戶形成共情,甚至能給予情感上的支撐?!?/p>

在絕影展臺(tái)上,另一個(gè)熱門技術(shù)是「3D視線交互算法技術(shù)」——它將艙內(nèi)3D視線結(jié)合車外前視相機(jī),能夠辨識(shí)人眼所關(guān)注的人、車、建筑、二維碼、花草樹木等目標(biāo),真正實(shí)現(xiàn)「視線所及,所見即所得」。

“從前的2D視線技術(shù),只能區(qū)分用戶是在看哪塊大的區(qū)域。如今我們把2D 視線追蹤升級(jí)為3D gaze,而且可以結(jié)合車外攝像頭進(jìn)行交互——例如用戶在座艙內(nèi)看車外的人和物,還有建筑物的時(shí)候,3D gaze能夠自動(dòng)判斷用戶的視線定位在哪?具體是哪輛車?哪個(gè)人?”

王曉剛介紹稱,3D gaze可以帶來(lái)很多創(chuàng)新型應(yīng)用,而且可以與輔助駕駛聯(lián)動(dòng),甚至改變駕駛策略。

另外,打通艙內(nèi)外的3D視線,能實(shí)現(xiàn)更多便捷功能。王曉剛還舉了一個(gè)例子:在3D視線技術(shù)加持下,在離開停車場(chǎng)時(shí),用戶只需注視出口處二維碼的同時(shí)說(shuō)“我要繳費(fèi)”,系統(tǒng)即可自動(dòng)完成掃碼支付,實(shí)現(xiàn)更便捷的無(wú)感通行。

“到了2026年,法規(guī)會(huì)強(qiáng)制要求DMS與高精度視線結(jié)合,這樣能夠大幅的降低智駕事故的發(fā)生率。所以我預(yù)測(cè),接下3D gaze的使用會(huì)變得非常重要?!蓖鯐詣傉f(shuō)道。

另外,絕影還推出了跟健康和安全駕駛相關(guān)的,測(cè)你的心跳、血氧、血壓,能夠不舒服的時(shí)候做出主動(dòng)的關(guān)懷和問候問診,巡診問診、掛號(hào)。

打開網(wǎng)易新聞 查看精彩圖片

在輔助駕駛領(lǐng)域,商湯絕影的量產(chǎn)方案目前已合作4家車企和7款車型。今年3月底,絕影和廣汽聯(lián)合打造的首批基于地平線征程6M的輔助駕駛方案,正式量產(chǎn)上市。今年還有更多基于地平線征程6打造的輔助駕駛方案量產(chǎn)落地奇瑞等眾多車企伙伴。

另外,在英偉達(dá)DRIVE AGX Thor平臺(tái)部署的絕影UniAD一段式端到端量產(chǎn)方案,也將于2025年第四季度量產(chǎn)交付東風(fēng)汽車。

截至2024年底,商湯絕影已與超30家國(guó)內(nèi)外車企達(dá)成合作,覆蓋130余款車型,量產(chǎn)交付累計(jì)突破360萬(wàn)輛。

“現(xiàn)在,我們也在繼續(xù)配合國(guó)內(nèi)車企,做好出海的準(zhǔn)備。2026年,ENCAP會(huì)對(duì)座艙中的DMS、OMS 增加很多強(qiáng)制性的要求,也會(huì)大幅的提升它的裝配率。此外,我們與合資車企和全球品牌也一直都有合作。”