近日,地平線創(chuàng)始人余凱指出,99%的人類駕駛行為是不值得學(xué)習(xí)的,仿真強化學(xué)習(xí)更為重要。這與商湯絕影日前發(fā)布的強化學(xué)習(xí)技術(shù)路線不謀而合。

“某種意義上來說,余凱的觀點是有道理的。尤其是在端到端的研究范式下,模型根據(jù)你輸入的視頻去預(yù)測自車行駛軌跡,但是大部分的時間,它只是很簡單的直行狀態(tài)。”

商湯絕影CEO、首席科學(xué)家王曉剛指出,只有駕駛行為發(fā)生改變的數(shù)據(jù)才有價值,而且通過參差不齊的駕駛行為數(shù)據(jù),以及簡單場景的數(shù)據(jù),只能讓模型達到人類平均水平。

基于這種背景,以及強化學(xué)習(xí)的新啟發(fā),商湯絕影(以下簡稱「絕影」在上海車展發(fā)布了一系列的技術(shù)進展。

其中包括生成式智駕R-UniAD技術(shù)方案、近實時在線交互的4D世界模型「絕影開悟2.0」,以及專為車載AIOS打造的AI內(nèi)核「絕影千機」。

打開網(wǎng)易新聞 查看精彩圖片

世界模型步入2.0階段

今年,絕影以DeepSeek為啟發(fā),推出了強化學(xué)習(xí)的新范式——Reinforced-UniAD(R- UniAD),進一步拉高模型能力上限。

在車展現(xiàn)場,絕影展示了基于構(gòu)建集VLAR (視覺-語言-行動-強化學(xué)習(xí))技術(shù)架構(gòu)的R-UniAD技術(shù)方案。

打開網(wǎng)易新聞 查看精彩圖片

例如,以「施工占道剎?!孤窚y視頻作為輸入,R-UniAD基于絕影開悟世界模型的4D仿真復(fù)現(xiàn),然后端到端模型生成該場景下各種可能駕駛策略,并與世界模型生成的環(huán)境交互,反復(fù)強化學(xué)習(xí)中找到最優(yōu)路徑,能預(yù)判施工占道,絲滑變道繞行。經(jīng)過泛化訓(xùn)練后,遇到類似場景,端到端模型也能及時變道,并顯著提升對此類施工場景的泛化交互能力。

同時,絕影也宣布,其世界模型「絕影開悟」升級為2.0版本,進化為近實時在線交互的4D世界模型。

它能夠?qū)崿F(xiàn)「復(fù)雜場景自由復(fù)現(xiàn)」,也具備近實時交互能力,比行業(yè)SOTA 提升5 倍之多,讓仿真訓(xùn)練過程更加高效和逼真,且感知結(jié)果接近真實精標(biāo)數(shù)據(jù)98%,能避免因數(shù)據(jù)風(fēng)格差異帶來的Sim-to-Real 遷移時能力退化問題。

同時,王曉剛透露稱,絕影也正與車企共同提升L3的解決方案。

“L3會有更多的冗余備份,對人機的協(xié)同性也會提出相應(yīng)要求,比如要求接管的路徑等。它同時它對于廠家融合的要求也會更高一些?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

在算力需求方面,王曉剛介紹稱,盡管算力和模型能力存在正比關(guān)系,但絕影可通過MoE的架構(gòu),減少在同等規(guī)模參數(shù)的情況下,減少對端側(cè)算力的依賴。

這是一種類似于DeepSeek的技術(shù)路線,以此方法結(jié)合多模態(tài)模型,絕影的New Member也能帶來更多可能。

下一代車載OS的「AI內(nèi)核」

在車展現(xiàn)場,商湯絕影也發(fā)布了專為車載AIOS打造的AI內(nèi)核「絕影千機」,其中最核心的三大技術(shù)包括MOE多模態(tài)大模型、類人記憶框架以及原生智能體框架。

同時,AI 基礎(chǔ)系統(tǒng)模塊、AIOS 工具鏈和生成式UI等外圍技術(shù),也可以為三大核心模塊提供支持與交互。

“如今,我們的業(yè)務(wù)模式也不局限于軟件。鑒于未來云端的研發(fā)占比會越來越高,商湯也會提供AI DC云服務(wù)。”王曉剛指出,絕影是駕艙云三位一體的,將基礎(chǔ)模型工具鏈和云服務(wù)相結(jié)合,已成為其業(yè)務(wù)特色之一。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)了解,依托于「日日新SenseNova V6」基礎(chǔ)模型,絕影構(gòu)建了覆蓋0.1B 至70B汽車垂類模型矩陣,模型首字延遲小于300ms,吐字速度高達47 Tokens/s,性能超越DeepSeek。

同時,絕影還構(gòu)建了業(yè)內(nèi)首個端側(cè)類人記憶框架,賦予AIOS認知力與成長性。

在這樣的技術(shù)加持下,New Member擁有了多模態(tài)識人能力:不需要注冊,它就能結(jié)合相貌,在座艙多人交互的過程推測出每個人的名字及關(guān)系。不僅如此,它還能記住你用戶喜好及生活點滴,結(jié)合這些進行深度思考。

“當(dāng)我坐上去的時候,它就會叫我王老師。那么,人與車的關(guān)系一下子就拉近了。從前,它是需要注冊和登錄的,今天,我們的小影能夠直接通過面部記憶或聊天對話,知道用戶姓名和身份。“

王曉剛介紹稱,New Member能夠記住用戶生活當(dāng)中經(jīng)歷的點點滴滴,會與用戶形成共情,甚至能給予情感上的支撐?!?/p>

在絕影展臺上,另一個熱門技術(shù)是「3D視線交互算法技術(shù)」——它將艙內(nèi)3D視線結(jié)合車外前視相機,能夠辨識人眼所關(guān)注的人、車、建筑、二維碼、花草樹木等目標(biāo),真正實現(xiàn)「視線所及,所見即所得」。

“從前的2D視線技術(shù),只能區(qū)分用戶是在看哪塊大的區(qū)域。如今我們把2D 視線追蹤升級為3D gaze,而且可以結(jié)合車外攝像頭進行交互——例如用戶在座艙內(nèi)看車外的人和物,還有建筑物的時候,3D gaze能夠自動判斷用戶的視線定位在哪?具體是哪輛車?哪個人?”

王曉剛介紹稱,3D gaze可以帶來很多創(chuàng)新型應(yīng)用,而且可以與輔助駕駛聯(lián)動,甚至改變駕駛策略。

另外,打通艙內(nèi)外的3D視線,能實現(xiàn)更多便捷功能。王曉剛還舉了一個例子:在3D視線技術(shù)加持下,在離開停車場時,用戶只需注視出口處二維碼的同時說“我要繳費”,系統(tǒng)即可自動完成掃碼支付,實現(xiàn)更便捷的無感通行。

“到了2026年,法規(guī)會強制要求DMS與高精度視線結(jié)合,這樣能夠大幅的降低智駕事故的發(fā)生率。所以我預(yù)測,接下3D gaze的使用會變得非常重要?!蓖鯐詣傉f道。

另外,絕影還推出了跟健康和安全駕駛相關(guān)的,測你的心跳、血氧、血壓,能夠不舒服的時候做出主動的關(guān)懷和問候問診,巡診問診、掛號。

打開網(wǎng)易新聞 查看精彩圖片

在輔助駕駛領(lǐng)域,商湯絕影的量產(chǎn)方案目前已合作4家車企和7款車型。今年3月底,絕影和廣汽聯(lián)合打造的首批基于地平線征程6M的輔助駕駛方案,正式量產(chǎn)上市。今年還有更多基于地平線征程6打造的輔助駕駛方案量產(chǎn)落地奇瑞等眾多車企伙伴。

另外,在英偉達DRIVE AGX Thor平臺部署的絕影UniAD一段式端到端量產(chǎn)方案,也將于2025年第四季度量產(chǎn)交付東風(fēng)汽車。

截至2024年底,商湯絕影已與超30家國內(nèi)外車企達成合作,覆蓋130余款車型,量產(chǎn)交付累計突破360萬輛。

“現(xiàn)在,我們也在繼續(xù)配合國內(nèi)車企,做好出海的準(zhǔn)備。2026年,ENCAP會對座艙中的DMS、OMS 增加很多強制性的要求,也會大幅的提升它的裝配率。此外,我們與合資車企和全球品牌也一直都有合作?!?/strong>