版權聲明:本文版權為網易汽車所有,轉載請注明出處。

網易汽車5月9日報道 在理想AI Talk第二季的訪談中,李想以“從動物進化到人類”為隱喻,揭示了理想汽車在自動駕駛領域的終極野心——將AI從“輔助工具”升維為“生產工具”,而VLA(視覺-語言-行動)司機大模型正是這一躍遷的核心載體

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

講真,這場技術訪談包含大量AI技術術語,對于公眾來說,理解門檻著實不低??此评钕雽τ贏I的態(tài)度有些“瘋魔”和捉摸不透,實際背后深意并非只是給你我上的AI科普課堂,更多的是面向行業(yè)投資人、AI業(yè)內精英人才的“誓師宣言”+“英雄令”,終極目標是搶得下一階段商業(yè)先機與實現(xiàn)全社會的AI生態(tài)重構。

打開網易新聞 查看精彩圖片

與此同時,我們也能夠看到理想當紅L序列的全面煥新,應用VLA司機大模型的L系列于今年下半年就將落地AD Max輔助駕駛平臺。同時為即將發(fā)布的純電SUV理想i8造勢,引導公眾看清VLA=下一代自動駕駛技術這一風向標。

打開網易新聞 查看精彩圖片

主持人提問提到了近期大模型的動態(tài),坦率地說只有中美兩國具備改寫全球AI動向的勢能,李想談到擁抱DeepSeek的過程比預想的要快許多,這意味著摒棄理想自研的語言模型,收獲的是理想VLA(視覺語言行動模型)推出進程加快。作為回饋全行業(yè),理想將星環(huán)OS做開源,頗有向DeepSeek致敬的深意,一定程度上也緩解了行業(yè)無限內卷的緊迫感,讓更多廠商能夠依靠開源快速武裝自身科技力和智能水平。

打開網易新聞 查看精彩圖片

上文讓我感受最深的兩個字就是:“胸懷”,唯有具備降維打擊的技術信心,才能像學霸一樣奔赴下個考場的路上將高分作答的試卷公開給旁人,我們再來深度談談VLA的行業(yè)意義:從端到端+VLM的“雙系統(tǒng)”到VLA的“三位一體”,這便是VLA的技術進化論。

理想VLM司機模型破解模型黑盒
打開網易新聞 查看更多視頻
理想VLM司機模型破解模型黑盒

·端到端+VLM的局限:機械性與割裂感

理想汽車的輔助駕駛曾經歷兩代架構:

- 規(guī)則驅動(昆蟲階段):依賴高精地圖與預設算法,如同螞蟻遵循固定路線,無法應對復雜路況(如道路施工)。這里指代的是基于規(guī)控的輔助駕駛,例如早期高精地圖指引的NOA。

- 端到端+VLM(哺乳動物階段):大模型學習人類駕駛行為,但語言與視覺模型分立,導致決策黑箱、極端場景失效。例如,面對ETC車道時,視覺語言模型(VLM)因缺乏空間感知能力,難以處理多車道選擇(如京承高速的十幾個ETC入口),需依賴人工接管。 這里指代的是當下理想AD Max和AD Pro呈現(xiàn)的輔助駕駛能力。

而理想AI Talk第二季中,濃墨重彩地分享VLA,是理想將要奔赴下一階段自動駕駛架構的目標。

VLA是解決自動駕駛的終極架構嗎?
打開網易新聞 查看更多視頻
VLA是解決自動駕駛的終極架構嗎?

·VLA的突破:類人智能的三大躍升

VLA的核心在于多模態(tài)深度耦合,將視覺、語言、動作三大能力整合為統(tǒng)一架構:

- 感知升維:3D視覺+高清2D圖像構建物理世界“全息地圖”,超越傳統(tǒng)VLM的平面化理解;

- 決策擬人:通過“思維鏈推理”(Chain of Thought)模擬人類駕駛邏輯,例如根據(jù)導航軟件運行邏輯動態(tài)調整路線,而非機械執(zhí)行指令;

- 執(zhí)行閉環(huán):本地模型處理常規(guī)指令(如“左轉”),云端協(xié)同解決復雜需求(如“避開擁堵找停車場”),實現(xiàn)自然語言交互的“司機Agent”形態(tài)。

翻譯成人話就是:你的輔助駕駛系統(tǒng)是一個Agent(智能體),它能夠聽懂你給到的指示,你可以向吩咐代駕司機一樣干預正在NOA狀態(tài)中的車輛行駛軌跡。非常重要的一環(huán)就是打通Agent與輔助駕駛系統(tǒng)的協(xié)作能力。

端到端+VLM與VLA - 技術對比
架構感知能力決策邏輯交互方式
端到端+VLM二維圖像依賴黑箱推理單向指令執(zhí)行
VLA3D+2D全息建模思維鏈動態(tài)推理自然語言對話
網易汽車

點擊查看更多車型

Tips:什么是多模態(tài)

多模態(tài)(Multimodality)是指集成和處理兩種或兩種以上不同類型的信息或數(shù)據(jù)的方法和技術。在機器學習和人工智能領域,多模態(tài)涉及的數(shù)據(jù)類型通常包括但不限于文本、圖像、視頻、音頻和傳感器數(shù)據(jù)。多模態(tài)系統(tǒng)的目的是利用來自多種模態(tài)的信息來提高任務的性能,提供更豐富的用戶體驗,或者獲得更全面的數(shù)據(jù)分析結果。

看到這里,想必你與我一樣十分好奇理想的VLA司機大模型是如何訓練養(yǎng)成,到底靠不靠譜呢?

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

VLA的訓練哲學是從“駕?!钡健袄纤緳C”,李想談到將VLA的訓練類比人類學車過程,分為三階段:

1. 預訓練(常識學習):

- 構建32B參數(shù)的視覺語言基座模型,學習交通規(guī)則與物理世界常識;

- 通過模型壓縮(蒸餾)為輕量版,適配車端芯片實時運行。

2. 后訓練(技能培訓):

- 注入駕駛行為數(shù)據(jù),模擬駕?!案噷W習”;

- 新增軌跡預測功能,預判未來4-8秒道路變化。

3. 強化訓練(實戰(zhàn)磨礪):

- 安全校準:通過人類接管數(shù)據(jù)剔除危險行為(如加塞);

- 性能強化:在虛擬世界模型中模擬數(shù)億公里極端場景,優(yōu)化舒適性(G值控制)、零事故率、交規(guī)合規(guī)性。

理想VLA司機大模型車位被占情況處理
打開網易新聞 查看更多視頻
理想VLA司機大模型車位被占情況處理

寫在最后

寫在最后

只要人類需要司機,VLA就有存在意義,VLA的誕生不僅是理想汽車的“技術宣言”,更預示交通領域生產力革命的起點。更大的藍圖是繪制一張世界模型的“大網”,基于現(xiàn)有交通路線規(guī)劃的VLA是驗證并構建這張“大網”所闖出的第一關。

據(jù)悉,業(yè)內先鋒技術公司大有投注VLA大模型的趨勢,比如精密制造中機器人領域,華為通過智駕3.0融合VLA模型與通用障礙物檢測(GOD)網絡,提升無高精地圖區(qū)域的定位能力。百度Apollo:基于文心大模型增強VLA的交通場景理解準確度。智元機器人:與Physical Intelligence(PI)合作,推進動態(tài)環(huán)境下的長周期復雜任務解決方案。

打開網易新聞 查看精彩圖片

現(xiàn)在您理解了為啥理想反復強調自己是一家AI公司,現(xiàn)階段VLA大模型是AI的技術前沿,全行業(yè)都在等待從輔助工具到生產工具的AI時刻,屆時人類的生存活動將會與AI深度捆綁。

作者:張原