2024年底,理想汽車CEO李想在理想AI Talk第一季上表示,基座模型到一定時刻,一定會變成VLA(視覺語言行動模型)。2024年10月,理想汽車才開始推送端到端+VLM(視覺語言模型)智駕方案,年底就表示要押注VLA,可能會給用戶否定原方案的感覺。
2025年5月7日,理想AI Talk第二季上,李想再次強(qiáng)調(diào),端到端+VLM的能力不足,現(xiàn)階段VLA是最強(qiáng)架構(gòu),只有VLA的能力可以接近人類,甚至超越人類。這一次,李想詳細(xì)講解了VLM的不足,以及理想汽車是如何訓(xùn)練VLA的。

(圖源:理想)
李想舉例,VLM對于位置的判斷非常糟糕,如果是兩三個ETC出入口,還能作出準(zhǔn)確判斷,但若遇到了京承高速這種十幾個ETC的高速出入口,VLM模型就不知道怎么判斷了,而且問題出在模型架構(gòu),即便喂更多語料給VLM都無法解決這個問題。
VLA的訓(xùn)練分為VL(視覺語言)基座預(yù)訓(xùn)練、輔助駕駛后訓(xùn)練、輔助駕駛強(qiáng)化學(xué)習(xí)三個部分。其中預(yù)訓(xùn)練相當(dāng)于人類通過視覺數(shù)據(jù)、語言數(shù)據(jù)、視覺語言聯(lián)合數(shù)據(jù)學(xué)習(xí)和認(rèn)知物理世界、交通知識,訓(xùn)練出VL模型基座。

(圖源:直播截圖)
后訓(xùn)練則相當(dāng)于人類在駕校學(xué)習(xí)開車,通過Action(動作)數(shù)據(jù)對周圍環(huán)境和自車駕駛行為編碼,將VL模型基座訓(xùn)練成VLA司機(jī)大模型。同時,VLA采用短思維鏈的特性,搭配Diffusion擴(kuò)散模型對于他車軌跡和環(huán)境的預(yù)測,令其實時性更強(qiáng),在復(fù)雜交通環(huán)境下依然具備較強(qiáng)的通行能力。
強(qiáng)化訓(xùn)練則相當(dāng)于我們?nèi)粘i_車,可以通過RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),訓(xùn)練大模型對于交通規(guī)則的理解能力,并使VLA更符合用戶的駕駛習(xí)慣。
最終產(chǎn)品會以司機(jī)Agent(智能體)的形式呈現(xiàn),可以理解人類自然語意,用戶怎么指揮,車就怎么開。理想公布的測試視頻中,司機(jī)Agent可以根據(jù)語音指令,在不退出NOA的情況下切換路線,或者根據(jù)用戶指令在高速出入口走人工通道。

(圖源:直播截圖)
VLA并未擺脫端到端智駕方案的黑盒問題,為此理想在2024年底組建了超過1000人的超級對齊團(tuán)隊,并構(gòu)建了仿真世界模型,可在虛擬世界中驗證司機(jī)Agent的專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。原本依靠人類司機(jī)驗證,一萬公里成本高達(dá)17萬元到18萬元,仿真世界中1萬公里驗證成本僅4000多元。
理想汽車車表示,由于英偉達(dá)Orin-X芯片無法直接運(yùn)行語言模型,端到端+VLM對于部分企業(yè)而言仍是不小的挑戰(zhàn)。理想擁有編譯團(tuán)隊,自研了底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運(yùn)行VLM,理想在智駕技術(shù)領(lǐng)域的原創(chuàng)性,高于理想汽車核心競爭力之一的增程技術(shù)。
不過理想汽車表示,VLA的實現(xiàn)不是突變過程,而是從規(guī)則算法到端到端大模型及端到端+VLM,再到VLA的進(jìn)化過程,唯有夯實基礎(chǔ),才能實現(xiàn)VLA。這也解釋了為何理想會在推送端到端+VLM方案后,又押注VLA,基于規(guī)則算法和端到端+VLM的技術(shù)積累,理想才跨步到了VLA階段。
對于近期輔助駕駛車型接連出現(xiàn)事故,消費(fèi)者失去信任,甚至有網(wǎng)友呼吁叫停輔助駕駛的情況,理想則認(rèn)為更像是黎明前的黑暗,技術(shù)不會停止向前發(fā)展。
的確,輔助駕駛車型出現(xiàn)事故,只會讓車企在研究技術(shù)時更加謹(jǐn)慎,增加驗證頻次,不會導(dǎo)致車企因噎廢食,技術(shù)領(lǐng)域的競爭將更加激烈。一直處于國內(nèi)輔助駕駛技術(shù)第一梯隊的理想,也許能夠通過VLA方案,為行業(yè)帶來新的思路與方向。
熱門跟貼