2024年底,理想汽車CEO李想在理想AI Talk第一季上表示,基座模型到一定時(shí)刻,一定會(huì)變成VLA(視覺語言行動(dòng)模型)。2024年10月,理想汽車才開始推送端到端+VLM(視覺語言模型)智駕方案,年底就表示要押注VLA,可能會(huì)給用戶否定原方案的感覺。
2025年5月7日,理想AI Talk第二季上,李想再次強(qiáng)調(diào),端到端+VLM的能力不足,現(xiàn)階段VLA是最強(qiáng)架構(gòu),只有VLA的能力可以接近人類,甚至超越人類。這一次,李想詳細(xì)講解了VLM的不足,以及理想汽車是如何訓(xùn)練VLA的。

(圖源:理想)
李想舉例,VLM對(duì)于位置的判斷非常糟糕,如果是兩三個(gè)ETC出入口,還能作出準(zhǔn)確判斷,但若遇到了京承高速這種十幾個(gè)ETC的高速出入口,VLM模型就不知道怎么判斷了,而且問題出在模型架構(gòu),即便喂更多語料給VLM都無法解決這個(gè)問題。
VLA的訓(xùn)練分為VL(視覺語言)基座預(yù)訓(xùn)練、輔助駕駛后訓(xùn)練、輔助駕駛強(qiáng)化學(xué)習(xí)三個(gè)部分。其中預(yù)訓(xùn)練相當(dāng)于人類通過視覺數(shù)據(jù)、語言數(shù)據(jù)、視覺語言聯(lián)合數(shù)據(jù)學(xué)習(xí)和認(rèn)知物理世界、交通知識(shí),訓(xùn)練出VL模型基座。

(圖源:直播截圖)
后訓(xùn)練則相當(dāng)于人類在駕校學(xué)習(xí)開車,通過Action(動(dòng)作)數(shù)據(jù)對(duì)周圍環(huán)境和自車駕駛行為編碼,將VL模型基座訓(xùn)練成VLA司機(jī)大模型。同時(shí),VLA采用短思維鏈的特性,搭配Diffusion擴(kuò)散模型對(duì)于他車軌跡和環(huán)境的預(yù)測(cè),令其實(shí)時(shí)性更強(qiáng),在復(fù)雜交通環(huán)境下依然具備較強(qiáng)的通行能力。
強(qiáng)化訓(xùn)練則相當(dāng)于我們?nèi)粘i_車,可以通過RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),訓(xùn)練大模型對(duì)于交通規(guī)則的理解能力,并使VLA更符合用戶的駕駛習(xí)慣。
最終產(chǎn)品會(huì)以司機(jī)Agent(智能體)的形式呈現(xiàn),可以理解人類自然語意,用戶怎么指揮,車就怎么開。理想公布的測(cè)試視頻中,司機(jī)Agent可以根據(jù)語音指令,在不退出NOA的情況下切換路線,或者根據(jù)用戶指令在高速出入口走人工通道。

(圖源:直播截圖)
VLA并未擺脫端到端智駕方案的黑盒問題,為此理想在2024年底組建了超過1000人的超級(jí)對(duì)齊團(tuán)隊(duì),并構(gòu)建了仿真世界模型,可在虛擬世界中驗(yàn)證司機(jī)Agent的專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。原本依靠人類司機(jī)驗(yàn)證,一萬公里成本高達(dá)17萬元到18萬元,仿真世界中1萬公里驗(yàn)證成本僅4000多元。
理想汽車車表示,由于英偉達(dá)Orin-X芯片無法直接運(yùn)行語言模型,端到端+VLM對(duì)于部分企業(yè)而言仍是不小的挑戰(zhàn)。理想擁有編譯團(tuán)隊(duì),自研了底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運(yùn)行VLM,理想在智駕技術(shù)領(lǐng)域的原創(chuàng)性,高于理想汽車核心競爭力之一的增程技術(shù)。
不過理想汽車表示,VLA的實(shí)現(xiàn)不是突變過程,而是從規(guī)則算法到端到端大模型及端到端+VLM,再到VLA的進(jìn)化過程,唯有夯實(shí)基礎(chǔ),才能實(shí)現(xiàn)VLA。這也解釋了為何理想會(huì)在推送端到端+VLM方案后,又押注VLA,基于規(guī)則算法和端到端+VLM的技術(shù)積累,理想才跨步到了VLA階段。
對(duì)于近期輔助駕駛車型接連出現(xiàn)事故,消費(fèi)者失去信任,甚至有網(wǎng)友呼吁叫停輔助駕駛的情況,理想則認(rèn)為更像是黎明前的黑暗,技術(shù)不會(huì)停止向前發(fā)展。
的確,輔助駕駛車型出現(xiàn)事故,只會(huì)讓車企在研究技術(shù)時(shí)更加謹(jǐn)慎,增加驗(yàn)證頻次,不會(huì)導(dǎo)致車企因噎廢食,技術(shù)領(lǐng)域的競爭將更加激烈。一直處于國內(nèi)輔助駕駛技術(shù)第一梯隊(duì)的理想,也許能夠通過VLA方案,為行業(yè)帶來新的思路與方向。
熱門跟貼