【CNMO科技消息】近日,理想汽車創(chuàng)始人李想在談到公司自動駕駛技術(shù)發(fā)展時提到,VLA(視覺語言行動模型)對理想汽車來說,就像是一位真正的“司機大模型”,它的運行方式越來越接近人類司機的思考和操作。
李想介紹稱,理想汽車在智能駕駛方面的演進大致經(jīng)歷了三個階段。第一個階段從2021年開始,主要依靠機器學(xué)習(xí)進行環(huán)境感知,并結(jié)合后端的一系列規(guī)則算法來完成規(guī)劃、控制和執(zhí)行等任務(wù)。這個階段的技術(shù)是分模塊、按步驟推進的,雖然有效,但還遠遠談不上“類人”。

第二個階段是從2023年開始研究,并在2024年正式推出的“端到端”系統(tǒng)。這一階段的突破在于,系統(tǒng)不再依賴單一模塊的獨立判斷,而是讓整個駕駛過程更加連貫、統(tǒng)一,能更高效地處理復(fù)雜路況,實現(xiàn)更自然的駕駛行為。
而第三個階段就是目前重點推進的VLA模型,它標(biāo)志著智能駕駛進入了一個全新的層次。與以往不同,VLA不再是單純的圖像識別,而是像人類一樣,通過3D視覺與2D圖像的結(jié)合,去“理解”真實世界的物理結(jié)構(gòu)。它不僅能“看”到道路和車輛周圍的情況,還能“讀懂”導(dǎo)航軟件是如何運行的,這是傳統(tǒng)視覺語言模型VLM所做不到的。后者只能識別圖片內(nèi)容,而無法真正理解場景背后的邏輯。
更重要的是,VLA擁有類似人類的“大腦系統(tǒng)”。它不僅能觀察外部世界,還能理解和推理這個世界正在發(fā)生什么。它具備自己的“語言”和“思維鏈”,能夠進行多步驟推理,做出更符合實際情境的決策。這種能力讓它在面對突發(fā)情況或復(fù)雜路況時,能像老練司機那樣迅速反應(yīng)并采取合適動作。
熱門跟貼