2025年5月7日,理想汽車(chē)舉辦理想AI Talk第二季,董事長(zhǎng)兼CEO李想深入剖析了人工智能在汽車(chē)領(lǐng)域的演進(jìn)路徑,詳細(xì)介紹了VLA司機(jī)大模型的技術(shù)原理、訓(xùn)練方法和應(yīng)用前景,并分享了對(duì)創(chuàng)業(yè)與個(gè)人成長(zhǎng)的獨(dú)特見(jiàn)解。本次活動(dòng)揭示了理想汽車(chē)在智能駕駛領(lǐng)域的最新技術(shù)布局和戰(zhàn)略方向,展現(xiàn)了其從輔助駕駛向真正自動(dòng)駕駛躍遷的技術(shù)路徑。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于理想汽車(chē)而言,VLA(Vision-Language-Action Model,視覺(jué)語(yǔ)言行動(dòng)模型)司機(jī)大模型正是這樣一個(gè)交通領(lǐng)域的專(zhuān)業(yè)生產(chǎn)工具,其目標(biāo)是成為像人類(lèi)司機(jī)一樣工作的AI駕駛員。VLA司機(jī)大模型的訓(xùn)練過(guò)程精妙地模擬了人類(lèi)學(xué)習(xí)駕駛的歷程,分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)核心環(huán)節(jié)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

預(yù)訓(xùn)練階段相當(dāng)于人類(lèi)學(xué)習(xí)物理世界和交通領(lǐng)域的基礎(chǔ)知識(shí),通過(guò)海量高清2D和3D視覺(jué)數(shù)據(jù)、交通相關(guān)語(yǔ)料以及視覺(jué)語(yǔ)言聯(lián)合數(shù)據(jù),訓(xùn)練出強(qiáng)大的云端VL基座模型,并通過(guò)蒸餾技術(shù)轉(zhuǎn)化為車(chē)端高效運(yùn)行的端側(cè)模型。

后訓(xùn)練階段類(lèi)似人類(lèi)在駕校系統(tǒng)學(xué)習(xí)駕駛技能,隨著Action(動(dòng)作)數(shù)據(jù)的加入——即對(duì)周?chē)h(huán)境和自車(chē)駕駛行為的編碼,VL基座模型升級(jí)為VLA司機(jī)大模型。得益于短鏈條的CoT思維鏈和Diffusion擴(kuò)散模型對(duì)他車(chē)軌跡與環(huán)境的精準(zhǔn)預(yù)測(cè),VLA具備了實(shí)時(shí)處理復(fù)雜交通環(huán)境的博弈能力。

強(qiáng)化訓(xùn)練階段則對(duì)應(yīng)人類(lèi)在實(shí)際道路上練習(xí)駕駛的過(guò)程,通過(guò)RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))完成安全對(duì)齊,使模型遵守交通規(guī)則并適應(yīng)中國(guó)用戶(hù)的駕駛習(xí)慣;同時(shí)將純強(qiáng)化學(xué)習(xí)模型置于世界模型中訓(xùn)練,全面提升駕駛舒適性,避免碰撞事故,確保交通規(guī)則的嚴(yán)格執(zhí)行。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在產(chǎn)品形態(tài)上,VLA司機(jī)大模型以"司機(jī)Agent"的方式呈現(xiàn)給用戶(hù),支持通過(guò)自然語(yǔ)言交流——"跟人怎么說(shuō),就跟司機(jī)Agent怎么說(shuō)"。系統(tǒng)架構(gòu)上采用云端與車(chē)端協(xié)同的設(shè)計(jì):簡(jiǎn)單通用的短指令由端側(cè)VLA直接處理,而復(fù)雜指令則先由云端VL基座模型解析后,再交由VLA執(zhí)行,確保交互的自然流暢與準(zhǔn)確高效。

面對(duì)AI能力增強(qiáng)帶來(lái)的安全隱憂(yōu),理想汽車(chē)采取了兩大關(guān)鍵措施:超級(jí)對(duì)齊與世界模型。李想強(qiáng)調(diào),模型能力越強(qiáng),越需要嚴(yán)格的職業(yè)性約束,以確保能力下限。為此,理想汽車(chē)于2024年底組建了超過(guò)100人的超級(jí)對(duì)齊團(tuán)隊(duì),專(zhuān)注于為司機(jī)Agent注入專(zhuān)業(yè)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

李想指出,判斷司機(jī)Agent是否稱(chēng)職有三個(gè)關(guān)鍵標(biāo)準(zhǔn):專(zhuān)業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。VLA司機(jī)大模型通過(guò)自身的技術(shù)架構(gòu)提升了專(zhuān)業(yè)能力,借助超級(jí)對(duì)齊增強(qiáng)了職業(yè)能力,并通過(guò)自然語(yǔ)言理解與記憶能力提升了與用戶(hù)之間的信任構(gòu)建。

在談及理想汽車(chē)實(shí)現(xiàn)技術(shù)快速躍遷的秘訣時(shí),李想將其歸結(jié)為從研究、研發(fā)到能力表達(dá),再到業(yè)務(wù)價(jià)值轉(zhuǎn)化的基本功積累。他特別強(qiáng)調(diào)研究的重要性,認(rèn)為研究突破是提升研發(fā)效率和實(shí)現(xiàn)業(yè)務(wù)落地的關(guān)鍵。例如,面對(duì)英偉達(dá)Orin-X芯片無(wú)法直接運(yùn)行語(yǔ)言模型的挑戰(zhàn),理想汽車(chē)依托自有編譯團(tuán)隊(duì),自研底層推理引擎,實(shí)現(xiàn)了通過(guò)INT4(4比特整型)量化運(yùn)行VLM的技術(shù)突破。同時(shí),憑借芯片、控制器設(shè)計(jì)和自研汽車(chē)操作系統(tǒng)等綜合能力,成功讓雙Orin-X芯片和Thor-U芯片高效運(yùn)行同等規(guī)模的VLA司機(jī)大模型。

李想坦言,理想汽車(chē)在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上得益于DeepSeek的開(kāi)源成果,節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。盡管如此,公司仍選擇加大投入,在基座模型訓(xùn)練上投入超預(yù)期3倍的計(jì)算資源,專(zhuān)注打造適配多場(chǎng)景的自研模型體系。"我們可以站在巨人的肩膀上,但它只是其中的一部分。"在受益于開(kāi)源的同時(shí),理想汽車(chē)也選擇將自研的汽車(chē)操作系統(tǒng)——理想星環(huán)OS開(kāi)源,以回饋社會(huì)。

編輯說(shuō):

理想汽車(chē)不僅強(qiáng)調(diào)技術(shù)能力的提升,更注重AI系統(tǒng)的安全性與可信賴(lài)性,通過(guò)"超級(jí)對(duì)齊"和"世界模型"雙重保障機(jī)制,解決了智能駕駛面臨的兩大核心挑戰(zhàn):職業(yè)素養(yǎng)和黑盒決策。這種既追求技術(shù)突破又高度重視安全責(zé)任的平衡發(fā)展思路,反映了理想汽車(chē)作為行業(yè)新勢(shì)力的成熟與責(zé)任擔(dān)當(dāng)。隨著VLA司機(jī)大模型未來(lái)在實(shí)際道路上的應(yīng)用與迭代,我們期待看到一個(gè)更加安全、智能、人性化的出行新時(shí)代加速到來(lái)。