每經(jīng)記者:孫磊 每經(jīng)編輯:余婷婷
“AI(人工智能)工具可劃分為信息工具、輔助工具和生產(chǎn)工具三個(gè)層級(jí)。我覺(jué)得人工智能變成生產(chǎn)工具,才是真正人工智能爆發(fā)的時(shí)刻?!崩硐肫嚩麻L(zhǎng)、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他對(duì)于人工智能的最新思考,VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),這距離他上一季談及人工智能已經(jīng)過(guò)去了130多天。

圖片來(lái)源:企業(yè)供圖
李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時(shí)刻。就像人類會(huì)雇用司機(jī),人工智能技術(shù)最終也會(huì)承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具?!?/p>
就理想汽車而言,其研發(fā)的VLA司機(jī)大模型則是以“司機(jī)Agent”的產(chǎn)品形態(tài)呈現(xiàn)?!坝脩艨赏ㄟ^(guò)自然語(yǔ)言與司機(jī)Agent溝通,跟人類司機(jī)怎么說(shuō),就跟司機(jī)Agent怎么說(shuō)。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理?!崩硐肫嚪矫姹硎尽?/p>
此外,李想還回應(yīng)了“有人覺(jué)得輔助駕駛應(yīng)該被叫?!钡膯?wèn)題。“經(jīng)過(guò)多年,從規(guī)則算法到端到端+VLM(視覺(jué)語(yǔ)言),再到現(xiàn)在真正邁入VLA階段,現(xiàn)在比較像‘黎明前的黑暗’。我覺(jué)得黎明馬上就要來(lái)了。但是會(huì)先經(jīng)歷一個(gè)黑暗的過(guò)程,之所以有黑暗是因?yàn)橐瓉?lái)黎明?!崩钕胝f(shuō)。
VLA是端到端+VLM的合體
所謂“VLA”,即視覺(jué)語(yǔ)言動(dòng)作模型(Vision-Language-Action Model)。最早由DeepMind于2023年提出,應(yīng)用在機(jī)器人領(lǐng)域,輸入給定的文本和視覺(jué)數(shù)據(jù),輸出機(jī)器人可執(zhí)行的動(dòng)作,天然便帶有AI與物理世界交互的基因。
與當(dāng)前理想汽車使用的“著重于圖像和場(chǎng)景的理解,作為智駕決策規(guī)劃輸入,讓車輛行為更合理”的VLM模型不同,VLA模型會(huì)將端到端與多模態(tài)大模型結(jié)合得更徹底,能夠根據(jù)感知直接生成車輛的運(yùn)動(dòng)規(guī)劃和決策,更加接近“圖像輸入、控制輸出”的端到端智駕理想狀態(tài)。
在業(yè)內(nèi)看來(lái),VLA模型可看成是端到端+VLM的合體,其遇到一些復(fù)雜的交通規(guī)則、潮汐車道、長(zhǎng)時(shí)序推理等特殊場(chǎng)景時(shí),會(huì)比過(guò)往理解、應(yīng)對(duì)得更好?!皩?duì)于理想汽車而言,VLA是一個(gè)司機(jī)大模型,像人類的司機(jī)一樣去工作的一個(gè)模型?!崩钕胝f(shuō)。
據(jù)悉,就推理時(shí)長(zhǎng)而言,在傳統(tǒng)rule-based(基于規(guī)則)方案下,智能輔助駕駛只能推理1秒鐘路況信息然后做出決策控制;端到端1.0階段系統(tǒng)能夠推理出未來(lái)7秒的路況,而VLA模型則能對(duì)幾十秒路況進(jìn)行推理。
李想透露,達(dá)到VLA模型階段并非突變的過(guò)程,而是進(jìn)化的過(guò)程,經(jīng)歷了三個(gè)階段:第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動(dòng)物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM輔助駕駛,接近“哺乳動(dòng)物智能”。
“在端到端的基礎(chǔ)上,到第三階段,VLA將開啟‘人類智能’階段。它能通過(guò)3D和2D視覺(jué)的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時(shí),VLA擁有完整的腦系統(tǒng),具備語(yǔ)言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動(dòng),符合人類的運(yùn)作方式。”李想說(shuō)。
有觀點(diǎn)認(rèn)為,伴隨著VLA模型的出現(xiàn),理想汽車或放棄端到端技術(shù)。對(duì)此,李想表示:“沒(méi)有放棄,端到端是VLA的基礎(chǔ)。如果你把端到端想象成一個(gè)個(gè)具身智能執(zhí)行的環(huán)節(jié),那它其實(shí)就是VLA的A(action行動(dòng))的部分。只是我要多語(yǔ)言的部分,還要更多更強(qiáng)的3D vision和高清2D vision的部分。”
“現(xiàn)階段VLA是能力最強(qiáng)的架構(gòu)”
值得注意的是,VLA近來(lái)一直受到自動(dòng)駕駛領(lǐng)域的熱捧,除理想汽車外,元戎啟行等企業(yè)也在該領(lǐng)域進(jìn)行布局。有行業(yè)人士表示,VLA模型對(duì)智能輔助駕駛的演進(jìn)意義重大,在L2輔助駕駛到L4自動(dòng)駕駛的飛躍中,VLA可能會(huì)成為關(guān)鍵跳板;另一方面,VLA模型也可能成為智能駕駛走向更廣闊的具身智能行業(yè)的連接點(diǎn)。
“目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA能夠讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對(duì)理想汽車而言,未來(lái)的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型?!崩钕胝f(shuō),“我自己認(rèn)為VLA(司機(jī)大模型)能夠解決全自動(dòng)駕駛,至于VLA是否是效率最高的方式還要打個(gè)問(wèn)號(hào)。但現(xiàn)階段VLA是能力最強(qiáng)的架構(gòu)?!?/p>
值得一提的是,行業(yè)也存有共識(shí),VLA模型的上車難度不小——將端到端與VLM模型二合一后,車端模型參數(shù)變得更大,既要有高效實(shí)時(shí)推理能力,同時(shí)還要有大模型認(rèn)識(shí)復(fù)雜世界并給出建議的能力,對(duì)車端芯片硬件有相當(dāng)高的要求。
“理想汽車有編譯團(tuán)隊(duì),有芯片的能力,有板子設(shè)計(jì)能力,有操作系統(tǒng)能力。所以我們是能夠把兩個(gè)Orin-X帶寬做到足夠的大,它同樣可以跑同等規(guī)模的VLA的模型?!崩钕氡硎?,“我自己還是認(rèn)為,規(guī)模小的時(shí)候可能無(wú)所謂,規(guī)模大的時(shí)候基本功和能力永遠(yuǎn)是無(wú)法逾越的?!?/p>
值得注意的是,李想的這番言論也折射出當(dāng)前智能輔助駕駛行業(yè)的一個(gè)現(xiàn)狀——技術(shù)路徑的快速迭代升級(jí)與競(jìng)爭(zhēng)態(tài)勢(shì)的加速轉(zhuǎn)變,對(duì)那些尚未在端到端解決方案領(lǐng)域建立優(yōu)勢(shì)的企業(yè)而言,形成了更高的準(zhǔn)入壁壘,使得后來(lái)者居上的可能性顯著降低。
“今天很多企業(yè)做端到端都很吃力,是因?yàn)樵谝?guī)則算法的時(shí)候都沒(méi)做好?!崩钕胝f(shuō),“如果你規(guī)則算法都做不好,你根本不知道怎么去做端到端;如果你端到端沒(méi)有做到一個(gè)非常極致的水平,你連VLA怎么去訓(xùn)練都不知道?!?/p>
“美國(guó)很多頂級(jí)的公司,像蘋果、特斯拉,他們基本功特別扎實(shí),這個(gè)是我們真正要去學(xué)的。尤其是在今天這種內(nèi)卷環(huán)境下,包括外部不確定的環(huán)境下,這時(shí)候更是每個(gè)企業(yè)扎扎實(shí)實(shí)練基本功最好的時(shí)候。而且到了人工智能時(shí)代,基本功就更是不可跳躍的?!崩钕胙a(bǔ)充道。
熱門跟貼