打開網(wǎng)易新聞 查看精彩圖片

經(jīng)觀汽車

2025年5月8日,距離“AI Talk”第一季播出已有130天,面對(duì)鏡頭,理想汽車創(chuàng)始人李想坦言:“人工智能發(fā)展得這么快,但我每天的工作時(shí)間并沒有減少?!边@一句話,道出了他對(duì)AI技術(shù)落地路徑的冷靜思考,也預(yù)示著理想汽車在智能化道路上的階段躍遷。

在這場(chǎng)持續(xù)數(shù)小時(shí)的訪談中,李想系統(tǒng)性地闡述了他對(duì)AI工具分級(jí)的理解——從信息工具、輔助工具,到生產(chǎn)工具。而在理想的語境中,生產(chǎn)工具意味著AI真正進(jìn)入價(jià)值創(chuàng)造的核心。這場(chǎng)技術(shù)演化的關(guān)鍵,正在從模型的堆疊走向具象能力的整合與釋放。

過去四個(gè)月,中國(guó)本土大模型迎來了突飛猛進(jìn)的發(fā)展。李想在談話中頻頻提及DeepSeek——這一國(guó)產(chǎn)大模型體系,在技術(shù)架構(gòu)、推理能力和工程效率上的表現(xiàn),讓理想汽車決策層重新評(píng)估了其VLA(視覺-語言-行動(dòng))戰(zhàn)略的實(shí)施路徑。

“DeepSeek給了我們一個(gè)巨大的推動(dòng)力?!崩钕胩钩?,原本計(jì)劃在年底完成的基座模型,因DeepSeek的開源提前了九個(gè)月完成基礎(chǔ)設(shè)施建設(shè)。

也正是出于這種“被幫助之后的反饋機(jī)制”,理想汽車選擇開源自研四年的星環(huán)OS整車操作系統(tǒng)?!拔覀兪艿搅四敲创蟮膸椭瑧?yīng)該給社會(huì)做一些貢獻(xiàn)?!崩钕胝f。

他提到,在過去的春節(jié)期間,理想團(tuán)隊(duì)圍繞DeepSeek展開了全面研究,從模型的MoE(混合專家)結(jié)構(gòu)、訓(xùn)練效率、到部署難度,進(jìn)行了詳盡評(píng)估?!斑@不是簡(jiǎn)單的‘借用’,而是站在巨人的肩膀上再進(jìn)一層?!彼f。

從規(guī)則到端到端,再到VLA

李想認(rèn)為,人工智能走向生產(chǎn)力的關(guān)鍵在于Agent能力的釋放,即AI不再只是輔助人類思考和判斷,而是能夠獨(dú)立完成專業(yè)工作,承擔(dān)“替代性”的角色。理想汽車當(dāng)前的VLA戰(zhàn)略,正是對(duì)這一目標(biāo)的路徑設(shè)計(jì)。

VLA,即“視覺-語言-行動(dòng)”模型,是理想汽車提出的輔助駕駛大模型方案。李想將VLA的發(fā)展劃分為三個(gè)階段:

第一階段是以規(guī)則算法為主的“昆蟲智能”,高度依賴地圖和預(yù)設(shè)規(guī)則,類似螞蟻在路徑上的機(jī)械執(zhí)行。

第二階段是當(dāng)前正在推進(jìn)的端到端模型,通過大數(shù)據(jù)學(xué)習(xí)形成對(duì)行為的模仿,類似“哺乳動(dòng)物式”的感知和反應(yīng),雖不完全理解物理世界,但能完成一定泛化任務(wù)。

第三階段,即VLA階段,則是李想眼中“類人智能”的起點(diǎn)。它不僅能夠看懂導(dǎo)航界面、識(shí)別3D場(chǎng)景,還能進(jìn)行語義推理(Chain of Thought),具備主動(dòng)判斷和行動(dòng)的能力?!斑@是我們的‘司機(jī)大模型’?!崩钕胝f。

為了達(dá)成這一目標(biāo),理想汽車正在訓(xùn)練一個(gè)32B規(guī)模(即320億參數(shù)規(guī)模)的VL(視覺-語言)基座模型。李想詳細(xì)介紹了訓(xùn)練的三個(gè)關(guān)鍵部分:

首先,是視覺方面的token和語料。理想在模型中納入了大量3D視覺數(shù)據(jù),即來自物理世界的三維信息,同時(shí)還引入了高清2D圖像數(shù)據(jù),分辨率相比開源多模態(tài)模型提升了10倍,以解決當(dāng)前2D視覺模態(tài)清晰度不足、識(shí)別距離有限的問題。

其次,是語言部分的輸入。模型訓(xùn)練加入了大量與交通、駕駛行為相關(guān)的語言語料,以強(qiáng)化其在實(shí)際場(chǎng)景中的語義理解能力。

第三個(gè)關(guān)鍵點(diǎn),是視覺與語言的聯(lián)合語料(VL語料)。李想強(qiáng)調(diào),這一部分極易被忽視,但對(duì)VLA至關(guān)重要。聯(lián)合語料指的是圖像信息與語言語義同時(shí)存在于一個(gè)數(shù)據(jù)單元中,比如導(dǎo)航地圖與車輛對(duì)其的語義理解共同輸入模型,幫助模型建立起從視覺到語言再到行動(dòng)之間的深度聯(lián)結(jié)能力。

“過去的VLM(視覺-語言模型)大多只是能看圖說話,但理解不了世界。我們要的是一個(gè)能看懂真實(shí)世界、理解物理規(guī)則、具備行動(dòng)意圖的大模型。”李想指出。

在談及基座模型的研發(fā)投入時(shí),李想表示:“我們今年的訓(xùn)練卡采購(gòu)量,是原定計(jì)劃的三倍?!边@一擴(kuò)張級(jí)別,反映出理想汽車在自研基礎(chǔ)模型上的戰(zhàn)略押注。

盡管DeepSeek的開源帶來了加速效應(yīng),李想并未對(duì)自研路徑抱有任何僥幸心理。他反復(fù)強(qiáng)調(diào):“沒有任何捷徑。如果規(guī)則算法做不好,根本不知道怎么走端到端。端到端不做到極致,就沒法訓(xùn)練好VLA。”

這也解釋了為什么理想汽車仍然堅(jiān)持構(gòu)建自己的基座模型,而不是完全依賴第三方平臺(tái)?!拔覀兊娜蝿?wù)不僅僅是對(duì)話生成。我們要的是對(duì)多模態(tài)世界的理解,是真正為汽車場(chǎng)景服務(wù)的智能體。”李想說。

談及行業(yè)格局,李想將DeepSeek比作“Linux時(shí)刻”,而理想追逐的,則是“安卓時(shí)刻”。

“語言模型只是底座,真正的爆發(fā)在于將其部署于特定領(lǐng)域,釋放出完整的應(yīng)用能力?!彼硎荆诮煌I(lǐng)域,理想希望借由VLA構(gòu)建出具備認(rèn)知、推理和行動(dòng)能力的類人駕駛模型。

這一愿景背后,是理想汽車從底層操作系統(tǒng)到多模態(tài)大模型全面自研的技術(shù)鏈閉環(huán)。而在產(chǎn)業(yè)層面,這也意味著一場(chǎng)從傳統(tǒng)規(guī)則驅(qū)動(dòng)到智能體驅(qū)動(dòng)的范式躍遷正在發(fā)生。

李想認(rèn)為,輔助駕駛行業(yè)當(dāng)前正處于“黎明前的黑暗”。爭(zhēng)議與困境并存,但這正是新范式到來的前夜。“我最愿意解決的就是別人解決不了的問題?!彼f。

在理想汽車的路徑圖中,AI不再是一個(gè)效率工具,而是一個(gè)系統(tǒng)性、可擴(kuò)展、可以承擔(dān)主角的“生產(chǎn)工具”。在這個(gè)定義之下,VLA不僅是技術(shù)躍遷的起點(diǎn),更是理想汽車試圖重塑人車關(guān)系、重塑交通智能產(chǎn)業(yè)的路徑嘗試。

免責(zé)聲明:本文觀點(diǎn)僅代表作者本人,供參考、交流,不構(gòu)成任何建議。