作者 |德新

編輯 |王博

打開網(wǎng)易新聞 查看精彩圖片

隨著智能電動(dòng)化的深入,汽車已經(jīng)變成人們生活中最大號(hào)的消費(fèi)電子產(chǎn)品。隨之發(fā)生的是,每年的大型國(guó)際車展也不再是純粹的汽車潮流的展示,也是尖端科技的秀場(chǎng)。

在上一周開幕的上海車展上,圍繞智能輔助駕駛的先進(jìn)技術(shù)也成為本屆最重要的看點(diǎn)。華為、地平線、元戎等智駕公司都帶來了新一代技術(shù)的展示發(fā)布。

在全民智駕普及的浪潮中,全行業(yè)正在探尋更加先進(jìn)、更加安全、更加擬人的技術(shù)方案,以Thor為代表的下一代計(jì)算平臺(tái),以及以世界模型和VLA為代表的新技術(shù)架構(gòu),正推動(dòng)我們逼近兌現(xiàn)更高等級(jí)智能駕駛的未來。

一、新架構(gòu):城區(qū)輔助駕駛繼續(xù)向上「捅破天」

一、新架構(gòu):城區(qū)輔助駕駛繼續(xù)向上「捅破天」

本屆車展上,智能輔助駕駛技術(shù)繼續(xù)向前推進(jìn),特斯拉FSD入華是最直接的推動(dòng)力;全民智駕對(duì)于更高安全性和更優(yōu)體驗(yàn)的追求,是第二重壓力;當(dāng)然,最終目標(biāo)是要實(shí)現(xiàn)高度自動(dòng)駕駛

在未來幾個(gè)月即將到來的Thor,以及各家在云端計(jì)算資源的大規(guī)模投入,也解放了生產(chǎn)力,讓大模型得以釋放更多的潛力。因此盡管已經(jīng)是智能化下半場(chǎng),各家的新技術(shù)架構(gòu)層出不窮。

世界模型和VLA是其中最典型的技術(shù)代表。

打開網(wǎng)易新聞 查看精彩圖片

4月22日,華為發(fā)布ADS4,最大變化是引入WE-WA架構(gòu):WE代表云端世界引擎(World Engine),WA代表了車端的世界行為模型(World Action Model)。

世界引擎的核心能力是用AI生成困難場(chǎng)景,包括極端天氣和罕見障礙物等,華為的世界引擎號(hào)稱能夠生成比真實(shí)世界密度高1000倍的困難場(chǎng)景,從而解決訓(xùn)練端的數(shù)據(jù)瓶頸。而世界行為模型,是一個(gè)原生多模態(tài)的車端大模型,通過視覺、聽覺、觸覺的輸入,直接輸出控車軌跡和環(huán)境理解。

小鵬汽車也在車展前夕MPV車型X9香港的上市發(fā)布會(huì)上透露,小鵬已經(jīng)搭建了10 EFlops的萬(wàn)卡集群,正在訓(xùn)練一個(gè)720B參數(shù)的超大模型,并稱之為「世界基座模型」;同時(shí),基于世界基座模型蒸餾壓縮將得到小模型XVLA,小鵬將會(huì)以「世界模型 + XVLA +圖靈芯片」的方式布局下一代的智駕技術(shù)。

無論世界引擎也好,還是世界基座模型,都是來自云端算力和數(shù)據(jù)規(guī)模的突破。

而在車端,本年度典型的L2+智能輔助駕駛芯片將實(shí)現(xiàn)從單OrinX(254 Tops)到Thor U(700 Tops)數(shù)倍的性能提升,從而帶來由當(dāng)前端到端架構(gòu)向VLA等更復(fù)雜先進(jìn)架構(gòu)的演進(jìn)。

二、下一代車端模型,為何走向了VLA?

二、下一代車端模型,為何走向了VLA?

2024年,從「數(shù)據(jù)驅(qū)動(dòng)的感知 + 規(guī)則/小模型為主的決策規(guī)劃」,向兩段式端到端的變遷可以說是國(guó)內(nèi)智能輔助駕駛?cè)?nèi)最重要的技術(shù)潮流。

然而這套范式運(yùn)行到今天也呈現(xiàn)出非常明顯的瓶頸。尤其是對(duì)比2月底特斯拉FSD入華之后,特斯拉FSD的安全、擬人程度與國(guó)內(nèi)系統(tǒng)對(duì)比有層次領(lǐng)先。不少業(yè)界大佬如小鵬汽車CEO何小鵬、地平線副總裁蘇箐、元戎啟行CEO周光都公開認(rèn)可了特斯拉FSD技術(shù)的先進(jìn)性。

周光認(rèn)為,特斯拉FSD V12到V13的進(jìn)展,就是用了(更先進(jìn)的)大模型,只是特斯拉再不召開AI Day以及披露其中的技術(shù)細(xì)節(jié)。

元戎啟行和理想各自在GTC上公布其VLA模型的研發(fā)進(jìn)展之后,在過去幾個(gè)月里VLA逐漸成為業(yè)界主流玩家們的技術(shù)共識(shí),至少在預(yù)研的層面。

目前除上述兩家外,小米從Wayve招聘了一位主任科學(xué)家,專門負(fù)責(zé)帶領(lǐng)VLA團(tuán)隊(duì);國(guó)內(nèi)Tier 1龍頭德賽西威的自研智駕團(tuán)隊(duì)也在探索VLA;以及小鵬提到的車端模型XVLA,很顯然也是一種衍生的VLA模型。

VLA最早是由Google DeepMind在2023年7月提出的用于機(jī)器人控制的模型,其以大語(yǔ)言模型為基礎(chǔ),模型在接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后,可以直接輸出控制信號(hào),完成各種復(fù)雜的操作。那為什么現(xiàn)在主流自動(dòng)駕駛玩家不少都選擇VLA?

打開網(wǎng)易新聞 查看精彩圖片

周光在車展上談到VLA的幾點(diǎn)好處,從模型開發(fā)的角度,語(yǔ)言對(duì)于模型的「對(duì)齊」操作是非常友好的,語(yǔ)言天然是在AI開發(fā)中的重要手段;語(yǔ)言同時(shí)也是用戶對(duì)系統(tǒng)建立信任和安全感非常好的手段。

VLA能帶來什么樣實(shí)際體驗(yàn)的好處?元戎認(rèn)為:

  1. 應(yīng)用VLA之后,系統(tǒng)能夠習(xí)得特殊車道的駕駛方式;
  2. 擁有更長(zhǎng)時(shí)序的理解能力,不犯基礎(chǔ)錯(cuò)誤,更擅長(zhǎng)處理復(fù)雜路況;
  3. 也能像人一樣的方式思考,有學(xué)習(xí)和自我優(yōu)化的能力。

我們?cè)谲囌蛊陂g也體驗(yàn)了元戎最新的軟件版本,其針對(duì)大量密集的VRU有相當(dāng)穩(wěn)定的感知和博弈能力;此前在廣州密集的城區(qū),其針對(duì)環(huán)島、銜接路等復(fù)雜道路結(jié)構(gòu)的識(shí)別處理能力,也讓人印象深刻。

打開網(wǎng)易新聞 查看精彩圖片

在車端模型的演進(jìn)上,之前理想的「端到端+VLM」架構(gòu)在雙OrinX平臺(tái)遇到的典型問題是,VLM的運(yùn)行幀率較低,只有幾赫茲,難以達(dá)到自動(dòng)駕駛所需的實(shí)時(shí)性要求;而Thor將帶來模型規(guī)模和運(yùn)行幀率的提升。

理想在OrinX上部署的VLM模型參數(shù)規(guī)模大概在2B左右;而據(jù)業(yè)內(nèi)Tier 1 聯(lián)想車計(jì)算在本屆車展上透露,目前他們已經(jīng)在Thor上(只用了一部分算力)就實(shí)現(xiàn)了130B模型的部署。相信Thor的到來,將幫助智駕科技公司釋放VLA等復(fù)雜模型的潛力。

為了加速VLA的開發(fā),元戎在本屆車展期間也與火山引擎簽署了深度合作,以獲得大規(guī)模云端算力的支持。

三、智駕走向L5,要先成為通才

三、智駕走向L5,要先成為通才

從前融合到無圖再到端到端,作為一家擁有強(qiáng)AI背景的智駕科技公司,元戎有多次成功預(yù)言重要技術(shù)變革的歷史戰(zhàn)績(jī);這一次,他們似乎再次引領(lǐng)了業(yè)界的技術(shù)潮流。

與此同時(shí),元戎今年提出了RoadAGI戰(zhàn)略——尋求在汽車之外,打造具備通用移動(dòng)能力的技術(shù)方案,比如用在移動(dòng)機(jī)器人、無人配送小車等。

為什么在這個(gè)時(shí)點(diǎn)開始做RoadAGI?

周光認(rèn)為,這一趨勢(shì)與大語(yǔ)言模型的發(fā)展類似,從大語(yǔ)言模型的經(jīng)驗(yàn)看,模型要先走過通才階段,才能實(shí)現(xiàn)達(dá)到專才階段,「直到 ChatGPT 出來后,大語(yǔ)言模型才變成了一個(gè)通才,但它最初是一個(gè)大專水平的通才。這之后,隨著在推理、數(shù)學(xué)等垂直能力上的強(qiáng)化,它變成了一個(gè)博士級(jí)的專才;再下一步是博士級(jí)通才?!?/p>

元戎在VLA的研發(fā)初具成果后,進(jìn)一步開啟了RoadAGI戰(zhàn)略,計(jì)劃打造移動(dòng)領(lǐng)域的通才模型

周光打了一個(gè)比方,「如果這個(gè)通才模型能在自行車、摩托車等不同移動(dòng)終端上都做到 1000 公里接管一次,這個(gè)系統(tǒng)再回去開車,就有可能做到 10 萬(wàn)公里接管一次?!?/p>

實(shí)際上,今天業(yè)界主流的城區(qū)輔助駕駛系統(tǒng)接管指標(biāo)還未能達(dá)到百公里級(jí)別;如果VLA和RoadAGI,能帶來這樣數(shù)量級(jí)的技術(shù)突破,其創(chuàng)造的價(jià)值將是巨大的。