打開網(wǎng)易新聞 查看精彩圖片

業(yè)界專家一致認(rèn)為,常規(guī)的端到端方案最終只能實現(xiàn)L3級自動駕駛,生成式AI大模型才能實現(xiàn)L4。

那么,大模型技術(shù)真正在車端落地,需要突破多少難關(guān)呢?

對大佬們的話做閱讀理解,一定要結(jié)合他發(fā)言的上下文,否則很容易斷章取義。

比方說,特斯拉前自動駕駛部門負(fù)責(zé)人Andrej Karpathy曾經(jīng)說過,大模型的幻覺是特點,不是缺陷,大語言模型的工作機制就是做夢,幻覺是正?,F(xiàn)象。

打開網(wǎng)易新聞 查看精彩圖片

從助力科學(xué)發(fā)現(xiàn)的角度來看,大模型的幻覺問題的確不是缺陷。

但是,對于汽車駕駛這種高安全要求、約束邊界非常明顯的場景而言,幻覺問題是必須解決的一道難關(guān)。

打開網(wǎng)易新聞 查看精彩圖片

定量來看,當(dāng)下大模型的錯誤率和L4級自動駕駛能容忍的錯誤率到底有多大的差距呢?

華為在《云計算2030》中表示,L3級自動駕駛的容錯率為0.1-1%,L4級自動駕駛?cè)蒎e率在0.0001-0.001%之間。

打開網(wǎng)易新聞 查看精彩圖片

隨著參數(shù)量的加大、訓(xùn)練數(shù)據(jù)規(guī)模的提升和新方法的引入,大模型的準(zhǔn)確率一直在穩(wěn)步提升。

2020年問世的GPT3錯誤率在40%左右,到了2022年底,GPT3.5的錯誤率已經(jīng)下降到了20%,GPT4更是百尺竿頭、更進一步,將錯誤率降低到了10%。

不過,饒是如此,10%和L4級自動駕駛的容錯率0.0001%依然差著5個數(shù)量級。

打開網(wǎng)易新聞 查看精彩圖片

前段時間,理想汽車的雙系統(tǒng)方案在直播測試中公然逆行,暴露了由LLM改造而來的視覺語言模型輸出錯誤率依然不低的現(xiàn)實。

理想的視覺語言模型DriveVLM基于阿里巴巴的Qwen-VL或Meta的LLaMA2-3B改造而來。

即便在它們的基礎(chǔ)上新增訓(xùn)練了一些駕駛場景數(shù)據(jù),做了RAG檢索增強、AI對齊、強化學(xué)習(xí)、優(yōu)化提示詞等工作,準(zhǔn)確率的提升也相當(dāng)有限。

打開網(wǎng)易新聞 查看精彩圖片

幻覺問題的解決任重而道遠(yuǎn)。

前段時間,李彥宏在百度世界2024大會上表示:過去兩年AI行業(yè)的最大變化就是大模型基本消除了幻覺。

我們無從揣測李彥宏是不是出現(xiàn)了幻覺,但他這個觀點非常值得商榷。

在絕大多數(shù)情況下,文字只不過是無關(guān)痛癢的表達(dá),操縱鋼鐵巨獸的自動駕駛系統(tǒng)面對的卻是可以直接決定他人性命,務(wù)必要慎之再慎!

有人說,人生最大的幸福就是在對的時間和環(huán)境下,和對的人一起做對的事,一旦時間變了,一切就都變了。

自動駕駛也要在對的時間、空間下,及時地做出對的決策,實時地行駛出對的軌跡。

交通場景瞬息萬變,自動駕駛系統(tǒng)必須及時感知車輛周圍環(huán)境、實時預(yù)判周圍交通參與者的潛在軌跡,經(jīng)過整體的統(tǒng)籌,即時規(guī)劃出安全、舒適、高效的行駛路徑。

打開網(wǎng)易新聞 查看精彩圖片

要保證復(fù)雜車流環(huán)境下的實時性,模型的運行頻率至少要在十幾赫茲。

目前,理想汽車視覺語言模型的運行頻率在3.3赫茲左右,只能起到輔助提醒的作用,無法參與實時的軌跡規(guī)劃。

打開網(wǎng)易新聞 查看精彩圖片

現(xiàn)在坊間有一個簡單粗暴的觀點,理想汽車如果在下一代智駕系統(tǒng)中將Orin升級為英偉達(dá)下一代艙駕一體芯片Thor。

NPU從254 TOPS提升到1000 TOPS。 再加上Thor對Transformer架構(gòu)的原生支持,應(yīng)該有望將DriveVLM的運行頻率提高到十幾赫茲。

打開網(wǎng)易新聞 查看精彩圖片

這個看法相當(dāng)門外漢。天上云追月,地下風(fēng)吹柳,更高等級的自動駕駛對模型的參數(shù)量必然有著更高的需求。

目前,理想汽車用來實現(xiàn)L3級自動駕駛的視覺語言模型的參數(shù)量只有22億參數(shù),這種參數(shù)規(guī)模的大模型無法實現(xiàn)L4級自動駕駛。

打開網(wǎng)易新聞 查看精彩圖片

可以拿特斯拉FSD的模型參數(shù)量做個對比。

2022年的AI Day上,特斯拉披露了其分模塊方案FSD的參數(shù)規(guī)模為10億(1B),進化到端到端方案之后,F(xiàn)SD模型的參數(shù)量必然有增無減。

特斯拉曾經(jīng)表示過,從V12.4到V12.5,F(xiàn)SD模型參數(shù)量提高了5倍,從V12.5到志在實現(xiàn)L4級自動駕駛的V13,模型參數(shù)量再次提高了3倍。

做一個合理的推算,F(xiàn)SD當(dāng)前的模型參數(shù)量恐怕得在200億左右,比DriveVLM的22億參數(shù)量高了整整1個數(shù)量級。

打開網(wǎng)易新聞 查看精彩圖片

這就意味著,除非降低對自動駕駛能力等級的需求,即將量產(chǎn)的智能駕駛芯片標(biāo)桿英偉達(dá) 雷神 參數(shù) 圖片 )芯片也無法解決車端運行大模型的實時性難題。

萬丈高樓平地起,那是因為有地基。

進入2024年下半年,本土智駕企業(yè)紛紛開啟在車端自動駕駛大模型上的實踐,并非因為他們自己水平有多么強悍,而是因為頭部AI企業(yè)訓(xùn)練出并開源了具備圖像理解能力的多模態(tài)大模型。

智駕企業(yè)們在這些涵蓋多個不同科目和子領(lǐng)域、具備通用多模態(tài)能力的視覺模型/視覺語言模型/視覺語言動作模型的基礎(chǔ)上,再設(shè)計一些面向駕駛場景的問答,進行簡單的微調(diào)訓(xùn)練,自家的視覺語言智駕大模型就順利出爐了。

打開網(wǎng)易新聞 查看精彩圖片

這些萬億美金市值的AI巨頭提供了免費的午餐,也順帶著決定了基于它們改造而來的智駕視覺語言模型的性能天花板。

先說樂觀的一面,這些大模型具備圖文識別能力,可用于識別潮汐車道、公交車道、路牌文字,理想汽車的VLM可以結(jié)合當(dāng)前時間段給出使用或駛離公交車道的建議,其能力就來自這里。

打開網(wǎng)易新聞 查看精彩圖片

這些大模型也具備一定的場景理解能力,比如判斷路面的坑洼情況,給出減速建議。

當(dāng)然,如果自家的車型具備真正的魔毯能力,或許只需要適時調(diào)節(jié)空懸和CDC就可以了。

打開網(wǎng)易新聞 查看精彩圖片

再說悲觀的一面,這些面向數(shù)字世界的AI大模型并不具備真正的空間理解能力。

建立空間理解能力的關(guān)鍵在于可以同時輸入車前、車后、左前、右前、左后、右后的多個攝像頭的圖像輸入,站在3D視角下進行綜合的判斷,BEV前融合的價值就在這里。

反觀視覺語言模型,雖然可以依次輸入前視、后視、周視攝像頭采集到的圖像,但它只能像BEV出現(xiàn)之前的自動駕駛算法那樣做后融合,直接杜絕了建立精準(zhǔn)的空間理解能力的可能。

目前的智駕視覺語言模型只能給出車道、加減速這些中間層的建議,而無法輸出最終的軌跡,本質(zhì)原因就在這里,特斯拉和蔚來汽車死磕具備空間理解能力的世界模型的本質(zhì)原因也在這里。

生成式AI爆發(fā)之后,業(yè)界對自動駕駛能力的進展速度一度變得非常樂觀,但是,從以上分析可以看出,通過生成式AI大模型提升自動駕駛能力,這條路依然任重道遠(yuǎn)!