
【摘要】中國自動駕駛行業(yè)的端到端技術競賽,隨2024年初馬斯克訪華開始愈演愈烈。
但截至2025年,這場革命仍未誕生統(tǒng)一標準,Momenta、卓馭、鑒智、元戎、絕影五家分化出了不同的階段式差異。
技術路線分化背后,也是數據主權、算力效率與商業(yè)模式的博弈。
這場未竟之戰(zhàn),充滿了技術理想與量產現實的碰撞,也決定了中國自動駕駛從跟隨到重構全球規(guī)則的關鍵轉折。
搜索添加芯流微信Andrew_7251,深入交流更多汽車行業(yè)新進展。市場與項目咨詢、人才服務、決策研判,添加Aristodemus0403。
以下為正文:
2024年初,FSD V12悄然間在北美開始加速落地。緊接著的4月28日,特斯拉創(chuàng)始人兼CEO埃隆·馬斯克閃電訪華,爭取獲得數據方面的相關批準。這一事件在當時被稱為特斯拉FSD入華的“鯰魚效應”。
加之智駕技術本身趨向躍遷節(jié)點,自此,端到端的故事開始流傳于國內各大智駕公司。
去年一整年,國內但凡講高階智駕的車企與供應商,幾乎都在沖刺“端到端”。
然而,與過去迅速變化的智駕熱點不同,當時間行進至2025年3月,這場高階智駕的狂歡卻仍未形成統(tǒng)一的標準答案。
當媒體追問“何為真正的端到端”時,不同的受訪公司可以從“感知規(guī)劃一體化”講到“全棧自研大模型”,答案差異頗大。從這個角度看,盡管端到端已從技術概念蛻變?yōu)樯虡I(yè)利器,但其技術內核似乎仍處于諸子百家時代。
與此同時,國內廠商的動作也不盡相同。商湯絕影以5.4萬塊GPU開講世界模型,利用仿真數據加持;Momenta在量產車數據飛輪基礎上,開始沖刺一段式端到端;卓馭早早就開始用兩段式端到端布局平民路線,利用硬件優(yōu)勢在去年底就推出了32TOPS和100TOPS算力的端到端智駕方案;元戎在今年不斷宣發(fā)VLA端到端計劃;鑒智則是從數據閉環(huán)和基礎設施破局,與車企深度共建,尋求彎道超車的機會。
至此,一場熟悉的,關于技術路線、商業(yè)模式乃至生存哲學的未竟之戰(zhàn),又一次在數據與算力的硝煙中悄然升級。
01端到端路線分類
端到端架構爆火之前,智能駕駛系統(tǒng)大致由感知、決策、規(guī)控三個核心板塊組成,大致可以按下圖理解,不同板塊分別承擔智能駕駛的典型任務。

而端到端自動駕駛的核心定義則是:將傳統(tǒng)模塊化架構中割裂的感知、決策、規(guī)控等環(huán)節(jié)融合為單一模型,實現從傳感器輸入到車輛控制指令輸出的全流程自動化。
從這個原始的定義看,最初所說的端到端,實際上是“一段式端到端”,通俗來講就是全流程貫通,傳感器信號直接映射為控制信號,中間不保留任何人工定義的功能模塊。
這種路線顯然相對較為激進,但效果被寄予厚望。按照絕影智能汽車事業(yè)群總裁王曉剛此前的說法,“一段式方案很難,但一旦模型學出來能力會很強,這才是我們追求的自動駕駛里面的ChatGPT時刻”。
特斯拉的路線便是純視覺一段式端到端大模型。
但從上述定義看,一段式端到端的重要基礎便是數據資源,這也是去年流傳FSD入華時馬斯克率先訪華的重要任務。
實際上,即使在當前這一節(jié)點,對于不少車企和供應商而言,即使能夠將感知和規(guī)控合成一段式大模型,但受制于車型銷量不夠多、數據不夠大,也無法形成有效覆蓋、足夠有底氣的落地應用。
有了一段式,兩段式的概念便隨之而來。從定義看,“兩段式端到端”的架構稍微復雜一些,仍然保留了“感知”和“決策+規(guī)控”兩個流程,這也是業(yè)內流傳的漸進式方案。
按照一位智駕產品經理的看法,就目前階段而言,模塊化的兩段式端到端方案,即規(guī)控部分使用基于規(guī)則化和基于神經網絡的規(guī)控算法并行,既可以使智駕更加擬人化,提高系統(tǒng)性能上限,又可以有相對的安全兜底,守住系統(tǒng)下限,是當前階段智駕系統(tǒng)最優(yōu)的解決方案之一。
除此之外的第三類思路是端到端架構與多模態(tài)大模型的結合。
所謂多模態(tài)大模型,指的是在多種數據模態(tài)(如文本、圖像、聲音等)上進行訓練的人工智能模型。業(yè)內較火的VLM(視覺-語言模型),以及基于此更進一步的VLA(視覺-語言-動作模型),都屬于多模態(tài)大模型。
基于此,也衍生出了VLA端到端、VLM端到端的思路,旨在通過統(tǒng)一的語言空間表征實現從傳感器輸入到規(guī)劃任務輸出的完整自動化流程。
VLA目前尚不成熟,處于預研階段,整體完成度比較好的是Waymo EMMA,除Waymo外,Wayve也宣稱其在構建以端到端AI為核心的AV2.0智駕系統(tǒng)。
02五大廠商路線對比
僅就方案商而言,國內沖刺高階智駕的幾家大多都在第一時間組建了端到端團隊,部分甚至很早就建立了預研團隊。
其中,商湯絕影屬于一段式端到端路線(不考慮量產),Momenta從去年下半年也開始沖刺一段式,卓馭屬于兩段式/模塊化端到端路線,元戎則屬于VLA端到端路線(不考慮量產)。
一段式端到端方面,絕影的技術路線源于2022年商湯及聯合實驗室提出的行業(yè)首個感知決策一體化的自動駕駛通用模型UniAD,后者榮獲CVPR 2023最佳論文。
具體而言,UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,實現感知決策一體化的端到端智能駕駛。2024年北京車展,商湯絕影展出了這一方案的階段性成果。
近期,商湯絕影又發(fā)布了行業(yè)首個與世界模型協同交互的端到端自動駕駛技術路線R-UniAD,通俗來講是把強化學習引入到端到端自動駕駛訓練中,并加入了與世界模型的協同交互,用仿真數據做強化。
當然,跨越式端到端的難點有目共睹,業(yè)內不選擇這個更激進的方案,不僅因為資源瓶頸,也因為對技術路線的平滑度存在顧慮。
對于絕影選擇一段式端到端,業(yè)內的評價也并不一致。
業(yè)內人士分析,一段式端到端對技術的研發(fā)能力要求非常高,絕影本身繼承了商湯曾經的學術化氣質,技術研發(fā)的底子厚,更像一個半學術組織,所以才有了這樣的決策。現在判斷路線正確與否還為時過早,關鍵還是要看技術的量產落地如何。
與絕影不同,鑒智的破局路線是尋求與車企的深度共建。后者是業(yè)內少有的破開車企與方案商零和博弈的心態(tài),“車企與算法公司的協同,不僅是技術升級的需求,更是構建數據閉環(huán)、降低基礎設施投入的必然選擇。”
舉例而言,鑒智機器人率先與嵐圖汽車展開深度合作,雙方以量產項目為基石,共享數據與工具鏈,共同推進高速NOA規(guī)?;涞?,同時加速推進端到端城區(qū)NOA量產。
算法能力自研,數據和嵐圖共建,并打造基礎設施和工具鏈,實現端到端。這一模式不僅助力車企在智駕標配戰(zhàn)役中占據先機,更通過數據反哺加速技術迭代,為后續(xù)降本普惠奠定基礎。據悉,鑒智的端到端全場景城區(qū)智駕方案,已經與嵐圖共同打造中。
從運營邏輯上看,這個實現路徑也是中小型算法供應商最好的破局路線。
業(yè)內余下的幾家中,市占率和上車數據較多的Momenta,從去年開始就主張端到端用一個大模型來貫通智駕的感知、預測決策、控制環(huán)節(jié),從過往工程師手寫規(guī)則告訴車輛如何行駛,到使用AI大模型、海量數據、云端大算力,讓智駕具備自我進化能力。
按照曹旭東受訪的口徑,Momenta在2023年初量產兩段式端到端,2024年進化到一段式端到端方案。
據此前宣發(fā)消息,上汽智己、東風日產都與Momenta聯合開發(fā)了一段式端到端高階智駕系統(tǒng)。
兩段式/模塊化端到端方面,卓馭選擇也相對較為保守。
與一眾從創(chuàng)立之初就高調宣布遠大目標的智駕公司相比,卓馭科技反而一直在扎根中算力路線,一直在追求低算力實現高階功能。
舉例而言,行業(yè)主流“端到端”智駕方案大多基于英偉達Orin-X芯片平臺,至少需要254TOPS算力,像用于仰望品牌的比亞迪天神之眼A,算力達到508TOPS,長安汽車也表示未來高階智駕汽車將全系標配500TOPS以上的算力。
但2024年底卓馭推出的32TOPS和100TOPS算力端到端智駕方案中,前一方案硬件配置為7個攝像頭+TDA4 VH芯片,搭載在寶駿、奇瑞iCAR等車型上,可實現高速巡航和城區(qū)記憶領航,今年上半年將實現端到端城市領航;100TOPS版本使用了高通Ride 8650芯片,可支持城區(qū)無圖NOA,已在一汽紅旗的E007、E009等車型上量產落地。二者都是在用中算力做端到端。
這種折中也讓端到端更加“可解釋”,能獲取相應的感知和預測結果。
從戰(zhàn)略風格上看,卓馭似乎一直不在乎誰更能代表“純血”端到端,而一心趴在了能如何解決端到端上車問題上,這似乎更符合當下車企對性價比的狂熱追尋。
VLA端到端方面,元戎啟行CEO周光在公司C輪融資之后便透露,本輪融資,元戎啟行將主要用途放在夯實國內量產項目,拓展海外業(yè)務,同時為元戎啟行探索Robotaxi商業(yè)化運營和布局VLA等前沿技術提供資金支撐。
按照智駕網此前的報道,周光的想法更加獨特,在他看來,現在所有的一段式、兩段式方案都是端到端1.0(版本),甚至都不能稱之為端到端,而元戎則已經投入了更多的精力在下一站的VLA模型,這才是端到端2.0(版本)。

按照官方消息,元戎下一步計劃在英偉達Thor芯片上進行開發(fā),不過Thor推遲到明年年中量產,高性能Thor估計年底,因此其VLA大概率到時才能卷起聲量。當前元戎正在做高通平臺的適配,志在出海。
VLA 的落地有其難度。除了模型本身的研發(fā)需要時間,硬件的限制無法逾越?,F在市面上可采購到的芯片,性能基本都無法支持 VLA 的運行。
不過,值得一提的是,長城汽車可能與元戎有關聯。
據企查查數據,深圳元戎第六大股東為保定訊奇科技有限公司,保定訊奇的上一層控制主體為保定市蓮池區(qū)南大園鄉(xiāng)集體資產經管中心(即魏建軍老家的鄉(xiāng)鎮(zhèn)資產)。

具體而言,長城如此操作既能保持對元戎的影響力,又避免了上市公司與供應商的強綁定關系,資本市場監(jiān)管壓力相對更少,為將來操作留下了部分余地。
除此之外,長城當前的智駕策略是三條腿賽馬,同時與毫末智行、Momenta、元戎都有接觸。如果直接入股元戎,與其他供應商的關系很可能會變得更加微妙,這一選擇尚不影響其根據市場變化靈活調整供應商組合,保留了更多動態(tài)選擇權。
03尾聲:端到端的中國式突圍
中國端到端生態(tài)的多元性,本質上還是技術理想與商業(yè)現實碰撞的產物,這與十年前自動駕駛剛剛在業(yè)內興起時的選擇有不少相似之處。
如何搶節(jié)點、怎樣做前瞻布局,很可能也埋下了當前這些公司的未來結局。
短期來看,數據與算力的平權可能為成為勝負手。
故事的另一面,卓馭在講一個算力效率的故事,能夠提供的是絕對規(guī)模之外的超車路徑。
與此同時,VLA模型與端到端的結合,正在模糊自動駕駛與通用人工智能的邊界,盡管尚未量產,已經拿到了不少資方關注。
在這場未竟之戰(zhàn)中,中國廠商擅長的事情是迅速進化,當特斯拉端到端不再如鯰魚入海,中國式突圍正在重新定義新的駕駛思維。
搜索添加芯流微信Andrew_7251,深入交流更多汽車行業(yè)新進展。市場與項目咨詢、人才服務、決策研判,添加Aristodemus0403。
- XINLIU -
喜歡就獎勵芯流一個“”和“在看”唄~
熱門跟貼