打開網(wǎng)易新聞 查看精彩圖片

2022年12月,OpenAI推出了ChatGPT,之后一年時間里,文心一言、kimi AI、豆包、星火等AI產品也陸續(xù)推出,被認為是AI對話產品的元年。

但似乎AI真正“出圈”成為全民討論對象,還是要等到DeepSeek。

有人總結DeepSeek能夠超越眾多“競品”,甚至將AI這個話題帶入到普通大眾的視野中,有三個主要原因:性能出色、訓練成本相對較低、開源。

這其實和汽車領域智能駕駛的發(fā)展路徑頗為相似,在技術積淀和發(fā)展多年之后,“全民智駕”一詞在2025年開年被點燃。

當DeepSeek成為眾多車企爭相擁抱的對象時,智能駕駛的“DeepSeek時刻”還要多久?

商湯絕影的答案,是很快了。

2月22日,商湯大模型生產力論壇,商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學家發(fā)布了行業(yè)首個“與世界模型協(xié)同交互的端到端自動駕駛路線R-UniAD”。

商湯絕影說,R-UniAD將加速智駕跨越式演進,“跨越式”的自信源自哪里?

王曉剛在采訪中和我們分享了一段人工智能發(fā)展的歷程:“過去一年,大模型行業(yè)的發(fā)展實際遇到了一些瓶頸,這個瓶頸主要在于互聯(lián)網(wǎng)的數(shù)據(jù)價值被榨干。通過原來尺度定律,在它的指引通過擴大模型的規(guī)模以及增加單純的算力,大家得到的收益相對來說是比較有限的。DeepSeek的出現(xiàn),通過引入強化學習長思維鏈,其實解決了數(shù)據(jù)瓶頸,造出了很多人類知識之外的數(shù)據(jù),甚至超越了人類的一些認知水平?!?/p>

而R-UniAD和DeepSeek的技術創(chuàng)新思路一致——從模仿學習向強化學習升級,通過對端到端模型的強化學習訓練,實現(xiàn)超越,而不是“類人”的自動駕駛表現(xiàn)。

DeepSeek對自動駕駛的啟發(fā)

首先解釋一下什么是模仿學習和強化學習。

所謂模仿學習,就像是用一本字帖(人類示范數(shù)據(jù))教小朋友寫字,他照著字帖一筆一劃模仿(算法學習),最終小朋友可以寫出相似的字,但其實并不知道為何要這樣寫。

而強化學習,像小朋友玩超級瑪麗,一開始可能不懂規(guī)則,但隨機嘗試后會發(fā)現(xiàn)吃到金幣可以得分,碰到烏龜會扣分,一遍遍試錯后,就會找到吃最多金幣的通關路線。也就是說,通過強化學習,機器可以通過環(huán)境反饋的獎勵/懲罰,自主摸索最優(yōu)策略并不斷提升。

其實你會發(fā)現(xiàn),DeepSeek的創(chuàng)新其實和人類的學習路徑非常相似,先通過模仿、觀察掌握基礎,再加入自己的理解、經(jīng)驗、創(chuàng)意實現(xiàn)自我突破。

打開網(wǎng)易新聞 查看精彩圖片

將這套理論放到自動駕駛系統(tǒng)中,其實就是讓機器從“模仿人類開車”到“自主學習開車”。

現(xiàn)在我們經(jīng)??梢月牭杰嚻笮麄髌涠说蕉酥邱{“x千萬clips大模型”上車,背后是端到端自動駕駛的本質,即通過海量的高質量人類駕駛數(shù)據(jù)來實現(xiàn)最佳的“模仿”駕駛效果。

但“模仿”就會帶來一些問題。

首先,基于模仿學習的技術范式可以做到接近人類,但難以突破人類能力的上限;其次,高質量場景數(shù)據(jù)的稀缺以及人類駕駛數(shù)據(jù)質量的參差,讓觸及“天花板”本身的難度和成本都會很高。

如果說激光雷達這樣的硬件,或許隨著規(guī)?;椭圃炷芰Φ奶嵘T檻有機會逐漸降低,王曉剛說:“決戰(zhàn)的分水嶺,還是在云端的能力?!?/p>

DeepSeek-R1的關鍵創(chuàng)新,就是通過強化學習使得大模型性能的提升不必只依靠擴大算力規(guī)模和增加模型參數(shù),而是通過自行涌現(xiàn)長思維鏈能力,以更小的數(shù)據(jù)規(guī)模獲得更強的推理效果。

自動駕駛的學習訓練若能復制DeepSeek模式,就意味著車企對于算力基建和數(shù)據(jù)規(guī)模的需求將大幅降低,從而降低自動駕駛的成本,提高訓練效率。

更重要的是,在體驗上,這種技術路線可以實現(xiàn)端到端智駕體驗的上限從“類人”變成超越人類駕駛。

王曉剛解釋了這套系統(tǒng)如何更好利用數(shù)據(jù),他說:“我們通過強化學習,更好地挖掘了數(shù)據(jù)的價值,甚至是產生了一些額外的數(shù)據(jù)?!?/p>

比如,在復雜交通場景下,端到端的處理是依賴人類駕駛行為的學習,但人類司機面對復雜場景時,可能會解決,但更多可能是直接避免。這使得哪怕系統(tǒng)采集了復雜場景數(shù)據(jù),但90%以上的駕駛行為數(shù)據(jù)并沒有成功解決場景,只有很少量的司機行為數(shù)據(jù)才能符合要求。

但在強化學習模式下,給定這個復雜場景后,系統(tǒng)可以通過模擬仿真反復試驗,最終不僅能夠順利通過,甚至還能發(fā)現(xiàn)多條不同的駕駛行為和路徑來解決問題?!霸谶@個場景里,它對于數(shù)據(jù)的利用率可能就是10倍、100倍的提升?!蓖鯐詣傉f。

在此之前,“高質量駕駛行為”需要一個非常熟練的老司機來完成,但如今,系統(tǒng)看到復雜場景的圖片或是一小段視頻,就可以以此為起點,通過強化學習完成后面的工作。

降本、效率和量產落地

商湯絕影預計在年底交付量產端到端智駕方案,而在4月的上海車展,也會展示“與世界模型協(xié)同交互的端到端自動駕駛方案”的實車部署。

當“全民智駕”已經(jīng)成為2025年的市場營銷關鍵詞時,意味著相比于技術本身,無論是自動駕駛公司還是主機廠,都要將技術落地到產品,并且是一個“物美價廉”的產品。而一旦談及量產落地,就意味著技術、體驗、成本的“妥協(xié)”與平衡。

在智能駕駛領域,一方面是車端算力有限,量產車需要考慮算力成本、能耗、體積甚至是發(fā)熱的工程問題;另一方面,是從硬件到軟件的成本與體驗的平衡。

強化學習可以突破數(shù)據(jù)的瓶頸,相比于從量產車數(shù)據(jù)中提取有效數(shù)據(jù),依托世界模型的模擬仿真可以提升效率,降低對基建的要求。

這也是商湯絕影作為一家AI公司,在這個時代的機遇和優(yōu)勢。

“如今激光雷達對于各種環(huán)境并不是一個非常魯棒的狀態(tài),所以很多時候我們要達到性能和成本的平衡點,對于降低成本、提高魯棒性都有進一步的要求,那么大數(shù)據(jù)驅動其實是未來的必然。”王曉剛說。

打開網(wǎng)易新聞 查看精彩圖片

首先,商湯絕影R-UniAD的“多階段強化學習”端到端自動駕駛技術路線包括了三個階段:

1、依靠冷啟動數(shù)據(jù)通過模仿學習進行云端的端到端自動駕駛大模型訓練;
2、基于強化學習,讓云端的端到端大模型與世界模型協(xié)同交互,持續(xù)提升端到端模型的性能;
3、云端大模型通過高效蒸餾的方式,實現(xiàn)高性能端到端自動駕駛小模型的車端部署。

而這其中關鍵的第二步,要求大模型與依靠世界模型生成的仿真環(huán)境進行在線交互,并獲得閉環(huán)獎勵反饋,從而實現(xiàn)強化學習。因此,生成高保真的場景數(shù)據(jù)、保證長時推演一致性、并支持在線交互的強大世界模型是核心基石。

商湯絕影的“開悟”世界模型,可以實現(xiàn)1個GPU產生的仿真數(shù)據(jù)相當于500臺量產車數(shù)據(jù)采集效果。以此為核心,實車數(shù)據(jù)和云端仿真數(shù)據(jù)在“車云一體”的新范式下閉環(huán)流轉,可以使端到端智駕系統(tǒng)的訓練更加全面、高效,從而縮短研發(fā)周期,降低成本。

打開網(wǎng)易新聞 查看精彩圖片

此外,芯片上部署類似于DeepSeek的MOE架構(混合專家模型),可以在更低算力、成本的芯片上更好地運營大模型,因為它每次只需要激活部分參數(shù),使用部分算力,會比傳統(tǒng)模型更加節(jié)省。

它類似于醫(yī)療會診,不同科室專家分別給出診斷意見,再由協(xié)調員綜合意見形成最終結論。在深度學習中,MOE可以在每次推理中僅激活部分專家,大幅降低計算量,同時不同專家專注于處理不同任務。對應到汽車自動駕駛領域,就是可以適應多模態(tài)數(shù)據(jù)的處理和融合,同時降低對車端芯片算力的要求。

我們可以借用特斯拉FSD在中國市場落地的表現(xiàn)作為參考。

馬斯克此前曾表示,特斯拉使用了互聯(lián)網(wǎng)上公開的中國道路和標志視頻,將其用于模擬訓練。事實上,特斯拉官方并未明確說明其如何解決FSD在中國落地背后的數(shù)據(jù)、算力跨境合規(guī)問題,而結合首批用戶體驗與馬斯克的表述,似乎特斯拉仍然受限于數(shù)據(jù)問題,并且影響了FSD的能力。

打開網(wǎng)易新聞 查看精彩圖片

而如果使用商湯絕影R-UniAD技術路線,特斯拉可以在美國大算力基礎與中國豐富本土行車數(shù)據(jù)無法兼顧的情況下,通過不依賴大算力的仿真訓練,實現(xiàn)FSD的體驗提升。

“我覺得未來的發(fā)展趨勢一定是基礎設施和云端研發(fā)占比越來越高,如今我們看到的各種數(shù)據(jù)蒸餾、工程優(yōu)化方法的存在,使得我們將來在越來越多的更加便宜的低算力芯片上,可以實現(xiàn)更強大的功能。”王曉剛說。

大公司視點

人工智能技術的發(fā)展并不像之前大家想象的,到了‘端到端’以后就到了終局,它還是在持續(xù)發(fā)展,這就給了我們作為人工智能公司的一個更大發(fā)展空間。其次,即便有了強化學習的世界模型,數(shù)據(jù)本身依然非常重要,而我們與車企合作共建數(shù)據(jù)基礎設施,也可以更好地發(fā)揮優(yōu)勢。”王曉剛說。

“全民智駕”的落地,其實也意味著淘汰賽的真正開始,有人拿到越來越多定點,但同樣也有人消失在了歷史的進程當中。

對于商湯絕影來說,一方面跟上節(jié)奏,布局地平線J6E、J6M,與廣汽、奇瑞、東風達成了戰(zhàn)略合作,很快會推出基于J6M的量產產品。另一方面看到核心優(yōu)勢與長期方向,通過在基礎設施領域與車企的合作,幫助車企建設數(shù)據(jù)生產管線、對齊研發(fā)體系,同時結合車企自身擁有的豐富數(shù)據(jù),實現(xiàn)雙贏。