
圖片來源:視覺中國
藍鯨新聞4月29日訊(記者 陳業(yè) 李卓玲)"從汽車智能化發(fā)展角度而言,目前還處在一個快速上升、演進、變化的時間點,遠沒有達到瓶頸。"
前述言論來自藍鯨汽車日前與商湯絕影CEO,絕影旗下產品線覆蓋駕駛、座艙、云端三大模塊。
近日,商湯絕影也攜系列生成式AI汽車新品亮相上海車展,其中,在駕駛輔助方面,其展示了以VLAR技術架構為核心的生成式智能輔助駕駛R-UniAD技術方案,宣稱能突破現(xiàn)階段端到端范式下數(shù)據(jù)、安全和性能的三大瓶頸,將實采場景數(shù)據(jù)的需求降低兩個數(shù)量級;其世界模型"絕影開悟"升級為2.0版本,進化為近實時在線交互的4D世界模型。面向智能座艙,商湯絕影則首發(fā)專為車載AIOS打造的AI內核"絕影千機"。
那么,絕影旗下駕、艙、云三大板塊誰是未來?王曉剛表示,"駕"未來的營收貢獻或更多,但從長遠來看,這三大板塊并非孤立發(fā)展,會形成一個聯(lián)合的業(yè)務模式。"我們要把汽車的智能化當做整體來看。因為伴隨智能輔助駕駛的發(fā)展,其應用的安全性更高,覆蓋的場景更多,接著還要跟座艙里面的這種體驗相結合,即‘艙駕融合’。"
據(jù)官方數(shù)據(jù)顯示,截至2024年底,商湯絕影已與超30家國內外車企達成合作,覆蓋130余款車型,量產交付累計360萬輛。其中,在輔助駕駛領域,其量產方案已合作4家車企,上車7款車型,目前,其也正與東風合作推動UniAD一段式端到端方案的量產落地。
值得關注的是,去年12月,商湯宣布完成戰(zhàn)略組織架構重組,建立了"1+X"架構。其中,"1"指生成式AI相關業(yè)務,包括提供算力的"大裝置"、AI基礎模型和應用;"X"則代表生態(tài)企業(yè)矩陣,包括智能汽車"絕影"、家庭機器人"元蘿卜"等。被藍鯨汽車問及后續(xù)絕影會否獨立融資時,王曉剛予以肯定的答復,但坦言具體時間表還不方便透露。

商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛
以下為藍鯨汽車與商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛的對話內容(經刪改整理):
駕駛輔助未來營收占比將更高,絕影后續(xù)有獨立融資計劃
Q:了解到商湯絕影其實是有三大板塊的,駕-艙-云,你覺得哪一塊會是未來?
王曉剛:現(xiàn)在都差不多。將來如果從收入的角度來說,智能輔助駕駛可能會再多一些。不過,我覺得這三個不是一個孤立的體現(xiàn),會形成一個聯(lián)合的業(yè)務模式。比如說我們提供的世界模型也是智能輔助駕駛非常關鍵的一部分,但它是部署在云端的。別人在用我們的世界模型時,可能用的是我們的云服務。再者,座艙里面各種大模型的應用,可能也會落到我們的云上,所以這幾個里面它是一個融合的狀態(tài)。
Q:商湯絕影后續(xù)有否獨立融資規(guī)劃?具體時間表是如何?
王曉剛:有的。商湯采取的是"1+X"戰(zhàn)略,"1"就是大模型等,"X"代表絕影等板塊。所以后續(xù)絕影是有獨立融資規(guī)劃的。
Q:能否談談此次與東風的合作?
王曉剛:我們跟東風的合作,本身就是非常難能可貴的。比如說目前我們看到智能輔助駕駛,其在端側、車端的開發(fā)量逐漸在變少,在云端的開發(fā)量實際上在變多,這里面依托的就是一個比較強的基礎設施。從2019年開始,我們就在上海建立AIDC數(shù)據(jù)中心的基礎設施,這是我們的優(yōu)勢。
另一方面,車企比如說東風,它有天然接近于客戶,能得到客戶反饋(數(shù)據(jù))等優(yōu)勢。我們一起把算法和基礎設施相結合,鋪設打好數(shù)據(jù)的一個管線,將來能夠不斷地從終端用戶方面得到體驗反饋,驅動整個智能輔助駕駛體驗的迭代。
DeepSeek的成功在于強化學習,但它仍離不開較強的仿真環(huán)境
Q:目前大模型在整個汽車行業(yè)的應用現(xiàn)狀如何?后續(xù)走向為何?
王曉剛:大模型賦能智能汽車還在一個快速的發(fā)展階段,無論是從產品體驗,還是說從技術架構,還是能夠有一個快速的升級。我們去年說的是"端到端"的智能輔助駕駛,今年在這個基礎上又往前走了一步:世界模型、模擬仿真。
目前大家對智能輔助駕駛的安全性特別關注,模擬仿真就可以讓我們反復重現(xiàn)同一個場景,并且去泛化到其他的場景里面去,能夠讓安全邊界更有確定性,而且能夠去趕上,甚至超越人的駕駛水平。
座艙的話,也可以看到大模型的這些能力,包括DeepSeek出現(xiàn)之后,它具有的深度思考和推理能力。去年,我們希望說每一臺車有一個有趣的靈魂。所謂這個有趣,它就是建立在一個深度思考的基礎之上。所以這里面也給我們進行座艙各種產品體驗提升打開非常大的一個空間,包括艙駕的融合。當然,也可以說為了更有安全性。我們對駕駛員的狀態(tài)要求會更高,比如是不是適合駕駛,以及駕駛員的3D視線到底是注視車外的哪些目標等,這些我們都能夠通過AI去做到。所以,當有危險場景逼近的時候,如果駕駛員的注意力不集中,我們背后的AI系統(tǒng)大模型就能夠明確地捕捉到,并采取補救的措施。
Q:之前商湯絕影提出過把強化學習引入到端到端智能輔助駕駛訓練中,這個思路是受到DeepSeek的啟發(fā)嗎?您也提到過強化學習需要配合強大的世界模型,這背后有什么樣的標準?
王曉剛:DeepSeek的成功是通過強化學習產生了原來超越人類的知識庫,我覺得除了有解題的答案,它會產生各種解題的思路,但是它離不開比較強的仿真的環(huán)境,和我們所說的世界模型。
比如我們跟東風合作"端到端",這里面并不是對立和矛盾的,實際上是技術在研究過程中不斷給我們補充,通過強化學習、世界模型,讓我們"端到端"的模型更加強大。
我們對世界模型的要求還是非常高的。比如我們有11個攝像頭,這里面要做到時空的一致性,生成的東西必然要是符合交通法則和各種物理規(guī)律等。如果說有的攝像頭里面是一個實線,在其他的攝像頭里面變成了虛實線,它時空不一致,把這些數(shù)據(jù)加入到我們的量產訓練過程當中,它是會產生各種問題和退化的。所以在這個過程里,量產的團隊會對我們的世界模型提出各種要求,保證時空一致性和真實性。
另外就是多樣性和復雜性,你不能說只在單一一輛車去模擬各種情況,你要仿真各種不同類型的車。目前對于仿真的要求,不是說在正常的一些交通場景下的數(shù)據(jù),這些數(shù)據(jù)大家已經采的是很多了,要求的是各種復雜極端的交通場景,比如像馬上快要發(fā)生碰撞等場景。
數(shù)據(jù)對場景多樣性而言仍非常重要
Q:我們一直在強調仿真,那是否意味著以后數(shù)據(jù)是沒有用的?
王曉剛:數(shù)據(jù)還是很重要。數(shù)據(jù)的重要點在什么地方?比如說DeepSeek,DeepSeek產生了很多沒有出現(xiàn)過的數(shù)據(jù),它在什么過程中產生呢?它是在解題的過程當中,你給它問了很難的問題。所以給它提出好問題變得很難。因此現(xiàn)在類似這種DeepSeek的大模型發(fā)展,它遇到的一個瓶頸是什么?它需要有人給他提出更難的、有價值的問題。
對于智能輔助駕駛來說,它的體現(xiàn)是什么?你的駕駛行為因為有了強化學習,所以重構了這個場景,你的駕駛行為是可以通過強化學習學出來的。原來大家比較難的點是找不到高質量的駕駛行為,現(xiàn)在這個瓶頸能夠被強化學習解掉,但是它缺少什么?它缺少場景,你得告訴它這個是難的場景,那個是難的場景。換言之,怎么開它可以通過強化學習學到,但場景的多樣性,這個不能憑空產生,所以在這方面數(shù)據(jù)還是比較重要的。
Q:之前地平線余凱說99%的人類駕駛數(shù)據(jù)都不值得學習,你怎么看這個觀點?
王曉剛:這是一個很顯然的事情。端到端的自動駕駛,它的模式是你輸入視頻、輸出駕駛行為。你開車的時候,90%的情況下你是勻速直線開車,如果你的行駛軌跡一直都是一條直線,那這種監(jiān)督信號是沒有用的。只有當你駕駛狀態(tài)發(fā)生改變的時候,比如要避讓、轉彎、剎車等情況下,駕駛行為(數(shù)據(jù))是有用的。即便是這種有用的信號里面,因為人和人開車不一樣,尤其是在比較難的場景,可能10個司機有8個是一些低質量的數(shù)據(jù),那就要把這些低質量的數(shù)據(jù)剔除掉。實際上這件事不是一件新鮮事,因為在類似大模型ChatGPT從互聯(lián)網上搞的這些數(shù)據(jù),90%多的數(shù)據(jù)也是沒有用的,你要不停地去篩選,去掉一些無用的數(shù)據(jù),這是同樣的道理。
"會基于不同平臺、方案、傳感器配置,來確定每種技術方案的安全邊界"
Q:在成本敏感的低價車型中,商湯絕影如何實現(xiàn)智能輔助駕駛功能的規(guī)模化部署?
王曉剛:我們會基于不同的平臺、不同的方案、不同的傳感器配置,來確定每種技術方案它的安全邊界到底在哪里:什么樣的事情它是能做的、什么是不能做的。所以這里面對駕駛方案的成熟性,還有仿真測試的要求,也會更高。
Q:目前國內智能輔助駕駛賽道中,既有自研的車企玩家,也有供應商玩家,如何看待這一賽道的競爭?
王曉剛:我們跟東風的自研團隊實際上是有一個深度的合作。無論是智能輔助駕駛,還是人工智能,它未來發(fā)展的道路還是很長的。將來數(shù)據(jù)其實是一個非常核心的影響因素。數(shù)據(jù)在哪里?實際上是在車廠這里。所以說大家一定要做到智能輔助駕駛的自主可控,把握住數(shù)據(jù)的核心。在智能輔助駕駛的安全性方面,它也有要求。
另外一方面,人工智能的發(fā)展又是一個長期、需要持續(xù)投入的領域。其目前并未到天花板,而是不斷有新的技術、范式出現(xiàn),這給了我們一個比較好的發(fā)展空間。
Q:智能輔助駕駛的終局是什么?
王曉剛:這里應該不光是智能輔助駕駛。我們要把汽車的智能化當做整體來看,因為伴隨智能輔助駕駛的發(fā)展,其應用的安全性更高,覆蓋的場景更多,接著還要跟座艙里面的這種體驗相結合,即"艙駕融合"。除了完成基本的通行功能,還要對整個的場景做判斷。艙外的智能輔助駕駛數(shù)據(jù),跟艙內的體驗也會結合在一起,所以未來發(fā)展還是有非常大的空間在。
從另一個角度來說,我們認為技術也并不是到了一個時間點就固定下來了。比如去年都在談論"端到端"是不是一個終極解決方案,但現(xiàn)在來看,"端到端"也有其局限性,所以如今我們討論的世界模型、模擬仿真、強化學習,這里面的發(fā)展空間還是很大。
汽車智能化還處于快速上升、演進、變化的時間點
Q:目前越來越多的車企開始提L3,您覺得L3還有哪些方面需要完善加強的?
王曉剛:本質上我們還要去提升智能輔助駕駛的安全性,這是一個核心的點,原來可能就是在宣傳過程中有各種不嚴謹。此外,我覺得可能對人和車間的關系要求會更高,包括艙駕融合等。
Q:從汽車智能化發(fā)展角度來看,現(xiàn)在到瓶頸期了嗎?
王曉剛:我覺得還沒有。目前汽車行業(yè)發(fā)展還是非常快的,競爭也非常激烈,大家對新技術、新趨勢擁抱程度都非常高。所以,如果是從汽車智能化的角度來看,現(xiàn)在還處在一個快速上升、演進、變化的時間點,遠沒有達到瓶頸。
Q:汽車行業(yè)競爭越激烈,對你們而言是機會還是挑戰(zhàn)?
王曉剛:有機會有挑戰(zhàn)。競爭激烈的時候,說明這個行業(yè)發(fā)展非常快,也給了我們更大的發(fā)展機會,比如說今年的智能輔助駕駛的爆發(fā)。挑戰(zhàn)的話,會對你成本控制、自身交付的能力、交付的質量等要求非常高,所以是并存的。
熱門跟貼