文 | 極智Gee Tech
城市NOA,自動駕駛進(jìn)化之路上的關(guān)鍵節(jié)點,也被視為智能汽車下半場的開端。
自2023年上海車展以來,有關(guān)城市NOA的路線之爭逐漸明晰,“重感知+輕地圖”、借助純感知和融合感知路線、以及BEV+Transformer模型的智能駕駛解決方案,成為業(yè)界共識。
如今,城市NOA邁向商業(yè)化落地競爭,如何利用高效的算力支撐、完善的算法模型、大量有效的數(shù)據(jù)形成閉環(huán),是大規(guī)模量產(chǎn)的關(guān)鍵。
數(shù)據(jù)成為高階智駕“稀缺品”
在智能駕駛領(lǐng)域里,數(shù)據(jù)就是生命之源。沒有數(shù)據(jù),那些復(fù)雜的算法和模型就如同干涸的河流,無法滋養(yǎng)出智能的果實。
端到端時代讓數(shù)據(jù)的重要性空前提升。在傳統(tǒng)基于規(guī)則的算法時代,工程師將如何執(zhí)行駕駛行為凝練成為規(guī)則寫入自動駕駛算法,當(dāng)模型出現(xiàn)問題時,修改或添加新的規(guī)則即可完成對問題的修復(fù)。
而對端到端自動駕駛算法而言,模型只會通過駕駛的視頻片段學(xué)習(xí)駕駛行為和對環(huán)境的理解,因此如何將人類想要讓模型學(xué)習(xí)到的內(nèi)容賦予到數(shù)據(jù)中,并讓模型在訓(xùn)練中能夠?qū)W習(xí)這些先驗知識難度較高。因為每個人類駕駛的視頻片段其實都包含豐富的駕駛行為,讓模型理解到這些視頻片段中的某一種抽象化的先驗知識(如左轉(zhuǎn)讓直行)并不容易。
端到端技術(shù)的核心在于通過大量數(shù)據(jù)訓(xùn)練模型,使其能夠識別和預(yù)測各種駕駛場景。高質(zhì)量數(shù)據(jù)的輸入,直接決定了模型輸出的準(zhǔn)確性和可靠性。這些數(shù)據(jù)不僅需要涵蓋各種道路條件、天氣變化和交通情況,還要確保其標(biāo)注的準(zhǔn)確性和多樣性。
傳統(tǒng)模塊化算法需要改變控制策略時,可以找到代碼中具體的幾行參數(shù)修改,之后測試1%的案例即可,而端到端的算法中,小的改動需要重新對自動駕駛算法進(jìn)行訓(xùn)練,難度可想而知。因此,海量的、多樣化的、優(yōu)質(zhì)的數(shù)據(jù)不可或缺,同時自動化、高水平的數(shù)據(jù)處理體系亦至關(guān)重要。毫不夸張地說,數(shù)據(jù)會占據(jù)端到端自動駕駛開發(fā)中80%以上的研發(fā)成本。
從數(shù)據(jù)維度看,海量且優(yōu)質(zhì)的數(shù)據(jù)正成為自動駕駛行業(yè)的“稀缺品”。通常,激光雷達(dá)的算法要滿足自動駕駛的性能要求,需要至少幾十萬幀的數(shù)據(jù)訓(xùn)練。單目攝像頭要求更高,需要百萬幀的訓(xùn)練數(shù)據(jù)。不過這兩者和BEV方案比起來,差距仍然十分巨大。
自動駕駛采用的BEV感知方案,需要達(dá)到1億幀以上的訓(xùn)練數(shù)據(jù)才能滿足車規(guī)要求,否則泛化性、準(zhǔn)確率和召回率就難以保障。
對于端到端算法而言,數(shù)據(jù)的需求激增,并且伴隨模型體量的增加而擴(kuò)大;對質(zhì)量的要求也顯著提高,多樣性和豐富度不可或缺。
以特斯拉為例,馬斯克曾表示,特斯拉FSD測試?yán)锍绦枰_(dá)到60億英里,才能滿足全球監(jiān)管機(jī)構(gòu)的要求,這也是自動駕駛系統(tǒng)實現(xiàn)質(zhì)變的一個重要節(jié)點。
據(jù)《馬斯克傳》中描述,神經(jīng)網(wǎng)絡(luò)至少得進(jìn)過100萬個視頻片段的訓(xùn)練才能達(dá)到良好的工作狀態(tài),而特斯拉到2023年初已經(jīng)分析了從特斯拉客戶車輛上收集的1000萬幀視頻畫面,這其中,特斯拉還會挑選出人類優(yōu)質(zhì)司機(jī)所采取的行為來給模型進(jìn)行訓(xùn)練。
2024年5月,在解決了算力瓶頸之后,馬斯克表示更大的難點在于對長尾數(shù)據(jù)的收集。目前,特斯拉通過不斷擴(kuò)大FSD功能覆蓋更大規(guī)模的用戶數(shù)量。2024年第一季度,特斯拉FSD真實路況總里程已達(dá)12.5億英里(約20億公里),這一數(shù)字遠(yuǎn)超其他公司總和。特斯拉方面預(yù)計,按照目前的速度,F(xiàn)SD累計行駛里程有望在一年之內(nèi)達(dá)到60億英里總量。
由此可以看出,要想達(dá)到特斯拉的自動駕駛水準(zhǔn),海量、多樣化、高質(zhì)量的數(shù)據(jù)是首要前提。
“數(shù)據(jù)閉環(huán)”關(guān)鍵點
如何獲取大規(guī)模數(shù)據(jù),獲取之后如何有效回傳、標(biāo)注以及訓(xùn)練,并最終OTA反饋到車端,是數(shù)據(jù)閉環(huán)的核心任務(wù),也是大多數(shù)車企迫切想要擁有的能力。
數(shù)據(jù)閉環(huán)并非新概念,互聯(lián)網(wǎng)時代早期即有廣泛應(yīng)用。一個比較典型的例子即是各類軟件、App的“用戶體驗改進(jìn)計劃”。
用戶在初次打開一款軟件時,往往會彈出選項“是否加入用戶體驗改進(jìn)計劃”。點擊確定后,軟件就會收集用戶的使用信息。在出現(xiàn)崩潰、Bug等場景下,軟件還會彈出信息,詢問“是否允許上傳本次崩潰信息以幫助改進(jìn)”,比如Windows出現(xiàn)的各種錯誤報告。
點擊提交后,軟件開發(fā)商的工程師們會分析錯誤報告,以找出出現(xiàn)崩潰、Bug的原因,進(jìn)而修改代碼并在下次更新后予以解決。
用戶在使用過程中遇到的所有問題均可以通過此種方式解決,周而復(fù)始,不斷優(yōu)化軟件性能與使用體驗,這就是一種傳統(tǒng)的數(shù)據(jù)閉環(huán)。
自動駕駛系統(tǒng)的研發(fā)與優(yōu)化,與傳統(tǒng)軟件開發(fā)存在很多不同。
傳統(tǒng)軟件更多是在代碼端解決各類問題,但自動駕駛系統(tǒng)除代碼以外,還有更為關(guān)鍵的AI模型。代碼端的問題可以通過傳統(tǒng)的數(shù)據(jù)閉環(huán)方式予以解決,但模型端的調(diào)整則需要重新訓(xùn)練或優(yōu)化AI算法模型。
因此,自動駕駛數(shù)據(jù)閉環(huán)需要在傳統(tǒng)數(shù)據(jù)閉環(huán)方式上,引入一些新東西,比如數(shù)據(jù)標(biāo)注、模型訓(xùn)練、算法調(diào)試等。

在數(shù)據(jù)采集環(huán)節(jié),收集足夠多的交通數(shù)據(jù)并非易事。采集數(shù)據(jù)分為兩種,一種是靠研發(fā)采集車。小鵬、華為在起步階段,均是靠這種方式獲取數(shù)據(jù)。另一種是通過量產(chǎn)車獲取數(shù)據(jù),這是在數(shù)據(jù)規(guī)模上來后的主流方式。
早年自動駕駛企業(yè)大多依賴采集車采集數(shù)據(jù),這種數(shù)據(jù)是不真實的、分布有偏的、低質(zhì)量的,只能做個Demo,難以進(jìn)行大規(guī)模端到端訓(xùn)練。最近幾年,隨著量產(chǎn)車的規(guī)模化落地,業(yè)界很多公司都開始轉(zhuǎn)向采用量產(chǎn)車通過影子模式采集數(shù)據(jù),但這種模式依然面臨艱巨的挑戰(zhàn)。
這里面包含采集策略的問題,即如何平衡數(shù)據(jù)的長尾問題(有效性)和數(shù)據(jù)的規(guī)模問題(成本)。如果采集策略比較寬松,往往采集的數(shù)據(jù)大部分是無價值數(shù)據(jù);如果采集策略過于嚴(yán)格,又會丟失大量有價值的數(shù)據(jù)。
其次是數(shù)據(jù)的質(zhì)量問題,如何定義數(shù)據(jù)質(zhì)量是個艱巨的產(chǎn)品問題,如何精準(zhǔn)地挑選出覆蓋足夠多極端情況的高質(zhì)量數(shù)據(jù)又是一個復(fù)雜的技術(shù)問題。
之后是數(shù)據(jù)分布問題,如何從海量的數(shù)據(jù)片段中提取有效的特征、如何統(tǒng)計數(shù)據(jù)的分布、應(yīng)該考慮哪些維度,都需要大量的工作。
在數(shù)據(jù)回傳環(huán)節(jié),在數(shù)據(jù)量特別大的時候,數(shù)據(jù)回傳的成本會非常高。
單車每日回傳的數(shù)據(jù)量大概為百兆級。在研發(fā)階段,車輛總數(shù)可能只有幾十輛或者幾百輛,但是到了量產(chǎn)階段,車輛數(shù)目的量級可以達(dá)到上萬、幾十萬甚至更多。那么,量產(chǎn)階段,整個車隊日產(chǎn)生的數(shù)據(jù)量就是很大的數(shù)字。某造車新勢力每個月僅用來做數(shù)據(jù)回傳的流量費就高達(dá)“大幾千萬”。
另一方面,急劇增加的數(shù)據(jù)量還給存儲空間以及數(shù)據(jù)處理的速度都帶來了挑戰(zhàn)。
量產(chǎn)之后,數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個量級。但如果底層的基礎(chǔ)設(shè)施跟不上,數(shù)據(jù)處理的延遲就會隨著數(shù)據(jù)量的增長而相應(yīng)地增加,這樣會極大地拖慢研發(fā)流程的進(jìn)度。對于系統(tǒng)迭代來講,這種效率的降低是不可接受的。
在數(shù)據(jù)標(biāo)注環(huán)節(jié),雖然大模型的應(yīng)用可以讓高達(dá)80%的數(shù)據(jù)標(biāo)注可以通過自動化的方式來完成,但還有至少20%涉及復(fù)雜場景、多目標(biāo)、語義復(fù)雜的數(shù)據(jù)需要由人工來完成“精標(biāo)”。
以往需要標(biāo)注的數(shù)據(jù)主要是前視攝像頭數(shù)據(jù),2D標(biāo)注框+3D位置就已經(jīng)是標(biāo)注的全部內(nèi)容了;如今在BEV+Transformer方案下,所有相關(guān)的攝像頭看到的所有障礙物、車道線、車輛的運動狀態(tài)都需要對應(yīng)的標(biāo)注,并且還要統(tǒng)一在同一坐標(biāo)系下,還有大量的語義信息也需要標(biāo)注。

多數(shù)公司在數(shù)據(jù)標(biāo)注環(huán)節(jié)都會依靠“人海戰(zhàn)術(shù)”,依靠人工一個個地對采集回來的數(shù)據(jù)做場景分類,工作量遠(yuǎn)超想象。一般的檢測框,一分鐘的內(nèi)容,標(biāo)注需要一小時左右;點云分割,一分鐘的內(nèi)容,標(biāo)注需要幾個小時;但對更復(fù)雜的任務(wù)做4D標(biāo)注,可能一分鐘的任務(wù)需要花超過一天時間才能完成。
后面如果要做端到端的算法訓(xùn)練,在給這一幀的內(nèi)容打標(biāo)簽時,還得考慮該標(biāo)簽如何跟其他幀的內(nèi)容做關(guān)聯(lián)。
總體趨勢是,自動駕駛行業(yè)對標(biāo)注的要求越來越高了,這意味著,投入到一分鐘視頻上的標(biāo)注成本也隨之水漲船高。如果標(biāo)注的結(jié)果不準(zhǔn)確、不完整,那基于這些數(shù)據(jù)訓(xùn)練出來的模型的性能就會受到影響。
此外,在數(shù)據(jù)收集和處理的過程中,隱私保護(hù)是一個不容忽視的問題。自動駕駛車輛在運行過程中,可能會捕捉到行人的面貌、車牌號碼等敏感信息。如何保護(hù)這些個人隱私,避免數(shù)據(jù)泄露和濫用,是每個自動駕駛企業(yè)都必須嚴(yán)肅對待的問題。
對大部分自動駕駛企業(yè),還會面臨嚴(yán)重的數(shù)據(jù)泛化問題,因為不同的車型傳感器配置差異巨大,采集的數(shù)據(jù)往往難以復(fù)用,而國內(nèi)車企普遍車型眾多,最后很可能是采了一堆數(shù)據(jù)放在那沒法使用,看起來是數(shù)據(jù)資產(chǎn),其實都是存儲成本。
“華山一條路”的技術(shù)新路徑
在數(shù)據(jù)閉環(huán)體系中,仿真技術(shù)無疑是非常關(guān)鍵的一環(huán)。仿真的起點是數(shù)據(jù),而數(shù)據(jù)又分為真實數(shù)據(jù)與合成數(shù)據(jù)。隨著真實數(shù)據(jù)“規(guī)模小、質(zhì)量低、使用難度大”等問題日漸暴露,合成數(shù)據(jù)越來越受重視。
在國內(nèi),雖然各家主機(jī)廠已經(jīng)不缺真實數(shù)據(jù),但這些數(shù)據(jù)的利用率究竟有多高,仍然存在很大疑問。同時,如果用真實數(shù)據(jù)用來做仿真,有個很嚴(yán)重的痛點——復(fù)用性差。
比如,在做路采的時候,車輛的芯片平臺、傳感器架構(gòu)及制動系統(tǒng)是怎樣的,在仿真系統(tǒng)里做測試時,車輛的這些硬件配置也必須跟路采時所用的車輛配置一致。一旦傳感器的位置或者型號有變更,這一組數(shù)據(jù)的價值就降低,甚至?xí)鲝U。
事實上,真實數(shù)據(jù)的最主要問題并不是“太少”,而是質(zhì)量低,使用難度大、復(fù)用性差,而這恰合也就是合成數(shù)據(jù)的用武之地。
合成數(shù)據(jù)(Synthetic Data)就是通過計算機(jī)技術(shù)生成的數(shù)據(jù),而不是由真實事件產(chǎn)生的數(shù)據(jù)。但合成數(shù)據(jù)又具備“可用性”,能夠在數(shù)學(xué)上或統(tǒng)計學(xué)上反映原始數(shù)據(jù)的屬性,因此也可以用來訓(xùn)練、測試并驗證模型。OpenAI的GPT-4,就采用了大量前一代模型GPT-3.5生產(chǎn)的數(shù)據(jù)來進(jìn)行訓(xùn)練。
Gartner 預(yù)測,到2024年用于訓(xùn)練Al的數(shù)據(jù)中有60%將是合成數(shù)據(jù),到2030年AI模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。

合成數(shù)據(jù)最早于1993年由統(tǒng)計學(xué)家唐納德·B·魯賓(Donald B. Rubin)提出,目前被廣泛引用,并在金融保險、醫(yī)療制藥、汽車制造、零售、自動駕駛等領(lǐng)域都有或深或淺的應(yīng)用。
合成數(shù)據(jù)的產(chǎn)生原理,很大程度上在于模擬真實數(shù)據(jù)的分布特征和統(tǒng)計特性,再通過生成模型創(chuàng)建新的數(shù)據(jù)集,用來輔助真實訓(xùn)練數(shù)據(jù)樣本不足或使用受限情況下(如數(shù)據(jù)敏感或隱私保護(hù))的模型訓(xùn)練、測試和開發(fā)。
廣義上,因為合成數(shù)據(jù)保留了和真實世界數(shù)據(jù)相同的結(jié)構(gòu)或分布,卻不包含原始信息,所以主要被用來代替原始數(shù)據(jù)用于模型訓(xùn)練和下游任務(wù)。
不過在實際應(yīng)用中,出于數(shù)據(jù)可用性或真實場景數(shù)據(jù)對強(qiáng)化模型泛化能力的考慮,也有人基于原始數(shù)據(jù)樣本,通過部分合成的方式(比如利用?數(shù)據(jù)填補(bǔ)的方法替換原本的敏感和關(guān)鍵字段,進(jìn)行局部數(shù)據(jù)的合成),生成相應(yīng)的合成數(shù)據(jù)。所以,在有些分類中,合成數(shù)據(jù)又包含全部合成、部分合成、混用多種形態(tài)。
目前,合成數(shù)據(jù)在模型訓(xùn)練和數(shù)據(jù)集增強(qiáng)等場景,尤其在對齊階段深度的模型訓(xùn)練中發(fā)揮著重要作用。
隨著合成數(shù)據(jù)越發(fā)受到重視,技術(shù)人員也在持續(xù)創(chuàng)新數(shù)據(jù)合成的方法。從實際使用看,目前主要通過以下方式進(jìn)行合成數(shù)據(jù)。
隨機(jī)采樣生成。根據(jù)現(xiàn)實世界數(shù)據(jù)中觀察到的統(tǒng)計特性(如均值、方差、相關(guān)性等),隨機(jī)生成數(shù)據(jù)。這種合成方法比較基礎(chǔ)直接,適合簡單的數(shù)據(jù)集生成,但面對高維復(fù)雜的數(shù)據(jù),則存在一定的局限性。
基于特定領(lǐng)域規(guī)則生成?;跀?shù)據(jù)集預(yù)定義的規(guī)則和約束,手動或半自動生成合成數(shù)據(jù)。這種方式生成的數(shù)據(jù),能保持與現(xiàn)實世界復(fù)雜場景的一致性,使得生成的合成數(shù)據(jù)具有一定可解釋性,但這種方法在具有明顯規(guī)律或規(guī)則時才較為有效。
利用深度學(xué)習(xí)方法生成。主要表現(xiàn)在利用生成對抗網(wǎng)絡(luò)(GAN)、變分自動編碼器(VAE)等生成合成數(shù)據(jù)。比如視頻生成模型Sora就采用了生成對抗網(wǎng)絡(luò)(GAN)來生成合成數(shù)據(jù)。在這過程中,生成器負(fù)責(zé)基于原始數(shù)據(jù)合成圖像,鑒別器負(fù)責(zé)將原始圖像和合成圖像分離,當(dāng)對抗機(jī)制達(dá)到平衡,就能生成與真實世界圖像特征非常相似但又有所區(qū)別的合成圖像數(shù)據(jù)。
變分自動編碼器(VAE)則是利用無監(jiān)督算法,通過編碼器(數(shù)據(jù)降維)和解碼器(數(shù)據(jù)重構(gòu))的協(xié)作,在原始數(shù)據(jù)基礎(chǔ)上生成新的數(shù)據(jù)。兩者都是合成多模態(tài)數(shù)據(jù)的有效方式。
利用合成數(shù)據(jù)工具生成。比如利用Python、Scikit-learn、Datagen、Mostly AI等數(shù)據(jù)合成工具軟件、機(jī)器學(xué)習(xí)庫,針對性生成相應(yīng)的合成數(shù)據(jù)。目前也可以直接利用GPT等大語言模型,通過提示詞引導(dǎo),進(jìn)行數(shù)據(jù)增強(qiáng)和虛擬數(shù)據(jù)的合成。
除此之外,通過對現(xiàn)有數(shù)據(jù)樣本進(jìn)行變換、擴(kuò)充、匿名等生成更多的訓(xùn)練數(shù)據(jù)樣本,即采用增強(qiáng)數(shù)據(jù)、匿名數(shù)據(jù)等方式合成數(shù)據(jù)也比較常見。只是這種更多屬于部分合成數(shù)據(jù),真實數(shù)據(jù)特性保留度高,多樣性、豐富性方面也會有一定影響。
合成數(shù)據(jù)在自動駕駛領(lǐng)域的一大應(yīng)用是對于極端情況的模擬。大量的極端情況在真正發(fā)生前沒有人能預(yù)知,屬于“預(yù)期功能安全”第三象限里面的“Unknown,Unsafe”一類,所以無法在真實道路上進(jìn)行模擬。這類情況,無法通過基于人工規(guī)則的合成數(shù)據(jù)(WorldSim)來生成,也沒法通過對真實世界做3D重建的技術(shù)(NeRF)來生成,但有望通過基于AIGC的合成數(shù)據(jù)來獲取。
有些極端情況盡管人們能想象得到“大概會怎樣”,但畢竟太危險,所以也不適合在真實道路上做模擬。這種極端情況無法通過NeRF技術(shù)來生成,但可以通過合成數(shù)據(jù)來生成。有些極端情況,算不上有多么不安全,但也會影響到交通安全,比如雨、霧、雪和極端光線等極端天氣跟某種極端交通流的組合,這些也需要通過合成數(shù)據(jù)技術(shù)來生成。還有許多極端情況,在真實數(shù)據(jù)中的密度太低,挖掘成本太高,這個時候選擇合成數(shù)據(jù)便是最佳策略。
有了合成數(shù)據(jù),主機(jī)廠或自動駕駛公司便可在幾小時內(nèi)模擬數(shù)百萬個極端情況,這些模擬可能涵蓋不同照明條件、目標(biāo)位置和惡劣環(huán)境下的示例,或者可以插入隨機(jī)噪聲來模擬臟污的攝像頭、霧水和其他視覺障礙物。
此外,真實數(shù)據(jù)由于高度受制于采集場景的限制,所以極端情況在樣本的分布上也很難有效滿足算法的需求。而合成數(shù)據(jù),可以有針對性地生成分布狀況更滿足訓(xùn)練需求的極端情況,這更有助于提升算法的性能。
如今,數(shù)據(jù)對自動駕駛產(chǎn)業(yè)的驅(qū)動力已經(jīng)成為每一位玩家繞不開的關(guān)鍵。完備的閉環(huán)模型需要大規(guī)模、高質(zhì)量、多場景的數(shù)據(jù),高算力、高效率、相對低成本的算法模型,趨向自動化的數(shù)據(jù)標(biāo)注與處理,高速率、低成本的傳輸速率與存儲模式,再加上安全合規(guī)的保駕護(hù)航,在數(shù)據(jù)的喂養(yǎng)下飛輪不斷循環(huán)向前,實現(xiàn)自動駕駛的持續(xù)進(jìn)化。
數(shù)據(jù)閉環(huán)的每一步推進(jìn)都是成本和效率的博弈,每一次博弈都是科技理性與價值理性的融合,每一場融合也將必然需要上下游企業(yè)數(shù)據(jù)共享、技術(shù)開源、生態(tài)共建。而數(shù)據(jù)閉環(huán)也是實現(xiàn)城市NOA和更高級別智駕的“華山一條路”,在這條路上,可以慢、可以錯,但唯獨不能不上山,否則就會被遺忘在山腳下。
熱門跟貼