日韩欧美精品视频第一页,一本色道久久精品+网站,青春草免费在线观看,欧美精品一区二区三区四区在线看,av不卡的网站在线免费观看

借著端到端+VLM架構(gòu)，理想汽車實(shí)現(xiàn)了在輔助駕駛上的逆襲。

嘗到新技術(shù)架構(gòu)甜頭的理想汽車，希望更進(jìn)一步，引入更新的技術(shù)架構(gòu)，來(lái)夯實(shí)自己在輔助駕駛、自動(dòng)駕駛領(lǐng)域的優(yōu)勢(shì)，甚至希望成為引領(lǐng)者。

那就是VLA（視覺(jué)、語(yǔ)言、行動(dòng)）大模型，理想汽車將其命名為司機(jī)大模型。

5月7日晚，理想汽車舉行了“理想Al Talk第二季李想面對(duì)面”線上活動(dòng)。理想汽車創(chuàng)始人、CEO李想再度現(xiàn)身討論AI及AI在輔助駕駛、智能駕駛和汽車上的應(yīng)用思路。

李想認(rèn)為，“今天輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了?！倍緳C(jī)大模型能力是最強(qiáng)的，“是最接近人類的，甚至有機(jī)會(huì)超過(guò)人類能力的一種”。

“我自己認(rèn)為VLA（司機(jī)大模型）能夠解決到全自動(dòng)駕駛?！?/strong>

李想沒(méi)有透露具體的司機(jī)大模型支持的輔助駕駛系統(tǒng)上車時(shí)間。只是表示，比此前預(yù)計(jì)的9月要提前。

按照理想汽車透露的信息，理想純電SUV理想i8將于7月發(fā)布上市，并且搭載VLA（司機(jī)大模型）。

司機(jī)大模型有多厲害？

輔助駕駛系統(tǒng)發(fā)展到今天，對(duì)于行業(yè)、對(duì)于理想汽車，都可以說(shuō)是一個(gè)節(jié)點(diǎn)。

就行業(yè)而言，由于一些飽受關(guān)注的事故影響，輔助駕駛系統(tǒng)的安全性受到質(zhì)疑。

就理想汽車而言，盡管端到端+VLM雙系統(tǒng)開(kāi)行業(yè)先河，并且將理想智駕拉到行業(yè)前列，引起一些技術(shù)路線追隨者，但是其輔助駕駛產(chǎn)品依舊是輔助工具。

本質(zhì)上，這兩個(gè)問(wèn)題都可以歸結(jié)為——輔助駕駛系統(tǒng)的能力依舊不足。

李想提及了此前規(guī)則架構(gòu)、端到端架構(gòu)的兩個(gè)問(wèn)題。

一是對(duì)復(fù)雜東西的理解，比如復(fù)雜的修路，“如果是規(guī)則算法可能就會(huì)撞上了，如果是端到端可能停下來(lái)，但它不知道該怎么干了。”

另一方面是無(wú)法跟人溝通。“今天端到端怎么做？就跟猴子一樣，你影響不了它，對(duì)吧？”

但VLA架構(gòu)不一樣。面對(duì)復(fù)雜場(chǎng)景，司機(jī)大模型能輕松解決，因?yàn)樗欣斫饽芰?。在?xùn)練階段，VLA架構(gòu)模型即便沒(méi)有經(jīng)歷過(guò)真實(shí)場(chǎng)景的學(xué)習(xí)，也可以通過(guò)生成數(shù)據(jù)來(lái)訓(xùn)練。

在溝通方面，司機(jī)大模型作為Agent（智能體），可以理解語(yǔ)言，司機(jī)可以給出指令，比如讓它一直在中間行駛，直到下一個(gè)路口，再比如靠邊停車，或者“到C3區(qū)停車”。

而且，端到端架構(gòu)的系統(tǒng)與導(dǎo)航配合出現(xiàn)問(wèn)題時(shí)無(wú)法妥善處理，司機(jī)大模型卻能在小區(qū)等開(kāi)放空間漫游并與導(dǎo)航調(diào)整后匯合。

因?yàn)?，司機(jī)大模型看得懂導(dǎo)航軟件運(yùn)行，具備思維鏈和推理能力，像人類司機(jī)一樣執(zhí)行駕駛行動(dòng)，最終能像全職司機(jī)一樣工作，實(shí)現(xiàn)全自動(dòng)駕駛。

司機(jī)大模型如何訓(xùn)練？

司機(jī)大模型為什么理解世界，聽(tīng)懂司機(jī)指令，并且還能成為駕駛“專家”呢？

還要從VLA模型的架構(gòu)特點(diǎn)和訓(xùn)練方式說(shuō)起。

李想認(rèn)為，VLA架構(gòu)是逐漸進(jìn)化而來(lái)的，具備了很多“像人類一樣的”能力：

它能用3D的vision（視覺(jué)）和2D的組合，去看整個(gè)真實(shí)的物理世界，也包含它能夠去看懂導(dǎo)航軟件”。
它有自己的整個(gè)腦系統(tǒng)，不但要看到物理世界，還能夠理解這個(gè)物理世界。
它有它的language（語(yǔ)言），然后它也有它的CoT（思維鏈），有推理的一個(gè)能力。
它能夠像人類一樣的，真正地去執(zhí)行這樣的行動(dòng)……

這些能力來(lái)自何處？

李想表示，司機(jī)大模型需要四個(gè)步驟來(lái)訓(xùn)練。

步驟一，訓(xùn)練一個(gè)VL（視覺(jué)和語(yǔ)言）的基座模型。“我們目前在訓(xùn)的，當(dāng)前的這個(gè)版本，是一個(gè)32B的，就是320億云端的一個(gè)基座模型?！?/strong>

這一模型和過(guò)去的模型的差異在于，要放入更多視覺(jué)的語(yǔ)料，其中就包括3D上的視覺(jué)語(yǔ)料、高清的2D的視覺(jué)語(yǔ)料。而此前的多模態(tài)的開(kāi)源VLM（視覺(jué)語(yǔ)言模型）里邊，2D視覺(jué)語(yǔ)料的清晰度太低，所以看的距離不夠。

在語(yǔ)言模型方面，要放入跟交通、駕駛相關(guān)的足夠多的這方面的語(yǔ)料。

此外，還必須放入很多VL（視覺(jué)和語(yǔ)言）聯(lián)合的語(yǔ)料，就是三維圖像和對(duì)世界的理解語(yǔ)義要同時(shí)產(chǎn)生的?！氨热缥遗e一個(gè)例子，我要把導(dǎo)航的地圖和車輛對(duì)導(dǎo)航地圖的理解一起放進(jìn)去?！?/p>

李想也回應(yīng)了為什么要做基座模型。

他說(shuō)，理想汽車的VLA模型，即便是V（vision視覺(jué)）和L（language語(yǔ)言）部分也和通用大模型不一樣，需要涉及到更專業(yè)的車領(lǐng)域、交通領(lǐng)域、面向家庭用戶的語(yǔ)義語(yǔ)料，此外還需要把VL（視覺(jué)和語(yǔ)言）的組合語(yǔ)料放進(jìn)去訓(xùn)練?！澳沁@些無(wú)論是OpenAI還是DeepSeek，它都沒(méi)有這樣的數(shù)據(jù)，它們也沒(méi)有這樣的場(chǎng)景和需求，也不去解決這樣的問(wèn)題，那只能我自己來(lái)做了?！?/strong>

他也強(qiáng)調(diào)，DeepSeek的開(kāi)源加速了理想基座大模型的開(kāi)發(fā)進(jìn)度。“好處是說(shuō)VLA（視覺(jué)語(yǔ)言行動(dòng)模型）里邊的這個(gè)language（語(yǔ)言），我可以站在巨人的肩膀上，但是它只是我其中的一部分?！?/p>

李想在這里透露，理想汽車把基座模型的團(tuán)隊(duì)從智駕系統(tǒng)開(kāi)發(fā)團(tuán)隊(duì)拆開(kāi)，并且加大了投入，“訓(xùn)練卡比團(tuán)隊(duì)的預(yù)期應(yīng)該多買了3倍?！?/strong>

這一基座模型訓(xùn)練出來(lái)之后，需要蒸餾成一個(gè)3.6B（即36億）端側(cè)（即上車）的蒸餾模型?！耙?yàn)槲乙ＷC它運(yùn)行速度足夠得快，然后無(wú)論是兩個(gè)Orin-X還是Thor-U上能夠流暢地運(yùn)行?！?/strong>

步驟二是做后訓(xùn)練，要把a(bǔ)ction（行動(dòng)）放進(jìn)來(lái)，從VL模型變成VLA模型，仍然是一種模仿學(xué)習(xí)。“特別像你去駕校學(xué)開(kāi)車……這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B，大概這么一個(gè)規(guī)模?！?/p>

步驟三是強(qiáng)化訓(xùn)練，“比較像人到社會(huì)上開(kāi)車了”。強(qiáng)化學(xué)習(xí)一部分先做RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)），包括人類接管的反饋。強(qiáng)化學(xué)習(xí)另一個(gè)部分是純粹的RL（強(qiáng)化學(xué)習(xí)），“是（拿RL模型放到）我們的世界模型來(lái)做訓(xùn)練。這塊兒的目的什么呢？就是開(kāi)得比人類更好。”

當(dāng)這三個(gè)步驟完成了以后，VLA（司機(jī)大模型）能夠跑在車端的模型其實(shí)就產(chǎn)生了。

步驟四，搭建一個(gè)司機(jī)的Agent（智能體），能夠聽(tīng)懂司機(jī)的語(yǔ)音指令。“如果是一些短指令，通用的短指令VLA（司機(jī)大模型）直接就處理了，不需要再經(jīng)過(guò)云端。如果是一些復(fù)雜的指令，其實(shí)先要到云端的32B那里，VL（視覺(jué)和語(yǔ)言）處理完以后，（因?yàn)樗斫饨煌ǖ囊磺校?，整個(gè)交給VLA（司機(jī)大模型）來(lái)進(jìn)行處理，大概這么運(yùn)行的一個(gè)過(guò)程?！?/p>

最終，李想認(rèn)為，“說(shuō)白了它最后的一個(gè)好處是說(shuō)它能夠像人類司機(jī)一樣去理解物理世界，能夠像人類司機(jī)一樣去開(kāi)車，去處理復(fù)雜的問(wèn)題，也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品?！?/strong>

還有沒(méi)有更強(qiáng)的架構(gòu)？

自特斯拉引入端到端技術(shù)架構(gòu)之后，探索智能駕駛輔助系統(tǒng)的企業(yè)，紛紛模仿。

但是，特斯拉不再舉辦AI DAY之后，業(yè)界無(wú)法再跟隨。此后，理想汽車提出了端到端+VLM的雙系統(tǒng)架構(gòu)，被一些企業(yè)學(xué)習(xí)模仿。

再往后呢？

在機(jī)器人領(lǐng)域，VLA架構(gòu)被廣泛討論。和智能駕駛輔助領(lǐng)域，理想汽車和元戎啟行都提出VLA作為下一代架構(gòu)。

李想認(rèn)為，交通領(lǐng)域應(yīng)該是VLA最早實(shí)現(xiàn)應(yīng)用的。

第一，因?yàn)榻煌ㄒ?guī)則清楚，雖然復(fù)雜但具備確定性。

第二，車有三個(gè)方向的自由度需要控制，而機(jī)器人的上來(lái)就是40多個(gè)自由度，那個(gè)挑戰(zhàn)就更大了。

第三，在交通領(lǐng)域還能做特別好的強(qiáng)化，“大家在使用的過(guò)程中不滿意的時(shí)候就接管了”。

理想汽車自從自研智能駕駛輔助系統(tǒng)以來(lái)，已經(jīng)迭代了數(shù)個(gè)技術(shù)架構(gòu)。會(huì)不會(huì)明年又換一個(gè)？

李想表示，司機(jī)大模型是能力最強(qiáng)的架構(gòu)，能解決到全自動(dòng)駕駛，但是，不一定是效率最高的架構(gòu)。VLA基于 Transformer，而Transformer 架構(gòu)不一定是效率最高的，未來(lái)大概率會(huì)出現(xiàn)更高效的架構(gòu)，因?yàn)楫?dāng)前VLA對(duì)算力要求較高。