中文字幕视频www网,国产一级内射视频免费,久久欧美亚洲免费在线观看,老鸭窝av国产在线,毛片av免费看

每經(jīng)記者：孫磊每經(jīng)編輯：余婷婷

“AI（人工智能）工具可劃分為信息工具、輔助工具和生產(chǎn)工具三個(gè)層級(jí)。我覺(jué)得人工智能變成生產(chǎn)工具，才是真正人工智能爆發(fā)的時(shí)刻?！崩硐肫嚩麻L(zhǎng)、CEO李想在5月7日晚的《理想AI Talk第二季》中，分享了他對(duì)于人工智能的最新思考，VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn)，這距離他上一季談及人工智能已經(jīng)過(guò)去了130多天。

圖片來(lái)源：企業(yè)供圖

李想表示：“判斷Agent（智能體）是否真正智能，關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具，才是其真正爆發(fā)的時(shí)刻。就像人類會(huì)雇用司機(jī)，人工智能技術(shù)最終也會(huì)承擔(dān)類似職責(zé)，成為真正的生產(chǎn)工具?！?/p>

就理想汽車而言，其研發(fā)的VLA司機(jī)大模型則是以“司機(jī)Agent”的產(chǎn)品形態(tài)呈現(xiàn)?！坝脩艨赏ㄟ^(guò)自然語(yǔ)言與司機(jī)Agent溝通，跟人類司機(jī)怎么說(shuō)，就跟司機(jī)Agent怎么說(shuō)。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理，復(fù)雜指令則先由云端的VL基座模型解析，再交由VLA處理?！崩硐肫嚪矫姹硎尽?/p>

此外，李想還回應(yīng)了“有人覺(jué)得輔助駕駛應(yīng)該被叫?！钡膯?wèn)題。“經(jīng)過(guò)多年，從規(guī)則算法到端到端+VLM（視覺(jué)語(yǔ)言），再到現(xiàn)在真正邁入VLA階段，現(xiàn)在比較像‘黎明前的黑暗’。我覺(jué)得黎明馬上就要來(lái)了。但是會(huì)先經(jīng)歷一個(gè)黑暗的過(guò)程，之所以有黑暗是因?yàn)橐瓉?lái)黎明?！崩钕胝f(shuō)。

VLA是端到端+VLM的合體

所謂“VLA”，即視覺(jué)語(yǔ)言動(dòng)作模型（Vision-Language-Action Model）。最早由DeepMind于2023年提出，應(yīng)用在機(jī)器人領(lǐng)域，輸入給定的文本和視覺(jué)數(shù)據(jù)，輸出機(jī)器人可執(zhí)行的動(dòng)作，天然便帶有AI與物理世界交互的基因。

與當(dāng)前理想汽車使用的“著重于圖像和場(chǎng)景的理解，作為智駕決策規(guī)劃輸入，讓車輛行為更合理”的VLM模型不同，VLA模型會(huì)將端到端與多模態(tài)大模型結(jié)合得更徹底，能夠根據(jù)感知直接生成車輛的運(yùn)動(dòng)規(guī)劃和決策，更加接近“圖像輸入、控制輸出”的端到端智駕理想狀態(tài)。

在業(yè)內(nèi)看來(lái)，VLA模型可看成是端到端+VLM的合體，其遇到一些復(fù)雜的交通規(guī)則、潮汐車道、長(zhǎng)時(shí)序推理等特殊場(chǎng)景時(shí)，會(huì)比過(guò)往理解、應(yīng)對(duì)得更好?！皩?duì)于理想汽車而言，VLA是一個(gè)司機(jī)大模型，像人類的司機(jī)一樣去工作的一個(gè)模型?！崩钕胝f(shuō)。

據(jù)悉，就推理時(shí)長(zhǎng)而言，在傳統(tǒng)rule-based（基于規(guī)則）方案下，智能輔助駕駛只能推理1秒鐘路況信息然后做出決策控制；端到端1.0階段系統(tǒng)能夠推理出未來(lái)7秒的路況，而VLA模型則能對(duì)幾十秒路況進(jìn)行推理。

李想透露，達(dá)到VLA模型階段并非突變的過(guò)程，而是進(jìn)化的過(guò)程，經(jīng)歷了三個(gè)階段：第一階段，理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛，類似“昆蟲動(dòng)物智能”。第二階段，理想汽車自2023年起研究，并于2024年正式推送的端到端+VLM輔助駕駛，接近“哺乳動(dòng)物智能”。

“在端到端的基礎(chǔ)上，到第三階段，VLA將開啟‘人類智能’階段。它能通過(guò)3D和2D視覺(jué)的組合，完整地看到物理世界，而不像VLM僅能解析2D圖像。同時(shí)，VLA擁有完整的腦系統(tǒng)，具備語(yǔ)言、CoT（Chain of Thought，思維鏈）推理能力，既能看，也能理解并真正執(zhí)行行動(dòng)，符合人類的運(yùn)作方式。”李想說(shuō)。

有觀點(diǎn)認(rèn)為，伴隨著VLA模型的出現(xiàn)，理想汽車或放棄端到端技術(shù)。對(duì)此，李想表示：“沒(méi)有放棄，端到端是VLA的基礎(chǔ)。如果你把端到端想象成一個(gè)個(gè)具身智能執(zhí)行的環(huán)節(jié)，那它其實(shí)就是VLA的A（action行動(dòng)）的部分。只是我要多語(yǔ)言的部分，還要更多更強(qiáng)的3D vision和高清2D vision的部分。”

“現(xiàn)階段VLA是能力最強(qiáng)的架構(gòu)”

值得注意的是，VLA近來(lái)一直受到自動(dòng)駕駛領(lǐng)域的熱捧，除理想汽車外，元戎啟行等企業(yè)也在該領(lǐng)域進(jìn)行布局。有行業(yè)人士表示，VLA模型對(duì)智能輔助駕駛的演進(jìn)意義重大，在L2輔助駕駛到L4自動(dòng)駕駛的飛躍中，VLA可能會(huì)成為關(guān)鍵跳板；另一方面，VLA模型也可能成為智能駕駛走向更廣闊的具身智能行業(yè)的連接點(diǎn)。

“目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段，而VLA能夠讓AI真正成為司機(jī)，成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對(duì)理想汽車而言，未來(lái)的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型?！崩钕胝f(shuō)，“我自己認(rèn)為VLA（司機(jī)大模型）能夠解決全自動(dòng)駕駛，至于VLA是否是效率最高的方式還要打個(gè)問(wèn)號(hào)。但現(xiàn)階段VLA是能力最強(qiáng)的架構(gòu)?！?/p>

值得一提的是，行業(yè)也存有共識(shí)，VLA模型的上車難度不小——將端到端與VLM模型二合一后，車端模型參數(shù)變得更大，既要有高效實(shí)時(shí)推理能力，同時(shí)還要有大模型認(rèn)識(shí)復(fù)雜世界并給出建議的能力，對(duì)車端芯片硬件有相當(dāng)高的要求。

“理想汽車有編譯團(tuán)隊(duì)，有芯片的能力，有板子設(shè)計(jì)能力，有操作系統(tǒng)能力。所以我們是能夠把兩個(gè)Orin-X帶寬做到足夠的大，它同樣可以跑同等規(guī)模的VLA的模型?！崩钕氡硎?，“我自己還是認(rèn)為，規(guī)模小的時(shí)候可能無(wú)所謂，規(guī)模大的時(shí)候基本功和能力永遠(yuǎn)是無(wú)法逾越的?！?/p>

值得注意的是，李想的這番言論也折射出當(dāng)前智能輔助駕駛行業(yè)的一個(gè)現(xiàn)狀——技術(shù)路徑的快速迭代升級(jí)與競(jìng)爭(zhēng)態(tài)勢(shì)的加速轉(zhuǎn)變，對(duì)那些尚未在端到端解決方案領(lǐng)域建立優(yōu)勢(shì)的企業(yè)而言，形成了更高的準(zhǔn)入壁壘，使得后來(lái)者居上的可能性顯著降低。

“今天很多企業(yè)做端到端都很吃力，是因?yàn)樵谝?guī)則算法的時(shí)候都沒(méi)做好?！崩钕胝f(shuō)，“如果你規(guī)則算法都做不好，你根本不知道怎么去做端到端；如果你端到端沒(méi)有做到一個(gè)非常極致的水平，你連VLA怎么去訓(xùn)練都不知道?！?/p>

“美國(guó)很多頂級(jí)的公司，像蘋果、特斯拉，他們基本功特別扎實(shí)，這個(gè)是我們真正要去學(xué)的。尤其是在今天這種內(nèi)卷環(huán)境下，包括外部不確定的環(huán)境下，這時(shí)候更是每個(gè)企業(yè)扎扎實(shí)實(shí)練基本功最好的時(shí)候。而且到了人工智能時(shí)代，基本功就更是不可跳躍的?！崩钕胙a(bǔ)充道。