分享內(nèi)容包括:新能源汽車/智能座艙/智能駕駛/智能制造/AI/具身智能/低空經(jīng)濟(jì)等
點(diǎn)擊下方,查看近期熱門行業(yè)研究報(bào)告
在科技浪潮洶涌的當(dāng)下,具身智能正以銳不可當(dāng)之勢(shì),有望開辟出一片規(guī)模達(dá)萬億級(jí)別的藍(lán)海市場(chǎng)?;仡櫃C(jī)器人與人工智能的發(fā)展軌跡,宛如翻開一部波瀾壯闊的科技史詩。如今,機(jī)器人已昂首邁入具身智能時(shí)代,而人工智能也隨之邁向 “物理 AI” 的全新發(fā)展階段。在這兩大科技領(lǐng)域的壯闊交匯中,人形機(jī)器人宛如一顆璀璨的明珠,成為了兩者匯聚的焦點(diǎn),更是具身智能時(shí)代的關(guān)鍵臨界點(diǎn)。它承載著無限的可能,極有可能化身新一代智能終端,為人類生活與產(chǎn)業(yè)發(fā)展帶來翻天覆地的變革,開啟一個(gè)充滿無限機(jī)遇的萬億級(jí)市場(chǎng)新篇。
深入剖析具身智能體系,具身智能大模型無疑是機(jī)器人 “大腦” 的核心所在。具身智能的構(gòu)建,離不開本體、智能體、數(shù)據(jù)、學(xué)習(xí)和進(jìn)化架構(gòu)這四大核心要素的協(xié)同作用。其中,通用機(jī)器人本體又可細(xì)致拆解為 “大腦”“小腦” 和 “肢體” 三個(gè)關(guān)鍵部分。而人形機(jī)器人的 “大腦”,其核心技術(shù)便是人工智能大模型。借助多模態(tài)模型建模、強(qiáng)化學(xué)習(xí)、地圖創(chuàng)建以及海量數(shù)據(jù)訓(xùn)練,這一核心技術(shù)宛如一位智慧超群的指揮官,精準(zhǔn)地管理和協(xié)調(diào)著機(jī)器人的各項(xiàng)復(fù)雜功能。目前,大模型在需求理解、任務(wù)分解等高層級(jí)控制任務(wù)方面展現(xiàn)出卓越的才能,猶如一位運(yùn)籌帷幄的將軍,對(duì)戰(zhàn)場(chǎng)局勢(shì)(任務(wù)需求)洞察入微,并能迅速制定出合理的作戰(zhàn)計(jì)劃(任務(wù)分解策略)。然而,規(guī)劃級(jí)以下的控制規(guī)劃領(lǐng)域,則依然是傳統(tǒng)機(jī)器人控制規(guī)劃的優(yōu)勢(shì)范疇,其成熟的高頻控制方法,恰似訓(xùn)練有素的士兵,能夠高效、精準(zhǔn)地執(zhí)行底層指令,確保機(jī)器人的每一個(gè)動(dòng)作都流暢、穩(wěn)定。
多模態(tài)大模型的橫空出世,更是為人形機(jī)器人的高層級(jí)控制帶來了革命性的技術(shù)突破。它宛如一位擁有十八般武藝的全能高手,具備理解圖像、場(chǎng)景文本、圖表、文檔以及多語言的強(qiáng)大能力,能夠?qū)?fù)雜的環(huán)境信息進(jìn)行全面、深入的解析。在具身智能場(chǎng)景中,多模態(tài)大模型可直接將其強(qiáng)大的理解能力應(yīng)用于對(duì)環(huán)境的感知與分析,通過巧妙設(shè)計(jì)的提示詞,輸出如控制代碼、任務(wù)分解指令語言、圖片、視頻等結(jié)構(gòu)化內(nèi)容,為人形機(jī)器人在復(fù)雜環(huán)境中的行動(dòng)提供了精準(zhǔn)、高效的指導(dǎo),使其能夠更加智能、靈活地應(yīng)對(duì)各種任務(wù)與挑戰(zhàn),宛如為機(jī)器人賦予了一顆聰慧、敏銳的 “大腦”,引領(lǐng)人形機(jī)器人技術(shù)邁向新的發(fā)展高峰。

一、具身智能打開萬億藍(lán)海市場(chǎng)
1.1 什么是端到端
回顧機(jī)器人的發(fā)展歷程,當(dāng)下,我們已然步入具身智能時(shí)代。曾經(jīng),傳統(tǒng)的工業(yè)機(jī)器人、協(xié)作機(jī)器人等受限于既定程序,只能按部就班地完成固定工作,即便借助傳感器部件,其行為調(diào)整也極為有限。而如今的具身智能機(jī)器人,憑借搭載的人工智能模型,宛如脫胎換骨,展現(xiàn)出智能化程度高、工作場(chǎng)景束縛小以及自主規(guī)劃復(fù)雜任務(wù)的卓越特性。

它不再是機(jī)械重復(fù)指令的執(zhí)行者,而是演變成由 “本體” 與 “智能體” 深度耦合、能夠在復(fù)雜環(huán)境中靈活執(zhí)行各類任務(wù)的智能系統(tǒng)。正如高新興機(jī)器人所揭示的,具身智能機(jī)器人能夠精準(zhǔn)聽懂人類語言,將復(fù)雜任務(wù)抽絲剝繭,合理規(guī)劃子任務(wù),在移動(dòng)過程中敏銳識(shí)別物體,與周圍環(huán)境自如交互,最終高效完成相應(yīng)工作。當(dāng)下,眾多研究者積極探索,嘗試將多模態(tài)的大語言模型融入機(jī)器人技術(shù),通過圖像、文字、具身數(shù)據(jù)的聯(lián)合訓(xùn)練以及多模態(tài)輸入,大幅增強(qiáng)模型對(duì)現(xiàn)實(shí)世界對(duì)象的理解,助力機(jī)器人更好地處理具身推理任務(wù),為其智能化發(fā)展注入強(qiáng)大動(dòng)力。

同樣,復(fù)盤人工智能的發(fā)展路徑,我們清晰地看到,物理 AI 正成為其下一階段的發(fā)展方向。在 2025 CES 的演講中,黃仁勛明確指出,AI 發(fā)展歷經(jīng)四個(gè)階段,物理 AI 將引領(lǐng) AI 發(fā)展進(jìn)入全新階段,而通用機(jī)器人將作為物理 AI 的核心載體。通用機(jī)器人賦予人工智能 “身體”,讓其具備了直接改造物理世界的能力。在這一過程中,AI 對(duì)機(jī)器人的賦能主要聚焦于感知與決策層面,使得機(jī)器人能夠敏銳感知環(huán)境變化,自主規(guī)劃行動(dòng)決策,與環(huán)境實(shí)現(xiàn)深度交互。

如今,站在具身智能時(shí)代的關(guān)鍵臨界點(diǎn),人形機(jī)器人憑借獨(dú)特優(yōu)勢(shì),極有望成為新一代智能終端,進(jìn)而開啟萬億級(jí)別的藍(lán)海市場(chǎng)。人形機(jī)器人不僅擁有仿人外形,更融合了先進(jìn)的人工智能技術(shù),這使其具備操作人類生產(chǎn)生活工具的潛力,極有可能成為繼個(gè)人計(jì)算機(jī)、手機(jī)和智能汽車之后,重塑人類生活與產(chǎn)業(yè)格局的新一代智能終端。馬斯克在 2023 年特斯拉股東會(huì)議上大膽預(yù)測(cè),未來全球人形機(jī)器人數(shù)量有望飆升至 100 億到 200 億臺(tái),廣泛應(yīng)用于人類生活和工業(yè)制造等多元場(chǎng)景,屆時(shí),人形機(jī)器人必將開啟一個(gè)規(guī)模宏大、潛力無限的萬億級(jí)別市場(chǎng)新篇。
二、機(jī)器人“大腦”的時(shí)代機(jī)遇:具身智能大模型
2.1 多模態(tài)大模型引領(lǐng)機(jī)器人高層級(jí)控制技術(shù)革新
具身智能致力于讓機(jī)器人借由在物理與數(shù)字世界的學(xué)習(xí)進(jìn)化,達(dá)成理解世界、交互協(xié)作以及完成任務(wù)的目標(biāo)。依據(jù)稚暉君的觀點(diǎn),具身智能涵蓋本體、智能體、數(shù)據(jù)、學(xué)習(xí)和進(jìn)化架構(gòu)這四大核心要素。

通常而言,一臺(tái)通用人形機(jī)器人本體可細(xì)分為 “大腦”“小腦”“肢體” 三部分,分別對(duì)應(yīng)決策交互、運(yùn)動(dòng)控制與執(zhí)行模塊。其中,人形機(jī)器人 “大腦” 的核心技術(shù)是人工智能大模型,借助多模態(tài)模型建模、強(qiáng)化學(xué)習(xí)、地圖創(chuàng)建以及數(shù)據(jù)訓(xùn)練,可實(shí)現(xiàn)對(duì)機(jī)器人各項(xiàng)功能的管理與協(xié)調(diào)?!按竽X” 堪稱機(jī)器人智能與高級(jí)決策的中樞,也是具身智能時(shí)代機(jī)器人區(qū)別于傳統(tǒng)程序控制機(jī)器人(如工業(yè)、協(xié)作機(jī)器人等)的關(guān)鍵所在。

促使機(jī)器人 “大腦” 取得突破的核心動(dòng)力,是大模型實(shí)現(xiàn)能力涌現(xiàn),成為切實(shí)可用的生產(chǎn)力。大模型的能力與機(jī)器人需求高度契合,只需向機(jī)器人下達(dá)任務(wù)指令,它便能理解任務(wù)內(nèi)容,拆解任務(wù)動(dòng)作,生成應(yīng)用層控制指令,并依據(jù)任務(wù)執(zhí)行反饋修正動(dòng)作,最終完成人類交付的任務(wù)。整個(gè)過程基本無需或僅需少量人工干預(yù)確認(rèn),實(shí)現(xiàn)了機(jī)器人的自主運(yùn)行,無需專業(yè)機(jī)器人應(yīng)用工程師介入。

當(dāng)下,大模型在需求理解、任務(wù)分解等高等級(jí)控制任務(wù)方面表現(xiàn)卓越。依據(jù)《基于大模型的具身智能系統(tǒng)綜述》,傳統(tǒng)機(jī)器人分層控制分為規(guī)劃級(jí)、動(dòng)作級(jí)、基元級(jí)、伺服級(jí)四層,具身智能機(jī)器人控制則大致分為高層與低層。高層負(fù)責(zé)全局、長(zhǎng)期目標(biāo),包含需求級(jí)、任務(wù)級(jí)、規(guī)劃級(jí)和動(dòng)作級(jí);低層負(fù)責(zé)具體操作與實(shí)時(shí)反饋,涵蓋基元級(jí)與伺服級(jí)。相較于傳統(tǒng)機(jī)器人,具身智能機(jī)器人新增了需求級(jí)與任務(wù)級(jí)控制。盡管大模型具備豐富常識(shí)與較強(qiáng)推理能力,但精確性與實(shí)時(shí)性欠佳,所以目前較少直接參與機(jī)器人低層次控制,而是通過需求理解、任務(wù)規(guī)劃、動(dòng)作生成等方式主導(dǎo)較高層級(jí)控制。規(guī)劃級(jí)以下的控制規(guī)劃屬于傳統(tǒng)機(jī)器人控制范疇,更適配傳統(tǒng)機(jī)器人成熟的高頻控制方法。

多模態(tài)大模型打破單一模態(tài)大模型局限,強(qiáng)化了機(jī)器人整合多模態(tài)信息、處理復(fù)雜任務(wù)的泛化能力,為人形機(jī)器人大模型筑牢技術(shù)根基。以大語言模型(LLM)為基礎(chǔ)衍生出語言、圖片、視頻等單一模態(tài)大模型,借助強(qiáng)大的 LLM 執(zhí)行多模態(tài)任務(wù)。然而,LLM 僅能理解離散文本,處理多模態(tài)信息缺乏通用性。與此同時(shí),大型視覺基礎(chǔ)模型在感知層面進(jìn)展迅速,推理能力卻發(fā)展遲緩。由于二者優(yōu)缺點(diǎn)互補(bǔ)性強(qiáng),單模態(tài) LLM 與視覺模型逐漸融合,再結(jié)合圖像、視頻、音頻等模態(tài),催生了多模態(tài)大語言模型(MLLM)這一新領(lǐng)域。從形式上看,它是基于 LLM,能夠接收多模態(tài)信息并進(jìn)行推理的模型。從發(fā)展人工通用智能視角出發(fā),MLLM 比 LLM 更進(jìn)一步。MLLM 更貼合人類感知世界的方式,提供更友好的多模態(tài)輸入界面,是更全面的任務(wù)解決工具,不再局限于自然語言處理(NLP)任務(wù)。

2.2 國(guó)內(nèi)外科技巨頭與機(jī)構(gòu)紛紛入局,具身大模型成果頻出
具身智能機(jī)器人操作系統(tǒng)有望推動(dòng)人機(jī)交互變革,助力人形機(jī)器人商業(yè)化落地,成為國(guó)內(nèi)外科技巨頭與科研機(jī)構(gòu)的競(jìng)爭(zhēng)焦點(diǎn):
微軟:發(fā)表《ChatGPT for Robotics》等系列論文,探索運(yùn)用 GPT 控制機(jī)器人。微軟構(gòu)建高級(jí)機(jī)器人 API 或函數(shù)庫(技能庫),用戶以自然語言描述需求后,GPT 可靈活選用現(xiàn)有 API 或自行編程完成任務(wù)。
谷歌:接連推出 SayCan、Palm-E、RoboCat、RT-1、RT-2、RT-X 等多個(gè)具身智能大模型,探索不同技術(shù)路線的具身智能機(jī)器人操作系統(tǒng),包括基于真實(shí)數(shù)據(jù)訓(xùn)練的 VLA 路線以及合成數(shù)據(jù)訓(xùn)練路線等。
英偉達(dá):在 2025CES 上推出用于加速物理 AI 開發(fā)的平臺(tái) Nvidia Cosmo 以及一系列世界基礎(chǔ)模型。世界基礎(chǔ)模型是能預(yù)測(cè)、生成虛擬環(huán)境未來狀態(tài)物理感知視頻的神經(jīng)網(wǎng)絡(luò),助力開發(fā)者打造新一代機(jī)器人。
李飛飛團(tuán)隊(duì):發(fā)布 VoxPoser 系統(tǒng),通過 3D Value Map+LLM+VLM 相結(jié)合的方式,依據(jù)用戶自然語言直接輸出運(yùn)動(dòng)軌跡,操控機(jī)器完成任務(wù)。
特斯拉:Tesla Optimus 可完成分揀物品、做瑜伽等操作,其神經(jīng)網(wǎng)絡(luò)訓(xùn)練完全端到端,即直接從視頻輸入獲取信息并輸出控制指令。
國(guó)內(nèi)團(tuán)隊(duì):智元機(jī)器人、字節(jié)跳動(dòng)、科大訊飛等眾多國(guó)內(nèi)廠商已推出具身智能系統(tǒng)或機(jī)器人產(chǎn)品。

當(dāng)前具身智能架構(gòu)主要分為端到端模型與凍結(jié)參數(shù)大模型結(jié)合基礎(chǔ)模型兩類。端到端架構(gòu)可直接從輸入數(shù)據(jù)得出目標(biāo)結(jié)果,無需提示詞工程,簡(jiǎn)潔高效,常用于規(guī)劃級(jí)、動(dòng)作級(jí);凍結(jié)參數(shù)的大模型結(jié)合基礎(chǔ)模型,其中大模型通常在廣泛數(shù)據(jù)上完成預(yù)訓(xùn)練,既能發(fā)揮大模型強(qiáng)大能力,又保留針對(duì)特定任務(wù)微調(diào)的靈活性,多應(yīng)用于需求級(jí)、任務(wù)級(jí)。使用預(yù)訓(xùn)練模型可大幅縮短訓(xùn)練時(shí)間、減少數(shù)據(jù)用量,尤其適用于數(shù)據(jù)稀缺任務(wù)。

2.2.1 谷歌:從 SayCan 到 RT-X 的技術(shù)探索
SayCan:定位為 “High-Level,Do As I Can, Not As I Say”,于 2022 年 4 月發(fā)布。SayCan 模型旨在為機(jī)器人提供實(shí)用且可行的行動(dòng)指南。盡管 PaLM-E 能將任務(wù)拆分為語義邏輯合理的子任務(wù),但無法判斷子任務(wù)在現(xiàn)實(shí)中的可執(zhí)行性。原因在于大語言模型對(duì)真實(shí)物理世界客觀原理缺乏深刻理解與經(jīng)驗(yàn)參照,生成的子任務(wù)雖邏輯通順,機(jī)器人執(zhí)行時(shí)卻可能受阻。例如面對(duì) “我把飲料灑了,你能幫忙嗎?” 的問題,現(xiàn)有大語言模型可能回復(fù) “你可以試試用吸塵器”“對(duì)不起,我不是故意灑的”,但當(dāng)前環(huán)境中的機(jī)器人可能不具備使用吸塵器的能力,或者根本沒有吸塵器。

SayCan 嘗試將大模型 LLM 與物理任務(wù)關(guān)聯(lián)并解決上述問題。其中,Say 代表大模型 LLM,用于輸出高層級(jí)運(yùn)動(dòng)指令;Can 代表機(jī)器人在當(dāng)前環(huán)境下的能力,二者通過值函數(shù)(Value Function)結(jié)合,共同確定實(shí)際執(zhí)行指令。

RT-1:2022 年,Google 提出 Transformer 架構(gòu),該架構(gòu)最初用于解決翻譯問題,僅依靠注意力機(jī)制就能處理序列數(shù)據(jù)。新模型訓(xùn)練耗時(shí)短,對(duì)大數(shù)據(jù)和有限數(shù)據(jù)集均表現(xiàn)良好。由于引入注意力機(jī)制和殘差鏈接(即 “Attention Is All You Need”),計(jì)算效率更高,可加速訓(xùn)練與推理。

2022 年 12 月,Google 在 RT-1 中首次將 Transformer 與機(jī)器人結(jié)合。RT-1 主體由預(yù)訓(xùn)練視覺模型和經(jīng)解釋器處理的語言指令組成,兩部分通過 transformer 架構(gòu)輸出機(jī)器人動(dòng)作指令,采用模仿學(xué)習(xí)范式。訓(xùn)練數(shù)據(jù)源于 google 實(shí)驗(yàn)室兩個(gè)廚房環(huán)境中,機(jī)械臂抓取、放置動(dòng)作的記錄,包括文字指令、機(jī)器人視覺圖像、對(duì)應(yīng)每一幀圖像的機(jī)器人動(dòng)作指令(底盤速度、機(jī)械臂末端速度等)。

RT-1 核心模型架構(gòu)是將指令和圖像 token 化,壓縮 token 后輸出動(dòng)作。RT-1 將機(jī)器人動(dòng)作各維度均勻離散化、詞元化,再使用監(jiān)督學(xué)習(xí)損失進(jìn)行訓(xùn)練。為實(shí)現(xiàn)視覺 - 語言模型對(duì)機(jī)器人的控制,研究采用簡(jiǎn)單方法:將機(jī)器人動(dòng)作表示為文本 token,與 Web 規(guī)模視覺 - 語言數(shù)據(jù)集共同訓(xùn)練。

PaLM-E:2023 年 3 月發(fā)布,展示了將圖像和語言大模型知識(shí)遷移至機(jī)器人領(lǐng)域的路徑。PaLM-E 融合 Google 當(dāng)時(shí)最新的大型語言模型 PaLM 和先進(jìn)視覺模型 ViT-22B,在純文本基礎(chǔ)上,將輸入數(shù)據(jù)擴(kuò)展至多模態(tài)(主要來自機(jī)器人傳感器,如圖像、機(jī)器人狀態(tài)、場(chǎng)景環(huán)境信息等),并輸出文本形式的機(jī)器人運(yùn)動(dòng)指令,進(jìn)行端到端訓(xùn)練。

PaLM-E 能將高層級(jí)任務(wù)拆分為語義邏輯合理的子任務(wù),再依據(jù)已執(zhí)行步驟歷史記錄和當(dāng)前場(chǎng)景圖像觀察,生成下一步計(jì)劃。例如對(duì)于 “把抽屜里的薯片拿來給我” 的指令,PaLM-E 模型會(huì)輸出以下機(jī)器人運(yùn)動(dòng)指令:1、移動(dòng)到抽屜旁邊;2、打開抽屜;3、把薯片從抽屜里拿出來;4、把薯片帶到用戶旁邊;5、放下薯片;6、任務(wù)結(jié)束。

RT-2:2023 年 7 月發(fā)布,在 RT-1 基礎(chǔ)上升級(jí),可直接理解復(fù)雜指令操控機(jī)械臂。RT-2 旨在融合 VLM 的數(shù)學(xué)、推理、識(shí)別能力與 RT1 的操作能力,通過自然語言得到最終動(dòng)作。Google 提出在機(jī)器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級(jí)視覺語言任務(wù)上聯(lián)合微調(diào)視覺 - 語言模型的學(xué)習(xí)方式,由此產(chǎn)生的模型被稱為視覺 - 語言 - 動(dòng)作(VLA)模型,具備泛化到新對(duì)象、解釋命令以及根據(jù)用戶指令推理的能力。

RT-2 對(duì)輸出動(dòng)作進(jìn)行與 RT-1 相同的離散化操作,將詞元加入視覺 - 語言模型原有詞表,把動(dòng)作詞元視為另一種語言處理,無需改變?cè)幸曈X - 語言模型結(jié)構(gòu)設(shè)計(jì)。由于 RT-2 已在海量視覺問答任務(wù)中預(yù)訓(xùn)練,對(duì)圖片和任務(wù)指令理解經(jīng)驗(yàn)更豐富,在任務(wù)集合上泛化能力更強(qiáng)。例如在拾取、移動(dòng)、放置等具體任務(wù)中,智能體能夠精準(zhǔn)識(shí)別任務(wù)需求,憑借過往訓(xùn)練經(jīng)驗(yàn)準(zhǔn)確完成任務(wù)。

RT-X 系列:2023 年 10 月發(fā)布,該系列模型核心是讓機(jī)器人學(xué)習(xí)更多 “動(dòng)作”,提升任務(wù)泛化能力與成功率。谷歌構(gòu)建 Open X-Embodiment Dataset 數(shù)據(jù)庫,涵蓋從單機(jī)械臂到雙手機(jī)器人和四足機(jī)器人等 22 個(gè)類型、527 個(gè)機(jī)器人的 “動(dòng)作”。與 RT-1 相比,RT-1-X 任務(wù)完成成功率提升 50%;與 RT-2 相比,RT-2-X 展現(xiàn)出更好的任務(wù)泛化能力,成功率是之前最佳模型 RT-2 的三倍。這表明與其他平臺(tái)數(shù)據(jù)聯(lián)合訓(xùn)練,可為 RT-2-X 賦予原始數(shù)據(jù)集中沒有的技能,使其能夠執(zhí)行新任務(wù)。


RoboCat:2023 年 6 月發(fā)布,可通過自行生成訓(xùn)練數(shù)據(jù)集完善自身能力。谷歌將 Gato 架構(gòu)與大型訓(xùn)練數(shù)據(jù)集結(jié)合,該數(shù)據(jù)集包含各種機(jī)器人手臂的圖像序列和動(dòng)作,能解決數(shù)百個(gè)不同任務(wù)。首輪培訓(xùn)后,RoboCat 進(jìn)入 “自我提升” 培訓(xùn)周期,面對(duì)一系列全新任務(wù),每個(gè)新任務(wù)學(xué)習(xí)遵循五個(gè)步驟:1)使用人類控制的機(jī)械臂收集 100 - 1000 個(gè)新任務(wù)或機(jī)器人演示;2)在新任務(wù) / 分支上微調(diào) RoboCat,創(chuàng)建專門衍生代理;3)衍生代理在新任務(wù) / 手臂上平均練習(xí) 10,000 次,生成更多訓(xùn)練數(shù)據(jù);4)將演示數(shù)據(jù)和自生成數(shù)據(jù)整合到 RoboCat 現(xiàn)有訓(xùn)練數(shù)據(jù)集中;5)在新訓(xùn)練數(shù)據(jù)集上訓(xùn)練新版本 RoboCat。谷歌指出,RoboCat 完成一項(xiàng)新任務(wù)僅需 100 個(gè)演示,這種能力有助于加速機(jī)器人研究,減少對(duì)人類監(jiān)督訓(xùn)練的依賴,是邁向通用機(jī)器人的重要一步。

2.2.2 特斯拉:堅(jiān)守端到端算法路線,實(shí)現(xiàn)感知決策一體化
FSD(Full Self-Driving)即完全自動(dòng)駕駛,是特斯拉研發(fā)的自動(dòng)化輔助駕駛系統(tǒng),目標(biāo)是實(shí)現(xiàn) L5 級(jí)自動(dòng)駕駛。FSD V12(Supervised)是全新 “端到端自動(dòng)駕駛”,模型架構(gòu)有重大變革。據(jù)特斯拉 CEO 埃隆?馬斯克稱,特斯拉 FSD V12(Supervised)人工干預(yù)頻率僅為 FSD V11 的百分之一。FSD V12(Supervised)完全借助神經(jīng)網(wǎng)絡(luò)控制車輛,從機(jī)器視覺到驅(qū)動(dòng)決策均由神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)。該神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個(gè)視頻片段訓(xùn)練而成,取代了超 30 萬行 C++ 代碼。FSD V12(Supervised)降低了車機(jī)系統(tǒng)對(duì)代碼的依賴,使其決策過程更接近人類司機(jī)。

FSD V12 作為首個(gè)端到端自動(dòng)駕駛系統(tǒng),實(shí)現(xiàn)感知決策一體化。特斯拉 FSD v12 采用端到端大模型,消除了自動(dòng)駕駛系統(tǒng)在感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的界限,將三大模塊整合為一個(gè)大神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)生成車輛操控指令,簡(jiǎn)化信息傳遞流程,減少延遲與誤差,提升系統(tǒng)敏捷性與準(zhǔn)確性。FSD V12 能夠模擬人類駕駛決策,開辟自動(dòng)駕駛領(lǐng)域新路徑,也被稱作 “Baby AGI(嬰兒版通用人工智能)”,旨在感知、理解現(xiàn)實(shí)世界的復(fù)雜性。

特斯拉將車端 FSD 技術(shù)遷移至人形機(jī)器人。端到端算法從汽車自動(dòng)駕駛遷移到人形機(jī)器人,基本無需額外工作,因?yàn)檐嚤举|(zhì)上也是一種機(jī)器人。早期特斯拉 Optimus 機(jī)器人使用與汽車相同的計(jì)算機(jī)和攝像頭,其汽車神經(jīng)網(wǎng)絡(luò)在機(jī)器人上運(yùn)行時(shí),在辦公室移動(dòng)時(shí)仍試圖識(shí)別 “可駕駛空間”,而實(shí)際應(yīng)識(shí)別 “可行走空間”。這種通用化能力表明許多技術(shù)具有可遷移性,雖需微調(diào),但大部分系統(tǒng)和工具通用。

2.2.3 字節(jié) GR-2:具備高效動(dòng)作預(yù)測(cè)與泛化能力
GR-2 訓(xùn)練分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。GR-2 在 3800 萬個(gè)互聯(lián)網(wǎng)視頻片段上進(jìn)行生成式訓(xùn)練,因而得名 GR-2(Generative Robot 2.0)。這些視頻來自學(xué)術(shù)公開數(shù)據(jù)集,涵蓋人類在家庭、戶外、辦公室等不同場(chǎng)景的日?;顒?dòng),助力 GR-2 快速學(xué)習(xí)人類日常生活動(dòng)態(tài)與行為模式。這種預(yù)訓(xùn)練方式賦予 GR-2 學(xué)習(xí)多種操作任務(wù)、在多種環(huán)境泛化的潛能,使其積累了豐富知識(shí),加深對(duì)世界的理解。
在微調(diào)階段,GR-2 通過幾項(xiàng)關(guān)鍵改進(jìn)提升實(shí)際任務(wù)表現(xiàn)。其一,引入數(shù)據(jù)增強(qiáng)技術(shù),改變訓(xùn)練數(shù)據(jù)背景和物體,增強(qiáng)其在未知環(huán)境的泛化能力;其二,通過多視角訓(xùn)練,利用不同角度視覺數(shù)據(jù),提升在復(fù)雜場(chǎng)景操作的靈活性與準(zhǔn)確性;其三,為保證動(dòng)作流暢,GR-2 使用條件變分自編碼器(cVAE)生成連續(xù)、平滑的動(dòng)作序列,確保任務(wù)執(zhí)行高效精準(zhǔn)。
經(jīng)過大規(guī)模預(yù)訓(xùn)練,在機(jī)器人軌跡數(shù)據(jù)上微調(diào)后,GR-2 能夠預(yù)測(cè)動(dòng)作軌跡并生成視頻。其視頻生成能力使其在動(dòng)作預(yù)測(cè)方面優(yōu)勢(shì)顯著,準(zhǔn)確率大幅提升。只需輸入一幀圖片和一句語言指令,如 “pick up the fork from the left of the white plate”,GR-2 就能預(yù)測(cè)未來視頻并生成相應(yīng)動(dòng)作軌跡。實(shí)際運(yùn)行中,機(jī)械臂能夠準(zhǔn)確從白盤子左側(cè)抓起叉子,預(yù)測(cè)視頻與真機(jī)運(yùn)行效果高度一致。

GR-2 的強(qiáng)大之處不僅體現(xiàn)在完成已知任務(wù),更在于面對(duì)未知場(chǎng)景、物體時(shí)的泛化能力。無論全新環(huán)境、物體還是任務(wù),GR-2 都能迅速適應(yīng)并解決問題。在多任務(wù)學(xué)習(xí)測(cè)試中,GR-2 可完成 105 項(xiàng)不同桌面任務(wù),平均成功率達(dá) 97.7%。此外,GR-2 還能與大語言模型結(jié)合,完成復(fù)雜長(zhǎng)任務(wù),與人類互動(dòng),穩(wěn)健應(yīng)對(duì)環(huán)境干擾,在變化環(huán)境中成功完成任務(wù)。
在實(shí)際應(yīng)用方面,GR-2 相比前一代取得重大突破,能夠端到端完成兩個(gè)貨箱間的物體揀選。無論是透明、反光、柔軟物體,還是其他具有挑戰(zhàn)性的物體,GR-2 均能精準(zhǔn)抓取,展現(xiàn)出在工業(yè)領(lǐng)域和真實(shí)倉儲(chǔ)場(chǎng)景的應(yīng)用潛力。GR-2 不僅能處理 100 余種不同物體,如螺絲刀、橡膠玩具、羽毛球,甚至一串葡萄和一根辣椒,在從未見過的場(chǎng)景和物體上也表現(xiàn)出色。

2.3 具身大模型面臨的關(guān)鍵挑戰(zhàn)
2.3.1 關(guān)鍵挑戰(zhàn)一:泛化性薄弱
當(dāng)下的具身大模型在面對(duì)未知環(huán)境與任務(wù)時(shí),普遍存在泛化能力欠佳的狀況。具身任務(wù)常常涉及種類繁多的實(shí)體類型以及動(dòng)態(tài)變化的環(huán)境因素,一旦智能體與環(huán)境的動(dòng)力學(xué)參數(shù)發(fā)生改變,現(xiàn)有的具身策略便難以直接適用。以 RT-2 為例,在谷歌山景城辦公室廚房環(huán)境中進(jìn)行測(cè)試時(shí),RT-2 展現(xiàn)出極高的任務(wù)執(zhí)行成功率,近乎 98%。然而,一旦將場(chǎng)景切換至施工工地、嘈雜后廚這類復(fù)雜環(huán)境,其成功率便急劇下降,僅能達(dá)到 30% 左右。導(dǎo)致泛化性不足的原因是多方面的:其一,數(shù)據(jù)量匱乏,目前機(jī)器人操作領(lǐng)域的數(shù)據(jù)規(guī)模,與互聯(lián)網(wǎng)數(shù)據(jù)量級(jí)相差甚遠(yuǎn);其二,對(duì)錯(cuò)誤的容忍度極低,機(jī)器人操作相較于語言模型,對(duì)精度的要求更為嚴(yán)苛;其三,推理頻率不夠,大模型在實(shí)時(shí)操作過程中的表現(xiàn),仍有待進(jìn)一步提升;其四,在保證數(shù)據(jù)多樣性的同時(shí)維持訓(xùn)練穩(wěn)定性,始終是一項(xiàng)極具挑戰(zhàn)性的難題。
2.3.2 關(guān)鍵挑戰(zhàn)二:實(shí)時(shí)性欠佳
當(dāng)前大模型在具身策略的決策環(huán)節(jié)存在實(shí)時(shí)性問題。機(jī)器人控制的準(zhǔn)確性,不僅取決于系統(tǒng)計(jì)算得出的邏輯結(jié)果,還與結(jié)果產(chǎn)生的時(shí)間緊密相關(guān),正所謂 “遲到的結(jié)果并非正確的結(jié)果”。以 Figure 機(jī)器人為例,從其呈現(xiàn)的視頻中可以觀察到,存在約 2 - 3 秒的延遲時(shí)長(zhǎng)。這是因?yàn)樗捎昧?Pipeline、管道型路線,即自然語言指令發(fā)送后,機(jī)器人 “大腦” 需要時(shí)間去理解并生成指令,再由指令控制機(jī)器人動(dòng)作。而谷歌 RT - 2 的推理和控制指令生成速率僅能達(dá)到 1~5Hz,輸出運(yùn)動(dòng)頻率也只有 1 - 3Hz,致使機(jī)器人的 “反射弧” 長(zhǎng)達(dá) 0.3 秒甚至 1 秒,這與人類反應(yīng)速度以及眾多實(shí)際應(yīng)用場(chǎng)景的需求相比,差距明顯。
2.3.3 關(guān)鍵挑戰(zhàn)三:數(shù)據(jù)收集與合成數(shù)據(jù)的運(yùn)用
真實(shí)數(shù)據(jù)收集與標(biāo)注:端到端算法需要大量連續(xù)時(shí)序的駕駛行為視頻進(jìn)行標(biāo)注,而在人形機(jī)器人領(lǐng)域,這種數(shù)據(jù)收集、標(biāo)注以及閉環(huán)驗(yàn)證的過程同樣困難重重。人形機(jī)器人需要應(yīng)對(duì)更為復(fù)雜的環(huán)境與任務(wù),使得數(shù)據(jù)收集的難度和成本大幅攀升。與此同時(shí),鑒于人形機(jī)器人操作具有較高風(fēng)險(xiǎn)性,對(duì)數(shù)據(jù)標(biāo)注準(zhǔn)確性的要求也相應(yīng)更高。因此,人形機(jī)器人需要海量真實(shí)的人類實(shí)際數(shù)據(jù)集用于訓(xùn)練。
動(dòng)作捕捉技術(shù)和 VR 遠(yuǎn)程操作是實(shí)現(xiàn)人形機(jī)器人擬人化動(dòng)作數(shù)據(jù)采集的有效手段。動(dòng)作捕捉技術(shù)通過在人體關(guān)鍵部位粘貼反光標(biāo)記點(diǎn),或者運(yùn)用慣性傳感器等方式,精確捕捉人體的運(yùn)動(dòng)姿態(tài)和動(dòng)作數(shù)據(jù)。VR 遠(yuǎn)程操控技術(shù)則是人類佩戴 VR 眼鏡和手套,通過遠(yuǎn)程操作的方式來采集機(jī)器人數(shù)據(jù)。這些采集到的數(shù)據(jù)可用于訓(xùn)練人形機(jī)器人的動(dòng)作模型,使其能夠模擬出近似人類的動(dòng)作與行為。

合成數(shù)據(jù)的生成和使用:根據(jù)擴(kuò)展法則(Scaling Law),機(jī)器人數(shù)據(jù)集的規(guī)模大小在很大程度上決定了其性能優(yōu)劣。真實(shí)數(shù)據(jù)采集往往耗費(fèi)大量人力、物力成本,與之相比,合成數(shù)據(jù)僅依靠 AI 算法即可實(shí)現(xiàn)數(shù)據(jù)生成,不僅數(shù)據(jù)采集速度快,而且成本低廉。
此外,人形機(jī)器人面臨著場(chǎng)景復(fù)雜性與模型泛化能力的雙重挑戰(zhàn),在這種情況下,合成數(shù)據(jù)構(gòu)建的世界模型便發(fā)揮出重要作用。自動(dòng)駕駛場(chǎng)景相對(duì)較為結(jié)構(gòu)化,主要操作多在可預(yù)測(cè)、規(guī)范化的環(huán)境中進(jìn)行。而人形機(jī)器人的應(yīng)用場(chǎng)景極為多樣,涵蓋工廠、家庭、辦公室等,對(duì)泛化能力的要求遠(yuǎn)高于自動(dòng)駕駛汽車。基于世界模型生成高質(zhì)量的動(dòng)作視頻和規(guī)劃策略,在仿真環(huán)境中模擬各類復(fù)雜場(chǎng)景,有助于提升系統(tǒng)的魯棒性。
不過,合成數(shù)據(jù)生成過程中的關(guān)鍵問題在于,如何維持?jǐn)?shù)據(jù)集的熵和多樣性,避免生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)差異過大,或者出現(xiàn)樣式單一的情況。

三、機(jī)器人“大腦”的外延:云計(jì)算與邊緣計(jì)算
機(jī)器人的 “大腦” 以具身大模型為核心,其外延技術(shù)涵蓋多模態(tài)融合、大規(guī)模數(shù)據(jù)集、云邊端一體計(jì)算架構(gòu)等多個(gè)方面。具體而言,多模態(tài)融合感知技術(shù)能夠把視覺、觸覺等不同模態(tài)的數(shù)據(jù)直接輸入深度神經(jīng)網(wǎng)絡(luò),通過聯(lián)合學(xué)習(xí)實(shí)現(xiàn)多模態(tài)信息的無縫銜接,從而獲取更為全面、精準(zhǔn)的環(huán)境表征。大規(guī)模數(shù)據(jù)集為模型賦予廣泛的先驗(yàn)知識(shí),使其得以應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)環(huán)境。具身大模型借助在海量多模態(tài)數(shù)據(jù)上的預(yù)訓(xùn)練,將多模態(tài)輸入映射至統(tǒng)一的語義空間,并在此基礎(chǔ)上開展任務(wù)理解、決策規(guī)劃等高層認(rèn)知活動(dòng)。云邊端一體計(jì)算架構(gòu)通過軟硬件協(xié)同設(shè)計(jì),針對(duì)機(jī)器人應(yīng)用特點(diǎn)進(jìn)行優(yōu)化,能夠顯著提升系統(tǒng)的實(shí)時(shí)性、能效比與可靠性,充分發(fā)揮云、邊、端不同層級(jí)計(jì)算資源的優(yōu)勢(shì),實(shí)現(xiàn)具身大模型推理與多模態(tài)感知的高效協(xié)同。

3.1 機(jī)器人 “大腦” 的運(yùn)行保障:云計(jì)算
3.1.1 大模型深度賦能機(jī)器人,云計(jì)算提供算力及存儲(chǔ)
“云計(jì)算” 屬于分布式計(jì)算的一種,它通過網(wǎng)絡(luò) “云” 將龐大的數(shù)據(jù)計(jì)算處理程序拆解為無數(shù)小程序,再由多部服務(wù)器組成的系統(tǒng)對(duì)這些小程序進(jìn)行處理、分析,最終將結(jié)果反饋給用戶。用戶能夠通過網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲取所需資源。依據(jù)服務(wù)類型,云計(jì)算主要可劃分為三層:
IaaS(基礎(chǔ)設(shè)施即服務(wù)):為企業(yè)提供 IT 基礎(chǔ)設(shè)施,像服務(wù)器、存儲(chǔ)設(shè)備等。
PaaS(平臺(tái)即服務(wù)):提供計(jì)算、網(wǎng)絡(luò)、開發(fā)工具等資源,用于工具及應(yīng)用程序的創(chuàng)建。
SaaS(軟件即服務(wù)):指通過互聯(lián)網(wǎng)按需提供軟件應(yīng)用程序。
AI 與大模型對(duì)機(jī)器人進(jìn)行深度賦能,產(chǎn)生明確的算力需求,而云計(jì)算能夠提供算力與存儲(chǔ)空間。例如,谷歌在 2023 年 3 月推出的 PaLM-E 模型,融合了 ViT Vision Transformer 的 220 億參數(shù)與 PaLM 的 5400 億參數(shù),具備控制機(jī)器人視覺和語言的能力;以 ChatGPT 為代表的 NLP 領(lǐng)域的革命性進(jìn)展,未來將助力機(jī)器人語音語義分析及交互模塊的優(yōu)化,強(qiáng)大的語義模型有助于泛通用機(jī)器人理解更復(fù)雜指令與目標(biāo),進(jìn)而做出更契合人類期望的決策。云計(jì)算能夠?yàn)?AI、大模型與機(jī)器人的融合提供強(qiáng)大的計(jì)算能力、數(shù)據(jù)存儲(chǔ)空間,以及隨時(shí)隨地獲取所需資源和算法支持的靈活性與可拓展性。
3.1.2 云計(jì)算機(jī)器人及市場(chǎng)規(guī)模
云機(jī)器人技術(shù)是指運(yùn)用云計(jì)算(如云存儲(chǔ)、云處理等)以及其他相關(guān)技術(shù)(如大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等)來增強(qiáng)機(jī)器人功能的所有技術(shù)。本地機(jī)器人、網(wǎng)絡(luò)連接和云服務(wù)器是云機(jī)器人架構(gòu)的三大關(guān)鍵組成部分。
本地機(jī)器人:主要負(fù)責(zé)直接與環(huán)境交互,包括接收傳感器輸入(如視覺、觸覺、聲音等)并執(zhí)行動(dòng)作。本地機(jī)器人通常具備一定基礎(chǔ)計(jì)算能力,能夠進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理和決策。此外,本地機(jī)器人需要配備網(wǎng)絡(luò)接口,以便連接到云端。
網(wǎng)絡(luò)連接:作為本地機(jī)器人與云服務(wù)器之間的紐帶,負(fù)責(zé)數(shù)據(jù)和指令的傳輸。網(wǎng)絡(luò)連接需具備足夠帶寬,以支持大量數(shù)據(jù)傳輸,同時(shí)要具備高度可靠性和安全性,確保數(shù)據(jù)準(zhǔn)確無誤且安全無虞。
云服務(wù)器:是云機(jī)器人架構(gòu)的核心,提供大規(guī)模數(shù)據(jù)存儲(chǔ)和強(qiáng)大計(jì)算能力。云服務(wù)器可運(yùn)行各類軟件和服務(wù),如數(shù)據(jù)分析工具、機(jī)器學(xué)習(xí)模型、數(shù)據(jù)庫等。借助云服務(wù)器,機(jī)器人能夠共享數(shù)據(jù),利用強(qiáng)大計(jì)算資源執(zhí)行復(fù)雜任務(wù)。
以賽特智能推出的智塞拉為例,這是一款專為醫(yī)療領(lǐng)域打造的智能配送機(jī)器人,其強(qiáng)大功能和獨(dú)特的云機(jī)器人架構(gòu)有效提升了醫(yī)療服務(wù)的效率與質(zhì)量。智塞拉的本地機(jī)器人部分,配備了大容量箱體、高清雙目攝像頭、高精度定位導(dǎo)航系統(tǒng)、感知避障系統(tǒng)(超聲波雷達(dá)、激光雷達(dá)等)以及無線網(wǎng)絡(luò)連接模塊,這款自動(dòng)駕駛電動(dòng)車具備實(shí)時(shí)感知和自我導(dǎo)航能力。通過無線局域網(wǎng) / 4G/5G,智塞拉與云服務(wù)器實(shí)現(xiàn)無縫對(duì)接。其對(duì)接的云端包含醫(yī)院管理系統(tǒng)和配送路線規(guī)劃系統(tǒng),使智塞拉在實(shí)現(xiàn)藥品追溯和人員追溯的同時(shí),還能自主調(diào)用電梯,并在空閑時(shí)自動(dòng)返回充電。

根據(jù) Global Market insights 統(tǒng)計(jì),2022 年全球云機(jī)器人市場(chǎng)規(guī)模達(dá) 41 億美元,預(yù)計(jì) 2023 年至 2032 年的復(fù)合增長(zhǎng)率將超過 22.5%。其中,由于 SaaS 服務(wù)為企業(yè)提供了經(jīng)濟(jì)高效且可擴(kuò)展的云機(jī)器人功能訪問方式,為企業(yè)節(jié)省了大量基礎(chǔ)設(shè)施和軟件開發(fā)方面的前期投資,因此在市場(chǎng)中占據(jù)最大份額,超過 42%。隨著云機(jī)器人市場(chǎng)規(guī)模持續(xù)擴(kuò)大,云計(jì)算相關(guān)基礎(chǔ)設(shè)施有望充分受益。

3.2 機(jī)器人集群智能的核心:邊緣計(jì)算
云計(jì)算是為機(jī)器人等終端設(shè)備提供算力的主要方式,但在數(shù)據(jù)傳輸成本、時(shí)延、安全性等方面存在一定局限,這為邊緣計(jì)算提供了發(fā)展空間。
首先,大型數(shù)據(jù)中心存在增量算力邊際遞減現(xiàn)象,單位算力成本的上升將制約 “集中式” 算力的發(fā)展;其次,網(wǎng)絡(luò)性能會(huì)限制數(shù)據(jù)中心算力的發(fā)揮,長(zhǎng)距離數(shù)據(jù)傳輸會(huì)導(dǎo)致較高時(shí)延;最后,安全性也是不容忽視的因素。以工業(yè)機(jī)器人為例,部分工廠的設(shè)備管理人員出于防止信息竊取或工廠運(yùn)行遭到破壞等極端情況的考慮,不會(huì)將機(jī)器人、傳感器等設(shè)備的數(shù)據(jù)全部通過互聯(lián)網(wǎng)上傳至云端。邊緣計(jì)算的處理能力更接近設(shè)備或數(shù)據(jù)源,能夠?qū)崿F(xiàn)更低時(shí)延、更好隱私保護(hù)以及更優(yōu)成本控制。因此,“云 - 邊” 計(jì)算結(jié)合的模式能夠助力機(jī)器人突破網(wǎng)絡(luò)環(huán)境限制,大幅縮短響應(yīng)時(shí)間,提升其在復(fù)雜場(chǎng)景中的自適應(yīng)能力與應(yīng)用價(jià)值。
目前,集成了邊緣算力的模組正逐漸成為支撐機(jī)器人邊緣算力的核心形式。例如,在第六屆中國(guó)國(guó)際進(jìn)口博覽會(huì)上,德州儀器展示了搭載 TDA4x 處理器的達(dá)明 TM5S 協(xié)作機(jī)器人,基于 TDA4x 高效穩(wěn)定的數(shù)據(jù)處理能力,機(jī)械臂能夠識(shí)別鋪?zhàn)廊说膭?dòng)作并進(jìn)行相應(yīng)模仿,展現(xiàn)了智能制造場(chǎng)景下的創(chuàng)新應(yīng)用。特斯拉針對(duì) Optimus 機(jī)器人研發(fā)的 DOJO D1 芯片也發(fā)揮著類似作用。

國(guó)內(nèi)廠商也在積極探索,如 2023 年 5 月中科創(chuàng)達(dá)發(fā)布的 Rubik 魔方大模型,與公司產(chǎn)品、業(yè)務(wù)緊密融合,提升了邊緣計(jì)算在自然語言、圖形圖像處理、個(gè)性化推薦等領(lǐng)域的準(zhǔn)確性與效率。據(jù)公司官網(wǎng)介紹,中科創(chuàng)達(dá)將智能音箱與機(jī)器人融合,通過模擬大模型訓(xùn)練,實(shí)現(xiàn)了可自由對(duì)話的智能銷售機(jī)器人。
3.3 建議與風(fēng)險(xiǎn)
2025 年人形機(jī)器人行業(yè)邁入小批量量產(chǎn)階段,全球?qū)⒂袛?shù)千臺(tái)人形機(jī)器人進(jìn)入工廠場(chǎng)景進(jìn)行訓(xùn)練,這將加速人形機(jī)器人 “大腦” 的發(fā)展。目前人形機(jī)器人硬件端技術(shù)路線逐漸趨于一致,軟件端 “大腦” 智能水平的提升有望成為提升人形機(jī)器人自主性與泛化性的核心驅(qū)動(dòng)力。建議關(guān)注以下幾類公司:
“大腦” 領(lǐng)域:布局大模型與機(jī)器人業(yè)務(wù)融合的公司,如科大訊飛、中科創(chuàng)達(dá)、螢石網(wǎng)絡(luò)、柏楚電子、華依科技、芯動(dòng)聯(lián)科、漢王科技等。
AI + 機(jī)器人領(lǐng)域:具備高壁壘的公司,如 3D 視覺領(lǐng)域的奧比中光、大腦域控制芯片的天準(zhǔn)科技、新型傳感器的峰岹科技等。
同步受益的機(jī)器人本體公司:如總成方案提供商三花智控、拓普集團(tuán)等。
風(fēng)險(xiǎn)提示:
機(jī)器人算法迭代進(jìn)步速度不及預(yù)期:機(jī)器人算法的進(jìn)步并非呈線性發(fā)展,在某些數(shù)據(jù)缺失的情況下,算法訓(xùn)練的進(jìn)展可能會(huì)放緩。
人形機(jī)器人落地場(chǎng)景實(shí)際需求不及預(yù)期:機(jī)器人的實(shí)際應(yīng)用場(chǎng)景需結(jié)合 B 端 / C 端客戶的實(shí)際付費(fèi)意愿,可能與仿真環(huán)境模擬的使用場(chǎng)景存在差異。
市場(chǎng)競(jìng)爭(zhēng)加?。?/strong>人形機(jī)器人產(chǎn)業(yè)正處于快速發(fā)展的起步階段,潛力巨大。若其他此前未涉足相關(guān)業(yè)務(wù)的公司進(jìn)入市場(chǎng),可能導(dǎo)致市場(chǎng)競(jìng)爭(zhēng)加劇,影響現(xiàn)有市場(chǎng)參與者的收入和利潤(rùn)率水平。
· 鈦祺智庫·
1、如欲獲取完整版PDF文件,可以關(guān)注鈦祺汽車官網(wǎng)—>智庫,也可以添加鈦祺小助理微信,回復(fù)“報(bào)告名稱:汽車智能駕駛行業(yè)深度報(bào)告:端到端與AI共振,智駕平權(quán)開啟新時(shí)代 ”
2、鈦祺智庫目前已收錄2000+篇汽車行業(yè)最新技術(shù)報(bào)告,供行業(yè)朋友查閱、參考。
3、鈦祺智庫持續(xù)更新、收錄行業(yè)深度技術(shù)文章、研究報(bào)告,并不定期上傳行業(yè)專家特約文章,為汽車行業(yè)朋友提供專業(yè)支持。
請(qǐng)注冊(cè)賬號(hào),免費(fèi)下載報(bào)告:https://doc.taiqiol.com/m/Register.aspx;
熱門跟貼