打開網(wǎng)易新聞 查看精彩圖片

春節(jié)期間,不同類型的機器人吸引了公眾的關(guān)注。春晚舞臺上,身著花棉襖的機器人翩翩起舞;泰山的陡峭山巔,外骨骼機器人幫助游客順利登頂;在海南,U型機器人與沖浪教練攜手營救落水游客。

2024年,具身智能行業(yè)迎來了深刻的變革。硬件層面,機器人形態(tài)趨于標(biāo)準(zhǔn)化,越來越多的公司能夠迅速打造出具備人形外觀的機器人;軟件層面,技術(shù)路徑日漸明晰,行業(yè)正在向機器人基礎(chǔ)大模型的框架邁進;與此同時,行業(yè)的“入局者”也呈現(xiàn)多元化趨勢——除傳統(tǒng)機器人領(lǐng)域的企業(yè)外,自動駕駛和大廠背景的創(chuàng)業(yè)者們紛紛投身于這一前沿科技領(lǐng)域。

具身智能的發(fā)展令人矚目,但依舊存在一些亟待深入探討的問題:如何突破機器人商業(yè)化的瓶頸?具身智能還需在哪些方面進一步完善其本體?如何提升機器人操作的泛化能力,使其能夠適應(yīng)更多樣化的應(yīng)用場景?大模型對具身智能發(fā)展帶來了怎樣的深遠影響?

在峰瑞資本2024年投資人年度峰會上,逐際動力創(chuàng)始人張巍博士發(fā)表了題為《具身智能:機遇與挑戰(zhàn)》的演講,分享了他對具身智能領(lǐng)域前沿技術(shù)、商業(yè)化路徑等方面的思考。

我們也邀請了峰瑞資本副總裁顏黔杭補充分享了其對具身智能領(lǐng)域的投資思考,詳見文末,希望能提供新的視角。

互動福利

你覺得機器人會給我們的生活、工作帶來哪些變化?歡迎在留言區(qū)和我們聊聊~截止至2月17日17:00,留言最走心的5位讀者,將獲得峰瑞行研手冊一份。

逐際動力創(chuàng)始人首次公開演講:機器人缺的不是「大腦」,而是學(xué)習(xí)能力

來源:RoboX

作者:小曹

打開網(wǎng)易新聞 查看精彩圖片

/ 01 /

代替人和協(xié)助人是兩件事”

張巍認為,具身智能是當(dāng)下最火的一條賽道,盡管它目前仍面臨很多問題和質(zhì)疑,但背后還是有一個共識——具身智能是未來十年人類最重要的科技革命。

如果機器人的定位是“代替人完成可以改變物理世界的任務(wù)”,這其中就有兩個關(guān)鍵詞——“代替人”和“任務(wù)”,它們看似簡單,其實往往是巨大的陷阱——如果不理解透這兩個詞,具身智能落地就會變得異常復(fù)雜。

他表示,逐際動力(以下簡稱“逐際”)的觀點和定位,并非是讓機器人去代替人,而是Empower人——“機器人不會代替人,它背后的邏輯是很復(fù)雜的?!?/p>

首先,張巍用兩個具身智能類型,分析了其背后的商業(yè)化難點。

1、機器人+AI:他表示,上一代的機器人+AI模式已經(jīng)持續(xù)很長一段時間,這是商業(yè)化最難的方向,它可能只是“海市蜃樓”。

此類機器人能在工廠里能完成非常復(fù)雜的分揀任務(wù),或者快遞包裹分揀。但是它們在真正的商業(yè)閉環(huán)上,還是有很多挑戰(zhàn)的:“沒準(zhǔn)賣出去的那一剎那,就是賠錢的開始。”

2、無人駕駛:在張巍看來,從2016-2024年,無人駕駛已經(jīng)發(fā)展了很長時間,卻仍難以評判其成熟度——“當(dāng)感覺找到“技術(shù)開關(guān)”時,卻還是有“最后的10%”的難度是無法估計的,恰恰就是這10%,是影響整體發(fā)展的關(guān)鍵?!?/p>

同時,其商業(yè)價值也很難判斷。因為代替人,和協(xié)助人,這兩件事是有本質(zhì)區(qū)別的,它們有著不同的商業(yè)模式,也會帶來不同的產(chǎn)品,這兩種產(chǎn)品所經(jīng)受的考驗是完全不一樣的。

讓機器人“用起來”其實非常簡單,可是形成商業(yè)閉環(huán)卻非常難?,F(xiàn)在上路的無人車,或者配送車的本體,都不是主角,在整個商業(yè)價值鏈條里可能占比不到10%。

同樣的,機器人產(chǎn)品本身也只占商業(yè)鏈條的不到10%,剩下的部署維護、改造場景,協(xié)作關(guān)系等部分才是最大的開銷。所以機器人不光有好的本體,還一定要有數(shù)據(jù)工具、訓(xùn)練工具、部署工具,以及維護工具,這一整套的效率體系才是競爭力,而非本體。

同理,如果想讓機器人代替人,并非改變本體的問題,而是要改變一整套協(xié)作關(guān)系。

/ 02 /

大語言模型,能做的仍很有限

現(xiàn)在提到具身智能,人們都會聯(lián)想到與大語言模型的結(jié)合。例如,要想將人類的意圖告訴機器,就需要task encoding或者embedding(任務(wù)編碼或嵌入),大腦要先對task進行處理和決策,再由小腦去執(zhí)行運動。

對比起來看的話,無人車是非常簡單的具身智能任務(wù),因為其任務(wù)定義很明確,唯一目標(biāo)就是到達目的地,在結(jié)構(gòu)化的道路上移動。而且,無人車的“小腦”就是底盤和域控制器,如今也已經(jīng)非常成熟。

即便如此,張巍也不認為目前的無人駕駛可算作“完全替代人”:“它本質(zhì)上還是AI+人。無人駕駛只是用技術(shù)改變了人開車的方式?!?/p>

而對于具身智能來說,完全代替人類更加困難。張巍用一個很簡單的任務(wù)舉例:收拾一下桌子??蛇@樣的任務(wù)卻很難被機器人拆解和執(zhí)行,比如,到底收拾桌子上的哪些物品,收拾到什么程度算干凈?“如果沒有大語言模型,大家甚至都不太敢想機器人能執(zhí)行這樣的任務(wù)。但現(xiàn)在只是敢想,具體怎么做還不清楚?!?/p>

/ 03 /

具身智能行業(yè)還需要發(fā)展哪一種本體?

打開網(wǎng)易新聞 查看精彩圖片

理想化的想法,是用數(shù)據(jù)堆出一個“具身大腦”,同時也有通用小腦+通用本體,就能完成各種任務(wù)。

但是張巍認為,采用一致的通用本體形態(tài),是沒有必要的。對此,他總結(jié)出現(xiàn)有的四大本體類型:

  • 機械臂,它的控制器小腦極其成熟。

  • 輪式底盤+雙臂,它的控制器也相對成熟。

  • 人形+人形特有的小腦。

  • 人形的下半身,只有雙腿或四腿,主要完成locomotion(移動能力)的任務(wù)。

打開網(wǎng)易新聞 查看精彩圖片

▲ 逐際動力人形機器人CL。圖片來源:逐際動力

本質(zhì)上機器人就在做兩件事:代替人的雙手來操作、代替人的雙腿來移動。他認為,在行業(yè)發(fā)展過程中,創(chuàng)造最大價值的應(yīng)該是這兩類本體,所以逐際也是選擇做這兩類?!把簩氀耗囊粋€,去做哪種本體?我認為這不是一個好問題,好的問題是‘這個行業(yè)還需要發(fā)展哪一種本體’?!?/p>

在他看來,要想做高價值的本體,需要3個條件:1、目前在物理世界中尚不存在;2、原理上可支持被做出來;3、未來一定是機器人形態(tài)中的一種。

/ 04 /

模型就像牛頓定律,是歷史數(shù)據(jù)的壓縮

“有觀點認為,一個大模型,就可能成為整個具身智能的大腦。其實這是個不切實際的想法,其實具身智能要好多大腦。而且現(xiàn)在我們不缺某個領(lǐng)域里的大腦,我們?nèi)钡氖菍W(xué)習(xí)的能力,也就是高效處理數(shù)據(jù)的能力。”張巍說道。

張巍認為,具身算法定義硬件,但數(shù)據(jù)定義算法。所有的數(shù)據(jù)都要被用上,尤其是真機數(shù)據(jù)(在真實硬件設(shè)備上采集和生成的數(shù)據(jù))很重要。

不可否認的是,仿真是一種對模型的使用方式,且仿真和模型對數(shù)據(jù)的發(fā)生和產(chǎn)生都有巨大幫助。但是如果從數(shù)據(jù)整合的角度來看,模型是歷史數(shù)據(jù)的壓縮,就像牛頓定律,可以看作是對所有運動物體的數(shù)據(jù)的一個壓縮,且壓縮得比較好。

“所有壓縮好的數(shù)據(jù),都可以用來產(chǎn)生新的數(shù)據(jù),幫助推進泛化?!狈夯砸馕吨鴻C器人能夠?qū)奶囟ōh(huán)境或任務(wù)中獲得的經(jīng)驗,遷移到新的環(huán)境或任務(wù)中。例如,一個機器人可能在特定的房間內(nèi)學(xué)會如何避開障礙物,但其泛化性強的話,它應(yīng)該能夠在不同的環(huán)境里也能有效避障。

他指出,操作的泛化性有好多種,有分模塊的,有端到端的,它們本質(zhì)是對數(shù)據(jù)的利用和假設(shè)的不同方式。

打開網(wǎng)易新聞 查看精彩圖片

▲ 逐際動力人形機器人CL正在“亞洲蹲”。

圖片來源:逐際動力

“但是當(dāng)前,我們的所有數(shù)據(jù)處理方法都難以達到理想中的功能需求。所以現(xiàn)在不能盲目地追求在一種方法上堆數(shù)據(jù)、提升性能,而是要找到‘曲線D’,也就是我稱之為‘性能數(shù)據(jù)比’或者‘?dāng)?shù)據(jù)性能轉(zhuǎn)化率’的一條曲線。”

那么,怎樣才能提升數(shù)據(jù)利用率?張巍表示,其實從容易獲得的規(guī)則數(shù)據(jù)中,有很多信息能幫助我們指導(dǎo)操作的泛化性。

他展示了一個逐際動力的案例——不需要大規(guī)模采集真機和模擬數(shù)據(jù),而是通過text prompt,讓大模型生成人類操作的視頻,就能指導(dǎo)協(xié)作機械臂完成操作任務(wù)。“我們的數(shù)據(jù)利用率,可達當(dāng)前算法的100倍?!睆埼≌f道。

他表示,逐際之所以做人形本體加全控小腦,是希望將“未來一定有用,現(xiàn)在還沒有做得很好”的這一類東西做好。

同時,逐際也在研發(fā)低成本的具身大腦工業(yè)母機,探索一種新型的學(xué)習(xí)訓(xùn)練方式,以求具身智能可以在任意領(lǐng)域中以更高的效率去完成可泛化的任務(wù)。

張巍強調(diào)稱,逐際動力的核心的定位一直都是Empower innovators:“我們不直接進工廠,我們的定位是希望做具身智能的英偉達,將具身智能創(chuàng)新、落地的效率提升百倍千倍?!?/p>

據(jù)他透露,目前逐際的人形機器人(大負載全身搬運)已經(jīng)用最低成本的方式完成了原理驗證,而且是在驗證目標(biāo)沒有被取舍掉的前提下。同時,逐際還將發(fā)布第一款全尺寸人形機器人,能夠原地起立、直膝行走。

打開網(wǎng)易新聞 查看精彩圖片

▲ 逐際動力全尺寸人形機器人。圖片來源:逐際動力

/ 05 /

投資人說:我們?nèi)绾慰淳呱碇悄苄袠I(yè)?

打開網(wǎng)易新聞 查看精彩圖片

感謝張博深入的洞察和思考。峰瑞資本持續(xù)關(guān)注具身智能領(lǐng)域的創(chuàng)新機會,非常歡迎相關(guān)領(lǐng)域的創(chuàng)業(yè)者、投資人與我們深入交流,請聯(lián)系qianhang@freesvc.com

在具身智能領(lǐng)域,我們看到如下變化與機會:

一、2024年,具身智能行業(yè)發(fā)生的重大變化

2024年,具身智能市場經(jīng)歷了顯著的變化,主要體現(xiàn)在硬件和軟件兩個方面。

硬件層面,機器人形態(tài)趨于統(tǒng)一。行業(yè)逐漸形成共識,機器人整體結(jié)構(gòu)和核心零部件的選型設(shè)計趨同。這意味著硬件搭建的門檻大幅降低,越來越多的公司能夠快速搭建出人形機器人。

軟件層面,技術(shù)路徑更加清晰。過去,機器人主要依賴于模型預(yù)測控制(MPC)、模仿學(xué)習(xí)和強化學(xué)習(xí)等單點策略實現(xiàn)某類任務(wù)。而現(xiàn)在,行業(yè)正向機器人基礎(chǔ)大模型的框架靠攏。具體來說,機器人通過視頻預(yù)訓(xùn)練、高質(zhì)量數(shù)據(jù)的微調(diào)(SFT),以及實際場景的數(shù)據(jù)反饋進行強化學(xué)習(xí),優(yōu)化任務(wù)表現(xiàn)。

此外,入局者也發(fā)生了變化。除了傳統(tǒng)的機器人行業(yè)從業(yè)者,自動駕駛企業(yè)和大廠背景的創(chuàng)業(yè)者也開始投身具身智能領(lǐng)域。這一趨勢在2024年下半年尤為明顯,人形機器人市場正在吸引更多跨行業(yè)的關(guān)注和資源。

二、全球具身智能的發(fā)展階段與中國市場的獨特優(yōu)勢

目前,全球具身智能行業(yè)處于技術(shù)逐步收斂的階段,各家的方法論趨于相似,擁抱AI。具體來說,操作和運動控制都開始強調(diào)基礎(chǔ)大模型和全身運動控制。

然而,仍有一些挑戰(zhàn)亟待解決,比如:

  • 如何更好地實現(xiàn)全身控制,提高機器人的運動能力。

  • 如何整合物理世界的傳感數(shù)據(jù),在機器人運動智能決策模塊實現(xiàn)實時反饋。

  • 如何實現(xiàn)機器人基礎(chǔ)大模型的泛化能力(面對新樣本時的預(yù)測能力)。

中國市場的獨特優(yōu)勢在于硬件供應(yīng)鏈響應(yīng)速度快,下游工業(yè)和服務(wù)業(yè)場景對機器人的需求量大,數(shù)據(jù)積累豐富。這些優(yōu)勢為國內(nèi)廠商提供了良好的發(fā)展基礎(chǔ)。然而,挑戰(zhàn)也同樣存在,特別是在關(guān)鍵技術(shù)研發(fā)和產(chǎn)品化方面,國內(nèi)廠商需要突破現(xiàn)有的技術(shù)瓶頸,才能在競爭格局中占據(jù)有利位置。

三、逐際動力為具身智能行業(yè)帶來新的可能性

2024年,逐際動力在人形機器人領(lǐng)域的技術(shù)和產(chǎn)品兩方面都取得了顯著進展,為具身智能行業(yè)帶來新的可能性。

技術(shù)層面,逐際一直走在行業(yè)前沿,持續(xù)推動人形機器人全身運動、感知決策、任務(wù)執(zhí)行等核心技術(shù)的研發(fā)。產(chǎn)品層面,逐際推出創(chuàng)新的“三合一”模塊化產(chǎn)品Tron1,主要面向科研市場。這一產(chǎn)品為下游客戶提供了一個軟硬件完善的平臺,幫助他們實現(xiàn)研發(fā)和落地的需求。人形機器人最新一代產(chǎn)品即將在25年發(fā)布,我們非常期待。

四、2025年,具身智能賽道的機遇

2025年,具身智能賽道的機遇與挑戰(zhàn)并存。從融資和創(chuàng)業(yè)的角度來看,隨著創(chuàng)業(yè)者不斷涌現(xiàn),主流基金已經(jīng)在具身智能領(lǐng)域完成了布局,新公司的融資機遇相比于前兩年會門檻會提升。

然而,從技術(shù)角度來看,具身智能仍處于科研階段,尚未形成大規(guī)模商業(yè)化。因此,對于那些在關(guān)鍵技術(shù)挑戰(zhàn)上(如全身控制、泛化能力等)有底層創(chuàng)新的公司,依然有切入創(chuàng)業(yè)的窗口期。

五、具身智能的商業(yè)化應(yīng)用前景

近期,機器人相關(guān)視頻爆火,比如機器人在春晚搖手絹、登山徒步等等,反映了公眾對機器人的美好期許。但這些視頻更多展示了機器人的運動能力和智能化水平,搖手絹或登山徒步這些場景是一個很具象的展現(xiàn)方式,讓公眾對人形機器人的商業(yè)化未來充滿期待。

整體來看,具身智能的商業(yè)化應(yīng)用前景廣闊,但目前仍處于早期技術(shù)研發(fā)階段,距離產(chǎn)品化和大規(guī)模商業(yè)化還有較長的路徑。

人形機器人商業(yè)化的關(guān)鍵在于控制機器人的產(chǎn)品化成本,以及機器人高效完成通用化任務(wù)的能力。短期內(nèi),人形機器人的商業(yè)化應(yīng)用仍以科研和展示為主。未來,真正的商業(yè)化應(yīng)用可能會率先出現(xiàn)在工業(yè)和服務(wù)業(yè)領(lǐng)域。

目前市場的共識是,人形機器人將成為輔助人類的智能助理(機器人形態(tài)的AI Agent),而不是簡單的替代人力。例如,在重復(fù)性體力勞動與對人身健康不友好的場景,機器人可以成為“得力助手”,提高人的工作效率。

以上是我對具身智能領(lǐng)域的一些思考,非常期待與具身智能領(lǐng)域的從業(yè)者交流。

互動福利

你覺得機器人會給我們的生活、工作帶來哪些變化?歡迎在留言區(qū)和我們聊聊~截止至2月17日17:00,留言最走心的5位讀者,將獲得峰瑞行研手冊一份。

打開網(wǎng)易新聞 查看精彩圖片

星標(biāo)峰瑞資本微信公眾號

一手商業(yè)思考及時送達