
作者| 金旺
自2024年5月深入具身智能領(lǐng)域后,英特爾走訪了近20家人形機(jī)器人企業(yè),他們發(fā)現(xiàn),在這個市場中,無論是初創(chuàng)團(tuán)隊,還是老牌自動控制或機(jī)器人團(tuán)隊,都在積極發(fā)力具身智能。
“這是一個雙向積極投入的行業(yè),”英特爾內(nèi)部調(diào)研團(tuán)隊當(dāng)時得出如是結(jié)論。
作為具身智能的終極形態(tài),當(dāng)時國內(nèi)人形機(jī)器人產(chǎn)業(yè)隨著全球人形機(jī)器人熱潮得到了空前發(fā)展,人形機(jī)器人政策相繼推出,人形機(jī)器人初創(chuàng)團(tuán)隊不斷涌現(xiàn)。
來自GGII統(tǒng)計數(shù)據(jù)顯示,2024年國內(nèi)人形機(jī)器人銷量為2400臺,這個數(shù)據(jù)到2030年預(yù)計將達(dá)到16.2萬臺。
如果將這一數(shù)據(jù)放到與當(dāng)前產(chǎn)業(yè)結(jié)合度更高的具身智能領(lǐng)域來看,國內(nèi)十萬量級、乃至百萬量級的機(jī)器人都在經(jīng)歷著一場具身智能變革。
01 具身智能≠人形機(jī)器人
什么是具身智能?
艾倫·圖靈在上世紀(jì)五十年代就曾提到,”具身智能是通過與環(huán)境交互獲得知識并泛化應(yīng)用能力?!坝ミ_(dá)創(chuàng)始人黃仁勛則指出,”具身智能是能夠感知、推理并與物理世界互動的智能系統(tǒng)?!?/p>
不難發(fā)現(xiàn),具身智能不僅僅是指人形機(jī)器人,而是有著更廣泛的定義。
浙江人形機(jī)器人創(chuàng)新中心首席科學(xué)家、浙江大學(xué)求是特聘教授熊蓉在近日的2025英特爾具身智能解決方案推介會上就指出,“人形機(jī)器人代表的是一種通用形態(tài),具身智能代表的是一種通用的行為智能,二者結(jié)合能實現(xiàn)取代專用機(jī)器人的多功能機(jī)器人,有更廣闊的應(yīng)用市場。”

不過,在英特爾的前期調(diào)研中,他們發(fā)現(xiàn),短期內(nèi),具身智能和人形機(jī)器人的發(fā)展還難以實現(xiàn)洗碗、疊衣服、收拾房間、照顧老人等大家都很期待的生活化功能。
具身智能和人形機(jī)器人的發(fā)展將會有明顯的階段劃分:
首先會在工業(yè)領(lǐng)域落地發(fā)展,例如特斯拉計劃將機(jī)器人率先在工廠中落地應(yīng)用,國內(nèi)具身智能團(tuán)隊同樣主要集中在推動具身智能機(jī)器人在制造業(yè)應(yīng)用落地。
未來在在制造業(yè)得到驗證后,具身智能和人形機(jī)器人將會進(jìn)一步推向服務(wù)行業(yè),最終才是進(jìn)入大眾生活場景。
這是具身智能和人形機(jī)器人的應(yīng)用路徑,具體到現(xiàn)階段具身智能產(chǎn)業(yè)化探索時,率先推動具身智能應(yīng)用落地的制造業(yè)企業(yè)在梳理工廠中遇到的問題、找出需要投入大量人力并嘗試通過具身智能進(jìn)行改造時發(fā)現(xiàn),他們需要的機(jī)器人的形態(tài)不一定通過雙腿行走的人形。
英特爾技術(shù)專家根據(jù)實際調(diào)研結(jié)果解釋稱,“工廠中有些固定工位面臨操作復(fù)雜、靈活度高的任務(wù)難以用傳統(tǒng)方式解決,有些場景則需增加移動能力來更好地落地應(yīng)用,我們認(rèn)為具身智能不等于人形機(jī)器人。”
就制造業(yè)而言,據(jù)IFR統(tǒng)計數(shù)據(jù)顯示,截至2023年底,中國工業(yè)機(jī)器人保有量達(dá)175.5萬臺,2023年裝機(jī)量達(dá)到27.6萬臺,占全球裝機(jī)量高達(dá)51%。

其中,機(jī)械臂和AGV/AMR應(yīng)用尤為成熟,2024年國內(nèi)新增機(jī)械臂29.4萬臺,新增AGV/AMR 19.3萬臺,這些機(jī)器人的質(zhì)量和精度都已經(jīng)很不錯,但智能性有待進(jìn)一步提升。
這樣的需求同樣是具身智能在制造業(yè)場景落地中的實際應(yīng)用需求,不過,要滿足具身智能的廣泛應(yīng)用需求,依然面臨著諸多難題。
02 具身智能需要怎樣的算力?
過去三十年里,隨著中國制造業(yè)的快速發(fā)展,機(jī)器人,尤其是工業(yè)機(jī)器人在國內(nèi)得到了充分的應(yīng)用和發(fā)展,而作為自動化領(lǐng)域的集大成者,機(jī)器人一直在追求智能化。
由大模型帶來的具身智能技術(shù)突破,為機(jī)器人帶來進(jìn)一步智能化的可能。
熊蓉指出,“傳統(tǒng)機(jī)器人研究會把傳感器獲取的關(guān)鍵驅(qū)動執(zhí)行過程拆解為一系列問題,并對每個問題進(jìn)行建模,尋找合適的數(shù)學(xué)方法求解,最優(yōu)化理論、概率推理等方法在其中發(fā)揮了重要作用。如今的具身智能是由專家建模求解轉(zhuǎn)為數(shù)據(jù)驅(qū)動學(xué)習(xí)訓(xùn)練,由模塊解耦分離轉(zhuǎn)為感控一體端到端?!?/p>
大模型的技術(shù)發(fā)展,VLA端到端模型的持續(xù)研究,讓感控一體端到端、大小腦融合成了具身智能機(jī)器人如今的一大技術(shù)發(fā)展趨勢。
這樣的技術(shù)發(fā)展趨勢,又將為機(jī)器人技術(shù)研究和產(chǎn)業(yè)應(yīng)用帶來怎樣的好處呢?
在接受媒體采訪時,熊蓉進(jìn)一步指出,“現(xiàn)在的小腦不再只是一個執(zhí)行的控制,我們希望它具備像視覺伺服、視力伺服等能力,能夠?qū)ψ鳂I(yè)對象形成控制。如果大小腦分開的話,一些傳感器基于大腦控制,下傳就會出現(xiàn)信息過大,不僅對網(wǎng)絡(luò)帶寬提出了很高的要求,也會帶來延時問題,因而大小腦在硬件上的分離使我們很難做多種傳感器融合,大小腦融合很好地解決了這些問題。”
然而,端到端系統(tǒng)、大小腦融合對算力同樣提出了“融合”需求。
具身智能現(xiàn)階段主流計算方案中,通常是以英特爾酷睿、凌動系列芯片進(jìn)行小腦控制,以主流GPU芯片進(jìn)行大腦控制,這樣的大小腦雙系統(tǒng)架構(gòu)解決了具身智能專用算力問題,但也帶來了硬件成本高、功耗與尺寸優(yōu)化空間有限、網(wǎng)絡(luò)通信延時不可控、軟硬件研發(fā)成本上升等問題。
如何為具身智能機(jī)器人定制一個大小腦融合的專用計算解決方案,這時就顯得尤為關(guān)鍵。
近日,英特爾正式對外發(fā)布了其具身智能大小腦融合方案。
早在2023年12月,英特爾正式對外發(fā)布第一代酷睿Ultra處理器,和英特爾以往發(fā)布的處理器不同的是,英特爾酷睿Ultra系列處理器不再僅僅是一顆CPU,而是一顆集成了CPU、GPU,以及低功耗、高性能的NPU的處理器。
這樣的計算架構(gòu)不僅讓英特爾開啟了AI PC時代,也為其在具身智能領(lǐng)域應(yīng)用奠定了基礎(chǔ)。
據(jù)英特爾中國網(wǎng)絡(luò)與邊緣技術(shù)與產(chǎn)品總監(jiān)王景佳在發(fā)布會上透露,“我們今天推出的英特爾酷睿Ultra 200H系列處理器方案總AI算力已經(jīng)達(dá)到96TOPS,而今年下半年即將發(fā)布的基于18A制程的下一代英特爾Panther Lake總算力將超過180TOPS。”

在基于英特爾酷睿Ultra 200H系列處理器的具身智能解決方案中,CPU支持具身智能方案進(jìn)行復(fù)雜的運(yùn)動控制,英特爾銳炫GPU用于具身智能處理環(huán)境感知、任務(wù)識別、任務(wù)規(guī)劃、大語言模型、視覺語言模型和端到端模型等復(fù)雜任務(wù),NPU則用于承載語音識別、實時視覺處理、傳感器數(shù)據(jù)分析等需長時間運(yùn)行的AI任務(wù)。
具體到實際應(yīng)用場景中,熊蓉指出,“我們發(fā)現(xiàn),在訓(xùn)練階段,機(jī)器人系統(tǒng)對GPU的性能有一定要求,但在實際的探索和推理過程中,對CPU的性能要求更高,這也是我們?yōu)槭裁磿捎肅PU+GPU方案的原因?!?/p>
03 機(jī)器人的具身智能升級路徑
從本田的ASIMO、波士頓動力的Atlas,到特斯拉的Optimus、宇樹的H1,人形機(jī)器人進(jìn)入大眾視野已有二十多年。
在這二十多年里,英特爾技術(shù)專家認(rèn)為,機(jī)器人經(jīng)歷了工業(yè)自動化、大模型、端到端模型三個階段,在這三個階段中,分別對算力提出了不同需求:

工業(yè)自動化階段,機(jī)器人依賴傳統(tǒng)計算機(jī)視覺、3D點云計算或深度學(xué)習(xí)網(wǎng)絡(luò)來獲取視覺信息,利用3D SLAM技術(shù)實現(xiàn)定位導(dǎo)航,并通過Moveit等運(yùn)動軌跡規(guī)劃庫實現(xiàn)雙臂控制。全身平衡和步態(tài)控制則依賴于WBC、MPC等傳統(tǒng)控制算法,實時控制和更高頻率的電機(jī)控制計算仍然是關(guān)鍵。
大模型階段,大語言模型和視覺大模型增強(qiáng)了具身智能的泛化能力,大語言模型可以直接和機(jī)器人交互,實現(xiàn)任務(wù)編排,視覺大模型則通過視覺泛化能力提升了機(jī)器人對環(huán)境的理解能力,并為機(jī)器人操作提供關(guān)于未知物體的輔助信息。
端到端模型階段,從去年下半年至今,學(xué)術(shù)界和產(chǎn)業(yè)界對端到端模型的研發(fā)投入了大量資源。此前大模型體現(xiàn)出的泛化能力主要集中在語言和視覺層面,而要真正實現(xiàn)機(jī)器人操作能力的泛化,需要將運(yùn)動維度的數(shù)據(jù)納入訓(xùn)練數(shù)據(jù)集中,從而訓(xùn)練出一個統(tǒng)一的大模型。
英特爾技術(shù)專家認(rèn)為,工業(yè)自動化、大模型、端到端三個階段并不是互相替代的關(guān)系,不同架構(gòu)面對不同應(yīng)用場景和負(fù)載需求時有著自身優(yōu)勢和性價比。
就具身智能落地應(yīng)用而言,英特爾也針對性提出兩種解決方案:
針對以大量運(yùn)動控制為主的工業(yè)機(jī)器人或具身智能機(jī)器人本體,原本只用到了英特爾酷?;蛄鑴訉崿F(xiàn)運(yùn)動控制的機(jī)器人,用戶可以將傳統(tǒng)的英特爾酷睿處理器更新為英特爾酷睿Ultra處理器,將原有工作負(fù)載直接部署到酷睿Ultra CPU上,同時基于GPU、NPU將大語言模型、視覺模型,乃至端到端VLA模型引入,從而將傳統(tǒng)工業(yè)機(jī)器人提升為具有交互能力、任務(wù)生成能力,甚至操作泛化能力的具身智能機(jī)器人。
針對現(xiàn)在采用雙系統(tǒng)架構(gòu)的機(jī)器人,可以將原有CPU升級為英特爾酷睿UItra,并借助英特爾工具將AI負(fù)載遷移到iGPU上,從而實現(xiàn)一體化具身智能解決方案。

與此同時,在本次發(fā)布會上,信步科技還推出了搭載英特爾酷睿Ultra 200系列處理器和英特爾銳炫B570顯卡的具身智能硬件開發(fā)平臺HB03。
據(jù)信步科技副總經(jīng)理葉志輝介紹,“信步具身智能硬件開發(fā)平臺HB03采用便于開發(fā)定制的模塊化設(shè)計,有帶顯卡和不帶顯卡兩個型號,帶顯卡版本機(jī)身厚度為78mm,算力高達(dá)300TOPS?!?/p>
此外,浙江人形機(jī)器人創(chuàng)新中心打造的“領(lǐng)航者2號NAVIAI”人形機(jī)器人,同樣基于英特爾酷睿處理器,實現(xiàn)了可泛化高精準(zhǔn)視覺伺服、多行為聯(lián)合學(xué)習(xí)的長序列行為規(guī)劃、視力融合的操作行為學(xué)習(xí)等技術(shù)突破。
這些技術(shù)突破也將推動具身智能,乃至人形機(jī)器人在工業(yè)場景落地應(yīng)用
熱門跟貼