21世紀(jì)經(jīng)濟(jì)報(bào)道記者 林典馳 深圳報(bào)道

今年以來,人形機(jī)器人的產(chǎn)業(yè)化進(jìn)展飛速。

從春晚上“福兮”的精彩表演,到首屆人形機(jī)器人半程馬拉松中“天工”的首次沖線,一時間“街頭巷尾”都在討論人形機(jī)器人。

要支撐人形機(jī)器人與環(huán)境感知交互,就離不開具身智能技術(shù)的持續(xù)突破。尤其是大語言模型(LLM)、視覺語言模型(VLM)以及視覺語言動作端到端模型(VLA)等關(guān)鍵技術(shù)的迭代創(chuàng)新,顯著提升了機(jī)器人在交互感知和泛化能力方面的表現(xiàn)。

然而,具身智能前行之路并非坦途,在數(shù)據(jù)采集、機(jī)器人形態(tài)應(yīng)用以及大小腦融合等方面仍面臨諸多挑戰(zhàn)。

因此,廠商們正在從不同的領(lǐng)域切入,解決以上痛點(diǎn)。比如,英特爾和東土科技等提出大小腦融合解決方案,采用單一芯片架構(gòu)替代雙系統(tǒng)模式,降低整體成本及軟件開發(fā)、測試、優(yōu)化與部署成本。

破解數(shù)據(jù)匱乏桎梏

1950年,艾倫·圖靈首次提出“具身智能”時,并未引起轟動,直到在近兩年才成為科技圈的熱詞。

圖靈給出的基本假設(shè)是,具身智能是通過與環(huán)境交互獲得知識并泛化應(yīng)用能力。英偉達(dá)創(chuàng)始人兼CEO黃仁勛則進(jìn)一步詮釋,具身智能是能夠理解、推理并與物理世界互動的智能系統(tǒng),預(yù)計(jì)其將成為人工智能的下一波浪潮。

如今具身智能進(jìn)化到了哪一階段?

近日,21世紀(jì)經(jīng)濟(jì)報(bào)道記者在英特爾推介會上了解到,現(xiàn)有的具身智能大模型融合了視-抓-放-移等能力,主要為小范圍場景行為復(fù)現(xiàn)。而針對旋擰、插拔等力觸動作、多指協(xié)同,柔性物操作仍相對困難。

當(dāng)中的泛化能力(指將已學(xué)到的運(yùn)動技能或決策,遷移到新的任務(wù))主要來源于視覺語言模型,而動作軌跡尚缺少泛化性,非常依賴訓(xùn)練數(shù)據(jù)。這里的訓(xùn)練數(shù)據(jù),指的是海量的帶有物理世界屬性的數(shù)據(jù),但是目前行業(yè)面臨數(shù)據(jù)匱乏的瓶頸。

跨維智能創(chuàng)始人賈奎談道,有別于語言、圖像等可以從網(wǎng)絡(luò)上大量獲取以形成通用能力的數(shù)據(jù),三維數(shù)據(jù),尤其是機(jī)器人在物理空間中的操作數(shù)據(jù),需要經(jīng)過精確標(biāo)定,且采集過程中存在難度大、周期長、成本高等問題。

在他看來,基于3D生成式AI的Sim2Real仿真,將成為解決高通用性具身智能數(shù)據(jù)需求的最高效路徑。

華為天才少年“稚暉君”則走了另外一條路徑,智元機(jī)器人采用的是人力成本最高的“真機(jī)數(shù)據(jù)采集模式”。在上海近4000平方米的數(shù)據(jù)采集中心,上百名數(shù)據(jù)采集人員在對機(jī)器人進(jìn)行重復(fù)練習(xí),光是一個機(jī)器人從桌上把玩具抓起來放進(jìn)籃子里的動作,便須訓(xùn)練數(shù)天,采集和審核上萬條信息。在這個數(shù)采中心,智元一年能完成億級數(shù)據(jù)采集。

也正是有了前期的數(shù)據(jù)積累,機(jī)器人的泛化能力正在被一步步突破。

3月10日,智元機(jī)器人發(fā)布了全球首個通用具身基座大模型——智元啟元大模型(簡稱:GO-1)。這個集成了ViLLA架構(gòu)的4D世界模型,能夠?qū)〞r間在內(nèi)的整個物理世界囊括其中,可以實(shí)現(xiàn)小樣本泛化。據(jù)介紹,機(jī)器人僅需千條以內(nèi)的視頻數(shù)據(jù),即可掌握擦拭、倒水等復(fù)雜動作,訓(xùn)練成本驟降。

具身智能不等于人形機(jī)器人

除了數(shù)據(jù)的挑戰(zhàn),機(jī)器人形態(tài)也是探討的焦點(diǎn)。

過去二十多年,機(jī)器人經(jīng)歷了工業(yè)自動化、大模型以及端到端大模型三個階段。英特爾的一位技術(shù)專家認(rèn)為,這三個階段并不是相互替代的關(guān)系,并不是機(jī)器人都要實(shí)現(xiàn)“端到端”,不同架構(gòu)面對不同的應(yīng)用場景和負(fù)載需求時有著自身優(yōu)勢和性價比。

在大模型階段,主要是視覺大模型通過視覺泛化能力提升了機(jī)器人對環(huán)境的理解能力,并為機(jī)器人提供輔助信息,如今各大酒店的送餐機(jī)器人便是典型例子。

自去年下半年開始,學(xué)術(shù)界和產(chǎn)業(yè)界開始對端到端模型的研發(fā)投入了大量資源。視覺語言模型(VLM)以及視覺語言動作端到端模型(VLA)相繼取得迭代創(chuàng)新,提升了機(jī)器人交互感知和泛化能力的表現(xiàn)。

所謂端到端大模型,是指融合多模態(tài)輸入(視覺、語言)與動作輸出,減少模塊間信息傳遞的誤差累積,提升整體決策效率。如向機(jī)器人傳遞請把桌子上的杯子遞給我,機(jī)器人便生成對應(yīng)動作,如抓取和移動,更符合人類“看想動”的連貫行為。搭載端到端大模型后,機(jī)器人的能力進(jìn)一步增強(qiáng),尤其是加速了人形機(jī)器人這一形態(tài)的發(fā)展。

但是多位業(yè)內(nèi)專家向記者表示,人形機(jī)器人不等于具身智能,具身智能不等于人形機(jī)器人,但人形機(jī)器人仍是具身智能的最大需求者和最大挑戰(zhàn)者。

究其原因,人形機(jī)器人短期內(nèi)還很難做到像科幻電影當(dāng)中描述的無所不能,滿足人類對完美機(jī)械伙伴的想象。

深圳市人工智能與機(jī)器人研究院(AIRS)具身智能中心主任劉少山在接受記者采訪時表示,人形機(jī)器人很大程度上在重復(fù)自動駕駛的敘事?!叭诵巍笔情L期愿景,過程中會出現(xiàn)一些“中間態(tài)”,比如輪式、雙臂、單臂等,也能在工業(yè)、應(yīng)急等場景中承擔(dān)一定的任務(wù)。但人類生來不是為了工業(yè)場景,人的形態(tài)經(jīng)歷了千萬年的進(jìn)化,人體的每一部分構(gòu)造都是科學(xué)的、都有它的作用。目前的“中間態(tài)”能夠幫助具身智能公司“續(xù)命”,通過“中間態(tài)”帶來一定的營收,再在場景中不斷打磨,慢慢還是會走向最終形態(tài),即人形。

“在很多垂直領(lǐng)域,非人形的機(jī)器人,是更有機(jī)會,成長成為效率工具,可以把成本降得足夠低,在一個細(xì)分領(lǐng)域,把能力訓(xùn)練得足夠好?!庇爸强萍糃EO唐沐談道。

以跨維智能推出的DexVerse具身智能引擎為例,該引擎已經(jīng)在汽車、家電、工業(yè)、物流等30余個行業(yè)批量應(yīng)用,在毫米級精度的抓取/操作任務(wù)下,其成功率超過99.9%。同時,跨維智能也正在將產(chǎn)品穩(wěn)步落地于醫(yī)療、商業(yè)等更多半結(jié)構(gòu)化及非結(jié)構(gòu)化場景中。

大小腦融合探索

此外,隨著具身智能技術(shù)的發(fā)展,工程師們還發(fā)現(xiàn)大小腦通訊和協(xié)作延遲等問題,需要產(chǎn)業(yè)界共同提出解決方案。

一般而言,一臺通用人形機(jī)器人本體分為大腦、小腦和肢體三部分,分別對應(yīng)決策交互模塊、運(yùn)動控制模塊和執(zhí)行模塊。大小腦由于互相獨(dú)立,甚至所用的芯片和系統(tǒng)架構(gòu)都是不一樣的,這便導(dǎo)致大小腦在通訊和協(xié)作出現(xiàn)系統(tǒng)級別的延遲。

浙江人形機(jī)器人創(chuàng)新中心首席科學(xué)家熊蓉談道,大小腦從硬件上分開,使得多種傳感器很難融合?,F(xiàn)在小腦不純粹是執(zhí)行控制,而是希望它具備視覺伺服等功能,能夠?qū)ψ鳂I(yè)對象形成控制。如果大小腦分開,一些傳感器基于大腦控制,它往小腦傳輸就會出現(xiàn)信息負(fù)荷過大,也會帶來延時的問題。

因此,大小腦融合不失為解決辦法之一,如英特爾和東土科技均提出了大小腦融合的解決方案。

大小腦融合指的是采用單一芯片架構(gòu)來替代現(xiàn)有產(chǎn)品中常見的雙系統(tǒng)模式,大小腦融合方案的系統(tǒng)在整體成本上無疑具有顯著優(yōu)勢?!案幸饬x的地方是在于單系統(tǒng)會使軟件研發(fā)、測試、優(yōu)化與部署的整個開發(fā)成本顯著降低?!庇⑻貭柤夹g(shù)專家談到。

不過,實(shí)現(xiàn)大小腦融合并非易事,當(dāng)中還有諸多難點(diǎn)需要克服。上述技術(shù)專家稱,小腦主要負(fù)責(zé)實(shí)時運(yùn)動控制及實(shí)時優(yōu)化軟件的運(yùn)行,其計(jì)算需求聚焦于高反應(yīng)速度、高性能及嚴(yán)格的執(zhí)行時間確定性。

例如,在任務(wù)執(zhí)行過程中,不僅要求系統(tǒng)能快速完成程序運(yùn)算并及時反饋,更需確保工作周期在99%的時間內(nèi),所有任務(wù)能在1毫秒內(nèi)完成。一旦系統(tǒng)出現(xiàn)峰值負(fù)載,若某個控制周期執(zhí)行時間延長至10毫秒,將直接導(dǎo)致機(jī)器人運(yùn)動過程中出現(xiàn)抖動、動作不流暢,甚至發(fā)生跌倒等狀況,這是小腦控制層面的核心難題。

而大腦的工作負(fù)載主要圍繞環(huán)境感知與決策規(guī)劃展開。它需要接收來自攝像頭、激光雷達(dá)及其他各類傳感器的數(shù)據(jù),通過傳統(tǒng)計(jì)算機(jī)視覺算法以及當(dāng)下熱門的大語言模型、視覺控制大模型等進(jìn)行信息處理,進(jìn)而生成機(jī)器人運(yùn)動規(guī)劃與決策指令,并轉(zhuǎn)化為機(jī)械臂實(shí)際運(yùn)動所需的動作訓(xùn)練數(shù)據(jù)。

在此過程中,系統(tǒng)面臨的主要挑戰(zhàn)在于計(jì)算負(fù)載的動態(tài)變化:在常規(guī)狀態(tài)下,計(jì)算需求可能較低,但當(dāng)機(jī)器人機(jī)身移動或周圍環(huán)境發(fā)生劇烈變化時,峰值計(jì)算負(fù)載會急劇上升。這對計(jì)算平臺的性能提出了嚴(yán)苛考驗(yàn),包括獨(dú)立顯卡、集成顯卡及 NPU等AI計(jì)算單元的運(yùn)算能力是否足以支撐,以及在集成顯卡(iGPU)上運(yùn)行相關(guān)算法時能否保障性能。

這也是為何在如今技術(shù)不成熟的前提下,主流的解決方案是將大腦與小腦分離為兩個獨(dú)立系統(tǒng)的原因所在。

也有廠商盡管未明確提及大小腦融合,但也給出了相似的解決方案。例如,4月,智平方在深圳正式發(fā)布新一代通用智能機(jī)器人AlphaBot 2。該機(jī)器人在軟件層面,AI2R Brain升級為Alpha Brain,并搭載全域全身VLA系統(tǒng),使機(jī)器人的認(rèn)知決策與運(yùn)動控制實(shí)現(xiàn)深度協(xié)同,大幅提升全場景交互能力。

值得一提的是,人形機(jī)器人和具身智能均在產(chǎn)業(yè)化的初期階段。各家廠商由于自身技術(shù)背景不同,有的偏向于場景化落地,研發(fā)方向聚焦大腦。也有廠商聚焦高精度運(yùn)動控制的小腦,將抽象指令轉(zhuǎn)化為精準(zhǔn)、流暢的肢體動作,確保機(jī)器人在復(fù)雜環(huán)境中的穩(wěn)定運(yùn)行。但市場需求終究會倒逼兩種技術(shù)路線相互融合,機(jī)器人不僅能在特定場景中完成任務(wù),還要求具備靈活的動作技巧和智能交互能力。