人形機(jī)器人,是科技領(lǐng)域的熱門(mén)話(huà)題,尤其是近期,某國(guó)產(chǎn)機(jī)器人更成為輿論和公眾新寵,風(fēng)頭一時(shí)無(wú)兩。

但圖靈獎(jiǎng)得主、Facebook首席人工智能科學(xué)家和紐約大學(xué)教授楊立昆的“大嘴巴”又來(lái)了。楊立昆近期在一檔播客節(jié)目中表示,“很多人形機(jī)器人演示令人印象深刻,但實(shí)際很蠢,不少機(jī)器人公司都在豪賭未來(lái)3到5年AI會(huì)突飛猛進(jìn)?!毖赞o之間,是對(duì)當(dāng)下人形機(jī)器人智能性的嚴(yán)重質(zhì)疑。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

智能機(jī)器人,機(jī)器是個(gè)殼,AI做靈魂。楊立昆對(duì)AI的批評(píng)由來(lái)已久。早在2024年5月,他就在社交媒體上質(zhì)疑AI威脅論,認(rèn)為當(dāng)前AI大模型的智力水平甚至不如家貓,缺乏推理能力和對(duì)物理世界的理解。

同年10月,在《華爾街日?qǐng)?bào)》專(zhuān)訪中,他再次強(qiáng)調(diào)AI威脅論是“胡說(shuō)八道”,指出生成式AI僅擅長(zhǎng)預(yù)測(cè)文本,缺乏真正的推理和常識(shí)。

他還批評(píng)馬斯克、奧特曼(Oenp AI創(chuàng)始人)等對(duì)通用人工智能(AGI)的樂(lè)觀預(yù)測(cè),認(rèn)為其缺乏科學(xué)依據(jù)。

2025年2月,在巴黎人工智能行動(dòng)峰會(huì)上,楊立昆再次炮轟生成式AI,稱(chēng)其“無(wú)法達(dá)到人類(lèi)智慧水平”,并呼吁學(xué)術(shù)界轉(zhuǎn)向研究“聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)”,以構(gòu)建能理解物理世界的AI系統(tǒng)。

楊立昆(Yann LeCun)何許人也?

這位是人工智能領(lǐng)域的大拿之一,其核心成就包括發(fā)明卷積神經(jīng)網(wǎng)絡(luò)(CNN)并推動(dòng)其實(shí)際應(yīng)用。他于1987年提出CNN概念,1998年開(kāi)發(fā)的LeNet-5成為首個(gè)成功應(yīng)用于手寫(xiě)體識(shí)別的CNN模型,奠定了現(xiàn)代計(jì)算機(jī)視覺(jué)的基礎(chǔ)。還在深度學(xué)習(xí)領(lǐng)域持續(xù)突破,改進(jìn)反向傳播算法,推動(dòng)無(wú)監(jiān)督與自監(jiān)督學(xué)習(xí)研究,減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài),并提出能量模型等理論框架。

2018年,他因在深度學(xué)習(xí)的突破性貢獻(xiàn)與辛頓、本吉奧共同獲得圖靈獎(jiǎng)

加入Meta后,他領(lǐng)導(dǎo)團(tuán)隊(duì)將AI技術(shù)應(yīng)用于社交、醫(yī)療等多領(lǐng)域,并主導(dǎo)開(kāi)發(fā)開(kāi)源大模型Llama系列。其數(shù)百篇頂級(jí)論文與合著的《深度學(xué)習(xí)》著作,系統(tǒng)構(gòu)建了學(xué)科理論體系。

作為學(xué)界與工業(yè)界的橋梁,楊立昆培養(yǎng)了大批人才,推動(dòng)AI從實(shí)驗(yàn)室走向產(chǎn)業(yè),被公認(rèn)為計(jì)算機(jī)視覺(jué)與神經(jīng)網(wǎng)絡(luò)研究的先驅(qū)。

所以,楊立昆對(duì)人形機(jī)器人及AI的批評(píng),可不是外行人看熱鬧。

誠(chéng)然,人形機(jī)器人是一大風(fēng)口,這些年,執(zhí)著在人形機(jī)器人下注的企業(yè)很多。

波士頓動(dòng)力可能是大家最早了解人形機(jī)器人的代表性企業(yè), 特斯拉的Optimus(擎天柱)人形機(jī)器人研發(fā)也在推進(jìn)中。

而在國(guó)內(nèi),從優(yōu)必選到宇樹(shù)科技、稚暉君創(chuàng)立的智元機(jī)器,在人形機(jī)器人領(lǐng)域的身影也分外活躍。

數(shù)據(jù)顯示,截至2024年12月底,全國(guó)共有45.17萬(wàn)家智能機(jī)器人產(chǎn)業(yè)企業(yè),注冊(cè)資本共計(jì)64445.57億元。這其中,哪怕只有百分之一的企業(yè)是專(zhuān)注人形機(jī)器人,其投入也是天文數(shù)字。

但與此同時(shí),對(duì)人形機(jī)器人熱潮冷眼旁觀的不止楊立昆一人。

作為RT-X項(xiàng)目(一個(gè)旨在提升機(jī)器人智能和泛化能力的研究項(xiàng)目)參與者的Wolfram Burgard教授接受媒體采訪時(shí)指出,當(dāng)下的基礎(chǔ)模型訓(xùn)練方式有著能效上的巨大問(wèn)題,它需要太多的算力和數(shù)據(jù)才能達(dá)到泛化的門(mén)檻。

他舉了個(gè)例子:在RT-X數(shù)據(jù)集項(xiàng)目中,雖然他們收集了超過(guò)100萬(wàn)個(gè)片段,覆蓋了機(jī)器人的500多項(xiàng)技能和在16萬(wàn)項(xiàng)具體任務(wù)上的表現(xiàn),但當(dāng)桌子高度稍有不同,RT-2就可能完全無(wú)法正確進(jìn)行任務(wù)了。

機(jī)器人,到底要不要弄個(gè)人樣?技術(shù)分歧的背后是產(chǎn)業(yè)實(shí)踐的矛盾。

今年世界機(jī)器人大會(huì)上,人形機(jī)器人打詠春、跳熱舞的視頻刷屏社交網(wǎng)絡(luò),但在家庭場(chǎng)景演示中,疊衣、擦桌等基礎(chǔ)任務(wù)頻頻失誤。

人性機(jī)器人能前后空翻,卻疊不好一件衣服?

原因在于,人形機(jī)器人需要通過(guò)傳感器感知自身的姿態(tài)和位置,然后通過(guò)控制系統(tǒng)調(diào)整機(jī)械結(jié)構(gòu)來(lái)完成動(dòng)作,其過(guò)程主要依賴(lài)于預(yù)編程的算法和模型,不需要對(duì)物理世界進(jìn)行深入的理解和推理。

相比之下,疊衣服則是一個(gè)更加復(fù)雜的任務(wù)。它要求機(jī)器人對(duì)物體的形狀、質(zhì)地、紋理等進(jìn)行感知和理解,然后根據(jù)這些信息進(jìn)行精確的操作。

上述現(xiàn)象稱(chēng)為目標(biāo)驅(qū)動(dòng)與規(guī)劃能力缺失,是當(dāng)前AI技術(shù)面臨的一個(gè)重大挑戰(zhàn)。

分層規(guī)劃是一種復(fù)雜的決策和執(zhí)行過(guò)程,它涉及到將一個(gè)宏大的目標(biāo)分解為一系列逐步細(xì)化的子目標(biāo),且這些子目標(biāo)又可以進(jìn)一步細(xì)分為具體的行動(dòng)步驟。

人類(lèi)和動(dòng)物在日常生活中經(jīng)常使用這種策略來(lái)解決問(wèn)題或完成任務(wù)。例如,一個(gè)人想要做一頓飯,這個(gè)大目標(biāo)可能被分解為準(zhǔn)備食材、烹飪不同的菜肴、布置餐桌等多個(gè)子目標(biāo)。每個(gè)子目標(biāo)又包含更具體的動(dòng)作,如切菜、調(diào)味、加熱等。

相比之下,現(xiàn)有的AI系統(tǒng)往往缺乏這樣的靈活性。盡管現(xiàn)代AI可以在特定領(lǐng)域內(nèi)表現(xiàn)出色,例如圍棋或象棋中的決策制定,但在面對(duì)復(fù)雜多變的真實(shí)世界任務(wù)時(shí),它們的表現(xiàn)就顯得力不從心了。

家務(wù)活動(dòng)就是一個(gè)很好的例子,看似簡(jiǎn)單但其實(shí)包含了無(wú)數(shù)細(xì)微的動(dòng)作和判斷。例如,清理桌子不僅涉及物理上的移動(dòng)物品,還需要決定哪些物品應(yīng)該放在哪里,如何避免打翻水杯等。這些都需要對(duì)環(huán)境有深刻的理解以及靈活應(yīng)對(duì)的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

現(xiàn)有AI系統(tǒng)的局限性,在于它們通常依賴(lài)于預(yù)設(shè)的算法和大量訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行特定任務(wù),而不是像人類(lèi)那樣基于經(jīng)驗(yàn)進(jìn)行即時(shí)調(diào)整。

如此意味著,當(dāng)面對(duì)未曾見(jiàn)過(guò)的情況或者需要跨多個(gè)領(lǐng)域綜合考慮的問(wèn)題時(shí),AI可能會(huì)感到“困惑”。

此外,由于缺乏對(duì)因果關(guān)系的理解,AI難以預(yù)測(cè)其行為可能帶來(lái)的長(zhǎng)期后果,這也是導(dǎo)致其規(guī)劃能力受限的重要原因之一。

人是造物主的杰作。人手共有22個(gè)自由度,而當(dāng)前大多數(shù)機(jī)械手,如夾爪形態(tài)(8個(gè)自由度)、6自由度仿人手機(jī)械手(同樣8個(gè)自由度),以及全驅(qū)動(dòng)靈巧手(如Shadow hand,超過(guò)20個(gè)自由度),均無(wú)法完美復(fù)刻人手的功能。

此外,能源與硬件的“不可能三角”進(jìn)一步制約發(fā)展。人形機(jī)器人需在有限體積內(nèi)平衡動(dòng)力、續(xù)航與成本。高能耗傳感器和復(fù)雜機(jī)械結(jié)構(gòu),導(dǎo)致現(xiàn)有電池技術(shù)難以支撐長(zhǎng)時(shí)間自主運(yùn)行。

稚暉君創(chuàng)立的智元機(jī)器近日爆紅,但講到機(jī)器人的性能時(shí),相關(guān)工作人員承認(rèn),目前只能達(dá)到人類(lèi)效率的20%-30%,而且電池續(xù)航僅有兩個(gè)小時(shí)。續(xù)航短也是業(yè)內(nèi)人形機(jī)器人的普遍問(wèn)題。

用一個(gè)通俗的比喻,當(dāng)下人形機(jī)器人就像垂垂老矣的白發(fā)翁,每做幾個(gè)動(dòng)作,就得停下來(lái)充電。

機(jī)器人行業(yè)突圍,需正視三大現(xiàn)實(shí)。

首先是放棄“通用幻想”,深耕垂直場(chǎng)景。藍(lán)橙實(shí)驗(yàn)室與清華大學(xué)合作的五軸并聯(lián)加工機(jī)器人,專(zhuān)攻航空發(fā)動(dòng)機(jī)葉片打磨,通過(guò)限定工作場(chǎng)景將精度提升至微米級(jí);華中科技大學(xué)吸附式移動(dòng)機(jī)器人聚焦船舶曲面焊接,放棄人形設(shè)計(jì)換取更強(qiáng)環(huán)境適應(yīng)性。

其次是重構(gòu)技術(shù)路線(xiàn)圖。哈工大教授朱延河團(tuán)隊(duì)建立工業(yè)機(jī)器人開(kāi)源架構(gòu),允許廠商共享運(yùn)動(dòng)控制算法,避免重復(fù)造輪子。

相關(guān)探索雖未突破根本,但指向更務(wù)實(shí)的技術(shù)迭代路徑。

最后是重新定義“智能”標(biāo)準(zhǔn)。智能與否不看動(dòng)作復(fù)雜度,而看任務(wù)泛化能力。工業(yè)機(jī)器人若實(shí)現(xiàn)自主更換夾具的模塊化設(shè)計(jì),或許比執(zhí)著人形更易打開(kāi)市場(chǎng)。

顯然,圍繞人形機(jī)器人的爭(zhēng)論,是技術(shù)路線(xiàn)之爭(zhēng),更是對(duì)機(jī)器人及AI的認(rèn)知之爭(zhēng)。一方堅(jiān)持“人形是通用智能最佳載體”,認(rèn)為雙足移動(dòng)與人類(lèi)環(huán)境天然兼容;另一方主張“形態(tài)服務(wù)于功能”,認(rèn)為輪式、臂式或模塊化設(shè)計(jì)更易商業(yè)化。工業(yè)機(jī)器人歷經(jīng)60年發(fā)展,從Unimate機(jī)械臂到現(xiàn)代協(xié)作機(jī)器人,技術(shù)突破均圍繞專(zhuān)用場(chǎng)景展開(kāi)。人形機(jī)器人若執(zhí)著于“通用性”標(biāo)簽,可能重蹈早期自動(dòng)駕駛企業(yè)盲目追求全場(chǎng)景的覆轍。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

機(jī)器人產(chǎn)業(yè)的終極目標(biāo)不是創(chuàng)造“人造人”,而是拓展人類(lèi)能力的邊界。向左,是繼續(xù)追逐“像人”的幻想,向右,是擁抱細(xì)分場(chǎng)景的實(shí)用主義。選擇哪條路徑,將決定這個(gè)行業(yè)是真正走向?yàn)槿怂S?,還是又一場(chǎng)資本狂歡的泡沫。

作者簡(jiǎn)介

打開(kāi)網(wǎng)易新聞 查看精彩圖片

當(dāng)你關(guān)注財(cái)經(jīng)和時(shí)事熱點(diǎn)時(shí),我愿和你分享背后的故事和觀點(diǎn)