智能行為的形成離不開身體的感知、動(dòng)作和環(huán)境的反饋。從哲學(xué)角度看,具身智能呼應(yīng)了現(xiàn)象學(xué)的觀點(diǎn),即認(rèn)知是身體在世界中活動(dòng)的產(chǎn)物,而非孤立的計(jì)算過程。
2024年10月下旬,和ChatGPT齊名的人工智能應(yīng)用Claude發(fā)布了最新版本,這個(gè)版本可以自主操控電腦。這看上去好像沒什么特別的,在很多人看來,人工智能本來就和計(jì)算機(jī)相關(guān),本就是一種運(yùn)行在計(jì)算機(jī)上的應(yīng)用,它能操控計(jì)算機(jī)有什么值得驚訝的?但仔細(xì)想想就能發(fā)現(xiàn)這個(gè)看似簡(jiǎn)單的“動(dòng)作”背后意味著什么——Claude的“計(jì)算機(jī)使用”功能標(biāo)志著人工智能技術(shù)在理解圖像和視頻內(nèi)容、視覺識(shí)別和操作方面取得了顯著進(jìn)步,它能夠?qū)⒂脩舻淖匀徽Z言指令轉(zhuǎn)化為計(jì)算機(jī)操作,這在人工智能領(lǐng)域是一個(gè)重大突破。同時(shí),當(dāng)人工智能可以操控某種意義上的物理世界時(shí),它可能離具身智能(Embodied Intelligence)不遠(yuǎn)了。
不久前,被稱為“人工智能教母”的斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任李飛飛提出了“空間智能”的概念。她認(rèn)為,人工智能的發(fā)展不應(yīng)該僅僅停留在理解和生成語言上,還應(yīng)該包括理解和操作物理世界的能力。具身智能,即擁有身體的人工智能,正是空間智能的一種體現(xiàn)。具身智能不僅能夠理解和操作物理世界,更重要的是,它能夠通過與環(huán)境的互動(dòng),不斷學(xué)習(xí)和進(jìn)化,從而更加智能地適應(yīng)和改變環(huán)境。
在以大語言模型為代表的人工智能快速發(fā)展兩年后,具身智能似乎也將要迎來屬于它的“ChatGPT時(shí)刻”——某一技術(shù)或事件在特定領(lǐng)域內(nèi)引發(fā)的變革性影響,標(biāo)志著一個(gè)新時(shí)代的開啟或某種趨勢(shì)的轉(zhuǎn)折點(diǎn)。
具身智能的前世今生
提起具身智能,我們很容易想到機(jī)器人。事實(shí)上,具身智能的概念遠(yuǎn)比我們想象的要廣泛和深入。它不局限于常見的機(jī)器人形態(tài),而是涵蓋了任何能夠與物理世界進(jìn)行交互的人工智能實(shí)體。從簡(jiǎn)單的智能家居設(shè)備,到復(fù)雜的自動(dòng)駕駛汽車,再到未來的各種人形機(jī)器人,具身智能正以不同的形式滲透到我們的生活中。
具身智能的核心在于其能夠與物理世界進(jìn)行直接的互動(dòng),這意味著它需要具備感知、決策和執(zhí)行的能力。感知能力讓具身智能能夠獲取周圍環(huán)境的信息,如溫度、濕度、光線、聲音等;決策能力使其能夠根據(jù)感知到的信息做出合理的判斷和選擇;而執(zhí)行能力則是將決策轉(zhuǎn)化為實(shí)際行動(dòng),如移動(dòng)、抓取、操作等。這三個(gè)能力的有機(jī)結(jié)合,使得具身智能能夠像人類一樣在物理世界中靈活地應(yīng)對(duì)各種挑戰(zhàn)。
人類關(guān)于具身智能的研究,可以追溯到1950年,當(dāng)時(shí)艾倫·圖靈(Alan Turing)在其經(jīng)典論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)中提出了“具身圖靈測(cè)試”(Embodied Turing Test),探索智能體是否能夠像人類一樣與環(huán)境交互、感知、自主規(guī)劃和決策,從而展現(xiàn)出應(yīng)對(duì)物理世界復(fù)雜性的智能。這一設(shè)想奠定了智能與物理形態(tài)相結(jié)合的理論基礎(chǔ),被視為具身智能的起源。
到了20世紀(jì)80年代,具身智能的概念得到進(jìn)一步的發(fā)展和明確。1986年,羅德尼·布魯克斯(Rodney Brooks)從控制論角度出發(fā),提出了行為式機(jī)器人概念,強(qiáng)調(diào)智能是具身化和情境化的,智能行為可以直接從自主機(jī)器與環(huán)境的簡(jiǎn)單物理交互中產(chǎn)生。他的工作推動(dòng)了具身智能在機(jī)器人學(xué)領(lǐng)域的應(yīng)用和發(fā)展。
1988年,人工智能領(lǐng)域的先驅(qū)馬文·明斯基進(jìn)一步強(qiáng)調(diào)了身體在智能中的重要性,認(rèn)為身體和環(huán)境是智能不可或缺的一部分。1993年,認(rèn)知科學(xué)家弗朗西斯科·瓦雷拉等人提出了“具身認(rèn)知”理論,認(rèn)為認(rèn)知過程不僅僅是大腦的活動(dòng),身體的結(jié)構(gòu)和環(huán)境的交互也起著關(guān)鍵作用。這些理論為具身智能的發(fā)展提供了堅(jiān)實(shí)的理論支撐。
進(jìn)入2000年代,具身智能開始在機(jī)器人學(xué)領(lǐng)域嶄露頭角。2006年,羅爾夫·普菲弗和喬希·邦加德出版了《身體如何塑造我們的思維方式》,他們通過實(shí)驗(yàn)表明,機(jī)器人的身體結(jié)構(gòu)和運(yùn)動(dòng)方式對(duì)其智能行為有著深遠(yuǎn)的影響。這一發(fā)現(xiàn)讓研究者們意識(shí)到,要實(shí)現(xiàn)真正的智能,機(jī)器人不能僅僅是一個(gè)“移動(dòng)的電腦”,而必須具備與環(huán)境互動(dòng)的能力。
在這一時(shí)期,具身智能的研究逐漸從理論走向?qū)嵺`。研究者們開始嘗試讓機(jī)器人在復(fù)雜的環(huán)境中自主導(dǎo)航、感知和學(xué)習(xí)。例如,一些機(jī)器人可以通過視覺和觸覺感知來識(shí)別物體,并通過簡(jiǎn)單的動(dòng)作與環(huán)境互動(dòng)。雖然這些機(jī)器人還遠(yuǎn)未達(dá)到人類的智能水平,但它們已經(jīng)展示了具身智能的潛力。
2020年代,隨著人工智能技術(shù)的飛速發(fā)展,具身智能迎來了新的突破。一方面,多模態(tài)技術(shù)的出現(xiàn)讓機(jī)器人能夠同時(shí)處理語言、視覺和動(dòng)作等多種信息。例如,機(jī)器人可以通過語音指令理解任務(wù),通過視覺感知識(shí)別環(huán)境,再通過動(dòng)作完成任務(wù)。這種多模態(tài)的融合讓機(jī)器人更加接近人類的智能行為。
另一方面,大語言模型的加入也為具身智能注入了新的活力。2023年,一些研究團(tuán)隊(duì)開始嘗試將大語言模型與機(jī)器人結(jié)合,讓機(jī)器人能夠更好地理解人類的語言指令,并通過自主學(xué)習(xí)提升智能水平。例如,LM-Nav項(xiàng)目展示了如何利用大語言模型提升機(jī)器人的導(dǎo)航能力,使其能夠在復(fù)雜的環(huán)境中自主尋找目標(biāo)。
從圖靈的具身設(shè)想,到布魯克斯的行為式機(jī)器人,再到如今的多模態(tài)融合與大模型應(yīng)用,具身智能的發(fā)展歷程充滿了探索與創(chuàng)新。它不僅改變了我們對(duì)智能的理解,也為未來的機(jī)器人和人工智能技術(shù)開辟了新的道路。

機(jī)器人為你作畫。圖 / 王欣
具身智能已經(jīng)在應(yīng)用
近幾年,具身智能正處于快速發(fā)展的關(guān)鍵時(shí)期,其技術(shù)成熟度、應(yīng)用場(chǎng)景和商業(yè)化潛力都呈現(xiàn)出前所未有的態(tài)勢(shì)。在制造業(yè),協(xié)作機(jī)器人已經(jīng)能夠與工人并肩工作,完成精密的組裝任務(wù),不僅提高了生產(chǎn)效率,還確保了工作場(chǎng)所的安全。移動(dòng)機(jī)器人則在倉儲(chǔ)和物流領(lǐng)域大放異彩,它們能夠自主導(dǎo)航、搬運(yùn)貨物,極大地減輕了人力負(fù)擔(dān)。更令人興奮的是,人形機(jī)器人已經(jīng)開始進(jìn)入我們的生活,它們能夠陪伴兒童學(xué)習(xí)玩耍,甚至參與救援行動(dòng),展現(xiàn)出無限的可能性。
對(duì)于具身智能來說,其近年來最大的推動(dòng)力來自大語言模型(LLMs)。大語言模型為具身智能提供了強(qiáng)大的語言理解和生成能力。通過多源異構(gòu)數(shù)據(jù)的輸入,大模型能夠提升機(jī)器人的自主學(xué)習(xí)和決策規(guī)劃能力。與此同時(shí),輕量化模型的快速發(fā)展為具身智能在低算力設(shè)備上的應(yīng)用提供了可能。具身智能的核心在于通過多種傳感器實(shí)現(xiàn)對(duì)環(huán)境的全面感知。2025年,3D視覺和觸覺感知成為重要的技術(shù)發(fā)展方向。3D視覺技術(shù)使機(jī)器人能夠更精準(zhǔn)地識(shí)別物體的形狀、位置和運(yùn)動(dòng)狀態(tài),而觸覺傳感器(如電子皮膚)則賦予機(jī)器人對(duì)物理接觸的感知能力,從而提升操作的精細(xì)度。
仿真環(huán)境和世界模型的構(gòu)建是具身智能技術(shù)的重要支撐。通過模擬物理世界的規(guī)律,機(jī)器人可以在虛擬環(huán)境中進(jìn)行訓(xùn)練,從而優(yōu)化其運(yùn)動(dòng)控制算法和任務(wù)執(zhí)行能力。仿真到現(xiàn)實(shí)的遷移(Sim2Real)技術(shù)也在不斷成熟,進(jìn)一步提升了機(jī)器人的適應(yīng)性。高質(zhì)量、多樣化的數(shù)據(jù)是具身智能發(fā)展的關(guān)鍵。國內(nèi)外產(chǎn)學(xué)研聯(lián)合構(gòu)建了多個(gè)具身智能數(shù)據(jù)集,如Open X-Embodiment項(xiàng)目,這些數(shù)據(jù)集涵蓋了從感知到行動(dòng)的全閉環(huán)數(shù)據(jù),為大模型訓(xùn)練和算法優(yōu)化提供了基礎(chǔ)。
具身智能的發(fā)展離不開硬件和軟件的協(xié)同進(jìn)步。高性能的傳感器、關(guān)節(jié)驅(qū)動(dòng)技術(shù)和計(jì)算芯片為機(jī)器人的感知和行動(dòng)提供了支持,而先進(jìn)的算法和模型則提升了機(jī) 器人的智能水平。具身智能的形態(tài)涵蓋了從簡(jiǎn)單的移動(dòng) 機(jī)器人到復(fù)雜的人形機(jī)器人。
協(xié)作機(jī)器人(Cobots)是具身智能的重要載體之一。它們通常用于工業(yè)場(chǎng)景,能夠與人類工人協(xié)同完成任務(wù)。移動(dòng)機(jī)器人包括輪式、履帶式和四足機(jī)器人等。它們?cè)谖锪?、倉儲(chǔ)和巡檢等領(lǐng)域具有廣泛的應(yīng)用。例如,四足機(jī)器人因其出色的地形適應(yīng)能力,被用于復(fù)雜環(huán)境的巡檢任務(wù)。人形機(jī)器人則是具身智能的高階形態(tài),其外形和功能與人類相似,能夠適應(yīng)多種復(fù)雜環(huán)境。2024年,人形機(jī)器人在科研教育領(lǐng)域取得了顯著進(jìn)展,并逐步向商用服務(wù)和特種應(yīng)用領(lǐng)域拓展。例如,特斯拉的Optimus和Figure AI的人形機(jī)器人已在工業(yè)場(chǎng)景中實(shí)現(xiàn)初步應(yīng)用。
在工業(yè)制造中,具身智能機(jī)器人能夠完成復(fù)雜的裝配、打磨和質(zhì)檢任務(wù)。通過多模態(tài)感知和自主學(xué)習(xí)能力,機(jī)器人可以實(shí)現(xiàn)更高的生產(chǎn)效率和更好的質(zhì)量控制。例如,協(xié)作機(jī)器人在汽車制造中的應(yīng)用,能夠與人類工人協(xié)同完成復(fù)雜的裝配任務(wù)。
在服務(wù)領(lǐng)域,具身智能機(jī)器人被廣泛應(yīng)用于商業(yè)服務(wù)、家庭服務(wù)和醫(yī)療康養(yǎng)。例如,商用服務(wù)機(jī)器人可以在商場(chǎng)、機(jī)場(chǎng)等場(chǎng)所提供導(dǎo)引、咨詢和清潔服務(wù);家庭服務(wù)機(jī)器人則能夠完成家務(wù)勞動(dòng),如打掃、洗衣和照顧老人。
具身智能機(jī)器人在特種應(yīng)用中展現(xiàn)出巨大的價(jià)值。例如,在應(yīng)急救援中,人形機(jī)器人能夠進(jìn)入危險(xiǎn)環(huán)境,執(zhí)行搜索和救援任務(wù);在安全巡檢中,四足機(jī)器人能夠適應(yīng)復(fù)雜地形,完成設(shè)備巡檢。
未來,具身智能的應(yīng)用場(chǎng)景將從工業(yè)制造逐步拓展到服務(wù)、醫(yī)療、家庭等多個(gè)領(lǐng)域,推動(dòng)社會(huì)生產(chǎn)力的提升。隨著技術(shù)的成熟和成本的降低,具身智能的商業(yè)化進(jìn)程將加速。業(yè)內(nèi)人士預(yù)測(cè),人形機(jī)器人有望在未來5年內(nèi)實(shí)現(xiàn)規(guī)?;瘧?yīng)用。
具身智能的廣泛應(yīng)用,不僅標(biāo)志著人工智能技術(shù)的飛躍,更預(yù)示著一個(gè)全新時(shí)代的到來。在這個(gè)時(shí)代,人工智能將不再局限于虛擬世界,而是能夠真正地走進(jìn)我們的生活,與人類一起創(chuàng)造更美好的未來。

采摘機(jī)器人可廣泛應(yīng)用于多種場(chǎng)合。圖 / 王欣
未來人工智能的必經(jīng)之路
在人工智能領(lǐng)域,“有身體”意味著AI不僅擁有處理信息和執(zhí)行任務(wù)的軟件,還具備了與現(xiàn)實(shí)世界互動(dòng)的硬件載體。這種結(jié)合了軟件與硬件的AI,能夠通過傳感器感知環(huán)境,通過執(zhí)行器與環(huán)境互動(dòng),從而實(shí)現(xiàn)更加復(fù)雜和靈活的智能行為。例如,擁有機(jī)器臂的AI可以進(jìn)行物理操作,而配備輪子或腿的AI則可以移動(dòng)和探索。這種物理存在不僅擴(kuò)展了AI的應(yīng)用范圍,還為AI提供了學(xué)習(xí)和適應(yīng)新環(huán)境的機(jī)會(huì),使其更加接近人類智能的多面性和適應(yīng)性。
從另一個(gè)方面來看,要想實(shí)現(xiàn)通用人工智能或者強(qiáng)人工智能,具身智能也是必經(jīng)之路。在人工智能的發(fā)展歷程中,通用人工智能(AGI)一直是科學(xué)家們追求的終極目標(biāo)。AGI是指具備像人類一樣廣泛的認(rèn)知能力和適應(yīng)能力的智能系統(tǒng),它能夠自主學(xué)習(xí)、推理、規(guī)劃,并在多種復(fù)雜環(huán)境中靈活應(yīng)對(duì)。然而,盡管我們?cè)谏疃葘W(xué)習(xí)、自然語言處理等領(lǐng)域取得了巨大進(jìn)展,但實(shí)現(xiàn)真正的通用人工智能仍然面臨諸多挑戰(zhàn)。具身智能作為人工智能的一個(gè)重要分支,正在逐漸成為實(shí)現(xiàn)通用人工智能的關(guān)鍵路徑。
我們需要認(rèn)識(shí)到,智能不僅僅是大腦的產(chǎn)物,更是身體與環(huán)境交互的結(jié)果。這一理念強(qiáng)調(diào)了身體在認(rèn)知過程中的重要性,認(rèn)為智能行為的形成離不開身體的感知、動(dòng)作和環(huán)境的反饋。從哲學(xué)角度看,具身智能呼應(yīng)了現(xiàn)象學(xué)的觀點(diǎn),即認(rèn)知是身體在世界中活動(dòng)的產(chǎn)物,而非孤立的計(jì)算過程。這種觀點(diǎn)為我們理解智能的本質(zhì)提供了全新的視角。
在技術(shù)層面,具身智能為實(shí)現(xiàn)通用人工智能提供了重要的實(shí)踐基礎(chǔ)。首先,具身智能強(qiáng)調(diào)多模態(tài)感知和交互能力。通過視覺、聽覺、觸覺等多種感知方式,智能體能夠更全面地理解環(huán)境,并通過身體的動(dòng)作與環(huán)境進(jìn)行動(dòng)態(tài)交互。這種多模態(tài)的交互能力是通用人工智能所必需的,因?yàn)樗軌蚴怪悄荏w在復(fù)雜多變的現(xiàn)實(shí)世界中自主學(xué)習(xí)和適應(yīng)。其次,具身智能為智能體提供了實(shí)踐和學(xué)習(xí)的機(jī)會(huì)。在具身智能的框架下,智能體不僅僅是被動(dòng)的信息處理者,更是主動(dòng)的行動(dòng)者。它們可以通過與環(huán)境的交互,不斷積累經(jīng)驗(yàn),優(yōu)化行為策略。這種基于實(shí)踐的學(xué)習(xí)過程是實(shí)現(xiàn)通用人工智能的關(guān)鍵,因?yàn)樗軌蚴怪悄荏w在不斷變化的環(huán)境中逐步提升自身的智能水平。
此外,具身智能還為解決通用人工智能中的復(fù)雜問題提供了新的思路。例如,在自然語言理解中,具身智能強(qiáng)調(diào)通過身體的動(dòng)作和環(huán)境的反饋來理解語言的含義。這種基于具身的語義理解方式,能夠使智能體更準(zhǔn)確地理解語言中的隱喻和抽象概念,從而提升語言理解的深度和廣度。
然而,具身智能的發(fā)展也面臨著諸多挑戰(zhàn)。具身智能需要高度復(fù)雜的硬件支持,包括高性能的傳感器、關(guān)節(jié)驅(qū)動(dòng)器和計(jì)算平臺(tái)。這些硬件的研發(fā)和制造成本高昂,限制了具身智能的普及速度。具身智能的算法設(shè)計(jì)還需要考慮感知、決策和動(dòng)作的協(xié)同優(yōu)化,這比傳統(tǒng)的單一模態(tài)智能更為復(fù)雜。
盡管如此,具身智能仍然是實(shí)現(xiàn)通用人工智能的重要途徑。正如人類的智能是在身體與環(huán)境的長期交互中逐漸形成的,通用人工智能的實(shí)現(xiàn)也需要通過具身智能來不斷探索和積累經(jīng)驗(yàn)。具身智能不僅為智能體提供了與環(huán)境交互的能力,還為我們提供了一種全新的視角和實(shí)踐框架,使我們能夠更接近人類智能的本質(zhì)。
隨著技術(shù)的不斷進(jìn)步,我們有望看到具身智能在更多領(lǐng)域的應(yīng)用,從工業(yè)制造到家庭服務(wù),從醫(yī)療護(hù)理到教育娛樂。這些具身智能的應(yīng)用不僅能夠提升社會(huì)生產(chǎn)力,還能夠?yàn)槿祟惖纳顜砀啾憷?/p>
(文章來源:《創(chuàng)意世界》2025年3月號(hào))
編校:范曉華,審讀:郭麗
/ / / / /
/ / / / /
/ /
/ / / / /
/ / / /
熱門跟貼