
很多人對于具身智能最浪漫的幻想,可能源于一部叫《剪刀手愛德華》的愛情片,電影探討了機器人愛德華和人類女友相戀的故事。引人矚目的除了人與機器的生死纏綿外,還有愛德華那堪稱羅曼蒂克史上最大障礙的剪刀手。
“拿起劍我就無法擁抱你,放下劍我就無法保護你?!?/p>
鋒利的刀刃構(gòu)成了愛德華的雙手,具有摘花、剪發(fā)、攻擊等眾多工具屬性,卻難以搭建和人類的情感橋梁。
在生成式人工智能爆發(fā)的年代,對于機械臂的想象又有了更加具象化的實踐。
擁有27萬粉絲的b站up主“同濟子豪兄”就利用開源的大模型打造了一款“具身智能機械臂最小可實踐應(yīng)用”,能夠自主決策、進行環(huán)境感知。
張子豪是知名的b站人工智能教育科技博主,其錄制的Readpaper論文閱讀神器、三體AI繪畫等視頻獲得了超百萬的播放量。
他曾在上海人工智能實驗室工作,被授予MVP微軟最有價值專家稱號,華為HCDE云享專家,與百度、阿里巴巴、華為、字節(jié)跳動等多家大廠合作過。
2024年起,他不再只局限于授課、傳播最前沿的人工智能知識,而是開始身體力行踐行那些理論知識,實操上手做起人工智能機械臂。
28天,8000塊
最小具身智能的神話
機械臂+大模型+多模態(tài)=人機協(xié)作具身智能體。
這就是張子豪制作的具身智能機械臂的技術(shù)基礎(chǔ)。

尤其是接入多模態(tài)大模型后,機械臂其處理問題決策能力明顯有了提升,能實現(xiàn)“聽懂人話、看懂圖像、指哪打哪”。
“大模型就像給具身智能吹了口仙氣,從此機械臂就有了靈魂?!?/p>
與人相類比,這款具身智能的眼睛、大腦、軀干分別是物理傳感器、多模態(tài)大模型和機械臂。

子豪兄使用的相關(guān)模型、技術(shù)
眼睛:具身智能的“眼睛”指感知技術(shù),包括視覺傳感器、聽覺傳感器、觸覺傳感器、力覺傳感器等物理傳感器。這些傳感器使智能體能夠感知環(huán)境,收集必要的信息以進行決策和行動。
大腦:具身智能的“大腦”是指智能體的決策和規(guī)劃能力,通常涉及到高級計算模型,如多模態(tài)大模型。這些模型能夠整合視覺、聽覺、觸覺等多種感官數(shù)據(jù),以及語言、指令等抽象信息,為機器人提供更為豐富和全面的環(huán)境理解能力。
軀干:具身智能的“軀干”涉及到智能體物理執(zhí)行能力,包括機械臂、機器腿或其他機械構(gòu)件的運動控制。機械構(gòu)件使智能體能夠根據(jù)“大腦”的決策進行實際的物理動作,如移動、抓取物體或執(zhí)行其他任務(wù)。
具身智能體在模擬出來的場景中無數(shù)次地嘗試、學習、反饋、迭代,積累對物理世界的深度理解,產(chǎn)生大量交互數(shù)據(jù),再通過與真實環(huán)境的不斷交互積累經(jīng)驗,全面提升在復(fù)雜世界的自動移動、復(fù)雜任務(wù)的泛化能力。

張子豪研發(fā)的具身智能機械臂項目“vlm_arm”是一個創(chuàng)新的嘗試,它將機械臂、大模型和多模態(tài)AI技術(shù)相結(jié)合,旨在創(chuàng)建一個能夠理解自然語言、視覺信息并執(zhí)行復(fù)雜任務(wù)的人機協(xié)作智能體。
該項目采用了大象機器人Mycobot 280 Pi,一款6自由度的桌面型機械臂,通過集成大語言模型和多模態(tài)視覺理解模型,如Yi-Large、Claude 3 Opus、GPT4o、Yi-Vision等,賦予了機械臂強大的理解和執(zhí)行能力。通過手眼標定技術(shù),機械臂能夠?qū)D像中的像素坐標轉(zhuǎn)化為自身坐標,執(zhí)行精確的抓取動作。

這款具身智能,所有東西加起來8000塊錢。
“作為開發(fā)者,我們只需要把各種模塊像積木一樣拼起來,調(diào)用各種API為我們所用?!?/strong>
通過提示詞工程設(shè)計人機交互模式,通過智能體agent、智能路由選擇解鎖生成式AI的開放世界。OpenAI春季發(fā)布會發(fā)布的GPT4O把文本、視覺、語音多模態(tài)端到端集成到了一起,真正給機器人注入靈魂。
在子豪看來,毫無疑問,具身智能產(chǎn)業(yè)即將迎來大爆發(fā),未來每個人都可以是鋼鐵俠托尼·史塔克。
這款8000塊的硬核黑科技,張子豪一人操刀,耗時不到28天。
一人AI
獨立開發(fā)者如何玩轉(zhuǎn)算力
2024年,一人AI的概念火了。
一人AI的概念指的是個人利用人工智能技術(shù)來增強自己的工作能力和效率,使得一個人能夠像一個團隊一樣高效地工作。這種模式下,人工智能技術(shù)成為個人工作的一部分,幫助處理各種任務(wù),從而實現(xiàn)“一個人+AI=一整個團隊”的效果,進一步說就是人工智能時代的超級個體。
OpenAI負責人奧特曼曾預(yù)言,以AI為杠桿,一人公司就可以創(chuàng)造過億的財富。
作為一人AI的先行者,張子豪將自己的教程公布在GitHub上,一共獲得了13.6kstar,6.4k粉絲。

張子豪認為:“個人開發(fā)者玩大模型,算法、數(shù)據(jù)和算力中,算力門檻最高?!?/p>
過去五年內(nèi),算法工程師曾是稀缺資源,但隨著開源大模型和大模型門檻的降低,算法的重要性下降,算力成為了新的稀缺資源。
歷史上技術(shù)進步不斷將復(fù)雜問題轉(zhuǎn)化為巨大的計算任務(wù),如阿爾法Fold解決蛋白質(zhì)結(jié)構(gòu)預(yù)測,智能駕駛技術(shù),以及大模型訓練。這表明,利用巨大算力解決復(fù)雜問題的能力是推動技術(shù)爆炸的關(guān)鍵。
提及英偉達的物理AI理念,子豪認為個人開發(fā)者可借鑒的有四個杠桿:一是創(chuàng)造復(fù)制編輯成本為零的產(chǎn)品,實現(xiàn)一份時間出售多份;二是運用費曼學習法,以教促學,提升學習效果,比如子豪在b站上更新的系列AI課程和AI趣味測評;三是打造個人代表作,作為個人品牌和實力的展示,在人工智能時代打造屬于個體的超級IP;四是強調(diào)在AI時代下,既要使用AI也要創(chuàng)造自己的產(chǎn)品。
張子豪在AI時代的個人IP就是他的科技up主標簽和自行制作的機械臂,他看重具身智能中大模型的重要性。
同濟子豪兄
“大模型賦能機器人實現(xiàn)復(fù)雜交互與執(zhí)行能力?!?/p>
之前的自動化的機器人,被子豪稱為“死板的只能執(zhí)行固定動作跳霹靂舞”。接入大模型后,就像給他吹了一口仙氣兒,給他注入了靈魂。他就能夠理解人類的復(fù)雜指令,感知大千萬物去做出決策,就能跟真實的物理空間去交互。
現(xiàn)在有很多類似的說法,我們叫做embodied intelligence,英偉達叫做物理AI(physics AI),李飛飛叫做空間智能。但其實說的都是同一件事,就是機器人能夠跟真實的物理世界進行交互。
27萬粉科技 up主
累計播放量超1700萬
在成為AI時代的超級個體之前,子豪的使命是用更通俗易懂的語言講清楚人工智能課程。
“創(chuàng)作真正有良心的科普、數(shù)學、算法、編程、論文學術(shù)教程,節(jié)省大家最寶貴的時間和注意力。”

他總共錄制了292條視頻,總播放量超過1700萬,五次登上熱搜榜。
2018年之前,張子豪在重慶大學學習土木工程,與AI相距甚遠??吹饺斯ぶ悄艿臐摿?,他開始跨專業(yè)考研,花半年從土木到計算機,考到了同濟大學交通運輸工程學院,讀研期間同時在微軟亞洲研究院、IDEA實習。
這段跨考自學之旅讓子豪意識到:AI的課程太抽象,一個簡單的bug自己曾經(jīng)要在圖書館啃一下午的專業(yè)理論。那時他就想:“要是自己有一個引路人就好了。”
子豪沒有等來引路人,但是他自己成了點燈者。
在他的b站賬號上,他發(fā)布了GitHub高贊開源項目、斯坦福CS224W公開課、增強現(xiàn)實、生成對抗網(wǎng)絡(luò)等系列前沿課程,并總結(jié)出一條學習計算機的黃金法則:
“數(shù)學是內(nèi)功,編程是氣力,算法是招式。”
在武俠小說中,內(nèi)功是武功的根基,氣力代表一個人的基本能力,招數(shù)是具體的武功招式,用于實戰(zhàn)對敵。
數(shù)學就像是內(nèi)功,為計算機科學提供理論基礎(chǔ),包括離散數(shù)學、線性代數(shù)等。編程將理論付諸實踐,就如同練好武功需要修煉氣力,編程技能也需要持續(xù)鍛煉提升。算法是解決問題的具體方法,好的算法能高效解決復(fù)雜問題,就像好的招數(shù)能將敵人一擊致命。

子豪出圈的第一條視頻是“大白話講解卷積神經(jīng)網(wǎng)絡(luò)工作原理”,播放量37.5萬,點贊1萬。
那是2018年11月,子豪讀研的第一個學期,也是在b站發(fā)布的第二條視頻。

視頻通俗易懂地講解了卷積、池化(下采樣)、梯度下降、反向傳播,以及ImageNet網(wǎng)站和幾款經(jīng)典模型。
從那以后,子豪基本每周更新一次課程,粉絲量也漸漸突破十萬、二十萬。
亞馬遜首席科學家李沐評價道:“推薦下同濟子豪兄的論文精讀系列,筆記做得很棒?!?/p>
AI無止境,子豪兄也正在路上。
從跨考、讀研到工作、創(chuàng)業(yè),他從未放棄自己作為AI引路人的身份。他還要錄制更多的課程,繼續(xù)照亮那些因晦澀而難以闡釋的理論空間。
張子豪:b站知名科技up主,“同濟子豪兄”粉絲27.8萬,累計播放量超1700萬。從重慶大學土木工程跨考到同濟大學智能交通學院,曾在微軟亞洲研究院實習。畢業(yè)后在上海人工智能實驗室、浦江國家實驗室做了兩年計算機視覺算法工程師。2023年8月辭職創(chuàng)業(yè),擔任上海豪兄教育科技有限公司CEO,與華為、字節(jié)跳動等多家大廠合作過。
【有獎?wù){(diào)研】2024年了,開發(fā)者們過得還好嗎?碼客人生開啟了新一輪的程序員幸福指數(shù)問卷調(diào)查,參與問卷調(diào)研:https://dworks.zhiding.cn/f/DecZmP,幸運用戶還可獲得50元京東卡。
熱門跟貼