
出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|電影《模仿游戲》
回國(guó)兩個(gè)月后,羅劍嵐加入智元。這是他探索國(guó)內(nèi)具身智能的一個(gè)起點(diǎn)。
從機(jī)器人不再稱之為“機(jī)器人”,而是被叫做“具身智能”開始,這個(gè)賽道也逐漸年輕化。王興興、彭志輝、王鶴、楊豐瑜,如今國(guó)內(nèi)的具身智能圈已經(jīng)是90后、甚至00后的主場(chǎng)。似乎更名換姓后,人也變年輕了。和上述創(chuàng)業(yè)者一樣,從伯克利回來(lái)的羅劍嵐也是一位90后。但不同的是,他的野心不在于拿融資、創(chuàng)業(yè)、找錢。也許是性格使然,羅劍嵐回國(guó)后依然堅(jiān)持了他過(guò)往的科研路線。
2015年,是羅劍嵐在機(jī)器人領(lǐng)域研究更早的起點(diǎn)。在后續(xù)的十年時(shí)間里,他有8年都在做學(xué)術(shù)研究,先后就讀于伯克利的博士和博士后學(xué)位。而在重返伯克利就讀博士后之前,他還有兩年的時(shí)間是在谷歌度過(guò),分別擔(dān)任Google X和Google DeepMind研究科學(xué)家。在此期間,他還領(lǐng)導(dǎo)開發(fā)了全球首個(gè)超人類的機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)系統(tǒng)。
盡管在具身智能領(lǐng)域,對(duì)于走 IL(模仿學(xué)習(xí))路線還是 RL(強(qiáng)化學(xué)習(xí))路線,分歧始終存在,但羅劍嵐卻是一名堅(jiān)定的 RL 擁護(hù)者。他的主張是,除非模仿學(xué)習(xí)準(zhǔn)確率能達(dá)到100%,否則在現(xiàn)實(shí)世界的不確定性是極大的。而實(shí)際情況是準(zhǔn)確率達(dá)到99.9%都是幾乎不可能的。
回到國(guó)內(nèi),羅劍嵐在做科研與回歸產(chǎn)業(yè)界之間,選擇了一條折中的路線。他決定加入智元擔(dān)任首席科學(xué)家,并牽頭組建了“智元具身研究中心”,還做了稚輝君的同事。
與羅劍嵐回國(guó)的初衷相吻合,這個(gè)“智元具身研究中心”并非傳統(tǒng)意義上的研究機(jī)構(gòu),而是一個(gè)連接基礎(chǔ)研究和產(chǎn)業(yè)落地之間的橋梁。在羅劍嵐的口中,”它并不是為了發(fā) paper 而存在的,這個(gè)事情不需要我在智元做,具身研究中心存在的意義是用問(wèn)題推動(dòng)科研,它的導(dǎo)向是去解決實(shí)際問(wèn)題,最重要的是,在這個(gè)研究中心里,基礎(chǔ)研究和產(chǎn)業(yè)落地沒(méi)有嚴(yán)格的界限”。
而羅劍嵐口中的界限也正是中美在具身智能領(lǐng)域最大的區(qū)別所在。同時(shí),它也是朱嘯虎口中具身智能存在泡沫的根源。
我們不能總是在一個(gè)個(gè)榜單和視頻的 demo 里看到具身智能的進(jìn)步,具身智能只有應(yīng)用到具體的產(chǎn)業(yè)中,轉(zhuǎn)為實(shí)際生產(chǎn)力,才能讓人感受到它的進(jìn)步。沉浸在學(xué)術(shù)界多年的羅劍嵐,也并不排斥朱嘯虎的觀念。從某種程度上,朱嘯虎代表著現(xiàn)實(shí)主義,但這種現(xiàn)實(shí)主義也恰是籠罩在具身智能這種基礎(chǔ)研究與產(chǎn)業(yè)落地脫節(jié)的現(xiàn)實(shí)之下。
在與羅劍嵐對(duì)話的過(guò)程中,他流露出了一種非常 open 的態(tài)度。他說(shuō),“完全可以理解朱嘯虎作為投資人的立場(chǎng)”,但同時(shí)這并不代表應(yīng)該放棄基礎(chǔ)研究。當(dāng)下,大眾對(duì)朱嘯虎的觀點(diǎn)存在一種誤讀,甚至解讀成對(duì)具身智能的唱衰。實(shí)際上恰恰相反,他反而在提醒企業(yè),具身智能領(lǐng)域真正需要解決的是基礎(chǔ)研究與產(chǎn)業(yè)落地之間的 gap 問(wèn)題。
但這種 gap 在美國(guó)的具身智能圈要更加嚴(yán)重。“和國(guó)內(nèi)不同,美國(guó)的氛圍太過(guò)于偏重基礎(chǔ)研究,可能他們不卷吧”,羅劍嵐對(duì)虎嗅說(shuō)道。但這同時(shí)也是國(guó)內(nèi)具身智能的魅力所在,“國(guó)內(nèi)有很多做硬件的公司,而且商業(yè)化也會(huì)更快一步,這很有利于填補(bǔ)基礎(chǔ)研究與產(chǎn)業(yè)落地之間的 gap。” 羅劍嵐告訴虎嗅。
實(shí)際上,國(guó)內(nèi)的具身智能圈,一直都縈繞著兩種氛圍,一種是聚集了UC伯克利和斯坦福等人才的學(xué)術(shù)派,一種是聚集了華為、小米等人才的大廠派。但在羅劍嵐身上,卻既看得到屬于學(xué)術(shù)派的浪漫主義風(fēng)格,也有來(lái)自大廠派的務(wù)實(shí)風(fēng)格。這次回國(guó),羅劍嵐更多是帶著問(wèn)題回來(lái)的。
在具身智能領(lǐng)域,目前最大的難題還是在 manipulation(操控)身上,通俗來(lái)講就是準(zhǔn)確應(yīng)對(duì)外部世界的無(wú)限性、不確定性。這也是目前各界都在攻克的重點(diǎn)。
而在智元,羅劍嵐想用一種“以問(wèn)題驅(qū)動(dòng)科研”的方式繼續(xù)完成他的科研工作,同時(shí)這里也是他從科研回歸到產(chǎn)業(yè)界的開始。
以下為虎嗅與智元首席科學(xué)家羅劍嵐對(duì)話實(shí)錄,有刪改:
虎嗅:你在伯克利期間,對(duì)國(guó)內(nèi)具身智能公司有過(guò)接觸嗎?當(dāng)時(shí)你怎么看國(guó)內(nèi)這些公司的?
羅劍嵐: 2016、17年的時(shí)候,那時(shí)產(chǎn)業(yè)化處于比較早期階段,更多是硬件導(dǎo)向或者是偏服務(wù)類的機(jī)器人,真正關(guān)注具身智能和通用機(jī)器人的還并不多。當(dāng)時(shí)還沒(méi)有這個(gè)概念,普遍都叫機(jī)器人。
國(guó)外也只是有幾家機(jī)構(gòu)在做,包括Google在內(nèi)。當(dāng)時(shí)大家對(duì)于把 learning 移到機(jī)器人上這件事一直是持懷疑態(tài)度的。那個(gè)時(shí)候國(guó)內(nèi)偏傳統(tǒng)一些,AI做得少。但這一兩年,國(guó)內(nèi)至少?gòu)穆晞?shì)上看比美國(guó)要大得多。
虎嗅:是因?yàn)樯虡I(yè)化的原因嗎?
羅劍嵐: 國(guó)內(nèi)可能會(huì)比較關(guān)注這個(gè)詞。相比之下,國(guó)內(nèi)更易獲得場(chǎng)景和數(shù)據(jù),使用效率也會(huì)相對(duì)較高。但美國(guó)會(huì)更堅(jiān)持技術(shù)的長(zhǎng)期探索。
虎嗅:回國(guó)之后,為什么沒(méi)有選擇自己創(chuàng)業(yè),而是加入到一家具身智能公司做首席科學(xué)家?
羅劍嵐: 在產(chǎn)業(yè)界做科研需要一套落地的系統(tǒng),這涉及到跨學(xué)科跨層級(jí)的系統(tǒng)性協(xié)作。目前這個(gè)階段,我希望專注在我擅長(zhǎng)的事情上,而不是一開始就陷入團(tuán)隊(duì)建設(shè)、融資、工程化這些事情上。
虎嗅:你說(shuō)跨學(xué)科協(xié)作。但國(guó)外跨學(xué)科會(huì)不會(huì)走得更往前一些?
羅劍嵐: 我倒覺(jué)得中國(guó)天生的土壤或基因會(huì)比較好一點(diǎn),比如美國(guó),第一他沒(méi)硬件,第二美國(guó)AI 人才密度非常高,所以大家會(huì)更多基礎(chǔ)在AI研究上。但相比之下,在國(guó)內(nèi)恰好相反,國(guó)內(nèi)更容易找到機(jī)器人所需要硬件本體、算法等等。
虎嗅: 那智元最吸引你的點(diǎn)在哪?
羅劍嵐: 它是全棧的公司,也就是說(shuō)硬件、軟件、算法都是閉環(huán)的。這和我的理念非常相符。
虎嗅:你的理念是什么?
羅劍嵐: 我覺(jué)得現(xiàn)在很多機(jī)器人的問(wèn)題是,現(xiàn)在在硬件、軟件、算法上面工程和科研沒(méi)有一起迭代。你不能把它當(dāng)做其他的 AI 方向,就是你有一個(gè) benchmark,有一個(gè) dataset,你在上面刷刷點(diǎn),找一個(gè)場(chǎng)景。我比你好10%就好了。這樣沒(méi)有反映實(shí)際的進(jìn)展,也不客觀公平。
虎嗅:你在智元牽頭組建的“智元具身研究中心”,這個(gè)研究中心是怎樣的存在?比如它的組織架構(gòu)和獨(dú)立性。
羅劍嵐:目前還在持續(xù)招聘。它是一個(gè)連接基礎(chǔ)研究,到真正可以被部署到真實(shí)系統(tǒng)的中臺(tái)。他不會(huì)只發(fā)論文,這可能只是目標(biāo)之一;但更重要是推動(dòng)具身系統(tǒng)能力的演進(jìn),以及部署到真實(shí)世界中。它是內(nèi)嵌式的科研中臺(tái),具有相對(duì)的獨(dú)立性,可以探索新的科研范式,同時(shí)也會(huì)和我們產(chǎn)品工程這類部門是保持強(qiáng)聯(lián)動(dòng),避免脫節(jié)。
虎嗅:那在這個(gè)研究中心里,它的基礎(chǔ)研究和落地方面會(huì)有一個(gè)比例嗎?
羅劍嵐:這是個(gè)好問(wèn)題。我覺(jué)得機(jī)器人領(lǐng)域有一個(gè)挺大的問(wèn)題,就是在別的領(lǐng)域比說(shuō)大語(yǔ)言模型,最新的研究成果是幾乎可以馬上轉(zhuǎn)化到商用上,大家可以看得見摸得著,可以用起來(lái)。但機(jī)器人研究卻很多停留在了紙上,拍個(gè)視頻發(fā)到網(wǎng)上說(shuō)自己比別人好10%,然后就沒(méi)有后續(xù)了,也沒(méi)有人負(fù)責(zé)落地。
所以你說(shuō)的這個(gè)比例問(wèn)題,在我們的研究中心里我不會(huì)設(shè)一個(gè)就非常boundary的界限,我不會(huì)把基礎(chǔ)研究和落地分開來(lái)。我覺(jué)得機(jī)器人作為系統(tǒng)性的學(xué)科,它是可以被最后 push 到真正應(yīng)用上的,而不是留在 demo 和論文,然后誰(shuí)也不管的狀態(tài),所以整體會(huì)是比較流動(dòng)的狀態(tài)。
虎嗅:在國(guó)外的話,基礎(chǔ)研究和產(chǎn)業(yè)落地的這個(gè)界限會(huì)有多重?
羅劍嵐:我覺(jué)在機(jī)器人領(lǐng)域,國(guó)外比較尷尬的一點(diǎn)是,他們?nèi)绻肼涞乇容^難找場(chǎng)景。受制于一些客觀因素,他們的制造業(yè)和服務(wù)業(yè)相對(duì)較少。這并不是他們不想做。還有一點(diǎn)是美國(guó)環(huán)境會(huì)包容一點(diǎn),整個(gè)機(jī)制會(huì)更鼓勵(lì)大家去做比較長(zhǎng)期的探索,而且資本非常充裕,他們對(duì)失敗的容忍率也比較高,這也導(dǎo)致了在具身智能領(lǐng)域很多問(wèn)題沒(méi)有落地。
虎嗅: 所以,“用問(wèn)題驅(qū)動(dòng)科研”這也是你回到國(guó)內(nèi)要做的主要事情嗎?
羅劍嵐: 對(duì),我覺(jué)得好的技術(shù)研究能轉(zhuǎn)化為生產(chǎn)力也是一件非常激動(dòng)人心的事情。
虎嗅:DeepSeek這波熱潮之后,國(guó)內(nèi)外對(duì)RL接受度會(huì)更高嗎?
羅劍嵐:對(duì), DeepSeek 或 GPT-O1會(huì)讓大家看到 RL 的潛力。之前 RL 火起來(lái)還是在2016年AlphaGo 那波,但因?yàn)楹髞?lái)沒(méi)找到應(yīng)用,又沉寂了一會(huì)。然后2023年大家看到大語(yǔ)言模型的時(shí)候又好了,再到現(xiàn)在大家仿佛又看到了 RL 的潛力。今年圖靈獎(jiǎng)也頒給了 RL 領(lǐng)域的兩位宗師。
我對(duì) RL 的看法是這樣,它是一個(gè)歸納法和演繹法的區(qū)別。歸納法是你現(xiàn)在看到的現(xiàn)象,他現(xiàn)在是什么,以后也就會(huì)是什么。但演繹是,你根據(jù)它底層的邏輯去推理。因?yàn)槿绻皇?supervise learning (監(jiān)督學(xué)習(xí))的話,沒(méi)有辦法做優(yōu)化,也沒(méi)有辦法做多步的推理。但RL 在原則上是一個(gè)比supervise learning更合理的framework(框架)。如果它出問(wèn)題了,也不一定是它本身的問(wèn)題,即使真有的話,我們應(yīng)該讓它變得更好,而不是看到問(wèn)題就認(rèn)為它不行了。
虎嗅:現(xiàn)在在具身智能領(lǐng)域,堅(jiān)持 RL 的會(huì)很多嗎?
羅劍嵐: 我覺(jué)得現(xiàn)在做locomotion,也就是做移動(dòng)的肯定用的比較多了。但manipulation (操控)的話,這個(gè)涉及到真實(shí)世界,大家還在探索階段吧,
虎嗅:為什么會(huì)這么說(shuō)?這個(gè)locomotion和manipulation具體體現(xiàn)在什么地方?
羅劍嵐: 因?yàn)?locomotion 更多關(guān)注的是你自己的行為。比如狗往前走,機(jī)器人 往前走,你只要控制好自己模型的準(zhǔn)確性就可以了。但manipulation 更多關(guān)于外部世界,除非你的仿真器能夠模仿整個(gè)世界,但這是個(gè)很難的事情。
在過(guò)去二三十年的機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)和教訓(xùn)中告訴我們,在一個(gè)AI系統(tǒng)里,如果有一個(gè)部分不隨著數(shù)據(jù)的scale(增多)從而性能scale(提升),那么這部分最后就會(huì)變成這個(gè)系統(tǒng)的瓶頸。仿真器是我們用手設(shè)計(jì)的,不隨著整個(gè)系統(tǒng)的提升而提升,最后我們學(xué)出來(lái)的策略就不會(huì)超過(guò)仿真器的本身。
虎嗅:所以在manipulation還存在很大問(wèn)題的情況下,你覺(jué)得具身智能接下來(lái)的發(fā)展方向應(yīng)該是什么?
羅劍嵐: 我覺(jué)得接下來(lái)幾年,我們不要說(shuō)做全能機(jī)器人,而是做有用的機(jī)器人,解決一個(gè)任務(wù)可能太specialize (專用)了,但至少可以解決4、5個(gè)場(chǎng)景里面的任務(wù)。我也不關(guān)注他到底是不是人形。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4197063.html?f=wyxwapp
熱門跟貼