量子位智庫
量子位 | 公眾號 QbitAI
2022年初,彼時(shí)OpenAI還未發(fā)布ChatGPT,RockAI就已經(jīng)選擇押注非Transformer路線。
這一在當(dāng)時(shí)看來非主流的選擇,如今正逐漸顯現(xiàn)出前瞻性。
他們打造的端側(cè)大模型已經(jīng)可以在樹莓派這樣的微型設(shè)備上流暢運(yùn)行,首批搭載Yan架構(gòu)大模型的具身智能機(jī)器人也已經(jīng)面世。
當(dāng)下AI算力競賽愈演愈烈之際,他們的“低算力”“群體智能”之路正在獲得更多關(guān)注。
本期「大模型創(chuàng)新架構(gòu)」主題訪談,量子位邀請到RockAI CEO劉凡平,聊聊他們選擇非Transformer架構(gòu)路線背后的故事,以及通過架構(gòu)及算法創(chuàng)新實(shí)現(xiàn)AGI的技術(shù)愿景。

△RockAI CEO劉凡平
以下為量子位與RockAI CEO劉凡平的對話實(shí)錄整理:
非Transformer逆勢選擇
量子位:介紹一下RockAI的創(chuàng)立背景吧,當(dāng)時(shí)為什么選擇做非Transformer架構(gòu)?
劉凡平:RockAI成立的工商登記的時(shí)間是2023年6月,但其實(shí)我們很多年前就在做這些事情了,當(dāng)時(shí)ChatGPT還沒有火。
我最早在2016、2017年研究Attention機(jī)制時(shí)就認(rèn)識到Transformer存在很多問題。2022年初創(chuàng)業(yè)時(shí),我們就堅(jiān)定走非Transformer路線,主要是因?yàn)橐庾R到Transformer又耗算力又耗數(shù)據(jù)。
在此之前,我們其實(shí)也探索過Transformer架構(gòu)的優(yōu)化方向,做了線性Attention等改進(jìn),但發(fā)現(xiàn)這些都沒有解決根本問題,所以索性放棄,直接走非Transformer這條路。
量子位:當(dāng)時(shí)設(shè)想的應(yīng)用場景是什么?
劉凡平:最初做的其實(shí)是搜索引擎,當(dāng)時(shí)我們的搜索引擎是“所搜即所得”,能夠直接給出答案,而不是給一堆網(wǎng)頁鏈接。這有點(diǎn)像現(xiàn)在的Kimi或Perplexity那種模式,但我們當(dāng)時(shí)做得很早。
那時(shí)候就發(fā)現(xiàn)Transformer滿足不了我們的需求,首先是幻覺問題非常嚴(yán)重,另外我們希望AI能實(shí)現(xiàn)個(gè)性化的自主學(xué)習(xí)和記憶,這兩點(diǎn)都是當(dāng)時(shí)Transformer基本上做不到的,甚至到現(xiàn)在都無法做到。
量子位:為什么從做搜索引擎轉(zhuǎn)變成現(xiàn)在做端側(cè)AI和群體智能?
劉凡平:其實(shí)是很自然的選擇和轉(zhuǎn)變。搜索引擎幫助用戶獲得信息,但它對用戶的了解比較淺,只能通過用戶的query、點(diǎn)擊鏈接和我們給的結(jié)果來了解用戶。
這種方式對記憶和自主學(xué)習(xí)的影響偏小,僅停留在傳統(tǒng)機(jī)器學(xué)習(xí)的用戶畫像這個(gè)很淺的層面。我們想走得更遠(yuǎn),讓AI與用戶之間產(chǎn)生更多粘性,所以想到讓設(shè)備走進(jìn)來。
我們當(dāng)時(shí)判斷AGI(通用人工智能)會和設(shè)備有強(qiáng)關(guān)聯(lián),而不僅僅是互聯(lián)網(wǎng)的模式。搜索引擎只是通往AGI的一個(gè)工具,并沒有成為基建,而人工智能要成為基建,就一定要和設(shè)備關(guān)聯(lián)起來。
其實(shí)2022年底GPT火了之后,很多人不理解我們?yōu)槭裁匆龇荰ransformer架構(gòu)大模型。甚至到2023年,很多人都不太理解,現(xiàn)在隨著越來越多人看到了Transformer之外的可能性,大家開始慢慢理解了。
量子位:能不能介紹一下什么是群體智能?
劉凡平:我們對群體智能有一個(gè)定義,具備自主學(xué)習(xí)的若干智能單元,通過環(huán)境感知、自我組織、互動協(xié)作共同解決復(fù)雜問題,并在不斷變化的環(huán)境中實(shí)現(xiàn)整體智能提升。我們還定義了群體智能的四個(gè)階段:
第一階段是創(chuàng)新性基礎(chǔ)架構(gòu),摒棄傳統(tǒng)架構(gòu)、研發(fā)低算力需求的創(chuàng)新架構(gòu)和算法。
第二階段是多元化硬件生態(tài),構(gòu)建跨平臺、低功耗、多模態(tài)兼容的模型,實(shí)現(xiàn)在各類終端設(shè)備的靈活部署。
第三階段是自適應(yīng)智能進(jìn)化,賦予智能單元自主學(xué)習(xí)能力,建立持續(xù)進(jìn)化體系,實(shí)現(xiàn)自我優(yōu)化和迭代。
第四階段是協(xié)同化群體智能,構(gòu)建智能單元間的高效信息交換與協(xié)作機(jī)制,形成既獨(dú)立又整體的智能生態(tài)系統(tǒng)。
整個(gè)過程我們希望是從互聯(lián)網(wǎng)模式走向物理世界的,讓物理世界的每一種交互都成為數(shù)據(jù),而這種數(shù)據(jù)能更了解用戶,同時(shí)AI對數(shù)據(jù)的學(xué)習(xí)也能反饋到用戶身上,我們認(rèn)為這才是最有價(jià)值的。

△RockAI群體智能發(fā)展理念
MCSD與類腦激活
量子位:能不能介紹一下Yan架構(gòu)大模型的核心技術(shù)MCSD?
劉凡平:其實(shí)MCSD只是我們模型的一個(gè)模塊,這個(gè)模塊降低了時(shí)間復(fù)雜度和空間復(fù)雜度。
舉個(gè)例子,Transformer中的Attention機(jī)制就像燃油汽車的發(fā)動機(jī),是最核心的部分?,F(xiàn)在很多人在優(yōu)化它,相當(dāng)于把發(fā)動機(jī)從自然吸氣變成渦輪增壓,但無論怎么改,它就是一個(gè)燃油發(fā)動機(jī)。
我們的MCSD相當(dāng)于把它變成了新能源汽車的電機(jī)。Attention機(jī)制建立了一個(gè)大矩陣去計(jì)算token與token之間的關(guān)聯(lián)關(guān)系,時(shí)間復(fù)雜度是O(n2),性能損耗非常大。
而我們的MCSD可以通俗理解為,對輸入內(nèi)容中的token進(jìn)行動態(tài)的增強(qiáng)和衰減。
比如我想預(yù)測“今天北京的溫度是多少”這個(gè)句子的下一個(gè)token是什么,是問號還是句號。其中的“今天”兩個(gè)字對后面用問號還是句號影響很小,所以對它進(jìn)行衰減;而“多少”對下一個(gè)token影響比較大,所以進(jìn)行增強(qiáng)。
這個(gè)過程只需要算一次,就把計(jì)算復(fù)雜度從O(n2)降為了O(n),推理就更快,基本上做到一個(gè)穩(wěn)定常量級的推理。

△《MCSD: An Efficient Language Model with Diverse Fusion》論文
量子位:除了MCSD,Yan架構(gòu)大模型還有什么核心技術(shù)?
劉凡平:我們還提出了類腦激活機(jī)制,它是在MCSD基礎(chǔ)上擴(kuò)展的橫向內(nèi)容。這個(gè)類腦激活機(jī)制我們內(nèi)部稱為“動態(tài)神經(jīng)元選擇驅(qū)動算法”。
人的大腦是動態(tài)激活的。開車時(shí),視覺皮層被大量激活;休息時(shí),視覺皮層被抑制;考試時(shí),邏輯區(qū)被激活;回憶問題時(shí),記憶區(qū)被激活。而傳統(tǒng)Transformer架構(gòu),哪怕算1+1,所有神經(jīng)元都會參與運(yùn)算,這是非常不合理的。
MoE(混合專家模型)雖然減少了參與計(jì)算的參數(shù),但它在模型初始化前就定義好了分支數(shù)量,并不是真正動態(tài)激活的。我們的做法是,當(dāng)用戶輸入query時(shí),會動態(tài)組建一個(gè)神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是根據(jù)需要臨時(shí)建立的,不是預(yù)設(shè)好的。
形象地說,MoE相當(dāng)于在河上提前修好五座橋,用戶來了后選擇一座過河;而我們是沒有現(xiàn)成的橋,只提供一堆工具(神經(jīng)元),用戶需要過河時(shí),這些工具動態(tài)地創(chuàng)建出一座橋,問題解決后這個(gè)橋就消失了。

△MCSD與類腦激活機(jī)制示意
量子位:這種計(jì)算復(fù)雜度為O(n)的模型能在現(xiàn)實(shí)中提供什么新的可能性?
劉凡平:最典型的是設(shè)備端應(yīng)用。很多設(shè)備廠商找我們,是因?yàn)槲覀兊哪P湍茉谒麄冊O(shè)備上跑起來。Transformer架構(gòu)如果要在驍龍6的手機(jī)上運(yùn)行,參數(shù)量需要降得很低,而我們可以直接運(yùn)行。
像樹莓派這樣的低端設(shè)備,我們也能運(yùn)行起來,這對物聯(lián)網(wǎng)設(shè)備很重要。還有無人機(jī)、具身智能機(jī)器人等,如果它們需要聯(lián)網(wǎng)才能對話,那用戶體驗(yàn)是很糟糕的。我們能讓模型部署在設(shè)備上,實(shí)現(xiàn)離線智能,這是非常大的優(yōu)勢。
量子位:計(jì)算復(fù)雜度的下降和模型性能的提升可以兼得嗎?
劉凡平:我認(rèn)為是可以的。這不是拍腦袋的感覺,而是基于兩方面原因:
一是我們做了很多實(shí)驗(yàn),發(fā)現(xiàn)標(biāo)準(zhǔn)Attention機(jī)制的O(n2)計(jì)算復(fù)雜度有部分是浪費(fèi)算力的;二是從腦科學(xué)角度看,即使是神經(jīng)元很少的簡單生物,也能擁有一定的智能。
我們認(rèn)為關(guān)鍵是底層算法的問題。我們不僅在做架構(gòu)創(chuàng)新,還有基礎(chǔ)算法的創(chuàng)新。如辛頓所說,反向傳播算法本身也存在問題。要進(jìn)一步發(fā)展人工智能,底層算法必須要做大量創(chuàng)新。
底層算法決定了上層架構(gòu),底層算法如果不行,架構(gòu)層的創(chuàng)新就會越來越有限。
訓(xùn)推同步與端側(cè)革命
量子位:能不能描繪一下群體智能最終的場景是什么樣子?
劉凡平:人類社會的發(fā)展一定會伴隨著新設(shè)備的產(chǎn)生,未來可能每個(gè)人都會有一個(gè)新的設(shè)備,這個(gè)設(shè)備可能不再是手機(jī),因?yàn)槭謾C(jī)的場景有限。
這個(gè)設(shè)備會是什么樣現(xiàn)在不清楚,但我認(rèn)為它更多會在物理世界幫助你,且不一定是機(jī)器人形式。會幫你解決日常生活中的絕大部分問題,具有高度隱私性,完全忠于你且不會泄露隱私。
更重要的是,這些設(shè)備具備自主學(xué)習(xí)能力。比如你告訴它做個(gè)蛋炒飯,它暫時(shí)還不會做,但它會在物理世界中自己學(xué)習(xí)怎么做。設(shè)備之間也會相互關(guān)聯(lián),在人類社會之外,還有人與機(jī)器的社會、機(jī)器與機(jī)器的社會。
不過這不是說硅基生命會產(chǎn)生,而是服務(wù)人類社會的過程。我是個(gè)務(wù)實(shí)主義者,不會幻想非??苹玫膱鼍啊N磥砩鐣灰舜嬖?,就是為人服務(wù)的社會,沒那么科幻,但一定會讓人更簡單、更高效地思考和行動。
量子位:目前我們是在群體智能四個(gè)階段里的哪個(gè)階段?
劉凡平:第一個(gè)階段“創(chuàng)新性基礎(chǔ)架構(gòu)”已經(jīng)完全實(shí)現(xiàn)。第二個(gè)階段“多元化硬件生態(tài)”要兼容非常廣泛的設(shè)備,我們也已經(jīng)做到了。
現(xiàn)在正邁向第三個(gè)階段“自適應(yīng)智能進(jìn)化”。因?yàn)樽灾鲗W(xué)習(xí)和記憶技術(shù)還沒有正式對外發(fā)布,一旦具備后,我們就完全進(jìn)入第三階段。第四階段是“協(xié)同化群體智能”階段,所以目前我們處于第二階段向第三階段過渡的階段。
量子位:第三階段自適應(yīng)智能進(jìn)化的門檻是什么,最大挑戰(zhàn)是什么?
劉凡平:“自適應(yīng)智能進(jìn)化”的兩個(gè)關(guān)鍵門檻是自主學(xué)習(xí)和記憶能力。最大挑戰(zhàn)是“訓(xùn)推同步”,即訓(xùn)練和推理同步進(jìn)行。
這個(gè)挑戰(zhàn)非常高,不是說DeepSeek或是OpenAI就可以輕易做到的。他們做的其實(shí)更多還是對Transformer的優(yōu)化,而訓(xùn)推同步在行業(yè)內(nèi)都沒有人做過。
Google最近發(fā)表了一篇《Titans: Learning to Memorize at Test Time》的論文,也算是記憶能力的一種探索,但還不夠,而我們已經(jīng)在實(shí)施自主學(xué)習(xí)與記憶能力的路上。

△《Titans: Learning to Memorize at Test Time》論文
我們的技術(shù)規(guī)劃有兩個(gè)方面:一是從架構(gòu)層面,通過類腦激活機(jī)制改進(jìn)在記憶過程中讓每個(gè)神經(jīng)元能記的東西更多;二是基礎(chǔ)算法創(chuàng)新,特別是優(yōu)化反向傳播算法。
推理現(xiàn)在看起來容易,一臺GPU設(shè)備就能完成,但訓(xùn)練卻很難,主要是因?yàn)榉聪騻鞑ニ惴?。如果?xùn)練和推理算法要求都很低,那么就可以在終端設(shè)備上直接做訓(xùn)練推理同步,直接從物理世界交互獲得數(shù)據(jù)進(jìn)行訓(xùn)練,這是理想狀態(tài)。
量子位:預(yù)計(jì)第三階段自適應(yīng)智能進(jìn)化和第四階段協(xié)同化群體智能會在多久后實(shí)現(xiàn)?
劉凡平:第三階段我們預(yù)計(jì)在未來一到兩年內(nèi)實(shí)現(xiàn),不會特別久。
我們內(nèi)部已經(jīng)看到了一些效果,去年6月份世界人工智能大會上我們對外演示過這個(gè)能力,但那還屬于實(shí)驗(yàn)室版本,沒有商用。
第四階段“協(xié)同化群體智能”需要的時(shí)間更長,因?yàn)樗婕霸O(shè)備與設(shè)備之間的通信,這方面雖然我們有很多研究,但確實(shí)還有障礙,預(yù)計(jì)2到3年后可能會看到明顯進(jìn)展。

△群體智能示意
量子位:要實(shí)現(xiàn)群體智能,不同設(shè)備上的多個(gè)模型相互協(xié)作的挑戰(zhàn)大嗎?
劉凡平:很大,這正是我們實(shí)驗(yàn)室團(tuán)隊(duì)正在研究的問題。
協(xié)同學(xué)習(xí)是很難的,它首先需要協(xié)同的機(jī)制和語言。人與人交流可以通過語言,但機(jī)器之間的交流大概率不是語言形式,因?yàn)檎Z言交流有時(shí)間成本,且語言是具象表達(dá),而非抽象的。
機(jī)器之間的協(xié)作一定是以更精準(zhǔn)的方式進(jìn)行,而目前我們還沒找到很好的方式。我們在研究機(jī)器與機(jī)器之間的交流模式,包括神經(jīng)元交換的方式。
舉個(gè)例子,比如我的模型在開車時(shí)知道哪些神經(jīng)元被激活,那能否把這部分神經(jīng)元移植到另一個(gè)不會開車的模型上?移植后,那個(gè)模型無需訓(xùn)練就可以直接開車,實(shí)現(xiàn)能力遷移。
同樣,當(dāng)兩個(gè)模型需要一起完成任務(wù)時(shí),如何讓它們默契配合?這需要實(shí)時(shí)同步的文本、視覺、語音的交互。
目前大模型的交互,輸入和輸出不是實(shí)時(shí)同步的,用戶輸入文本后,模型要等待完整輸入完成才開始思考再輸出。但人與人交流時(shí),對方開始說話之后你同步就在思考了。
量子位:這與傳統(tǒng)人與智能音箱的那種交互有何本質(zhì)區(qū)別?
劉凡平:傳統(tǒng)智能音箱是單向指令型交互,比如讓小度播放音樂,它就播放。我們的模式是,當(dāng)你剛說“幫我播一首”,還沒說到后文時(shí),模型已經(jīng)開始推理你想聽誰的歌,開始理解你的意圖并準(zhǔn)備結(jié)果,這能讓設(shè)備更像人而非工具。
這需要完全不同的技術(shù)實(shí)現(xiàn)。傳統(tǒng)多模態(tài)模型常常是分開訓(xùn)練的,先訓(xùn)練自然語言模型,再訓(xùn)練音頻、視頻模型,然后做對齊。
而我們的方法更像教嬰兒,不是先學(xué)文本再學(xué)音頻再學(xué)視覺,而是同時(shí)學(xué)習(xí),這產(chǎn)生的對世界的認(rèn)識是完全不同的,改變了大模型的學(xué)習(xí)模式。
比如教孩子認(rèn)字,當(dāng)你指著字母說“這是A”時(shí),聲音和視覺是同步輸入給他的。重復(fù)幾次孩子很快就能認(rèn)出字母。實(shí)時(shí)學(xué)習(xí)不需要海量數(shù)據(jù),只需要few-shot,而傳統(tǒng)大模型需要大量樣本輸入去學(xué)習(xí)。
當(dāng)前的大模型由于架構(gòu)問題和反向傳播的限制,導(dǎo)致強(qiáng)依賴數(shù)據(jù)和算力。而實(shí)時(shí)模型對數(shù)據(jù)的要求會大大降低。
一個(gè)人從嬰兒到大學(xué)畢業(yè),并沒有看過一萬億token的數(shù)據(jù),而現(xiàn)在大模型訓(xùn)練動輒需要十幾T的token來訓(xùn),這顯現(xiàn)了現(xiàn)有方法的缺陷。
量子位:RockAI目前已經(jīng)擺脫了對海量數(shù)據(jù)的需求嗎?
劉凡平:我們擺脫了一部分,但沒有徹底解決。我們希望基于自主學(xué)習(xí)和記憶能力徹底解決這個(gè)問題。
我們在人機(jī)交互方面已經(jīng)取得了進(jìn)展,但因?yàn)樽灾鲗W(xué)習(xí)和記憶能力還未產(chǎn)品化應(yīng)用,所以目前與其他產(chǎn)品的交互體驗(yàn)差異外部感知還不是特別明顯,但路線是完全不同的。
量子位:我們目前能在哪些終端設(shè)備上實(shí)現(xiàn)兼容?與其他小型開源模型有什么區(qū)別?
劉凡平:對于推理的話基本上大部分終端都可以兼容,包括樹莓派。對于訓(xùn)練,我們測試至少需要英特爾 i7以上水平的處理器。
在兼容性方面,我們應(yīng)該是走在前面的,至少在2024年5月前就已在樹莓派上實(shí)現(xiàn)推理,并在2024年的世界人工智能大會上公開開放體驗(yàn)。到現(xiàn)在應(yīng)該還沒有哪家公司能做到這個(gè)程度。
我們與那些小型開源模型的區(qū)別很大。它們是通過縮減參數(shù)量來適應(yīng)設(shè)備,而我們不是靠犧牲模型參數(shù)量來實(shí)現(xiàn)設(shè)備端訓(xùn)練,這樣做意義不大。

△樹莓派示意圖
量子位:這種廣泛的硬件適配會給我們生活帶來什么實(shí)際改變?
劉凡平:改變會很多。尤其是自主學(xué)習(xí)和和記憶能力產(chǎn)品化后,它可以實(shí)現(xiàn)高度個(gè)性化的交互體驗(yàn)。與你交流的AI是完全個(gè)性化的,了解你的一切,能給出非常針對性的建議。不像現(xiàn)在的大模型問同樣的問題給的回答都是類似的。
比如你是科技媒體人,有自己的寫作風(fēng)格,現(xiàn)在想讓主流大模型幫你寫作需要做大量prompt調(diào)整,但一旦端側(cè)能夠?qū)崿F(xiàn)高度個(gè)性化后,你設(shè)備上的模型會非常了解你的風(fēng)格,不需要額外調(diào)試就能按你的心意和風(fēng)格寫作,且非常隱私安全。
同時(shí)我們也不希望是通過長上下文結(jié)合歷史對話的方式,來實(shí)現(xiàn)個(gè)性化,這種方式是不持久的。
再比如在家庭場景中,有多模態(tài)能力的端側(cè)設(shè)備能學(xué)習(xí)你平時(shí)接待客人的習(xí)慣是什么,自然知道這種場景該做什么,不需要專門下指令。
它會越來越貼近你的心意,了解你,與你的粘性越來越高,這是一種完全個(gè)性化的體驗(yàn),而不是所有人用同一個(gè)產(chǎn)品都得到相似的輸出和反饋。
量子位:推理訓(xùn)練并行架構(gòu)會是未來的大方向嗎?會多大程度影響具身智能和人機(jī)交互方式?
劉凡平:我認(rèn)為一定會影響,而且影響非常大。我們和國內(nèi)很多代表性的具身智能機(jī)器人廠家都聊過,現(xiàn)在具身智能有個(gè)很大問題。
我們認(rèn)為具身智能機(jī)器人陷入了惡性循環(huán):機(jī)器賣不出去,制造成本下不來;成本下不來,機(jī)器更加賣不出去。核心在于機(jī)器沒有真正的智能,賣不出好價(jià)格,無法建立正向循環(huán)降低邊際成本,尤其是制造成本。
問題不是云端大模型不夠好,而是云端大模型不適合具身智能廠家。真正適合具身智能的是訓(xùn)練和推理能同步的模型。機(jī)器人是個(gè)性化服務(wù),具身智能廠家不可能靠預(yù)設(shè)來滿足用戶所有的需求。
即使硬件做得再好、再優(yōu)秀,都不是用戶購買的決定性因素,用戶購買只會因?yàn)樗闹悄茏銐蚝?/strong>。
幾十萬元一臺機(jī)器人,回家只能走路,沒人買。但如果能告訴它家里布局,讓它做各種家務(wù)就不一樣了。這些通用云端大模型做不了,因?yàn)槊總€(gè)家庭需求不同,每個(gè)場景不同,每個(gè)機(jī)器人也不同。
未來機(jī)器人的大腦一定會與機(jī)器人強(qiáng)綁定,是完全一對一關(guān)系,不像現(xiàn)在云端大模型與機(jī)器人是1對n關(guān)系。
這就像人類大腦,出生時(shí)相似,但越來越不同。因?yàn)槊總€(gè)人的生長環(huán)境、后天學(xué)習(xí)都會影響大腦決策。同樣拿水的動作,不同人的大腦發(fā)出的指令一定不是完全相同的,因?yàn)榇蠹矣玫牟皇峭痪呱眢w,大腦與身體是綁定運(yùn)作的。
具身智能也一樣,大腦會與機(jī)器強(qiáng)綁定,即使機(jī)器出廠規(guī)格相同,因每個(gè)家庭情況不同,使用方式也會不同。云端大模型無法完成這個(gè)過程,未來具身智能一定會被訓(xùn)練推理同步的端側(cè)模型技術(shù)顛覆和驅(qū)動。

△Yan架構(gòu)大模型在具身智能機(jī)器人的應(yīng)用
量子位:現(xiàn)在做訓(xùn)練推理并行這方面工作的公司多嗎?
劉凡平:沒有,現(xiàn)在真正做訓(xùn)練推理并行的只有我們一家。
量子位:目前RockAI已經(jīng)與哪些公司建立了合作?有沒有比較激動人心的落地場景可以分享?
劉凡平:具體的公司名字不方便透露,但會有PC廠商在產(chǎn)品上離線部署我們的大模型,直接量產(chǎn)使用。
具身智能廠商也有合作,已經(jīng)有出貨,他們很青睞我們模型的離線部署能力。
量子位:您覺得未來端側(cè)和云側(cè)模型會是怎樣的關(guān)系?會一家通吃還是共存協(xié)作?
劉凡平:我認(rèn)為長期來說是共存的,但云端大模型市場一定會被收窄。
我們講的端側(cè)大模型可能和行業(yè)內(nèi)很多人的定義不同?,F(xiàn)在很多人所謂的端側(cè)大模型只是把Transformer通過量化、剪枝等技術(shù)讓它能在端側(cè)設(shè)備上運(yùn)行,這沒有意義。
我們認(rèn)為的端側(cè)大模型就像人的大腦一樣,沒有所謂云端大腦,大腦就在終端里,每個(gè)設(shè)備都擁有自己的智能,這是我們的愿景。云端大模型無法讓每臺設(shè)備擁有自己的智能,這是致命缺陷。
云端大模型可以解決宏觀問題,比如需要超算來解決的人類社會極度復(fù)雜問題,云端大模型非常有意義。但普通人生活中的高頻問題,比如讓機(jī)器人做會議紀(jì)要、拿水,不需要云端大模型,云端大模型也做不到。
另外,云端大模型做不到個(gè)性化。它不可能為全球80億人部署80億個(gè)模型,能有10個(gè)模型都不錯(cuò)了。但當(dāng)設(shè)備具備自主學(xué)習(xí)、記憶、交互能力時(shí),才是人工智能新的突破時(shí)刻。
量子位:以后還需要云側(cè)和端側(cè)協(xié)同嗎?還是端側(cè)直接解決大部分問題?
劉凡平:會有協(xié)同,但不是現(xiàn)在理解的協(xié)同。我們的端側(cè)大模型是去中心化的,沒有中心節(jié)點(diǎn),而云端大模型本身就是中心節(jié)點(diǎn)。
未來的端云協(xié)同可能更像人類的協(xié)同。在公司時(shí),部門leader和同事們開會,此時(shí)她是中心節(jié)點(diǎn),需要把自己的意思同步給其他人。回到家,父母可能會給她一些叮囑,這時(shí)父母又成了中心節(jié)點(diǎn)。
這個(gè)過程里中心節(jié)點(diǎn)是不斷變化的,不是固定唯一的,這種端云協(xié)同本質(zhì)是群體思想不斷對齊的過程。就像我們看電視新聞節(jié)目,也可理解為一種端云協(xié)同,給每個(gè)人同步信息讓大家信息對齊。
未來端云協(xié)同不會再是現(xiàn)在的“端側(cè)能力有限所以需要云端支持”這種概念。
量子位:未來5年AI發(fā)展的關(guān)鍵拐點(diǎn)將出現(xiàn)在哪些方面?
劉凡平:第一,我認(rèn)為基礎(chǔ)算法和架構(gòu)一定會有大量改變。可能很多人不愿意相信,因?yàn)樗麄円呀?jīng)在Transformer上投入了大量資源。但我認(rèn)為今明年基礎(chǔ)算法和架構(gòu)一定會有大變化。
第二,端側(cè)AI一定會慢慢被人接受和理解,這是實(shí)現(xiàn)AGI的重要載體。對算力和數(shù)據(jù)的需求一定會下降。算力是個(gè)大坑,我不認(rèn)為我們真的需要那么多的算力。
新的基礎(chǔ)算法和端側(cè)AI會被越來越多人接受。最后,5~10年后,群體智能也會慢慢普及,其價(jià)值會遠(yuǎn)超現(xiàn)在靠堆算力產(chǎn)生的智能。
為什么?因?yàn)槿后w智能會加速智能社會指數(shù)級增長,就像工業(yè)革命時(shí)期的生產(chǎn)力突破也可以理解成是一種群體智能的突破,新的科技和工具讓人與人、機(jī)器與機(jī)器的協(xié)作更高效了。
現(xiàn)在機(jī)器之間協(xié)作還非常弱,手機(jī)、電腦基本不存在真正的協(xié)作,只是互傳文件或跨設(shè)備接電話。真正的協(xié)作是要一起解決問題,這需要群體智能來實(shí)現(xiàn)。
我認(rèn)為未來五年社會會發(fā)生很大變化,可能需要普通人甚至專業(yè)人員付出諸多努力才能適應(yīng)。現(xiàn)在也有類似的趨勢,當(dāng)前還處于緩慢爬坡階段,以后會從爬坡變成直接上坡。
論文:https://arxiv.org/abs/2406.12230
熱門跟貼