打開網(wǎng)易新聞 查看精彩圖片

出品|虎嗅商業(yè)消費組

作者|苗正卿

題圖|虎嗅拍攝

5月8日,在海淀大恒科技中心的階躍星辰北京辦公地,階躍星辰創(chuàng)始人、CEO姜大昕身著深色西服、藍色襯衫出現(xiàn)在階躍星辰北京辦公地的會議室里。他保持了一貫的風格,如二十一年前在新加坡南洋理工教書時,像老師一樣在屏幕前平靜地講述自己對于多模態(tài)模型行業(yè)的判斷。這里距離姜大昕上一個東家微軟的中國辦公地微軟大廈僅有504米,在2023年創(chuàng)立階躍星辰前,姜大昕是微軟全球副總裁。

“多模態(tài)模型領域目前還沒有出現(xiàn)GPT-4時刻。卡點是整個行業(yè)缺少多模態(tài)領域的理解生成一體化架構。有了這個架構,才能基于此通過海量的圖片視頻去做預訓練+指令跟隨,最終演變?yōu)槭澜缒P??!苯箨空f。

“理解生成一體化架構”不只是姜大昕的技術判斷,也正在影響這家公司的走向。

虎嗅獨家獲悉,近期階躍星辰內(nèi)部,進行了算法小組內(nèi)的微調(diào):原本階躍星辰內(nèi)部團隊分為生成小組和理解小組,而這兩個小組已經(jīng)整合為新的“生成理解”團隊

姜大昕向虎嗅表示,這一調(diào)整,確實是基于“理解生成一體化架構至關重要”這個判斷。

虎嗅獲悉,目前階躍星辰的運轉(zhuǎn)以三個男人為核心:

姜大昕階躍星辰創(chuàng)始人、CEO 負責公司整體戰(zhàn)略、技術研發(fā)

張祥雨階躍星辰首席科學家負責公司技術研發(fā)

朱亦博 階躍星辰的系統(tǒng)負責人,全面負責 AI Infra 建設與AI框架優(yōu)化

此外,階躍星辰通過開源和ToB合作,不斷豐富自己的生態(tài)矩陣。虎嗅獲悉,階躍星辰內(nèi)部開放平臺部門主要面向外部開發(fā)者,提供階躍基礎模型的API接口;生態(tài)部,則主要負責與品牌客戶的戰(zhàn)略合作。這兩個重要的部門由階躍星辰VP李璟負責。數(shù)據(jù)顯示,2024年下半年階躍星辰多模態(tài) API 的調(diào)用量增長了超 45 倍。

目前階躍星辰員工主要有400余人,其中80%為技術研發(fā)人員。這些人分布在上??偛亢捅本┺k公室。每周,所有技術相關員工都會參加固定時間的協(xié)同會,以拉齊共識。在公司內(nèi)部,還有見聞分享群,所有員工可以隨時分享自己對論文和產(chǎn)品的看法。值得注意的是,在這個群里,還接入了階躍星辰的Agent,比如有員工把OpenAI最新的論文發(fā)到群里時,這些Agent會自動梳理出要點、完成翻譯或者給出簡短評語。

和部分基礎模型公司風格略有不同,階躍星辰內(nèi)部氛圍更為扁平開放。階躍星辰的一線員工可以隨時與姜大昕私信交流。有內(nèi)部人士告訴虎嗅,姜大昕能記住公司內(nèi)一線員工的名字,也很少“PUSH”員工,性格比較開放。一個細節(jié)是,多個階躍星辰員工桌面擺著手辦、二次元公仔,在午休時刻有男員工快樂地吃著甜品看B站番劇。據(jù)悉,階躍星辰內(nèi)部還有多個社團,比如羽毛球社、飛盤社等。

截至2025年5月,階躍星辰主要通過通過面向品牌客戶的ToB服務和面向開發(fā)者的API接口業(yè)務獲得收入。但由于在創(chuàng)立后階躍星辰并未像其他頭部模型公司一樣采取“投流”策略,其主要成本是人力和堆卡。2024年12月,階躍星辰宣布完成了B輪數(shù)億美元融資。和一些“AI六小虎”不同,階躍星辰一直在做具備多模態(tài)能力的基礎模型,它也是截至目前“六小虎”中少數(shù)尚未放棄預訓練的公司之一。

姜大昕坦承,基礎模型的競爭是激烈的。在過去半年里僅僅OpenAI、Google、Meta、Grok、Anthropic五家就發(fā)布了不少于8款新品;而國內(nèi)月之暗面、MiniMax等廠商也在頻頻發(fā)力?!案偁幏浅<ち?,追求智能的上限仍是當下最重要的事情。”姜大昕說。

5月8日,姜大昕分享了對多模態(tài)行業(yè)的最新理解以及對階躍星辰未來的規(guī)劃。

-----------以下為姜大昕接受訪談的內(nèi)容----------

大家也能感受到,大模型這個領域發(fā)展得非??臁?2 月份以來國外的頭部幾家做基礎大模型的公司非常密集地發(fā)布了一堆的模型,所以有媒體說他們是“貼臉發(fā)布”,也能感受到競爭是非常激烈的。

通過這些發(fā)布我們其實可以感受到一個趨勢:“追求智能的上限”——我們認為這仍然是當下最重要的一件事。如果透過這些眼花繚亂的發(fā)布我們再多觀察一下發(fā)布的模型的特征也可以整理出一個主流的技術脈絡和共性的規(guī)律。

從宏觀上來講,我們看出模型的發(fā)展是沿著這樣一條智能演進的路線往前進化的:模擬世界、探索世界、歸納世界。

我們也可以感受到眼下的發(fā)展,主要呈現(xiàn)出兩個趨勢。第一個趨勢是,從模仿學習到強化學習,其中一個關鍵點是從多模態(tài)融合走向了多模態(tài)理解生成一體化。

在做模擬世界這個階段,主要訓練的范式叫模仿訓練,就是我們把互聯(lián)網(wǎng)上所有海量的數(shù)據(jù)都喂給大模型,通過一個任務叫 predict next token 讓這個模型從海量數(shù)據(jù)當中去它的結構和它的特征。在這個階段學習的主要的目的是各種模態(tài)的表征,我們看到有語言、聲音、圖像、視頻一直到復雜的 4D 時空的物理世界,里面的核心問題是我們?nèi)绾文苡蒙疃鹊纳窠?jīng)網(wǎng)絡去統(tǒng)一表達這些從簡單到復雜的各種模態(tài)。

這是第一階段,我們學會了表征世界,下一步就是讓培養(yǎng)機器解決復雜問題的能力,比如說讓它解一個數(shù)學題,讓它寫競賽題的代碼,這種問題需要長思維鏈,需要一個比較長的思考的過程,對于復雜問題求解,人腦需要的一種慢思考的能力。我們每個人在解一道復雜的數(shù)學題的時候經(jīng)常不是一口報答案,而是會把這個題分解成若干個步驟。如果發(fā)現(xiàn)一開始的思路不正確的話,還會嘗試其他的解決方法。怎么讓機器學習慢思考的能力呢?采用的方法就是強化學習,強化學習其實大家也不陌生,2016 年的 AlphaGo 采用的就是強化學習的方法,最近的在大語言模型的領域出現(xiàn)的一些推理模型,比如說 OpenAI 的 O1、O3,以及 DeepSeek 的 R1 背后就是強化學習的技術。

但這還不是智能的盡頭,下一個階段就是歸納世界,機器能夠通過自主學習主動發(fā)現(xiàn)人類尚未發(fā)現(xiàn)的物理規(guī)律,可以在生物、核能、材料、量子計算各個領域和科學家一起去完成創(chuàng)新,這個階段我們把它叫作歸納世界。我們看到模型的演進是循著這條路線在往前走。

去年 8 月份的時候,從 OpenAI 流露出了 AGI 的 5 個 level,相信很多人都聽過,從 Chatbot 然后到 Reasoner、Agent、Innovator 和 Organization,如果我們?nèi)プx OpenAI 被每一個階段所描繪的定義會發(fā)現(xiàn),其實這五個 level 和我們的三個階段的邏輯是一致的,只是表述的方法不一樣而已。

過去兩年我們看到整個行業(yè)的模型進化基本上就是遵循了這樣一個路線:從單模態(tài)到多模態(tài),從多模融合到理解生成一體化到強化學習。

我們也看到隨著模型能力不斷的增強,模型的應用也發(fā)生了變化。比如說在最早期的時候,比較流行的應用是各種各樣的聊天機器人,然后有了 Agent 以后我們就可以用它來解數(shù)學題,下一步進化現(xiàn)在是非?;馃岬?topic 就是智能體。智能體我們相信終將從數(shù)字世界走向物理世界,逐漸引申到智能駕駛和人形機器人這些領域。我們看出應用其實跟模型的能力是匹配的,有什么樣的模型決定了有什么樣的應用可以被解鎖、可以成熟和繁榮。

剛才我們介紹了一下行業(yè)的趨勢,回到階躍,階躍的發(fā)展也是圍繞著前面的路線圖。

在過去的兩年時間里,我們建立了一個 Step 系列的通用大模型的矩陣,這里我們首先把基礎模型分成了語言模型和多模態(tài)模型。在國內(nèi)的大模型公司里面,像我們這樣重視模態(tài)的全覆蓋并且堅持原生多模理念的公司并不多,但階躍從一開始就始終認為多模態(tài)對通用人工智能非常重要。有一句話我也在很多場合不停的重復:我們認為多模態(tài)是實現(xiàn) AGI 的必經(jīng)之路。

我再多解釋一下為什么我們的信仰是這樣的,首先是 AGI 對標的是人類的智能,人的智能是多元化的,每個人除了有來自語言的符號智能,還包括視覺智能、空間智能和運動智能等等,這些只能是需要通過視覺和其他模態(tài)來進行學習的。所以我們認為,在多模態(tài)領域任何一個方向出現(xiàn)短板都會延緩實現(xiàn) AGI 的進程。除此之外,除了從 AGI 本身的標準和定義來說,如果我們從應用的角度來看,不管我們是做垂直領域的應用還是做 C 端的應用,多模態(tài)都是必不可少的,我們是需要 AI 能聽、能看、能說,這樣它才能更好地理解用戶所處的環(huán)境,并且和用戶進行更為自然的交流。目前的大模型公司有能力去全面自研預訓練模型,并構成這樣一個模型矩陣的,即使是大公司也不多,更不用說是初創(chuàng)公司了,這是階躍星辰的一個特色,也是我們的一個優(yōu)勢。

下一步的模型會有怎樣的發(fā)展呢?

在預訓練的技術模型上加強強化學習,可以激發(fā)模型推理的時候產(chǎn)生長思維鏈,極大地提高模型的推理能力。這已經(jīng)不是新的趨勢了,推理模型最早出來是去年 9 月份的時候,OpenAI 的 o1 的 preview,我印象還很深刻,因為剛出來沒有幾天,我就去阿里的云棲大會,當時全場注意的焦點都是 o1 的 preview。很多人問這個模型意味著什么?當時我還慷慨激昂地說了一大堆,不過后來的發(fā)展還是和我們當初的預判是一樣的。我們覺得語言模型原來是一個 predict next token 這樣的一個模型,它雖然也能處理一些復雜的推理問題,但是由于沒有經(jīng)過長思維鏈這樣的激化,所以它的處理能力還是比較弱的。如果我們比較推理模型和那個時候的 GPT 范式的模型在推理的問題上做比較的話,它的差距是非常遠的。

OpenAI 的 o1 preview 是去年 9 月份出現(xiàn)的,真正的滿血版是它的圣誕發(fā)布季第一天,就把 o1 的完全版發(fā)布出來了。隨著春節(jié)之前 DeepSeek 發(fā)布了 R1,我覺得這是一個標志,推理模型從一個趨勢變成了一個范式,現(xiàn)在我們再看語言模型基本上是推理模型一統(tǒng)天下。

階躍在今年 1 月份的時候已經(jīng)發(fā)布了一個小的推理模型,我們叫 Step R1-V-Mini,它的速度很快,推理能力其實也挺強的,超出了當時的 o1 的 preview 的版本,我們預計在未來三個月階躍會發(fā)布滿血版的 Step-R1。我們認為,強化學習趨勢還會延續(xù)相當長時間,因為還有很多有意思的問題,學術界、工業(yè)界都在討論,比如說推理的效率如何進一步提高,推理的能力是不是能泛化到更多沒有獎勵函數(shù)、或者說獎勵函數(shù)也很難定義的領域,甚至包括合成數(shù)據(jù)怎么去生成,怎么進行預訓練等等,這都是眼下學術界、工業(yè)界大家討論非常多的問題,階躍也會在這方面持續(xù)地投入。

隱藏在推理能力這個話題里,還有一個點是如何把推理引入到多模態(tài)領域。確切地說,在視覺理解的基礎上,能不能加上視覺推理?

我舉一個例子什么叫視覺推理。

比如說我拿出一張球場的圖片(上海上港主場),問模型這張圖片是哪個地方,是哪個球隊的主場?一般的視覺理解會根據(jù)在訓練數(shù)據(jù)里見過的差不多的圖片告訴你這是什么。但加了推理能力以后,會是什么樣的回答風格呢?它會關注這個圖的細節(jié),比如說首先它會看到大的比分牌,因為我在問它這是誰的主場,比分牌上會根據(jù)隊伍的對標判斷出來,這是上港和上海另外一個球隊的比賽,它在看看臺上的字,比如說看到的紅色力量,包括一般來說主場的球迷比較多,會根據(jù)球迷的球衣的顏色,再根據(jù)底下的廣告牌的內(nèi)容它應該就能判斷出這是上海上港隊的主場,然后通過球場的頂部的建筑結構能夠推斷出這是上港的體育場是上海浦東球場。這是把模型的感知能力和模型內(nèi)部所帶來的知識能結合起來,一起去做推理,這樣一個能力其實比起原先的視覺理解就強化了很多。

在實際的應用中我們經(jīng)常會需要這樣復雜的推理。

比如說,我們有一個應用是叫巡店,比如說茶百道和瑞幸在全國有很多的門店,這些品牌很關注門店中員工的操作是不是符合規(guī)范?以前每一個操作的細節(jié)或者是每一個規(guī)定是專門要訓練一個模型的,因為模型的理解能力還是比較弱的,沒法兒做推理,現(xiàn)在用了我們這個模型以后,只要把規(guī)則寫在它的 Prompt 里,我們的模型就可以自動做推理,幫他去檢測員工的操作是不是合乎規(guī)范,極大地提高了巡店的效率,目前準確率能夠做到 90%以上。

所以總結一下,第一個大的趨勢是:逐漸地把長思維鏈、推理能力加入到不管是語言模型還是多模態(tài)模型里面。

第二個趨勢就是多模理解生成一體化,更準確的說是視覺領域的理解生成一體化。

如果大家聽我各種場合講技術聽得多的話,這句話已經(jīng)聽出繭子了,去年講到今年,已經(jīng)重復了無數(shù)次,我們一直在說理解生成一體化是多模態(tài)領域的核心的問題。什么叫做“理解生成一體化”,它的定義是理解和生成是用一個模型來完成。大家如果看了文本,比如說文本模型 ChatGPT,它就是理解生成一體化,所謂的理解,就是我們給出一篇文章讓它做總結或者 Q&A,這就是典型的理解問題。什么是生成呢?比如給它一個中心思想,來幫我寫一篇什么樣的文章,它寫出一篇很長的文章出來,這個叫生成。現(xiàn)在其實是不區(qū)分的,在文本領域不管讓它做理解還是做生成,用的都是 ChatGPT 這樣的模型。

到了視覺領域就不是這樣了,即使是對圖片,我們理解的時候用的是 GPT-4o 這樣的模型,或者是在階躍是用的 Step-1o。那么生成又換了其他的模型,比如說用 Flux、用 Stable Diffusion,階躍是用 Step image 這樣的模型。大家會發(fā)現(xiàn),為什么在視覺領域里,理解是理解模型,生成是生成模型,它是分開的。我們?yōu)槭裁匆欢ㄒ隼斫馍梢惑w化?因為現(xiàn)在理解和生成是分開的模型。一個本質(zhì)邏輯是,生成的內(nèi)容是需要理解來控制的,你為了保證生成的內(nèi)容是有意義的、有價值的,實際上是需要對它的上下文做一個更好的理解,簡單說就是“生成需要理解來控制”。

反過來,理解是需要生成來監(jiān)督的。Feynman 說了一句話“What I cannot create,I do not understand?!边@句話是什么意思呢?我怎么知道我是真的理解了?只有當我能夠生成,生成的時候我才知道我是真正地理解了,這句話是這個意思。比如說在語言這個領域,它就很好地體現(xiàn)了為什么理解需要生成去監(jiān)督。在 ChatGPT 的時候,大家知道它唯一的任務就是 predict next token,它 predict next token 這個過程就是在生成,它在整個訓練的過程中就是看你 predict next token,predict 的對還是不對,來做監(jiān)督,它就可以一路理解、生成完成以后再回到框架做理解,這樣一步一步下去,就實現(xiàn)了自然語言的理解比以前的各種模型出現(xiàn)了一個斷代式的領先。所以如果我們把這個 predict next token 這樣一個任務平移到視覺領域就會問,我們能不能用一個模型去做 predict next frame?

這是視覺領域的一個靈魂拷問,到現(xiàn)在為止計算機視覺做了幾十年,不幸的是這個問題仍然沒有被解決。

大家可能問為什么?既然文本解決了為什么視覺不能解決?它的原因還是在于模態(tài)的復雜度。大家說語言是很復雜的,但是從統(tǒng)計來說,語言是一個簡單的東西,因為語言至多就十幾萬個 token,這十幾萬在數(shù)學里面我們就認為這是一個離散的分布,所以這十幾萬的這樣低維度的離散分布在統(tǒng)計上,或者我們用神經(jīng)網(wǎng)絡去模擬或者是表達這樣的分布是一件簡單的事情。但在視覺一張圖片,我們先不說視頻,一張圖片 1024×1024 就是 100 萬維,每個維度還是一個連續(xù)的空間,所以,你去表達一個幾萬維的離散空間,和要表達一個 100 萬維的連續(xù)空間,它的難度是不一樣的,所以在視覺領域我們還沒有一個很好的、很高效地表達這么一個連續(xù)的高維的連續(xù)空間的生成問題,所以我們只好理解的時候用了一個 auto-regression Model 是自回歸模型,生成的時候還得依賴 diffusion Model。

在歷史中要把這兩件事結合在一起,大家已經(jīng)做了很多的嘗試。一種嘗試就是既然高維的連續(xù)分布這么難模擬,能不能把它變成一個離散的?這就是一種流派,我把連續(xù)的東西強行變成了離散,塞到語言的空間和大家一起訓。但由于把它從連續(xù)的高維空間降到低維的離散空間有很多的信息就丟失了,這種方式大家是最容易想到的也最容易實踐的,但從來沒有成功過。第二種方式,高維的分布,想辦法把所謂的 auto-regression 的架構和 diffusion 的架構能合在一起,這其實也沒有做得很成功,所以這個問題的核心還是在探索的階段,還沒有很好地解決。

在 2017 年的時候出了一個架構叫 Transformer,Transformer 這個架構對整個業(yè)界最大的意義在于它是一個可以 scale 的,是一個 scalable 的文本的理解生成一體化的架構。在那之前,比如說 LSTM(長短期記憶網(wǎng)絡)或者 CNN(卷積神經(jīng)網(wǎng)絡),或者是其他的模型都不能 scalable,有了這個 scalable 的架構以后,到了 2020 年的時候出了 GPT-3,GPT-3 的意義在于我們第一次把海量的互聯(lián)網(wǎng)數(shù)據(jù)放到了這個 scalable 的架構上,可以讓它用一個模型去處理所有 NLP 的任務。但那個時候它是要 few-shot,需要去給它一些例子,然后它用一個模型來告訴你要怎么做。再往前走一步,到了 2022 年的時候出了 ChatGPT,ChatGPT 就是在預訓練的模型的基礎上再加上指令跟隨,這是 GPT-3.5 做的事情。當然到了 GPT-4 的時候,這個能力就進一步增強了,所以我們經(jīng)常會一個 "GPT-4 時刻",指的就是在這個模態(tài)上,我們的模型真正能達到跟人的智能差不多的水平。然后,把模型從 GPT-4 指令跟隨的模型,再加上推理能力,就已經(jīng)可以解決非常復雜的邏輯問題了。

再往后是什么呢?很多人就覺得應該是在線學習或者是自主學習,就是能夠不斷地自己根據(jù)環(huán)境去學習到新的知識。所以我們看到語言模型,就是隨著這條路往前進化得非常清楚,而且到目前為止,我們覺得語言模型的技術路線基本上收斂了,沒有出現(xiàn)別的分支。世界上不管是 OpenAI 也好、Google 也好、Anthropic 也好,國內(nèi)任何的公司基本上語言模型都在朝著這條路往下走。

我們相信其實視覺也是可以 follow 同樣的路線的。那么它要 follow 同樣的路線,第一步要能做到什么呢?是理解生成一體化。并且它要有一個非常 scalable 的理解生成一體化的架構,為什么要有這個東西?有了這個東西以后我就能解決 predict next frame。如果我能解決 predict next frame,那世界上海量的視頻數(shù)據(jù)就可以我給用來做預訓練。我們可以想象一下孩子在剛出生的時候,其實它是不知道什么叫重力的,他不懂文字,但他通過眼睛的觀察逐漸就能學會如果一個杯子一松手就往下掉,人的這套系統(tǒng)就是在出生以后在做視頻的預訓練,它可以非常好的 predict next frame,所以我們希望將來的模型有這樣的能力,現(xiàn)在還達不到。

如果我能夠用海量的視頻去做預訓練,它能 predict next frame 以后,下一步肯定跟語言模型一樣,加各種指令讓它生成一個什么,讓它預測一個什么東西,這樣就會把所有的計算機視覺的東西統(tǒng)一在這樣一個模型里。再往后就一定是做推理,推理為什么很重要?現(xiàn)在大家做自動駕駛或者是做機器人,大家肯定聽說過 VLA 模型,就是 vision language action 這個模型,現(xiàn)在的 VLA 我覺得是有點叫 VLA1.0,因為它是一個預測模型,就是說我告訴你過去發(fā)生了什么,當下我看到的畫面是什么,你來 predict 我應該做什么操作,我是應該方向盤做什么操作呢?還是應該機器人應該怎么走?它是一個 predict,我通過過去的 vision 來 predict 當下的 action 是什么。那人是怎么做的?人其實不止這一點,是在腦海里在當下會潛意識地有一個 action 的分布,它甚至會預判我如果做這個 action 下一步會產(chǎn)生什么,它是通過對未來的預判來決定現(xiàn)在要做什么。這個過程既有理解又有生成,因為它要先判斷它有哪些 action,然后再判斷這個 action 會造成哪些后果,判斷這個后果的過程就是一個生成的過程。所以,理解生成一體化如果解決了以后,帶了推理的 VLA,就不是今天的 VLA 了,它是一個能夠帶上對未來預測的更好的預測。其實這里面你如果看到的是一個 action 的分布,并且根據(jù) action 對未來的預測來對當下做一個最優(yōu)的策略的選取的話,那它就是強化學習。

如果能做到時空推理、加上 3D 、再加上自主學習以后,我們就覺得到了世界模型的階段。如果到了世界模型,我認為我眼中的 AGI 就實現(xiàn)了。雖然我們還沒有徹底地解決理解生成一體化,但我們覺得如果這個問題一旦突破了以后,它今后的道路會非常順暢,就會和文本一起發(fā)展到世界模型。

理解生成一體化非常重要。不知道大家有沒有看過最近的 GPT4o 的新版,它叫做 4o Image Generation,很多人非常喜歡,因為可以做各種各樣的編輯。給它一張圖,給它一個指令,它就能幫你做各種各樣的編輯,而且是多輪的,這個能力是以前不曾有過的,而要具備這樣的能力,其實你要理解生成一體化,為什么這么說呢?首先這個模型能夠聽懂你要它做什么編輯,這是需要理解的。第二,它編輯出來的圖形是要是要在原有的基礎上做,不能隨便地生成,一般文生圖就是你給它一句話它可以海闊天空、天馬行空地生成,但現(xiàn)在你給它了一張參考圖,再給它一個指令,它同時要理解這個圖片是什么意思,這句話是什么意思,根據(jù)你的指令和原作進行創(chuàng)作,這個是需要理解和生成放在一個模型里面的,否則的話生成出來的圖片就和原來的沒有關系了。我們前不久剛剛發(fā)布的模型叫 Step 1X-Edit,這里放了很多的例子,如何對圖片進行修改,大家看到其實它對原先的圖片的忠實度是非常高的,原因就在于我們背后采用了一個理解生成一體化的模型,當然這個還是比較初級的階段,我們內(nèi)部還在開發(fā)一個更高級的版本,未來幾個月也會把更先進的技術發(fā)布出來。

前面講了很多關于模型的部分,回歸到階躍,我們還是堅持基礎大模型的研發(fā),追求智能的上限,同時,我們也強調(diào)多模態(tài)對 AGI 的重要作用。

接下來我們就聊一聊應用這部分,階躍一直有一個策略叫做“超級模型加上超級應用”,雙輪驅(qū)動的策略。

說起應用,其實大家心照不宣,最熱的概念就是 Agent,很多人說 2025 年叫做 Agent 元年。為什么 Agent 這個概念在這個時間點突然變得非常地熱?其實,我記得 2023 年的時候大家就討論過 Agent,當時有人畫了一個 Agent 的架構圖,那時候并沒有引起大家太多的關注,甚至很多人說為什么叫 Agent?這個詞聽起來怪怪的,想說什么?但2025 年的時候就突然變得非常地火熱了,我的理解是,Agent 爆發(fā)需要兩個必要的條件,一個是多模態(tài)的能力,另外一個是慢思考的能力,這兩個能力恰好在 2024 年的時候取得了突破性的進展。

為什么說多模態(tài)的能力很重要?我覺得,多模態(tài)可以讓智能體充分地理解和感知這個世界,這樣它可能更好地理解用戶的意圖。如果想讓任務的完成率更高,其實 Agent 還需要強大的推理能力,就是慢思考的能力。

我們?yōu)槭裁磿x擇智能終端 Agent 作為方向呢?

首先,我們認為 Agent 要能更好地幫助人類去完成任務,需要去理解用戶所處的環(huán)境和任務的上下文,其實很多的終端是用戶的感知和用戶體驗的延伸,比如說我們的手機,最近的一些 AI 眼鏡或者是耳機,它可以認為是人體器官的延伸,它可以搜集我們所處的環(huán)境,能夠幫助模型更好地理解用戶的上下文。還有一個例子是最近大家用過的最火熱的硬件是 Plaud Note,就是貼在 iPhone 后面的,我想了半天為什么它能很火呢?它其實就是在收集用戶的 context,它實際上就是用戶的一個耳朵,是人耳的延伸,用戶帶著它到處跑,它能聽到用戶聽到的所有的信息,然后它對這個信息進行加工,完成用戶讓它完成的任務,這就是一個非常自然的過程。我自己也非??春?AI 眼鏡,它能讓你看到看到的所有的東西,它不需要你把手機拿出來拍一下,就直接能看到了,所以我覺得,智能終端是人的感知和體驗的延伸,所以在你發(fā)起任務的時候它已經(jīng)知道任務的上下文了,這是一個非常大的便利。

第二是很多的智能終端或者是終端的設備就是幫你完成任務,比如說微波爐,我家里的微波爐有上百功能,但是我很少用,因為我很少看說明書,也不知道某一個功能如何操作鍵,所以我希望它是一個 Agent 放一個芯片在微波爐里就可以直接跟它對話,我可以告訴它你直接幫我把雞蛋給蒸了,我也不需要去研究按鈕了,它就幫助我去做了,我覺得其實智能終端是完全有能力實現(xiàn)這件事情的,甚至大家想得再神奇一點,不光讓它完成微波爐分內(nèi)的工作,你說我今天的雞蛋吃完了,它也許可以連接到你的手機,知道你一般是在哪兒買雞蛋,知道下單的地址送到你家,將來也許所有的終端都能被 “Agentis every hardware”,這是我自己造的詞,就是把那么沒有生命得不知道怎么跟人類交流的終端設備變成一個似乎是你的伙伴的 Agent。

階躍在這里面扮演什么樣的角色呢?我們想建立這樣一個生態(tài),首先是在模型的基礎上會開放出構建各種各樣 Agent 的 stutio,在云里面還會開辟專區(qū),作為 Agent 的 runtime,所以這是云端的一半,智能的終端就是我剛才說的,它本身就有芯片了,或者我們能造出這樣的芯片出來,它能夠和人進行自然的交互,它能看見、能聽見、能說話,端側的模型和我們在云里的 Agent 來進行交互,幫助用戶來完成一系列的任務,所以,階躍在其中扮演的角色就是我們想提供這樣一個平臺,能夠圍繞著這樣一個云的平臺去構建智能終端 Agent 的生態(tài)。

我們其實現(xiàn)在在智能終端上也選取了幾個重要的終端,一個是手機、一個是車,還有一個是機器人,我們和各個方向的頭部企業(yè)展開了深度的合作。

我講了非常多的內(nèi)容,最后我想表達三句話:

第一,階躍目前的狀態(tài)是堅持基礎大模型的研發(fā),所以追求 AGI 是我們的初心,我們也不會改變。

第二,在當前的競爭格局中,我認為階躍差異化的特點就是多模態(tài)的能力,不僅眼下很多模態(tài)在業(yè)界的性能是領先的,而且我們也在積極地探索前沿的方向,我們也認為這里還存在著非常巨大的機會。

第三,在應用的層面,我覺得階躍也走了一條差異化的路線,攜手我們的合作伙伴在智能終端 Agent 這個方向上發(fā)力,最終可以形成一個從模型到 Agent,從云側到端側的生態(tài)體系,因為我們認為軟硬結合是能更好地理解用戶的需求,完成用戶的任務。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4327029.html?f=wyxwapp