智東西作者 陳駿達(dá)編輯 程茜
打開網(wǎng)易新聞 查看精彩圖片
智東西作者 陳駿達(dá)編輯 程茜

智東西5月8日?qǐng)?bào)道,在2年內(nèi)發(fā)布16款多模態(tài)大模型之后,業(yè)內(nèi)已將階躍星辰稱之為“多模態(tài)卷王”。今天,階躍星辰創(chuàng)始人兼CEO姜大昕向智東西等媒體揭秘了他背后的思考。姜大昕認(rèn)為,“追求智能的上限”依舊是現(xiàn)階段AI業(yè)內(nèi)的重點(diǎn),而多模態(tài)正是實(shí)現(xiàn)AGI的必經(jīng)之路。

打開網(wǎng)易新聞 查看精彩圖片

▲階躍星辰創(chuàng)始人兼CEO姜大昕

在姜大昕看來,無論是從AGI的定義還是AI應(yīng)用的實(shí)際需求而言,多模態(tài)能力都是至關(guān)重要的。AI在視覺智能、空間智能、運(yùn)動(dòng)智能等任何一個(gè)方向出現(xiàn)短板,都有可能延緩AGI實(shí)現(xiàn)。

在一個(gè)多模態(tài)模型內(nèi)融合理解與生成能力,即多模態(tài)理解生成一體化,是姜大昕眼中多模態(tài)模型能力提升并實(shí)現(xiàn)GPT-4級(jí)別的類人智能的關(guān)鍵。不過,多模態(tài)理解生成一體化架構(gòu)仍處于探索期,尚未出現(xiàn)像語言模型界Transformer一樣的可拓展(Scalable)架構(gòu)。

在AI應(yīng)用領(lǐng)域,階躍星辰更多地將其模型提供給其他應(yīng)用開發(fā)者。姜大昕認(rèn)為,模型性能的突破會(huì)早于商業(yè)化。

此外,姜大昕還圍繞著AI技術(shù)演進(jìn)路線、AGI必備要素、多模態(tài)模型技術(shù)路徑和AI應(yīng)用等話題進(jìn)行了介紹。

一、多模態(tài)是AGI必經(jīng)之路,階躍密集發(fā)布多項(xiàng)成果

姜大昕稱,當(dāng)下,AI技術(shù)正沿著模擬世界、探索世界、歸納世界的路徑演進(jìn)。

模仿學(xué)習(xí)階段,模型主要從海量數(shù)據(jù)中學(xué)習(xí)多種模態(tài)的表征,核心問題是如何用深度神經(jīng)網(wǎng)絡(luò)統(tǒng)一表達(dá)多種模態(tài)。

探索世界階段,模型需要具備復(fù)雜問題求解能力和慢思考能力。這兩大能力可以通過強(qiáng)化學(xué)習(xí)技術(shù)獲得,前生成式AI時(shí)代的AlphaGo、生成式AI時(shí)代的OpenAI o1等都是運(yùn)用了這一技術(shù)。在姜大昕看來,DeepSeek-R1將推理模型由“趨勢(shì)”轉(zhuǎn)變?yōu)榱恕胺妒健保瑯I(yè)內(nèi)大部分廠商都開始推出類似的模型。

歸納世界階段,模型逐漸具備自主學(xué)習(xí)能力,能發(fā)現(xiàn)客觀世界的規(guī)律,在AI for Science領(lǐng)域發(fā)揮重要作用。

打開網(wǎng)易新聞 查看精彩圖片

階躍星辰一直認(rèn)為,多模態(tài)是實(shí)現(xiàn)AGI的必經(jīng)之路。從定義上來看,AGI對(duì)標(biāo)的是人類智能,除了需要具備語言模態(tài)對(duì)應(yīng)的符號(hào)智能,還需具備視覺智能、空間智能、運(yùn)動(dòng)智能,任何一個(gè)方向出現(xiàn)短板,都會(huì)延緩AGI的實(shí)現(xiàn)。

從應(yīng)用角度看,多模態(tài)同樣必不可少。智能系統(tǒng)只有具備聽、看、說等能力后,才能理解用戶環(huán)境,和用戶自然交互。

正是基于上述原因,階躍星辰格外重視多模態(tài)模型,幾乎以每個(gè)月發(fā)布一款基礎(chǔ)大模型的速度進(jìn)行迭代。日前,階躍星辰聯(lián)合Ace Studio開源Ace-Step音樂大模型,參數(shù)量?jī)H有3.5B,支持19種語言,最快可在15秒內(nèi)生成一首歌曲。

打開網(wǎng)易新聞 查看精彩圖片

近日,階躍星辰還發(fā)布了Step-R1-V-Mini多模推理模型,具備高精度感知能力?,F(xiàn)場(chǎng)演示視頻中,這款模型可以結(jié)合照片中的文字、圖像信息,綜合推理,并正確判斷出照片所對(duì)應(yīng)的場(chǎng)館。這款模型已運(yùn)用至門店巡檢、短劇審核等生產(chǎn)場(chǎng)景。

二、視覺領(lǐng)域的GPT-4時(shí)刻尚未到來,押注多模態(tài)理解生成一體化

談及未來AI研究的發(fā)展趨勢(shì),姜大昕著重分享了多模態(tài)理解生成一體化這條技術(shù)路徑。

多模態(tài)理解生成一體化指的是在同一模型內(nèi)完成理解與生成任務(wù),這項(xiàng)技術(shù)已在語言層面實(shí)現(xiàn)。如今的大語言模型既能完成總結(jié)、問答等理解型任務(wù),也可以完成撰寫文章等生成性任務(wù)。

在多模態(tài)領(lǐng)域,由于圖片、視頻等模態(tài)的復(fù)雜度極高,理解生成一體化難題還有待突破,這也導(dǎo)致現(xiàn)有多模態(tài)模型在實(shí)際應(yīng)用場(chǎng)景中存在一些局限性。

例如,在生成一段“教師撰寫板書”的視頻時(shí),現(xiàn)有多模態(tài)模型已經(jīng)有能力生成畫面中手的姿勢(shì)、粉筆書寫的痕跡,但如果要根據(jù)現(xiàn)有畫面內(nèi)容預(yù)測(cè)下一步應(yīng)該書寫什么內(nèi)容,就需要整合理解能力。

打開網(wǎng)易新聞 查看精彩圖片

姜大昕稱:“生成需要理解控制,理解需要生成監(jiān)督。”也就是說,為了確保生成的內(nèi)容是有意義的,模型需要對(duì)上下文有更好的理解能力;而只有當(dāng)模型能夠生成內(nèi)容時(shí),才意味著模型真正理解了上下文。

目前,在多模態(tài)理解生成一體化方向,尚未出現(xiàn)可拓展的模型架構(gòu)。姜大昕認(rèn)為,對(duì)多模態(tài)模型而言,逼近人類智能的“GPT-4”時(shí)刻尚未到來,對(duì)應(yīng)大語言模型的發(fā)展階段,多模態(tài)模型仍處于“前Transformer”時(shí)期。

在多模態(tài)理解生成一體化架構(gòu)探索結(jié)束后,多模態(tài)模型還需走過多個(gè)階段:利用海量圖片和視頻進(jìn)行預(yù)訓(xùn)練和指令遵循能力培養(yǎng)、提升視覺時(shí)空推理能力、融合3D能力等,最終形成世界模型。姜大昕認(rèn)為,現(xiàn)在AGI的路線已愈發(fā)清晰,如果走到世界模型階段,“我眼中的AGI就實(shí)現(xiàn)了”。

打開網(wǎng)易新聞 查看精彩圖片

姜大昕透露,階躍星辰內(nèi)部現(xiàn)在有多個(gè)團(tuán)隊(duì)在探索多模態(tài)理解生成一體化的架構(gòu)。同時(shí),在這一方向他們已有了最新的成果——開源Step1X-Edit圖像編輯模型,這款模型已經(jīng)初步具備了一定的理解生成一體化能力,階躍星辰也會(huì)在未來幾個(gè)月內(nèi)發(fā)布能力更強(qiáng)的圖像編輯模型。

三、超級(jí)模型+超級(jí)應(yīng)用雙輪驅(qū)動(dòng),模型性能突破早于商業(yè)化

階躍星辰一直堅(jiān)持超級(jí)模型+超級(jí)應(yīng)用雙輪驅(qū)動(dòng)的策略,在應(yīng)用層,2025年最熱的概念就是Agent。姜大昕認(rèn)為,2025年Agent爆發(fā)有兩大必要條件。

首先,多模態(tài)能力使Agent能感知環(huán)境(視覺、語音等),理解任務(wù)上下文。其次,慢思考(深度推理)能力使模型能處理復(fù)雜任務(wù),分步驟進(jìn)行分析與決策。

Agent能力的爆發(fā)使階躍星辰看到了智能終端Agent的潛力,這也是該公司在應(yīng)用側(cè)的重要發(fā)力方向。談及這一決策,姜大昕稱,終端是用戶感知的延伸,諸如手機(jī)、AI眼鏡、耳機(jī)等設(shè)備天然收集環(huán)境數(shù)據(jù),可幫助Agent理解用戶需求。同時(shí),智能終端也具備幫助用戶完成特定任務(wù)的行動(dòng)能力。

目前,階躍星辰在智能終端Agent的落地場(chǎng)景包括手機(jī)、汽車與機(jī)器人等。在OPPO手機(jī)上的“一鍵問屏”功能就使用了階躍星辰的多模態(tài)模型;吉利的智能座艙中則使用了階躍星辰的端到端語音交互技術(shù)。

階躍星辰還與智元機(jī)器人等展開合作,階躍星辰的多模態(tài)大模型相當(dāng)于機(jī)器人的“大腦”,結(jié)合具身領(lǐng)域負(fù)責(zé)動(dòng)作的“小腦”,實(shí)現(xiàn)從感知、理解、規(guī)劃任務(wù)到控制運(yùn)動(dòng)。

在其它AI應(yīng)用領(lǐng)域,階躍星辰將基礎(chǔ)大模型能力提供給其它各垂類應(yīng)用開發(fā)者。姜大昕認(rèn)為,模型性能的突破會(huì)早于商業(yè)化,只有模型性能突破,才能催生具有潛力的應(yīng)用場(chǎng)景。

結(jié)語:堅(jiān)持基礎(chǔ)模型研發(fā),多模態(tài)成差異化優(yōu)勢(shì)

作為國內(nèi)較早布局多模態(tài)方向的大模型創(chuàng)企,多模態(tài)模型占階躍星辰模型發(fā)布總量的70%以上。

姜大昕稱,未來,階躍星辰將堅(jiān)持基礎(chǔ)大模型的研發(fā),追求AGI這一初心不會(huì)改變。在當(dāng)前的基礎(chǔ)大模型格局中,階躍星辰將多模態(tài)作為其差異化優(yōu)勢(shì),積極探索多模態(tài)理解與生成一體化這一前沿方向,也相信該領(lǐng)域存在著巨大的機(jī)會(huì)。