衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

全球AI大模型智能涌現(xiàn),現(xiàn)在正在進(jìn)入“多模態(tài)時(shí)間”。

一方面,全球業(yè)內(nèi)各式各樣的技術(shù)進(jìn)展,都圍繞多模態(tài)如火如荼展開(kāi)。

另一方面,AI應(yīng)用和落地的需求中,多模態(tài)也是最重要的能力。沒(méi)有多模態(tài)技術(shù),何談應(yīng)用和落地?

實(shí)際上,多模態(tài)的先鋒共識(shí)和趨勢(shì),把代表性玩家的進(jìn)展連點(diǎn)成線,也能看出來(lái)……

看看行業(yè)公認(rèn)的多模態(tài)卷王,階躍星辰——

剛剛過(guò)去的一個(gè)月,陸續(xù)上新的3款模型,全是多模態(tài),有圖生視頻開(kāi)源模型,有多模態(tài)推理模型,還有圖像編輯開(kāi)源模型。

模態(tài)豐富,上新頻繁,性能出色。

之所以把階躍的這些發(fā)布連點(diǎn)成線解讀,也是因?yàn)殡A躍從一開(kāi)始的強(qiáng)落地和強(qiáng)應(yīng)用屬性。

目前,階躍已發(fā)布的模型里,七成都是多模態(tài)。鑒于多模態(tài)是Agent的必備要素,今年階躍化身「落地型玩家」的態(tài)勢(shì)愈發(fā)明顯:發(fā)力智能終端Agent。

過(guò)去一個(gè)月,卷王卷出了些啥?

過(guò)去一個(gè)月,卷王卷出了些啥?

據(jù)量子位整理回顧,過(guò)去一個(gè)月,階躍星辰接連上新了3款模型:

  • Step1X-Edit:圖像編輯模型
  • Step-R1-V-Mini:多模態(tài)推理模型
  • Step-Video-TI2V:圖生視頻模型

它們覆蓋了當(dāng)前多模態(tài)模型的幾大剛需方向,并且其中Step1X-Edit和Step-Video-TI2V已面向開(kāi)發(fā)者開(kāi)源。

怎么說(shuō)呢,這很階躍,也很符合技術(shù)流和行業(yè)玩家們對(duì)“多模態(tài)時(shí)間”的追逐趨勢(shì)。

而這三款模型的具體情況,咱們掰開(kāi)了來(lái)看——

Step1X-Edit圖像編輯模型,開(kāi)源SOTA

Step1X-Edit圖像編輯模型,開(kāi)源SOTA

第一個(gè),來(lái)看最新鮮的圖像編輯模型,階躍于昨日剛剛發(fā)布并開(kāi)源。

名為Step1X-Edit,總參數(shù)量19B。

值得注意的是,此處的“19B”,由7B MLLM和12B DiT構(gòu)成——沒(méi)錯(cuò),Step1X-Edit首次在開(kāi)源體系中實(shí)現(xiàn)MLLM(多模態(tài)大模型)與DiT的解耦式架構(gòu)。

其中,7B參數(shù)MLLM負(fù)責(zé)語(yǔ)義解析,12B參數(shù)DiT負(fù)責(zé)圖像生成。

這一結(jié)構(gòu)打破了傳統(tǒng)pipeline模型中“理解”和“生成”各自為營(yíng)的問(wèn)題,使模型在執(zhí)行復(fù)雜編輯指令時(shí)具備更高的準(zhǔn)確性與控制力。

什么概念?直接讓Step1X-Edit的性能達(dá)到開(kāi)源SOTA

在最新發(fā)布的圖像編輯基準(zhǔn)GEdit-Bench中,Step1X-Edit 在語(yǔ)義一致性、圖像質(zhì)量與綜合得分三項(xiàng)指標(biāo)上全面領(lǐng)先現(xiàn)有開(kāi)源模型,比肩GPT-4o與Gemini 2.0 Flash等閉源模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而階躍對(duì)Step1X-Edit的能力定位很具體。

首先是能“改圖”。

其次,也是這個(gè)模型更出色的一點(diǎn),是不僅能“改圖”,更能“聽(tīng)得懂、改得準(zhǔn)、保得住”。

Be like:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

但是,官方口徑如此,上手實(shí)測(cè)真的有如此言出法隨的效果嗎?

我們?cè)O(shè)置了三道關(guān)卡,并分別在階躍AI官網(wǎng)、階躍App和抱抱臉上進(jìn)行了測(cè)試。

第一關(guān),考驗(yàn)其語(yǔ)義解析能力是否精準(zhǔn)。

具體而言,我們想要考察的是Step1X-Edit是否能夠靈活執(zhí)行prompt,是否需要復(fù)雜的prompt才能實(shí)現(xiàn)任務(wù)(畢竟一般玩家和咱一樣,都不是專業(yè)prompt大師)

丟過(guò)去一張大象正面照和一句非常簡(jiǎn)單的提示詞:

  • 讓大象轉(zhuǎn)個(gè)身背對(duì)鏡頭。

不到30秒,大象就已經(jīng)轉(zhuǎn)過(guò)身去不看鏡頭了(doge)。

而且大象掉頭轉(zhuǎn)身的同時(shí),背景絲毫沒(méi)變,也看不出啥p圖痕跡。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

第二關(guān),考驗(yàn)在面對(duì)人物or動(dòng)物時(shí),能否做到身份一致性保持。

此處隨用隨請(qǐng)的馬斯克,并“施咒”讓他變成禿頭。

Step1X-Edit不負(fù)眾望——

打開(kāi)網(wǎng)易新聞 查看精彩圖片

第三關(guān),考驗(yàn)Step1X-Edit是否具備高精度區(qū)域級(jí)控制。

喂給它一張相冊(cè)里的照片,prompt為“把珠海的海水p藍(lán)一點(diǎn)”,然后就得到如下效果圖:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

它展示了自己精準(zhǔn)的控制能力,定向分辨出“?!痹趫D片中占據(jù)哪些部分,也如提示詞要求的那樣讓海水變藍(lán)。

最后的附加題,感受一下Step1X-Edit修改圖片上文字的能力。

輸入一張有兩行字的圖片,并指定讓其中的“GREEN”修改為“階躍AI”字樣。

水靈靈的圖片就出現(xiàn)了:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

有意思的是,生成過(guò)程中,除了進(jìn)度條實(shí)時(shí)更新,界面還會(huì)出現(xiàn)一些玩法推薦,用來(lái)啟發(fā)用戶開(kāi)發(fā)更多姿勢(shì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Step-R1-V-Mini多模態(tài)推理模型,輕量亦強(qiáng)大

Step-R1-V-Mini多模態(tài)推理模型,輕量亦強(qiáng)大

多模態(tài)推理被視為AI模型理解這個(gè)世界的下一步重要落子,通過(guò)整合文本、圖像、音頻、視頻等多種模態(tài)數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)信息的深度融合與邏輯分析。

4月,階躍發(fā)布了Step-R1-V-Mini。它已上線階躍AI網(wǎng)頁(yè)端,并在階躍星辰開(kāi)放平臺(tái)提供API接口。

這款模型支持圖文輸入、文字輸出,有良好的指令遵循和通用能力,能夠高精度感知圖像并完成復(fù)雜推理任務(wù)。在視覺(jué)推理榜單MathVision中,Step-R1-V-Mini位列國(guó)內(nèi)第一。

可以看到,視覺(jué)推理、數(shù)學(xué)邏輯和代碼等方面,它的表現(xiàn)都十分優(yōu)異。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

整個(gè)模型的訓(xùn)練過(guò)程中,階躍團(tuán)隊(duì)做了兩項(xiàng)重要嘗試:

一個(gè)是多模態(tài)聯(lián)合強(qiáng)化學(xué)習(xí)

Step-R1-V-Mini的訓(xùn)練路徑基于PPO強(qiáng)化學(xué)習(xí)策略,在圖像空間引入verifiable reward來(lái)解決圖片空間推理鏈路復(fù)雜、容易產(chǎn)生混淆的相關(guān)和因果推理錯(cuò)誤的問(wèn)題。

相較DPO等,這一訓(xùn)練方法在處理圖像空間的復(fù)雜鏈路時(shí)更具泛化性與魯棒性。

另一個(gè)是充分利用多模態(tài)合成數(shù)據(jù)。

目前的常用訓(xùn)練過(guò)程相對(duì)難以獲得多模態(tài)數(shù)據(jù)的反饋信號(hào)。針對(duì)于此,階躍團(tuán)隊(duì)設(shè)計(jì)了大量基于環(huán)境反饋的多模態(tài)數(shù)據(jù)合成鏈路,合成了可規(guī)?;?xùn)練的多模態(tài)推理數(shù)據(jù),并通過(guò)基于 PPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練同步提升模型文本和視覺(jué)的推理能力。

如此一來(lái),有效避免了訓(xùn)練蹺蹺板問(wèn)題。

我們嘗試丟給它一張?jiān)诒本┑缆飞吓臄z的圖片,但沒(méi)有告訴它地點(diǎn),直接問(wèn):“這是哪兒?”

打開(kāi)網(wǎng)易新聞 查看精彩圖片

它頭頭是道,從建筑特征、道路與路燈、環(huán)境線索、交通標(biāo)識(shí)等多個(gè)方面來(lái)分析。

推理分析過(guò)程中還注意到了拍攝者本人都沒(méi)留意的路燈上懸掛的紅燈籠……

最后得出了正確的結(jié)論:

  • 綜上,照片拍攝于北京長(zhǎng)安街西行方向,背景為CBD核心區(qū),標(biāo)志性建筑為中國(guó)尊。

甚至不只是定位到城市,還精確定位到了拍攝地點(diǎn)是哪條街,就說(shuō)牛不牛吧。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了看圖識(shí)別地點(diǎn),Step-R1-V-Mini別的推理能力,我們也淺試了一番。

獻(xiàn)上一份香噴噴、辣滋滋的川香藤椒雞,詢問(wèn)烹飪方法

它一上來(lái)就根據(jù)大量的辣椒和花椒,把菜系縮小到了“川菜或湘菜”之中。而后一眼就看出了主要食材是雞肉,最后綜合判斷,鎖定了整個(gè)流程的主要步驟:煮雞→冷卻→切塊→拌入調(diào)料。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

講真,它說(shuō)出這道菜“看起來(lái)是經(jīng)典的青花椒雞(或藤椒雞)”,還在最后說(shuō)“冰鎮(zhèn)后更開(kāi)胃”的時(shí)候,是有點(diǎn)驚到我的。

更驚喜的是階躍在官方公眾號(hào)里表示,Step-R1-V-Mini是多模態(tài)推理方向的「階段性成果」。

聽(tīng)起來(lái),還有大招在后面~

Step-Video-TI2V開(kāi)源圖生視頻模型,動(dòng)漫效果尤佳

Step-Video-TI2V開(kāi)源圖生視頻模型,動(dòng)漫效果尤佳

從去年Sora出世至今,圖生視頻一直都很卷,是模型玩家們的兵家必爭(zhēng)之地。不過(guò)主要玩家還是集中在閉源賽道上。

階躍倒是一開(kāi)始就抬腳邁入了開(kāi)源領(lǐng)域,并且再接再厲——月前上新的Step-Video-TI2V,正是一款開(kāi)源圖生視頻模型。

它訓(xùn)練脫胎于30B參數(shù)的Step-Video-T2V,經(jīng)由“引入圖像條件,提高一致性”和“引入運(yùn)動(dòng)幅度控制,賦予用戶更高自由度”兩大關(guān)鍵優(yōu)化,目前支持生成102幀、5秒、540P分辨率的視頻。

此外,它還具備運(yùn)動(dòng)幅度可控鏡頭運(yùn)動(dòng)可控兩大核心特點(diǎn)。

看看下圖從其生成視頻中截取的動(dòng)圖展示。從左至右,畫(huà)面中的運(yùn)動(dòng)幅度依次為2 / 5 / 10 / 20(數(shù)值越大,動(dòng)態(tài)性越強(qiáng))

打開(kāi)網(wǎng)易新聞 查看精彩圖片

感興趣的朋友們可以到階躍AI網(wǎng)頁(yè)端或者階躍AI app體驗(yàn)

21款模型,打開(kāi)終端Agent想象力

21款模型,打開(kāi)終端Agent想象力

算上過(guò)去一個(gè)月里上新的上述3款模型,截至目前,階躍Step系列基座模型共推出21款。

這些模型大致可分為語(yǔ)言模型、多模態(tài)模型、推理模型三大類,其中多模態(tài)模型占比超七成。

量子位整理了這21款模型,用一張表格呈現(xiàn):

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而完成這21款模型研發(fā)與上架對(duì)外,階躍只用了2年時(shí)間,就成為了國(guó)內(nèi)基座模型種類最全的公司之一,無(wú)論是數(shù)量還是模型性能都穩(wěn)居第一梯隊(duì)。

2025年之前,階躍各種模型“年紀(jì)雖輕”,但已經(jīng)廣受市場(chǎng)歡迎,陸續(xù)被大量一線品牌和AI開(kāi)發(fā)者們接入。

今年2月,量子位曾對(duì)階躍星辰的外部合作伙伴們進(jìn)行過(guò)梳理。消費(fèi)品牌,如茶飲品牌茶百道、咖啡品牌瑞幸;AI應(yīng)用如貍譜、胃之書(shū)、林間聊愈室、歌詞爆改機(jī)等,都接入應(yīng)用了階躍多模態(tài)模型的能力。

2025年開(kāi)始,階躍模型又開(kāi)始在智能終端Agent上合作與發(fā)力。

并且是多點(diǎn)開(kāi)花那種,覆蓋車 、手機(jī)、具身智能、IoT四大關(guān)鍵場(chǎng)景。自今年2月在生態(tài)日上官宣以來(lái),時(shí)隔2個(gè)月已經(jīng)有一系列業(yè)務(wù)進(jìn)展,合作圖譜已經(jīng)初步形成——

智能汽車場(chǎng)景上,階躍與吉利汽車集團(tuán)、千里科技緊密合作,共同推動(dòng)“AI+車”的深度融合。

今年的上海2025車展,吉利就展示了基于階躍端到端語(yǔ)音模型打造的智能座艙。通過(guò)方言對(duì)話、擬人化交互、音樂(lè)生成等功能,展示了階躍多模態(tài)技術(shù)的成熟度。

手機(jī)終端場(chǎng)景上,階躍的多模態(tài)模型已經(jīng)在OPPO多款年度旗艦機(jī)型中落地應(yīng)用。

「一鍵問(wèn)屏」和「一鍵全能搜」兩大創(chuàng)新性AI手機(jī)功能均由階躍提供多模態(tài)技術(shù)支持。用戶使用小布助手App,可以通過(guò)多模態(tài)視覺(jué)跟AI交互;喚醒小布助手后,可以根據(jù)用戶指令自動(dòng)完成一系列的搜索操作任務(wù),跨App執(zhí)行命令毫無(wú)障礙。

具身智能場(chǎng)景上,階躍先與稚暉君創(chuàng)業(yè)的智元機(jī)器人牽手,后又與曠視三劍客創(chuàng)業(yè)的原力靈機(jī)合作。

據(jù)官方介紹,階躍與前者的重點(diǎn)落在“圍繞世界模型技術(shù)探索、具身智能領(lǐng)域數(shù)據(jù)合作、新零售等應(yīng)用場(chǎng)景開(kāi)展深度合作”,而同后者的合作重點(diǎn)則是“圍繞多模態(tài)大模型技術(shù)、智能終端 Agent 與具身智能場(chǎng)景展開(kāi)深度協(xié)同,共同推動(dòng)AGI在物理世界的應(yīng)用落地”。

IoT終端場(chǎng)景上,階躍通過(guò)生態(tài)開(kāi)放的方式,與包括TCL在內(nèi)的一系列IoT平臺(tái)和設(shè)備廠商緊密協(xié)作,推動(dòng)設(shè)備間的智能化升級(jí)和體驗(yàn)的無(wú)縫連接。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

以上四大場(chǎng)景中,階躍均采取了與行業(yè)第一梯隊(duì)選手深度合作的方式,實(shí)現(xiàn)從技術(shù)研發(fā)到場(chǎng)景落地的全價(jià)值鏈閉環(huán)。

不可否認(rèn),與單一技術(shù)授權(quán)相比,這種深度綁定模式更具競(jìng)爭(zhēng)壁壘,也更適合一個(gè)模型起家的創(chuàng)業(yè)公司在垂直領(lǐng)域扎根和深挖,進(jìn)一步打開(kāi)終端Agent的想象力。

AI大模型已經(jīng)進(jìn)入多模態(tài)時(shí)間

AI大模型已經(jīng)進(jìn)入多模態(tài)時(shí)間

如果說(shuō)1個(gè)月內(nèi)上新3款模型,彰顯的是階躍一貫的作風(fēng):在多模態(tài)領(lǐng)域的投入大、迭代快。

那么拉通細(xì)數(shù)階躍所有模型矩陣——已形成覆蓋語(yǔ)言、語(yǔ)音、圖像、視頻、推理五大方向的完整能力版圖,縱觀階躍與各個(gè)垂直領(lǐng)域頭部玩家的牽手——實(shí)現(xiàn)終端Agent在速度與廣度的戰(zhàn)略升維,從單點(diǎn)突破到系統(tǒng)作戰(zhàn)的轉(zhuǎn)變,一切都能看出這家公司的「布局廣」和「落地先」。

值得回味的是,階躍是國(guó)內(nèi)大模型創(chuàng)業(yè)公司中,最后一名浮出水面的。但展現(xiàn)的是謀定而后動(dòng),以終為始的戰(zhàn)略思考和執(zhí)行。

作為大模型領(lǐng)域的超級(jí)新星,階躍是大模型賽道不容忽視的重要組成力量,殺出了其多模態(tài)矩陣全面的口碑,技術(shù)也始終保持領(lǐng)先。

它僅用兩年時(shí)間便后來(lái)居上,以「多模態(tài)技術(shù)奇襲+終端Agent破局」的雙輪驅(qū)動(dòng)模式,以「數(shù)據(jù)-場(chǎng)景-模型」的三角閉環(huán),在智能終端領(lǐng)域,重構(gòu)交互范式與產(chǎn)業(yè)價(jià)值鏈。

并且在已經(jīng)錨定的領(lǐng)域,即智能終端相關(guān)商業(yè)世界,重構(gòu)終端交互范式與產(chǎn)業(yè)價(jià)值鏈。

技術(shù)縱深決定天花板高度、開(kāi)源開(kāi)放加速生態(tài)裂變、場(chǎng)景深耕打通商業(yè)化命脈。

這恰恰印證了當(dāng)前最大的行業(yè)趨勢(shì):

AI大模型正在進(jìn)入多模態(tài)時(shí)間,AI從“文字處理器”進(jìn)化為“世界解讀者”。

從OpenAI的GPT-4o到谷歌的Gemini 1.5 Pro,再到最新的階躍Step1X-Edit,全球科技巨頭正以多模態(tài)能力突破為核心展開(kāi)新一輪競(jìng)賽。

在這個(gè)新舊范式交替的臨界點(diǎn),拒絕多模態(tài)進(jìn)化的AI模型與應(yīng)用,或?qū)⒕痛顺蔀閿?shù)字達(dá)爾文主義淘汰賽中的失落者。