衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
全球AI大模型智能涌現(xiàn),現(xiàn)在正在進(jìn)入“多模態(tài)時間”。
一方面,全球業(yè)內(nèi)各式各樣的技術(shù)進(jìn)展,都圍繞多模態(tài)如火如荼展開。
另一方面,AI應(yīng)用和落地的需求中,多模態(tài)也是最重要的能力。沒有多模態(tài)技術(shù),何談應(yīng)用和落地?
實(shí)際上,多模態(tài)的先鋒共識和趨勢,把代表性玩家的進(jìn)展連點(diǎn)成線,也能看出來……
看看行業(yè)公認(rèn)的多模態(tài)卷王,階躍星辰——
剛剛過去的一個月,陸續(xù)上新的3款模型,全是多模態(tài),有圖生視頻開源模型,有多模態(tài)推理模型,還有圖像編輯開源模型。
模態(tài)豐富,上新頻繁,性能出色。
之所以把階躍的這些發(fā)布連點(diǎn)成線解讀,也是因?yàn)殡A躍從一開始的強(qiáng)落地和強(qiáng)應(yīng)用屬性。
目前,階躍已發(fā)布的模型里,七成都是多模態(tài)。鑒于多模態(tài)是Agent的必備要素,今年階躍化身「落地型玩家」的態(tài)勢愈發(fā)明顯:發(fā)力智能終端Agent。
過去一個月,卷王卷出了些啥?
據(jù)量子位整理回顧,過去一個月,階躍星辰接連上新了3款模型:
- Step1X-Edit:圖像編輯模型
- Step-R1-V-Mini:多模態(tài)推理模型
- Step-Video-TI2V:圖生視頻模型
它們覆蓋了當(dāng)前多模態(tài)模型的幾大剛需方向,并且其中Step1X-Edit和Step-Video-TI2V已面向開發(fā)者開源。
怎么說呢,這很階躍,也很符合技術(shù)流和行業(yè)玩家們對“多模態(tài)時間”的追逐趨勢。
而這三款模型的具體情況,咱們掰開了來看——
Step1X-Edit圖像編輯模型,開源SOTA
第一個,來看最新鮮的圖像編輯模型,階躍于昨日剛剛發(fā)布并開源。
名為Step1X-Edit,總參數(shù)量19B。
值得注意的是,此處的“19B”,由7B MLLM和12B DiT構(gòu)成——沒錯,Step1X-Edit首次在開源體系中實(shí)現(xiàn)MLLM(多模態(tài)大模型)與DiT的解耦式架構(gòu)。
其中,7B參數(shù)MLLM負(fù)責(zé)語義解析,12B參數(shù)DiT負(fù)責(zé)圖像生成。
這一結(jié)構(gòu)打破了傳統(tǒng)pipeline模型中“理解”和“生成”各自為營的問題,使模型在執(zhí)行復(fù)雜編輯指令時具備更高的準(zhǔn)確性與控制力。
什么概念?直接讓Step1X-Edit的性能達(dá)到開源SOTA:
在最新發(fā)布的圖像編輯基準(zhǔn)GEdit-Bench中,Step1X-Edit 在語義一致性、圖像質(zhì)量與綜合得分三項指標(biāo)上全面領(lǐng)先現(xiàn)有開源模型,比肩GPT-4o與Gemini 2.0 Flash等閉源模型。

而階躍對Step1X-Edit的能力定位很具體。
首先是能“改圖”。
其次,也是這個模型更出色的一點(diǎn),是不僅能“改圖”,更能“聽得懂、改得準(zhǔn)、保得住”。
Be like:

但是,官方口徑如此,上手實(shí)測真的有如此言出法隨的效果嗎?
我們設(shè)置了三道關(guān)卡,并分別在階躍AI官網(wǎng)、階躍App和抱抱臉上進(jìn)行了測試。
第一關(guān),考驗(yàn)其語義解析能力是否精準(zhǔn)。
具體而言,我們想要考察的是Step1X-Edit是否能夠靈活執(zhí)行prompt,是否需要復(fù)雜的prompt才能實(shí)現(xiàn)任務(wù)(畢竟一般玩家和咱一樣,都不是專業(yè)prompt大師)。
丟過去一張大象正面照和一句非常簡單的提示詞:
- 讓大象轉(zhuǎn)個身背對鏡頭。
不到30秒,大象就已經(jīng)轉(zhuǎn)過身去不看鏡頭了(doge)。
而且大象掉頭轉(zhuǎn)身的同時,背景絲毫沒變,也看不出啥p圖痕跡。

第二關(guān),考驗(yàn)在面對人物or動物時,能否做到身份一致性保持。
此處隨用隨請的馬斯克,并“施咒”讓他變成禿頭。
Step1X-Edit不負(fù)眾望——

第三關(guān),考驗(yàn)Step1X-Edit是否具備高精度區(qū)域級控制。
喂給它一張相冊里的照片,prompt為“把珠海的海水p藍(lán)一點(diǎn)”,然后就得到如下效果圖:

它展示了自己精準(zhǔn)的控制能力,定向分辨出“海”在圖片中占據(jù)哪些部分,也如提示詞要求的那樣讓海水變藍(lán)。
最后的附加題,感受一下Step1X-Edit修改圖片上文字的能力。
輸入一張有兩行字的圖片,并指定讓其中的“GREEN”修改為“階躍AI”字樣。
水靈靈的圖片就出現(xiàn)了:

有意思的是,生成過程中,除了進(jìn)度條實(shí)時更新,界面還會出現(xiàn)一些玩法推薦,用來啟發(fā)用戶開發(fā)更多姿勢。

Step-R1-V-Mini多模態(tài)推理模型,輕量亦強(qiáng)大
多模態(tài)推理被視為AI模型理解這個世界的下一步重要落子,通過整合文本、圖像、音頻、視頻等多種模態(tài)數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)信息的深度融合與邏輯分析。
4月,階躍發(fā)布了Step-R1-V-Mini。它已上線階躍AI網(wǎng)頁端,并在階躍星辰開放平臺提供API接口。
這款模型支持圖文輸入、文字輸出,有良好的指令遵循和通用能力,能夠高精度感知圖像并完成復(fù)雜推理任務(wù)。在視覺推理榜單MathVision中,Step-R1-V-Mini位列國內(nèi)第一。
可以看到,視覺推理、數(shù)學(xué)邏輯和代碼等方面,它的表現(xiàn)都十分優(yōu)異。

整個模型的訓(xùn)練過程中,階躍團(tuán)隊做了兩項重要嘗試:
一個是多模態(tài)聯(lián)合強(qiáng)化學(xué)習(xí)。
Step-R1-V-Mini的訓(xùn)練路徑基于PPO強(qiáng)化學(xué)習(xí)策略,在圖像空間引入verifiable reward來解決圖片空間推理鏈路復(fù)雜、容易產(chǎn)生混淆的相關(guān)和因果推理錯誤的問題。
相較DPO等,這一訓(xùn)練方法在處理圖像空間的復(fù)雜鏈路時更具泛化性與魯棒性。
另一個是充分利用多模態(tài)合成數(shù)據(jù)。
目前的常用訓(xùn)練過程相對難以獲得多模態(tài)數(shù)據(jù)的反饋信號。針對于此,階躍團(tuán)隊設(shè)計了大量基于環(huán)境反饋的多模態(tài)數(shù)據(jù)合成鏈路,合成了可規(guī)模化訓(xùn)練的多模態(tài)推理數(shù)據(jù),并通過基于 PPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練同步提升模型文本和視覺的推理能力。
如此一來,有效避免了訓(xùn)練蹺蹺板問題。
我們嘗試丟給它一張在北京道路上拍攝的圖片,但沒有告訴它地點(diǎn),直接問:“這是哪兒?”

它頭頭是道,從建筑特征、道路與路燈、環(huán)境線索、交通標(biāo)識等多個方面來分析。
推理分析過程中還注意到了拍攝者本人都沒留意的路燈上懸掛的紅燈籠……
最后得出了正確的結(jié)論:
- 綜上,照片拍攝于北京長安街西行方向,背景為CBD核心區(qū),標(biāo)志性建筑為中國尊。
甚至不只是定位到城市,還精確定位到了拍攝地點(diǎn)是哪條街,就說牛不牛吧。
除了看圖識別地點(diǎn),Step-R1-V-Mini別的推理能力,我們也淺試了一番。
獻(xiàn)上一份香噴噴、辣滋滋的川香藤椒雞,詢問烹飪方法。
它一上來就根據(jù)大量的辣椒和花椒,把菜系縮小到了“川菜或湘菜”之中。而后一眼就看出了主要食材是雞肉,最后綜合判斷,鎖定了整個流程的主要步驟:煮雞→冷卻→切塊→拌入調(diào)料。
講真,它說出這道菜“看起來是經(jīng)典的青花椒雞(或藤椒雞)”,還在最后說“冰鎮(zhèn)后更開胃”的時候,是有點(diǎn)驚到我的。
更驚喜的是階躍在官方公眾號里表示,Step-R1-V-Mini是多模態(tài)推理方向的「階段性成果」。
聽起來,還有大招在后面~
Step-Video-TI2V開源圖生視頻模型,動漫效果尤佳
從去年Sora出世至今,圖生視頻一直都很卷,是模型玩家們的兵家必爭之地。不過主要玩家還是集中在閉源賽道上。
階躍倒是一開始就抬腳邁入了開源領(lǐng)域,并且再接再厲——月前上新的Step-Video-TI2V,正是一款開源圖生視頻模型。
它訓(xùn)練脫胎于30B參數(shù)的Step-Video-T2V,經(jīng)由“引入圖像條件,提高一致性”和“引入運(yùn)動幅度控制,賦予用戶更高自由度”兩大關(guān)鍵優(yōu)化,目前支持生成102幀、5秒、540P分辨率的視頻。
此外,它還具備運(yùn)動幅度可控和鏡頭運(yùn)動可控兩大核心特點(diǎn)。
看看下圖從其生成視頻中截取的動圖展示。從左至右,畫面中的運(yùn)動幅度依次為2 / 5 / 10 / 20(數(shù)值越大,動態(tài)性越強(qiáng))。
感興趣的朋友們可以到階躍AI網(wǎng)頁端或者階躍AI app體驗(yàn)
21款模型,打開終端Agent想象力
算上過去一個月里上新的上述3款模型,截至目前,階躍Step系列基座模型共推出21款。
這些模型大致可分為語言模型、多模態(tài)模型、推理模型三大類,其中多模態(tài)模型占比超七成。
量子位整理了這21款模型,用一張表格呈現(xiàn):

而完成這21款模型研發(fā)與上架對外,階躍只用了2年時間,就成為了國內(nèi)基座模型種類最全的公司之一,無論是數(shù)量還是模型性能都穩(wěn)居第一梯隊。
2025年之前,階躍各種模型“年紀(jì)雖輕”,但已經(jīng)廣受市場歡迎,陸續(xù)被大量一線品牌和AI開發(fā)者們接入。
今年2月,量子位曾對階躍星辰的外部合作伙伴們進(jìn)行過梳理。消費(fèi)品牌,如茶飲品牌茶百道、咖啡品牌瑞幸;AI應(yīng)用如貍譜、胃之書、林間聊愈室、歌詞爆改機(jī)等,都接入應(yīng)用了階躍多模態(tài)模型的能力。
2025年開始,階躍模型又開始在智能終端Agent上合作與發(fā)力。
并且是多點(diǎn)開花那種,覆蓋車 、手機(jī)、具身智能、IoT四大關(guān)鍵場景。自今年2月在生態(tài)日上官宣以來,時隔2個月已經(jīng)有一系列業(yè)務(wù)進(jìn)展,合作圖譜已經(jīng)初步形成——
智能汽車場景上,階躍與吉利汽車集團(tuán)、千里科技緊密合作,共同推動“AI+車”的深度融合。
今年的上海2025車展,吉利就展示了基于階躍端到端語音模型打造的智能座艙。通過方言對話、擬人化交互、音樂生成等功能,展示了階躍多模態(tài)技術(shù)的成熟度。
手機(jī)終端場景上,階躍的多模態(tài)模型已經(jīng)在OPPO多款年度旗艦機(jī)型中落地應(yīng)用。
「一鍵問屏」和「一鍵全能搜」兩大創(chuàng)新性AI手機(jī)功能均由階躍提供多模態(tài)技術(shù)支持。用戶使用小布助手App,可以通過多模態(tài)視覺跟AI交互;喚醒小布助手后,可以根據(jù)用戶指令自動完成一系列的搜索操作任務(wù),跨App執(zhí)行命令毫無障礙。
具身智能場景上,階躍先與稚暉君創(chuàng)業(yè)的智元機(jī)器人牽手,后又與曠視三劍客創(chuàng)業(yè)的原力靈機(jī)合作。
據(jù)官方介紹,階躍與前者的重點(diǎn)落在“圍繞世界模型技術(shù)探索、具身智能領(lǐng)域數(shù)據(jù)合作、新零售等應(yīng)用場景開展深度合作”,而同后者的合作重點(diǎn)則是“圍繞多模態(tài)大模型技術(shù)、智能終端 Agent 與具身智能場景展開深度協(xié)同,共同推動AGI在物理世界的應(yīng)用落地”。
IoT終端場景上,階躍通過生態(tài)開放的方式,與包括TCL在內(nèi)的一系列IoT平臺和設(shè)備廠商緊密協(xié)作,推動設(shè)備間的智能化升級和體驗(yàn)的無縫連接。

以上四大場景中,階躍均采取了與行業(yè)第一梯隊選手深度合作的方式,實(shí)現(xiàn)從技術(shù)研發(fā)到場景落地的全價值鏈閉環(huán)。
不可否認(rèn),與單一技術(shù)授權(quán)相比,這種深度綁定模式更具競爭壁壘,也更適合一個模型起家的創(chuàng)業(yè)公司在垂直領(lǐng)域扎根和深挖,進(jìn)一步打開終端Agent的想象力。
AI大模型已經(jīng)進(jìn)入多模態(tài)時間
如果說1個月內(nèi)上新3款模型,彰顯的是階躍一貫的作風(fēng):在多模態(tài)領(lǐng)域的投入大、迭代快。
那么拉通細(xì)數(shù)階躍所有模型矩陣——已形成覆蓋語言、語音、圖像、視頻、推理五大方向的完整能力版圖,縱觀階躍與各個垂直領(lǐng)域頭部玩家的牽手——實(shí)現(xiàn)終端Agent在速度與廣度的戰(zhàn)略升維,從單點(diǎn)突破到系統(tǒng)作戰(zhàn)的轉(zhuǎn)變,一切都能看出這家公司的「布局廣」和「落地先」。
值得回味的是,階躍是國內(nèi)大模型創(chuàng)業(yè)公司中,最后一名浮出水面的。但展現(xiàn)的是謀定而后動,以終為始的戰(zhàn)略思考和執(zhí)行。
作為大模型領(lǐng)域的超級新星,階躍是大模型賽道不容忽視的重要組成力量,殺出了其多模態(tài)矩陣全面的口碑,技術(shù)也始終保持領(lǐng)先。
它僅用兩年時間便后來居上,以「多模態(tài)技術(shù)奇襲+終端Agent破局」的雙輪驅(qū)動模式,以「數(shù)據(jù)-場景-模型」的三角閉環(huán),在智能終端領(lǐng)域,重構(gòu)交互范式與產(chǎn)業(yè)價值鏈。
并且在已經(jīng)錨定的領(lǐng)域,即智能終端相關(guān)商業(yè)世界,重構(gòu)終端交互范式與產(chǎn)業(yè)價值鏈。
技術(shù)縱深決定天花板高度、開源開放加速生態(tài)裂變、場景深耕打通商業(yè)化命脈。
這恰恰印證了當(dāng)前最大的行業(yè)趨勢:
AI大模型正在進(jìn)入多模態(tài)時間,AI從“文字處理器”進(jìn)化為“世界解讀者”。
從OpenAI的GPT-4o到谷歌的Gemini 1.5 Pro,再到最新的階躍Step1X-Edit,全球科技巨頭正以多模態(tài)能力突破為核心展開新一輪競賽。
在這個新舊范式交替的臨界點(diǎn),拒絕多模態(tài)進(jìn)化的AI模型與應(yīng)用,或?qū)⒕痛顺蔀閿?shù)字達(dá)爾文主義淘汰賽中的失落者。
熱門跟貼