4月8日晚,階躍星辰發(fā)布多模態(tài)推理模型Step-R1-V-Mini,支持圖文輸入、文字輸出,具備強(qiáng)指令遵循能力和復(fù)雜圖像推理能力,已上線網(wǎng)頁端并開放API供開發(fā)者使用。

打開網(wǎng)易新聞 查看精彩圖片
據(jù)官方介紹,該模型可精準(zhǔn)識別圖像細(xì)節(jié),生成清晰的推理鏈條。用戶上傳一張家常菜照片,模型不僅能識別食材和調(diào)料,還能給出具體做法與配比,如“蝦仁300g,大蔥白2根”。
據(jù)悉,在多個(gè)公開基準(zhǔn)評測中,Step-R1-V-Mini在MathVision等視覺推理任務(wù)中位列國內(nèi)第一,兼具圖像理解、數(shù)學(xué)邏輯與代碼推理能力。
階躍星辰此前已推出多模態(tài)模型Step-1V、Step-1.5V,以及語言推理模型Step-R-mini,并在LMSYS、OpenCompass等權(quán)威評測中保持領(lǐng)先。
此前,階躍星辰創(chuàng)始人、CEO姜大昕曾表示多模態(tài)和推理是Agent兩大必備要素,2025年該公司將重點(diǎn)發(fā)力智能終端Agent。(袁寧)
本文來自網(wǎng)易科技報(bào)道,更多資訊和深度內(nèi)容,關(guān)注我們。
熱門跟貼