
智東西4月17日報道,今天,火山引擎正式發(fā)布了豆包1.5·深度思考模型,采用MoE架構(gòu),總參數(shù)量為200B,激活參數(shù)僅20B,在多項基準測試中達到或接近全球第一梯隊水平。
在數(shù)學(xué)、編程、科學(xué)領(lǐng)域,豆包1.5·深度思考模型的測試表現(xiàn)超過DeepSeek-R1、QwQ-32B等國產(chǎn)推理模型,與OpenAI o1、o3-mini-high等模型能力相仿。在高難度通用人工智能測試ARC-AGI上,其得分更是超過了OpenAI o1和o3-mini-high。

豆包1.5·深度思考模型具有“邊想邊搜”、“視覺理解”等實用能力,即日起,企業(yè)用戶可以在火山方舟平臺使用豆包1.5·深度思考模型?;鹕揭孢€升級了豆包·文生圖模型3.0、豆包·視覺理解模型。
數(shù)據(jù)顯示,截至2025年3月底,豆包大模型日均tokens調(diào)用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發(fā)布時的106倍。IDC報告顯示,2024年中國公有云大模型調(diào)用量激增,火山引擎以46.4%的市場份額位居中國市場第一。
一、高并發(fā)場景延遲僅20毫秒,可邊想邊搜、視覺理解
豆包1.5·深度思考模型較小的參數(shù)量和激活參數(shù)量,使其具備更低的訓(xùn)練和推理成本,可在高并發(fā)場景實現(xiàn)20毫秒低延遲。
搜索能力是豆包1.5·深度思考模型的亮點之一。與其他推理模型“先搜索再思考”的模式不同,豆包App基于豆包1.5·深度思考模型進行了定向訓(xùn)練,可以“邊想邊搜”。
例如,在給用戶推薦露營裝備時,豆包1.5·深度思考模型可以拆解每個具體需求的注意事項,規(guī)劃信息,自行判斷信息是否完備,并補充搜索信息。在3輪搜索后,豆包1.5·深度思考模型給出了預(yù)算范圍內(nèi)、細致周到的推薦。
豆包1.5·深度思考模型還具備視覺理解能力,能基于文字、圖像信息進行思考。在下方場景中,豆包1.5·深度思考模型就做到了理解菜單內(nèi)容,分析每道菜的組成、照顧不同人的口味和過敏食物,給出預(yù)算內(nèi)的點餐推薦。
據(jù)火山引擎介紹,為了提升豆包1.5·深度思考模型的通用能力,模型團隊優(yōu)化了數(shù)據(jù)處理策略,把可驗證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進行融合處理,滿足各類任務(wù)的需求。
此外,大規(guī)模強化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),通過采用創(chuàng)新的雙軌獎勵機制,兼顧“對錯分明”和“見仁見智”的任務(wù),有效實現(xiàn)了算法的可靠優(yōu)化。
二、多項跑分打平OpenAI推理模型,AGI測試優(yōu)勢明顯
火山引擎公布了豆包1.5·深度思考模型在多項權(quán)威基準測試上的跑分結(jié)果。
在AIME 2024、AIME 2025這類數(shù)學(xué)測試中,豆包1.5·深度思考模型的得分與OpenAI o3-mini-high基本打平,但在難度更高的Beyond AIME上仍與后者有明顯差距。

在博士級推理難題測試集GPQA Diamond上,豆包1.5·深度思考模型的得分為77.3,與OpenAI o1、o3-mini-high僅有微小差距。
在編程基準測試Code Forces和SWE-bench上,豆包1.5·深度思考模型實現(xiàn)了接近或超越DeepSeek-R1的成績。
在高難度通用人工智能測試ARC-AGI上,其得分更是大幅超過了OpenAI o1和o3-mini-high,達39.9分。
在創(chuàng)意寫作等非推理任務(wù)中,豆包1.5·深度思考模型也展示出泛化能力,能夠勝任更廣泛和復(fù)雜的使用場景。
三、直出2K高清圖片,還能搜索視頻內(nèi)容
全新升級的豆包·文生圖模型3.0,能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實拍級的圖像生成效果,以及2K的高清圖片生成方式。

▲豆包·文生圖模型3.0生成的2K人像(圖源:火山引擎)
豆包·文生圖模型3.0還可廣泛應(yīng)用于影視、海報、繪畫、玩偶設(shè)計等營銷、電商、設(shè)計場景,生成的文字準確無誤,畫面有設(shè)計感。

▲豆包·文生圖模型3.0生成的海報(圖源:火山引擎)
在最新的文生圖領(lǐng)域權(quán)威榜單Artificial Analysis競技場中,豆包·文生圖3.0模型已超越業(yè)界諸多主流模型,排名全球第一梯隊。

新版本的豆包·視覺理解模型則具備更強的視覺定位能力,支持多目標、小目標、通用目標的框定位和點定位,并支持定位計數(shù)、描述定位內(nèi)容、3D定位。可應(yīng)用于線下門店的巡檢場景、GUI agent、機器人訓(xùn)練、自動駕駛訓(xùn)練等。
將一盒草莓的圖片發(fā)送給豆包·視覺理解模型,它能迅速數(shù)出有多少草莓,并框定其位置。

同時,新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索,可直接對視頻進行語義搜索,廣泛適用于安防、家庭看護等商業(yè)化場景。
結(jié)語:國產(chǎn)推理模型角逐激烈
推理模型已經(jīng)成為國內(nèi)各大模型廠商角逐的重要方向。本次豆包1.5·深度思考模型在推理成本、視覺理解等方面的新能力,或許將成為下一輪推理模型升級的重要方向。
同日,火山引擎還發(fā)布了OS Agent解決方案、GUI Agent大模型(豆包1.5·UI-TARS);面向大規(guī)模推理,發(fā)布AI云原生·ServingKit推理套件。
熱門跟貼