4月17日消息,火山引擎面向企業(yè)市場發(fā)布豆包1.5?深度思考模型,同步升級文生圖模型3.0、視覺理解模型,并推出 OS Agent 解決方案及AI云原生推理套件,幫助企業(yè)更快、更省地構建和部署Agent應用。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)火山引擎披露,截至2025年3月底,豆包大模型日均 tokens 調(diào)用量已達到12.7萬億,較去年5月發(fā)布時增長超過106倍。

火山引擎總裁譚待表示,Agent智能體應用發(fā)展將帶動大模型進一步普及。譚待說:“深度思考模型是構建Agent的基礎,模型要有能力做好思考、計劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent才能更好地處理復雜任務。”

據(jù)譚待介紹,豆包1.5?深度思考模型在專業(yè)領域的推理任務中表現(xiàn)出色,數(shù)學推理AIME 2024測試得分追平OpenAI o3-mini-high,編程競賽和科學推理測試成績也接近o1。在創(chuàng)意寫作、人文知識問答等通用任務上,模型也展示出優(yōu)秀的泛化能力,能勝任更廣泛的使用場景。

技術報告顯示,豆包深度思考模型采用MoE架構,總參數(shù)為200B,激活參數(shù)僅20B,以較小參數(shù)實現(xiàn)媲美頂尖模型的效果?;诟咝惴ê透咝阅芡评硐到y(tǒng),豆包模型API服務在保障高并發(fā)的同時,延遲低至20毫秒。豆包深度思考模型還具備視覺推理能力,能像人類一樣對看到的事物進行聯(lián)想和思考,極大拓展了智能推理的應用邊界。

此外,豆包文生圖模型Seedream3.0也正式向企業(yè)開放。該模型已在即夢AI、豆包產(chǎn)品上線,并在近期登上權威競技場Artificial Analysis文生圖榜單第一梯隊。據(jù)介紹,Seedream3.0支持2K分辨率直出,生圖結(jié)構準確性、小字生成與排版、美感、真實度等方面具有優(yōu)勢。

2025年被業(yè)界視為“Agent智能體元年”。為此,火山引擎宣布推出OS Agent解決方案,包含豆包UI-TARS模型,以及veFaaS函數(shù)服務、云服務器、云手機等產(chǎn)品,實現(xiàn)對代碼、瀏覽器、電腦、手機以及其他Agent的操作。

其中,豆包UI-TARS模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起,突破傳統(tǒng)自動化工具依賴預設規(guī)則的局限性,為Agent的智能交互提供了更接近人類操作的模型基礎。

譚待認為,在多模態(tài)深度思考模型的基礎上,Agent需要良好的架構和工具,去操作數(shù)字世界和物理世界。同時,模型的推理成本和延遲要持續(xù)降低,才能推動應用普惠。(李姝)

本文來自網(wǎng)易科技報道,更多資訊和深度內(nèi)容,關注我們。