“周周有發(fā)布,天天有更新?!?/p>
這是百度創(chuàng)始人李彥宏最新對大模型競速的感慨,但……卷王實際就是百度自己,因為就這一個多月以來,百度已經(jīng)連發(fā)4款模型了。
就在剛剛,在Create 2025百度AI開發(fā)者大會上,李彥宏又一口氣官宣了兩款新模型:分別是主打深度思考和多模態(tài)的X1 Turbo/4.5 Turbo。
而且發(fā)布即上線,普通用戶現(xiàn)在都能免費體驗。

據(jù)介紹,它們是百度在3月發(fā)布的旗艦?zāi)P蚗1、4.5的升級版,推理和多模態(tài)能力雙雙更躍Level。
比如在挑戰(zhàn)“史上最難高考數(shù)學(xué)題之一”時,新模型是為數(shù)不多能給出正確答案的選手(正確答案為145):
一個冷知識,2003年數(shù)學(xué)全國卷被譽為“史上最難高考卷”,而這道題還是里面的壓軸大題,難度可想而知。
甚至,至今還能看到一眾自稱03級的網(wǎng)友集體“訴苦”:


再比如面對一段讓人眼花繚亂的視頻,新模型竟成功猜對了小球的位置。
正確答案是3號杯子,話說大家最終猜出來了嗎?(doge)

根據(jù)官方測評結(jié)果,深度思考模型文心X1 Turbo(深藍),整體效果領(lǐng)先DeepSeek R1、V3最新版。

文心4.5 Turbo(紅色),多模態(tài)能力優(yōu)于GPT 4o,文本能力與DeepSeek V3最新版持平,優(yōu)于GPT 4.5。


目前,兩款新模型均在文心一言官網(wǎng)開放,開發(fā)者在百度智能云千帆大模型平臺,也可直接調(diào)用API。
另外,最關(guān)鍵的還是成本的下降!
文心4.5 Turbo輸入0.8元/百萬tokens,輸出3.2元/百萬tokens;文心X1 Turbo輸入1元/百萬tokens,輸出4元/百萬tokens。
以上價格,前者僅為DeepSeek V3的40%,后者僅為DeepSeek R1的1/4;同時相比一個月前的X1/4.5,價格均下降一半及以上。
大模型能力在進化,成本在下降,應(yīng)用創(chuàng)新的大爆發(fā)將勢不可擋。
只不過,咱還是先從一些具體能力上,看看百度最新最強大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展現(xiàn)的那么強?
老規(guī)矩,上一手實測~~
實測之后,還是太全面了!
首先來看主打深度思考的文心X1 Turbo模型。
據(jù)介紹,它基于文心4.5 Turbo,在性能提升的同時,具備更先進的思維鏈,尤其擅長推理和工具調(diào)用。
文心大模型X1 Turbo
一上來,我們先拿一道經(jīng)典邏輯陷阱題熱熱身:
- 一根5.5米的竹竿可以通過高4米寬3米的門嗎?
對于這樣一個看似簡單的問題,目前市面上絕大多數(shù)的模型反應(yīng)be like:

而文心X1 Turbo經(jīng)過一番嚴謹論證,第一次就得出了正確答案(通過調(diào)整竹竿的傾斜角度,可以通過):
看來這種問題已經(jīng)難不倒它了,接下來難度升級。
直接一步到位,扔給它一道某地高中物理??季韷狠S題,還是只上傳圖片的那種:

可以看到,對于這種涉及專業(yè)領(lǐng)域的高難度推理題,X1 Turbo依舊思路清晰。
先是自主調(diào)用“圖片理解”工具識別出題目與火箭發(fā)射有關(guān),然后上手一步步解題,最終給出了正確答案。
值得注意的是,盡管考查的是X1 Turbo的邏輯推理能力,但我們已經(jīng)提前發(fā)現(xiàn)它的一大特色——
與其他推理模型相比,文心X1 Turbo能夠靈活調(diào)用各種工具。
官網(wǎng)顯示,文心X1 Turbo默認開啟代碼解釋器、文檔閱讀、圖片理解、圖片生成等諸多工具,一旦意識到答案涉及代碼、表格、圖片等多模態(tài)內(nèi)容,就會自動調(diào)用這些工具。

比如在日常生活中,我們隨手將一張美食照分享給文心X1 Turbo,讓它幫忙反向解析詳細制作過程。
而且為了便于收藏,我們還要求它最終直接生成一份PDF文件:
結(jié)果,X1 Turbo分別調(diào)用圖片理解和代碼解釋器工具,生成了一份可直接下載、內(nèi)容完整的PDF制作工序文件。

看來挑戰(zhàn)還是太簡單了,好好好,接下來我們干脆玩把大的。
讓文心X1 Turbo幫我們規(guī)劃一個五一去北京游玩的行程,而且提了一大堆要求,不能太“特種兵”,住宿、交通、門票等等都要考慮到,結(jié)果用表格呈現(xiàn)……主打一個全面考察工具調(diào)用。
話不多說,來感受一下最終效果:
不僅貼心標注了“五一行程——8點自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意標出了需要提前預(yù)約的景點和預(yù)約渠道。
再仔細一看,同一天安排的景點的位置都比較靠近,屬于合理范疇。
此外,我們還發(fā)現(xiàn)文心X1 Turbo支持繼續(xù)對話生成,能在前面的行程規(guī)劃上,接著為每個景點生成配圖。
最后順便一提,我們在測試文心X1 Turbo的推理和工具調(diào)用能力的過程中,還發(fā)現(xiàn)它在創(chuàng)意寫作方面有點意思。
恰逢五一假期臨近,我們讓它根據(jù)一張“西湖人山人海圖”,仿照《岳陽樓記》的文風(fēng)寫一篇游記。

對比一下《岳陽樓記》原文,是不是有內(nèi)味兒了~
- 慶歷四年春,滕子京謫守巴陵郡。越明年,政通人和,百廢具興,乃重修岳陽樓,增其舊制,刻唐賢今人詩賦于其上,屬予作文以記之……

其次來看主打多模態(tài)的文心4.5 Turbo模型。
據(jù)介紹,它源自文心4.5,是效果更好、成本更低的多模態(tài)大模型。
文心大模型4.5 Turbo
實測下來發(fā)現(xiàn),相比單項推理能力突出的文心X1 Turbo,它更像是一個主打綜合實力的“六邊形戰(zhàn)士”。
切換模型后,底部輸入框的文檔、圖片、視頻、音頻等多模態(tài)功能全部“點亮”:

文本能力就不用多說了,我們直接上傳一張經(jīng)典梗圖,考查其視覺理解能力,結(jié)果也是秒秒鐘get~

再來個實用的,讓4.5 Turbo設(shè)計一些包含故宮博物院元素的冰箱貼文創(chuàng)。

相同提示詞下,通過對比文心4.5和4.5 Turbo,可以看到后者的生成效果確實更好、更精致了。

最后,文心4.5 Turbo也能理解音視頻素材。
一方面可以直接和它語音對話,親測用四川方言也能實現(xiàn)無障礙交流:
另一方面還能綜合分析視頻中的場景、聲音、人物等等,目前單個視頻最大支持20MB。

小結(jié)一下,百度此次推出的文心大模型X1/4.5 Turbo,實測下來在推理能力和多模態(tài)能力上確實有一定程度升級。
那么接下來的問題是:背后依靠了哪些核心技術(shù)?
挖一挖背后的技術(shù)
在思考路徑中融合工具調(diào)用
首先,作為能夠自主運用工具的深度思考模型,文心X1 Turbo背后的關(guān)鍵技術(shù)包括:
其一,突破了僅基于思維鏈優(yōu)化的范式,在思考路徑中結(jié)合工具調(diào)用,構(gòu)建了融合思考和行動的復(fù)合思維鏈,模型解決問題的能力得到顯著提升。
其二,結(jié)合多元統(tǒng)一的獎勵機制,實現(xiàn)了長距離思維和行動鏈的端到端優(yōu)化,顯著提升了跨領(lǐng)域解決問題的能力。
一般而言,傳統(tǒng)的單一獎勵機制往往只能從一個角度評估模型的性能,這可能導(dǎo)致模型“顧此失彼”,比如過于關(guān)注語法,可能就會忽略語義的連貫性。
而多元統(tǒng)一獎勵機制是從多個維度全面評估模型的性能,這種綜合性的反饋機制能夠幫助模型在多個方面同時優(yōu)化,從而提升整體實力。

采用不同模態(tài)混合訓(xùn)練
其次,為了提升文心4.5和4.5 Turbo的多模態(tài)能力,一大關(guān)鍵就是采用了不同模態(tài)(文本、圖像和視頻)的混合訓(xùn)練。
針對不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)、規(guī)模、知識密度上的差異,主要應(yīng)用了如下技術(shù):
- 多模態(tài)異構(gòu)專家建模
- 自適應(yīng)分辨率視覺編碼
- 時空重排列的三維旋轉(zhuǎn)位置編碼
- 自適應(yīng)模態(tài)感知損失計算
最終,模型的學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%。
而且為了進一步提升模型的綜合實力,他們在后訓(xùn)練階段也進行了優(yōu)化。
研制了自反饋增強的技術(shù)框架,基于大模型自身的生成和評估反饋能力,實現(xiàn)了“訓(xùn)練-生成-反饋-增強”的模型迭代閉環(huán)。
這不僅解決了大模型對齊過程中數(shù)據(jù)生產(chǎn)難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,提升了模型理解和處理復(fù)雜任務(wù)的效果。
此外在訓(xùn)練階段,他們還研制了融合偏好學(xué)習(xí)的強化學(xué)習(xí)技術(shù),通過多元統(tǒng)一獎勵機制,提升了對結(jié)果質(zhì)量判別的準確率,通過離線偏好學(xué)習(xí)和在線強化學(xué)習(xí)統(tǒng)一優(yōu)化,進一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性,并增強了模型對高質(zhì)量結(jié)果的感知。
正是因為受益于偏好信號與獎勵信號的融合運用,模型的理解、生成、邏輯推理和記憶等能力才得以全面提升。
數(shù)據(jù)的合理挖掘及運用
當然,能夠訓(xùn)練出高質(zhì)量模型,還離不開對數(shù)據(jù)的合理挖掘及運用。
在這方面,他們打造了“數(shù)據(jù)挖掘與合成 - 數(shù)據(jù)分析與評估 - 模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán)。
主要體現(xiàn)在兩點:
一是針對專業(yè)深度知識及領(lǐng)域過程知識的數(shù)據(jù)稀缺問題,研制了原理驅(qū)動、過程評估與結(jié)果校驗的數(shù)據(jù)合成技術(shù)、知識點驅(qū)動的大規(guī)模稀缺數(shù)據(jù)挖掘技術(shù),提升數(shù)據(jù)的知識密度和覆蓋面。
二是針對不同模態(tài)數(shù)據(jù)割裂、跨模態(tài)語義關(guān)聯(lián)難度大等問題,提出了融合語義對齊的多模態(tài)平行數(shù)據(jù)構(gòu)建、融合視覺知識的描述生成等技術(shù),大幅提升不同模態(tài)數(shù)據(jù)的對齊精度和深度語義關(guān)聯(lián),增強多模態(tài)理解能力。
最終實現(xiàn)了——既能源源不斷地生產(chǎn)知識密度高、數(shù)據(jù)多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù),還能將數(shù)據(jù)建設(shè)流程輕松遷移到全新的數(shù)據(jù)類型。
訓(xùn)練推理中采用聯(lián)合優(yōu)化
除了上面這些,技術(shù)團隊還進行了模型的算力優(yōu)化。
訓(xùn)練方面,多模態(tài)統(tǒng)一的掩碼注意力加速,利用飛槳已有的塊狀掩碼注意力加速技術(shù),顯著降低不同模態(tài)混合計算注意力時的掩碼構(gòu)建和計算開銷,大幅提升訓(xùn)練性能。
推理方面,多模態(tài)流式分塊預(yù)填充機制,減少首token耗時,同時減少推理計算的顯存峰值,提升推理批次大小,提升吞吐性能。
而且值得一提的是,開發(fā)者還能利用百度飛槳框架3.0,“像寫單機代碼一樣寫分布式代碼”,借助其動靜統(tǒng)一自動并行技術(shù),開發(fā)者無需感知復(fù)雜的通信和調(diào)度邏輯,即可實現(xiàn)大模型的開發(fā)。
目前,文心飛槳的開發(fā)者數(shù)量已經(jīng)超過了2185萬,服務(wù)超過67萬家企業(yè),創(chuàng)建的模型達到110萬。

未來,隨著百度進一步走向開源,開發(fā)者也能通過該框架實現(xiàn)更多開源模型的高性能推理了。
把生產(chǎn)力成本打下來了
技術(shù)上所具備的核心優(yōu)勢,最終也讓百度把模型價格狠狠打下來了。
還在一個月前,百度發(fā)布的文心大模型X1和4.5,就因為低于ChatGPT和DeepSeek的價格出圈。
而現(xiàn)在發(fā)布的文心X1 Turbo/4.5 Turbo,模型性能升級的同時,價格卻進一步降低了。

文心大模型X1 Turbo API,輸入價格1元/百萬tokens,輸出價格4元/百萬tokens,僅為DeepSeek R1調(diào)用價格的1/4,而且相比文心大模型X1,價格直接腰斬。

文心大模型4.5 Turbo API,輸入價格0.8元/百萬tokens,輸出價格3.2元/百萬tokens,僅為DeepSeek V3調(diào)用價格的40%,而且相比文心大模型4.5,價格更是下降了80%。

而且不止卷價格,一旦梳理百度目前采取的一系列動作,我們就能看到一個核心關(guān)鍵詞——生產(chǎn)力。
一方面,百度作為國內(nèi)最早入局大模型的頭部玩家之一,始終堅決投入下一代基礎(chǔ)模型。
模型升級的方向,目前主要包括推理、多模態(tài)、工具調(diào)用等等,這些功能均圍繞“生產(chǎn)力”展開,主要是為了滿足普通人的日常工作生活需要。
帶來的結(jié)果是,越升級基礎(chǔ)模型,我們普通用戶越能免費薅到更強大的生產(chǎn)力工具。
另一方面,他們還為開發(fā)者提供了全方位支持。以文心大模型為例,目前已經(jīng)形成了從模型到工具平臺的完整體系,包括文心4.5、X1等旗艦?zāi)P图捌銽urbo升級版、文圖生成模型、場景模型和輕量模型、文心一言和智能體,以及賦能開發(fā)者的數(shù)據(jù)生產(chǎn)、后訓(xùn)練、推理部署和場景化工具等。
再加上模型價格一降再降,開發(fā)者搞應(yīng)用的門檻也更低了,這將推動AI應(yīng)用進一步爆發(fā),進而有望提升整個社會的生產(chǎn)力。
這或許也是百度這屆AI開發(fā)者大會,主題“模型的世界,應(yīng)用的天下”的關(guān)鍵原因,模型已經(jīng)遍地都是、觸手可及,那么應(yīng)用的爆發(fā)也就成為了必然趨勢。百度創(chuàng)始人李彥宏還預(yù)判:“模型會有很多,但未來真正統(tǒng)治這個世界的是應(yīng)用,應(yīng)用才是王者?!?/p>
在發(fā)布最后,李彥宏的發(fā)言也引發(fā)了現(xiàn)場開發(fā)者的熱烈掌聲反饋,他說——
- 所有這些發(fā)布,都是為了讓開發(fā)者們可以不用擔心模型能力、不用擔心模型成本、更不用擔心開發(fā)工具和平臺,可以踏踏實實地做應(yīng)用,做出最好的應(yīng)用!
熱門跟貼