“周周有發(fā)布,天天有更新?!?/p>

這是百度創(chuàng)始人李彥宏最新對大模型競速的感慨,但……卷王實際就是百度自己,因為就這一個多月以來,百度已經(jīng)連發(fā)4款模型了。

就在剛剛,在Create 2025百度AI開發(fā)者大會上,李彥宏又一口氣官宣了兩款新模型:分別是主打深度思考和多模態(tài)的X1 Turbo/4.5 Turbo

而且發(fā)布即上線,普通用戶現(xiàn)在都能免費體驗。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)介紹,它們是百度在3月發(fā)布的旗艦?zāi)P蚗1、4.5的升級版推理和多模態(tài)能力雙雙更躍Level。

比如在挑戰(zhàn)“史上最難高考數(shù)學(xué)題之一”時,新模型是為數(shù)不多能給出正確答案的選手(正確答案為145)

打開網(wǎng)易新聞 查看精彩圖片

一個冷知識,2003年數(shù)學(xué)全國卷被譽為“史上最難高考卷”,而這道題還是里面的壓軸大題,難度可想而知。

甚至,至今還能看到一眾自稱03級的網(wǎng)友集體“訴苦”:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

再比如面對一段讓人眼花繚亂的視頻,新模型竟成功猜對了小球的位置。

正確答案是3號杯子,話說大家最終猜出來了嗎?(doge)

打開網(wǎng)易新聞 查看精彩圖片

根據(jù)官方測評結(jié)果,深度思考模型文心X1 Turbo(深藍),整體效果領(lǐng)先DeepSeek R1、V3最新版。

打開網(wǎng)易新聞 查看精彩圖片

文心4.5 Turbo(紅色),多模態(tài)能力優(yōu)于GPT 4o,文本能力與DeepSeek V3最新版持平,優(yōu)于GPT 4.5。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

目前,兩款新模型均在文心一言官網(wǎng)開放,開發(fā)者在百度智能云千帆大模型平臺,也可直接調(diào)用API。

另外,最關(guān)鍵的還是成本的下降!

文心4.5 Turbo輸入0.8元/百萬tokens,輸出3.2元/百萬tokens;文心X1 Turbo輸入1元/百萬tokens,輸出4元/百萬tokens。

以上價格,前者僅為DeepSeek V3的40%,后者僅為DeepSeek R1的1/4;同時相比一個月前的X1/4.5,價格均下降一半及以上。

大模型能力在進化,成本在下降,應(yīng)用創(chuàng)新的大爆發(fā)將勢不可擋。

只不過,咱還是先從一些具體能力上,看看百度最新最強大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展現(xiàn)的那么強?

老規(guī)矩,上一手實測~~

實測之后,還是太全面了!

首先來看主打深度思考的文心X1 Turbo模型。

據(jù)介紹,它基于文心4.5 Turbo,在性能提升的同時,具備更先進的思維鏈,尤其擅長推理工具調(diào)用。

文心大模型X1 Turbo

一上來,我們先拿一道經(jīng)典邏輯陷阱題熱熱身:

  • 一根5.5米的竹竿可以通過高4米寬3米的門嗎?

對于這樣一個看似簡單的問題,目前市面上絕大多數(shù)的模型反應(yīng)be like:

打開網(wǎng)易新聞 查看精彩圖片

而文心X1 Turbo經(jīng)過一番嚴謹論證,第一次就得出了正確答案(通過調(diào)整竹竿的傾斜角度,可以通過)

打開網(wǎng)易新聞 查看精彩圖片

看來這種問題已經(jīng)難不倒它了,接下來難度升級。

直接一步到位,扔給它一道某地高中物理??季韷狠S題,還是只上傳圖片的那種:

打開網(wǎng)易新聞 查看精彩圖片

可以看到,對于這種涉及專業(yè)領(lǐng)域的高難度推理題,X1 Turbo依舊思路清晰。

打開網(wǎng)易新聞 查看精彩圖片

先是自主調(diào)用“圖片理解”工具識別出題目與火箭發(fā)射有關(guān),然后上手一步步解題,最終給出了正確答案。

值得注意的是,盡管考查的是X1 Turbo的邏輯推理能力,但我們已經(jīng)提前發(fā)現(xiàn)它的一大特色——

與其他推理模型相比,文心X1 Turbo能夠靈活調(diào)用各種工具。

官網(wǎng)顯示,文心X1 Turbo默認開啟代碼解釋器、文檔閱讀、圖片理解、圖片生成等諸多工具,一旦意識到答案涉及代碼、表格、圖片等多模態(tài)內(nèi)容,就會自動調(diào)用這些工具。

打開網(wǎng)易新聞 查看精彩圖片

比如在日常生活中,我們隨手將一張美食照分享給文心X1 Turbo,讓它幫忙反向解析詳細制作過程。

而且為了便于收藏,我們還要求它最終直接生成一份PDF文件

打開網(wǎng)易新聞 查看精彩圖片

結(jié)果,X1 Turbo分別調(diào)用圖片理解和代碼解釋器工具,生成了一份可直接下載、內(nèi)容完整的PDF制作工序文件。

打開網(wǎng)易新聞 查看精彩圖片

看來挑戰(zhàn)還是太簡單了,好好好,接下來我們干脆玩把大的。

讓文心X1 Turbo幫我們規(guī)劃一個五一去北京游玩的行程,而且提了一大堆要求,不能太“特種兵”,住宿、交通、門票等等都要考慮到,結(jié)果用表格呈現(xiàn)……主打一個全面考察工具調(diào)用。

話不多說,來感受一下最終效果:

打開網(wǎng)易新聞 查看精彩圖片

不僅貼心標注了“五一行程——8點自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意標出了需要提前預(yù)約的景點和預(yù)約渠道。

再仔細一看,同一天安排的景點的位置都比較靠近,屬于合理范疇。

此外,我們還發(fā)現(xiàn)文心X1 Turbo支持繼續(xù)對話生成,能在前面的行程規(guī)劃上,接著為每個景點生成配圖。

打開網(wǎng)易新聞 查看精彩圖片

最后順便一提,我們在測試文心X1 Turbo的推理和工具調(diào)用能力的過程中,還發(fā)現(xiàn)它在創(chuàng)意寫作方面有點意思。

恰逢五一假期臨近,我們讓它根據(jù)一張“西湖人山人海圖”,仿照《岳陽樓記》的文風(fēng)寫一篇游記。

打開網(wǎng)易新聞 查看精彩圖片

對比一下《岳陽樓記》原文,是不是有內(nèi)味兒了~

  • 慶歷四年春,滕子京謫守巴陵郡。越明年,政通人和,百廢具興,乃重修岳陽樓,增其舊制,刻唐賢今人詩賦于其上,屬予作文以記之……

打開網(wǎng)易新聞 查看精彩圖片

其次來看主打多模態(tài)的文心4.5 Turbo模型。

據(jù)介紹,它源自文心4.5,是效果更好、成本更低的多模態(tài)大模型。

文心大模型4.5 Turbo

實測下來發(fā)現(xiàn),相比單項推理能力突出的文心X1 Turbo,它更像是一個主打綜合實力的“六邊形戰(zhàn)士”。

切換模型后,底部輸入框的文檔、圖片、視頻、音頻等多模態(tài)功能全部“點亮”:

打開網(wǎng)易新聞 查看精彩圖片

文本能力就不用多說了,我們直接上傳一張經(jīng)典梗圖,考查其視覺理解能力,結(jié)果也是秒秒鐘get~

打開網(wǎng)易新聞 查看精彩圖片

再來個實用的,讓4.5 Turbo設(shè)計一些包含故宮博物院元素的冰箱貼文創(chuàng)。

打開網(wǎng)易新聞 查看精彩圖片

相同提示詞下,通過對比文心4.5和4.5 Turbo,可以看到后者的生成效果確實更好、更精致了。

打開網(wǎng)易新聞 查看精彩圖片

最后,文心4.5 Turbo也能理解音視頻素材。

一方面可以直接和它語音對話,親測用四川方言也能實現(xiàn)無障礙交流:

打開網(wǎng)易新聞 查看精彩圖片

另一方面還能綜合分析視頻中的場景、聲音、人物等等,目前單個視頻最大支持20MB。

打開網(wǎng)易新聞 查看精彩圖片

小結(jié)一下,百度此次推出的文心大模型X1/4.5 Turbo,實測下來在推理能力和多模態(tài)能力上確實有一定程度升級。

那么接下來的問題是:背后依靠了哪些核心技術(shù)?

挖一挖背后的技術(shù)

在思考路徑中融合工具調(diào)用

首先,作為能夠自主運用工具的深度思考模型,文心X1 Turbo背后的關(guān)鍵技術(shù)包括:

其一,突破了僅基于思維鏈優(yōu)化的范式,在思考路徑中結(jié)合工具調(diào)用,構(gòu)建了融合思考和行動的復(fù)合思維鏈,模型解決問題的能力得到顯著提升。

其二,結(jié)合多元統(tǒng)一的獎勵機制,實現(xiàn)了長距離思維和行動鏈的端到端優(yōu)化,顯著提升了跨領(lǐng)域解決問題的能力。

一般而言,傳統(tǒng)的單一獎勵機制往往只能從一個角度評估模型的性能,這可能導(dǎo)致模型“顧此失彼”,比如過于關(guān)注語法,可能就會忽略語義的連貫性。

而多元統(tǒng)一獎勵機制是從多個維度全面評估模型的性能,這種綜合性的反饋機制能夠幫助模型在多個方面同時優(yōu)化,從而提升整體實力。

打開網(wǎng)易新聞 查看精彩圖片

采用不同模態(tài)混合訓(xùn)練

其次,為了提升文心4.5和4.5 Turbo的多模態(tài)能力,一大關(guān)鍵就是采用了不同模態(tài)(文本、圖像和視頻)的混合訓(xùn)練。

針對不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)、規(guī)模、知識密度上的差異,主要應(yīng)用了如下技術(shù):

  • 多模態(tài)異構(gòu)專家建模
  • 自適應(yīng)分辨率視覺編碼
  • 時空重排列的三維旋轉(zhuǎn)位置編碼
  • 自適應(yīng)模態(tài)感知損失計算

最終,模型的學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%。

而且為了進一步提升模型的綜合實力,他們在后訓(xùn)練階段也進行了優(yōu)化。

研制了自反饋增強的技術(shù)框架,基于大模型自身的生成和評估反饋能力,實現(xiàn)了“訓(xùn)練-生成-反饋-增強”的模型迭代閉環(huán)。

這不僅解決了大模型對齊過程中數(shù)據(jù)生產(chǎn)難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,提升了模型理解和處理復(fù)雜任務(wù)的效果。

此外在訓(xùn)練階段,他們還研制了融合偏好學(xué)習(xí)的強化學(xué)習(xí)技術(shù),通過多元統(tǒng)一獎勵機制,提升了對結(jié)果質(zhì)量判別的準確率,通過離線偏好學(xué)習(xí)和在線強化學(xué)習(xí)統(tǒng)一優(yōu)化,進一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性,并增強了模型對高質(zhì)量結(jié)果的感知。

正是因為受益于偏好信號與獎勵信號的融合運用,模型的理解、生成、邏輯推理和記憶等能力才得以全面提升。

數(shù)據(jù)的合理挖掘及運用

當然,能夠訓(xùn)練出高質(zhì)量模型,還離不開對數(shù)據(jù)的合理挖掘及運用。

在這方面,他們打造了“數(shù)據(jù)挖掘與合成 - 數(shù)據(jù)分析與評估 - 模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán)

主要體現(xiàn)在兩點:

一是針對專業(yè)深度知識及領(lǐng)域過程知識的數(shù)據(jù)稀缺問題,研制了原理驅(qū)動、過程評估與結(jié)果校驗的數(shù)據(jù)合成技術(shù)、知識點驅(qū)動的大規(guī)模稀缺數(shù)據(jù)挖掘技術(shù),提升數(shù)據(jù)的知識密度和覆蓋面。

二是針對不同模態(tài)數(shù)據(jù)割裂、跨模態(tài)語義關(guān)聯(lián)難度大等問題,提出了融合語義對齊的多模態(tài)平行數(shù)據(jù)構(gòu)建、融合視覺知識的描述生成等技術(shù),大幅提升不同模態(tài)數(shù)據(jù)的對齊精度和深度語義關(guān)聯(lián),增強多模態(tài)理解能力。

最終實現(xiàn)了——既能源源不斷地生產(chǎn)知識密度高、數(shù)據(jù)多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù),還能將數(shù)據(jù)建設(shè)流程輕松遷移到全新的數(shù)據(jù)類型。

訓(xùn)練推理中采用聯(lián)合優(yōu)化

除了上面這些,技術(shù)團隊還進行了模型的算力優(yōu)化。

訓(xùn)練方面,多模態(tài)統(tǒng)一的掩碼注意力加速,利用飛槳已有的塊狀掩碼注意力加速技術(shù),顯著降低不同模態(tài)混合計算注意力時的掩碼構(gòu)建和計算開銷,大幅提升訓(xùn)練性能。

推理方面,多模態(tài)流式分塊預(yù)填充機制,減少首token耗時,同時減少推理計算的顯存峰值,提升推理批次大小,提升吞吐性能。

而且值得一提的是,開發(fā)者還能利用百度飛槳框架3.0,“像寫單機代碼一樣寫分布式代碼”,借助其動靜統(tǒng)一自動并行技術(shù),開發(fā)者無需感知復(fù)雜的通信和調(diào)度邏輯,即可實現(xiàn)大模型的開發(fā)。

目前,文心飛槳的開發(fā)者數(shù)量已經(jīng)超過了2185萬,服務(wù)超過67萬家企業(yè),創(chuàng)建的模型達到110萬。

打開網(wǎng)易新聞 查看精彩圖片

未來,隨著百度進一步走向開源,開發(fā)者也能通過該框架實現(xiàn)更多開源模型的高性能推理了。

把生產(chǎn)力成本打下來了

技術(shù)上所具備的核心優(yōu)勢,最終也讓百度把模型價格狠狠打下來了。

還在一個月前,百度發(fā)布的文心大模型X1和4.5,就因為低于ChatGPT和DeepSeek的價格出圈。

而現(xiàn)在發(fā)布的文心X1 Turbo/4.5 Turbo,模型性能升級的同時,價格卻進一步降低了。

打開網(wǎng)易新聞 查看精彩圖片

文心大模型X1 Turbo API,輸入價格1元/百萬tokens,輸出價格4元/百萬tokens,僅為DeepSeek R1調(diào)用價格的1/4,而且相比文心大模型X1,價格直接腰斬。

打開網(wǎng)易新聞 查看精彩圖片

文心大模型4.5 Turbo API,輸入價格0.8元/百萬tokens,輸出價格3.2元/百萬tokens,僅為DeepSeek V3調(diào)用價格的40%,而且相比文心大模型4.5,價格更是下降了80%。

打開網(wǎng)易新聞 查看精彩圖片

而且不止卷價格,一旦梳理百度目前采取的一系列動作,我們就能看到一個核心關(guān)鍵詞——生產(chǎn)力。

一方面,百度作為國內(nèi)最早入局大模型的頭部玩家之一,始終堅決投入下一代基礎(chǔ)模型。

模型升級的方向,目前主要包括推理、多模態(tài)、工具調(diào)用等等,這些功能均圍繞“生產(chǎn)力”展開,主要是為了滿足普通人的日常工作生活需要。

帶來的結(jié)果是,越升級基礎(chǔ)模型,我們普通用戶越能免費薅到更強大的生產(chǎn)力工具。

另一方面,他們還為開發(fā)者提供了全方位支持。以文心大模型為例,目前已經(jīng)形成了從模型到工具平臺的完整體系,包括文心4.5、X1等旗艦?zāi)P图捌銽urbo升級版、文圖生成模型、場景模型和輕量模型、文心一言和智能體,以及賦能開發(fā)者的數(shù)據(jù)生產(chǎn)、后訓(xùn)練、推理部署和場景化工具等。

再加上模型價格一降再降,開發(fā)者搞應(yīng)用的門檻也更低了,這將推動AI應(yīng)用進一步爆發(fā),進而有望提升整個社會的生產(chǎn)力。

這或許也是百度這屆AI開發(fā)者大會,主題“模型的世界,應(yīng)用的天下”的關(guān)鍵原因,模型已經(jīng)遍地都是、觸手可及,那么應(yīng)用的爆發(fā)也就成為了必然趨勢。百度創(chuàng)始人李彥宏還預(yù)判:“模型會有很多,但未來真正統(tǒng)治這個世界的是應(yīng)用,應(yīng)用才是王者?!?/p>

在發(fā)布最后,李彥宏的發(fā)言也引發(fā)了現(xiàn)場開發(fā)者的熱烈掌聲反饋,他說——

  • 所有這些發(fā)布,都是為了讓開發(fā)者們可以不用擔心模型能力、不用擔心模型成本、更不用擔心開發(fā)工具和平臺,可以踏踏實實地做應(yīng)用,做出最好的應(yīng)用!