智東西作者 陳駿達編輯 漠影
打開網(wǎng)易新聞 查看精彩圖片
智東西作者 陳駿達編輯 漠影

智東西4月25日報道,今天上午,在Create 2025百度AI開發(fā)者大會上,百度正式發(fā)布文心大模型4.5 Turbo與文心大模型X1 Turbo。這兩款模型的多模態(tài)能力、推理能力均有明顯提升,更是在性價比上實現(xiàn)了新的突破——文心X1 Turbo輸入價格為1元/百萬tokens,輸出價格為4元/百萬tokens,均為DeepSeek-R1的25%

文心4.5 Turbo是一款源自文心4.5的模態(tài)大模型,并在性能與成本上更具優(yōu)勢。文心X1 Turbo則由上月發(fā)布的文心X1升級而來,具備更先進的思維鏈,問答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力進一步增強。

在數(shù)學(xué)、寫作、編程、邏輯等領(lǐng)域的多項基準(zhǔn)測試中,文心X1 Turbo總體優(yōu)于DeepSeek-R1、V3最新版。

打開網(wǎng)易新聞 查看精彩圖片

文心4.5 Turbo的多模態(tài)能力與GPT 4.1持平、優(yōu)于GPT 4o;文本能力與DeepSeek V3最新版持平,優(yōu)于GPT 4.5、GPT 4.1、GPT 4o。

文心4.5 Turbo、文心X1 Turbo已經(jīng)文心一言上線,用戶僅需點擊頁面左上角選擇模型便可免費體驗其能力。這兩款模型也已正式上線百度智能云千帆大模型平臺,企業(yè)用戶和開發(fā)者登錄即可調(diào)用API。

新模型發(fā)布之際,智東西也在第一時間進行了全面測評。這兩款模型不僅能勝任研報、公文寫作,也能解答編程、醫(yī)學(xué)、貿(mào)易方面的專業(yè)問題,并具備強大多模態(tài)能力,因而解鎖了拍照出菜譜、識地點、生成產(chǎn)品圖等多樣玩法。

近一個月,百度已密集上4款新模型,文心大模型的能力邊界,正迎來持續(xù)拓展,堪稱實力卷王。

一、既能寫研報也會解難題,思維鏈更有條理了

推理模型已成為各家大模型廠商角力的重要方向,本次,文心X1 Turbo的思維鏈迎來升級,具備了邊思考邊調(diào)用工具的能力。

在回答一則醫(yī)學(xué)研究設(shè)計問題時,文心X1 Turbo先是將這一任務(wù)拆解為清晰的四個步驟,然后根據(jù)其自行制定的計劃調(diào)用工具、整理信息。其思維鏈重點明確,條理清晰,而非連續(xù)的大段文字,用戶可更方便地閱讀大模型的思考過程。

打開網(wǎng)易新聞 查看精彩圖片

智東西還向一位外科醫(yī)生求證了文心X1 Turbo生成結(jié)果的專業(yè)性,得到的評價如下:

打開網(wǎng)易新聞 查看精彩圖片

對于新近發(fā)生的熱點與時事,文心X1 Turbo展現(xiàn)出不錯的理解與分析能力。當(dāng)被問及關(guān)稅對我國當(dāng)前經(jīng)濟的影響時,它給出的數(shù)據(jù)詳實、分析也較為全面,覆蓋貿(mào)易、產(chǎn)業(yè)、宏觀經(jīng)濟三方面。

打開網(wǎng)易新聞 查看精彩圖片

文心X1 Turbo的工具調(diào)用能力使其通用性、可玩性進一步提升。隨手選取一張菜品網(wǎng)圖,發(fā)給文心X1 Turbo后,它運用多模態(tài)理解、代碼解釋器等工具,打造了一份PDF的制作工序文件。

打開網(wǎng)易新聞 查看精彩圖片

將一張零件的三視圖發(fā)送給文心X1 Turbo,它能精確地識別圖中的零件尺寸、結(jié)構(gòu),并使用python計算零件的具體體積,可謂是超強生產(chǎn)力工具了。

打開網(wǎng)易新聞 查看精彩圖片

文本創(chuàng)作一直是文心大模型的強項。收到一份近2萬字的工作報告后,文心X1 Turbo利用?檔問答工具,結(jié)合模型自身能力,迅速輸出了一篇2000字的心得體會。引用內(nèi)容準(zhǔn)確,分析方向也恰到好處,符合公文的文風(fēng)文體。

打開網(wǎng)易新聞 查看精彩圖片

與文心X1 Turbo同時發(fā)布的文心4.5 Turbo,則在多模態(tài)理解能力上展現(xiàn)出不俗的實力。

將聊天群里的高糊網(wǎng)絡(luò)梗圖甩給文心4.5 Turbo,它既識別出圖中的文字和其他元素,還能將這些元素整合理解,給出準(zhǔn)確又兼具趣味性的解讀。

打開網(wǎng)易新聞 查看精彩圖片

將網(wǎng)友分享的旅游景點找發(fā)給文心4.5 Turbo,它馬上就報出了圖中景點的“坐標(biāo)”,還給出了相關(guān)背景信息,這回再也不用追著博主求分享機位了。

打開網(wǎng)易新聞 查看精彩圖片

文心4.5 Turbo不僅具有圖片理解能力,還能聽懂、看懂音視頻內(nèi)容。例如,文心4.5 Turbo可以根據(jù)行車記錄儀的畫面,給出車禍的責(zé)任劃分建議,其對畫面的描述符合事實,并運用了交規(guī)知識。

打開網(wǎng)易新聞 查看精彩圖片

文心4.5 Turbo的多模態(tài)能力還可與生圖能力結(jié)合。向其發(fā)送一張產(chǎn)品海報后,文心4.5 Turbo按照用戶需求將其改為短款襪子,生成了多張不同設(shè)計、不同風(fēng)格的宣傳圖。在電商場景中,這能幫助中小商家們節(jié)省許多精力與成本。

打開網(wǎng)易新聞 查看精彩圖片

邏輯推理方面,文心4.5 Turbo雖并未使用思維鏈,但其生成結(jié)果也較有說服力。為反駁“缸中之腦”這一實驗,文心4.5 Turbo給出了5個反駁理由,正反方觀點都得到呈現(xiàn),反駁簡潔有力。

打開網(wǎng)易新聞 查看精彩圖片

在開發(fā)場景,文心4.5 Turbo能以極快的速度打造出視覺特效、網(wǎng)頁游戲等實用程序。設(shè)計下方這一交互特效,文心4.5 Turbo用時20秒。

打開網(wǎng)易新聞 查看精彩圖片

總體來看,文心4.5 Turbo、文心X1 Turbo在深度思考、問答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力均迎來升級的,這背后的技術(shù)實現(xiàn)路徑與升級邏輯,究竟是什么?

二、模型學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%

從模型類型上來看,文心4.5 Turbo、文心X1 Turbo都是多模態(tài)大模型,實現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。

對許多用戶,尤其是企業(yè)用戶而言,同時處理文本、圖像、視頻等多模態(tài)數(shù)據(jù)已近乎成為剛需。在今天的百度Create開發(fā)者大會上,百度創(chuàng)始人李彥宏也發(fā)表了類似觀點:“多模態(tài)將成為未來基礎(chǔ)模型的標(biāo)配,純文本模型的市場會越變越小,多模態(tài)模型的市場會越來越大。

針對不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)、規(guī)模、知識密度上的差異,文心4.5和4.5 Turbo在訓(xùn)練過程中通過多模態(tài)異構(gòu)專家建模、自適應(yīng)分辨率視覺編碼、時空重排列的三維旋轉(zhuǎn)位置編碼、自適應(yīng)模態(tài)感知損失計算等技術(shù),大幅提升跨模態(tài)學(xué)習(xí)效率和多模態(tài)融合效果,學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%。

后訓(xùn)練方面,這兩款模型采用自反饋增強的技術(shù)框架,基于大模型自身的生成和評估反饋能力,實現(xiàn)了“訓(xùn)練-生成-反饋-增強”的模型迭代閉環(huán),不僅解決了大模型對齊過程中,數(shù)據(jù)生產(chǎn)難度大、成本高、速度慢等問題,還顯著降低了模型幻覺,模型理解和處理復(fù)雜任務(wù)的能力大幅提升。

為提升模型的理解、生成、邏輯和記憶等能力,文心4.5和4.5 Turbo還使用了融合偏好學(xué)習(xí)的強化學(xué)習(xí)技術(shù),通過多元統(tǒng)一獎勵機制,提升了對結(jié)果質(zhì)量判別的準(zhǔn)確率,通過離線偏好學(xué)習(xí)和在線強化學(xué)習(xí)統(tǒng)一優(yōu)化,進一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性,并增強了模型對高質(zhì)量結(jié)果的感知。

在上方案例中,我們已直觀體會到文心X1 Turbo思維鏈升級后增強的問題解決能力。如今,這款模型已突破了僅基于思維鏈優(yōu)化的范式,在思考路徑中結(jié)合工具調(diào)用,構(gòu)建了融合思考和行動的復(fù)合思維鏈。同時,結(jié)合多元統(tǒng)一的獎勵機制,文心X1 Turbo還實現(xiàn)了長距離思考和行動鏈的端到端優(yōu)化,大幅提升了跨領(lǐng)域的問題解決能力。

百度還打造了“數(shù)據(jù)挖掘與合成-數(shù)據(jù)分析與評估-模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán),為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù),同時,數(shù)據(jù)建設(shè)流程具備良好的可擴展性,能夠輕松遷移到全新的數(shù)據(jù)類型,實現(xiàn)快速、高效的數(shù)據(jù)生產(chǎn)。

針對不同模態(tài)數(shù)據(jù)割裂、跨模態(tài)語義關(guān)聯(lián)難度大等問題,他們還研制了融合語義對齊的多模態(tài)平行數(shù)據(jù)構(gòu)建、融合視覺知識的描述生成等技術(shù),大幅提升不同模態(tài)數(shù)據(jù)的對齊精度和深度語義關(guān)聯(lián),增強多模態(tài)理解能力。

文心X1 Turbo在多個領(lǐng)域的測試中取得了顯著成績,包括中文簡單問答(Chinese SimpleQA)、寫作評估(WritingBench)、數(shù)學(xué)(AIME2024、Math-500、DROP)、邏輯推理(Zebra Logic)、中文語義理解(CLUEWSC)、編程能力(Livecodebench)以及指令遵循評估(IFEval和BFCL)。

打開網(wǎng)易新聞 查看精彩圖片

這些測試涵蓋了從基礎(chǔ)問答到復(fù)雜邏輯推理的廣泛領(lǐng)域,展示了文心X1 Turbo在多樣化任務(wù)中的綜合能力。文心X1 Turbo在上述測試中的平均分高于DeepSeek-R1、DeepSeek-V3最新版,與OpenAI o1基本持平。

打開網(wǎng)易新聞 查看精彩圖片

文心4.5 Turbo的多項基準(zhǔn)測試成績顯著優(yōu)于GPT-4o,平均分達到81.90,超過GPT-4.5的80.04,并領(lǐng)先DeepSeek-V3最新版。

三、 文心飛槳聯(lián)合優(yōu)化,拉爆AI訓(xùn)推性價比

百度今天發(fā)布的兩款新模型還在性價比上展現(xiàn)出明顯優(yōu)勢。文心X1 Turbo輸入、輸出價格均為DeepSeek-R1的25%。文心4.5 Turbo每百萬token的輸入價格僅為0.8元,輸出價格3.2元,僅為DeepSeek-V3的40%。

打開網(wǎng)易新聞 查看精彩圖片

文心大模型的能力拓展和效率提升,以及數(shù)字人、代碼智能體等技術(shù)創(chuàng)新,離不開飛槳深度學(xué)習(xí)框架與文心模型的深度協(xié)同優(yōu)化。這種優(yōu)化涵蓋框架-模型、框架-算力,既提升訓(xùn)練效果,又優(yōu)化推理效率,為文心大模型訓(xùn)推成本的下降提供支撐。

訓(xùn)練階段,多模態(tài)統(tǒng)一掩碼注意力加速技術(shù)顯著降低了跨模態(tài)計算的掩碼構(gòu)建開銷,訓(xùn)練性能大幅提升。推理時,百度引入多模態(tài)流式分塊預(yù)填充機制,減少首Token延遲,降低顯存峰值,提升推理批次大小和吞吐性能。

相比前代,文心4.5 Turbo訓(xùn)練吞吐提升5.4倍,推理吞吐提升8倍,極大降低大模型應(yīng)用成本。

作為AI技術(shù)底座,飛槳框架3.0在自動并行、神經(jīng)網(wǎng)絡(luò)編譯器、高階自動微分等方面實現(xiàn)突破,幫助開發(fā)者高效構(gòu)建大模型應(yīng)用。

飛槳框架3.0動靜統(tǒng)一的自動并行技術(shù),讓大模型分布式訓(xùn)練代碼量減少80%,開發(fā)者可以像寫單機代碼一樣寫分布式代碼。訓(xùn)推一體技術(shù)則將強化學(xué)習(xí)訓(xùn)練速度提升114%,加速模型迭代??茖W(xué)計算場景下,飛槳框架3.0微分方程求解速度較PyTorch快115%。其神經(jīng)網(wǎng)絡(luò)編譯器端到端訓(xùn)練速度提升27%,計算效率優(yōu)化成果顯著。

飛槳還支持國內(nèi)外60+芯片架構(gòu),并積極推動軟硬協(xié)同優(yōu)化,這點對有國產(chǎn)化算力需求的國內(nèi)企業(yè)而言十分友好。

大會上,百度還向外界分享了飛槳文心開發(fā)者生態(tài)的最新數(shù)據(jù),目前,飛槳文心擁有超2185萬開發(fā)者,服務(wù)超過67萬家企業(yè),創(chuàng)建的模型達到110萬。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)語:文心大模型密集迭代,多模態(tài)成重要方向

文心大模型的演進歷程展現(xiàn)了百度在AI領(lǐng)域的持續(xù)創(chuàng)新。2019年3月,文心大模型1.0正式發(fā)布;2023年3月,文心一言的誕生融合了知識增強、檢索增強和對話增強等核心技術(shù),實現(xiàn)了語言理解的飛躍;同年10月,文心4.0版本推出,首次引入慢思考智能體;2025年,文心4.5版本進一步升級為多模態(tài)模型,深度思考模型文心X1也同時發(fā)布;短短1個多月后,文心4.5 Turbo和文心X1 Turbo的亮相,再次提升了模型效率與能力。

從知識融合、邏輯推理到慢思考、多模態(tài),文心大模型正不斷突破技術(shù)邊界,實現(xiàn)了效果與效率的雙重提升。如今,文心大模型已構(gòu)建起從基礎(chǔ)模型到應(yīng)用工具的完整生態(tài)體系。

旗艦?zāi)P腿缥男?.5和X1在多模態(tài)與深度思考領(lǐng)域表現(xiàn)卓越,而文生圖模型、場景模型和輕量模型則滿足了不同場景的需求。文心一言和智能體技術(shù)進一步拓展了交互能力,同時,百度還為開發(fā)者提供了數(shù)據(jù)生產(chǎn)、后訓(xùn)練、推理部署等全流程工具,加速行業(yè)創(chuàng)新。

這一布局不僅體現(xiàn)了文心大模型的技術(shù)全面性,更展現(xiàn)了其靈活、高效的生態(tài)支撐力。進入2025年,百度的模型更新不斷提速,效果更好、成本更低。而在模型之上,就是Create大會主題后半句“應(yīng)用的天下”這盤更大的棋。