西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
剛剛,百度文小言全面升級(jí)了。
基于多模型的能力,文小言升級(jí)了包括全新大語(yǔ)音模型圖片問(wèn)答等在內(nèi)的一系列有趣兒又實(shí)用的新玩法。
比如圖片問(wèn)答,拍四只不同鸚鵡的大頭照,問(wèn)它鸚鵡性別(doge)
你還真別說(shuō),這都能回答對(duì),分析得頭頭是道:
而且現(xiàn)在圖片問(wèn)答還可以這樣玩,基于原圖元素一鍵二創(chuàng),小雛菊杯子搖身幻化出小雛菊手機(jī)殼、抽紙盒:
內(nèi)外兼收,支持多模型融合調(diào)度
本次升級(jí),文小言直接把自家剛上線不久的新模型,包括文心大模型X1和4.5,和“隔壁學(xué)霸”DeepSeek-R1滿血版擺一塊兒了,進(jìn)行了多模型融合調(diào)度
現(xiàn)在,文小言的用戶在一個(gè)頁(yè)面可隨意切換使用DeepSeek或是文心X1/4.5特定模型,愛(ài)翻誰(shuí)的牌子就翻誰(shuí)的。
文心X1是百度半個(gè)月前剛發(fā)布的號(hào)稱是“首個(gè)自主運(yùn)用工具的深度思考模型”。
文心大模型4.5是百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型,在多模態(tài)交互、理解方面更強(qiáng),原生模型聯(lián)合預(yù)訓(xùn)練能實(shí)現(xiàn)更深層次的模態(tài)融合。
另外,文小言上線了「自動(dòng)模式」,它能夠根據(jù)用戶提出的問(wèn)題識(shí)別用戶需求,自動(dòng)選擇最合適的模型

現(xiàn)在,兩款新模型直接和DeepSeek融合調(diào)度,讓文小言擁有了更強(qiáng)的“大腦”。據(jù)介紹,他們對(duì)DeepSeek還進(jìn)行了多種功能維度的融合,打通了圖片問(wèn)答、生圖等鏈路
我們先來(lái)考驗(yàn)一下這個(gè)更強(qiáng)“大腦”的邏輯思維能力。
拋給它一個(gè)腦筋急轉(zhuǎn)彎:
- 在一個(gè)封閉房間里有三盞燈,門(mén)外有三個(gè)開(kāi)關(guān),每個(gè)開(kāi)關(guān)分別控制一盞燈。你只能進(jìn)房間一次。如何判斷出每個(gè)開(kāi)關(guān)對(duì)應(yīng)哪盞燈?
只見(jiàn)文小言三下五除二,輕輕松松一步步推理給出了標(biāo)準(zhǔn)答案。判斷依據(jù)中也會(huì)解釋打開(kāi)一個(gè)開(kāi)關(guān)等待5-10分鐘是為了讓燈發(fā)熱等諸如此類(lèi)的細(xì)節(jié)。
和一般推理模型不一樣的是,在給出答案之后,它還會(huì)自動(dòng)推薦視頻,有詳解這道題目的視頻,也有和此題類(lèi)似的更多題目。
如此一來(lái),就方便了大家對(duì)題目的延伸理解。
接下來(lái)再來(lái)一道著名概率難題——“二孩悖論”。
這道題初始表述至少可追溯至1959年,由著名數(shù)學(xué)家馬丁·加德納在《科學(xué)美國(guó)人》雜志的“數(shù)學(xué)游戲”專欄中提出,曾引發(fā)數(shù)學(xué)家們的廣泛爭(zhēng)論,直到現(xiàn)在大家對(duì)這道題目的討論似乎也還沒(méi)有停止。
問(wèn)題是醬嬸兒的:
- 史密斯先生有兩個(gè)孩子。其中至少有一個(gè)是男孩。問(wèn):兩個(gè)孩子都是男孩的概率是多少?
加德納最初給出的答案是1/3,但他后來(lái)承認(rèn)第二個(gè)問(wèn)題的表述存在歧義,若“至少有一個(gè)是男孩”這一信息的獲取方式不同,答案也可能是1/2
那么文小言是怎么回答的?它是1/3派,還是1/2?
文小言在分析中成功發(fā)現(xiàn)歧義,認(rèn)為:
- 根據(jù)傳統(tǒng)概率問(wèn)題,概率應(yīng)該是1/3,但問(wèn)題的答案可能取決于信息的獲取方式……另一個(gè)孩子是男孩的概率也能是1/2。
最終文小言通過(guò)基礎(chǔ)概率空間、條件篩選、目標(biāo)概率計(jì)算分布解析,并用條件概率公式進(jìn)行驗(yàn)證得出答案1/3,同時(shí)明確給出了歧義辨析
當(dāng)然,末尾同樣附帶有推薦視頻。
妙就妙在,你還可以讓文小言幫你繪制圖表,這樣分析過(guò)程就更一目了然了。
它還挺“懂事兒”自己做了補(bǔ)充,連常見(jiàn)混淆點(diǎn)對(duì)比表也一并繪制出來(lái)了。

也可以再讓它生成配圖,「自動(dòng)模式」無(wú)需切換模型:

而若切換模型特意指定文心X1來(lái)解決問(wèn)題,它的優(yōu)勢(shì)在于,能夠更靈活地調(diào)用各種工具

據(jù)百度介紹,文心X1利用遞進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練方法基于思維鏈和行動(dòng)鏈的端到端訓(xùn)練多元統(tǒng)一的獎(jiǎng)勵(lì)系統(tǒng)等技術(shù),文心X1的推理輸出是直接可以圖文混合連續(xù)完成任務(wù)
比如告訴它:
- 家里的客廳朝向是南偏東,35平米,有一整扇落地窗,請(qǐng)根據(jù)要求畫(huà)出淺色奶油風(fēng)、暗黑輕奢風(fēng)、跳脫童趣風(fēng)三種不同風(fēng)格的裝修效果,三個(gè)戶型必須一致。
對(duì)于這樣的問(wèn)題,文心X1能多次連續(xù)調(diào)用AI繪圖等工具,一口氣搞定:
基于文心X1多模態(tài)自主運(yùn)用工具深度思考、文心4.5原生多模態(tài)能力以及DeepSeek的推理能力,文小言圖片問(wèn)答能力更強(qiáng)了,還上新了不少多模態(tài)新功能。
多模態(tài)功能再升級(jí)
現(xiàn)在上新的圖片問(wèn)答功能可以這樣玩:
能一次性上傳或拍攝多張圖聯(lián)合分析問(wèn)答;也可在拍攝的過(guò)程中直接用語(yǔ)音問(wèn),說(shuō)完話它會(huì)自動(dòng)拍攝并識(shí)別語(yǔ)音進(jìn)行作答。
基于文心4.5圖片理解力,它的識(shí)別更強(qiáng),能進(jìn)行多圖比較;基于文心X1、DeepSeek,它的推理/輸出更強(qiáng)。就像是紅藍(lán)buff都加上了。
所以,僅憑借一個(gè)山頭的一張照片,它就能分析出這是哪座山:
更復(fù)雜一些的任務(wù),比如天氣變暖想出國(guó)旅游,人生地不熟定哪個(gè)酒店拿捏不準(zhǔn)?也可以讓它幫忙參謀參謀。
直接上傳幾張酒店信息截圖,提出需求:
- 從里面推薦2個(gè)酒店,適合女生旅游住,有早餐,交通方便,性價(jià)比高,給RMB報(bào)價(jià)和推薦理由。
輕輕松松就能get一份綜合的推薦指南:
諸如此類(lèi),比如上傳幾張外文菜單,告訴它想吃什么口味的、預(yù)算是多少,它也可以幫你分析總結(jié)。
另外,百度把拍照搜題功能也整合過(guò)來(lái)了,文小言會(huì)自動(dòng)調(diào)出百度多年積累的教育資源,很多題目都有視頻版講解:
值得一提的是,新增的“圖個(gè)冷知識(shí)”功能更富趣味性,用戶可預(yù)設(shè)“歷史學(xué)者”、“科技達(dá)人”等人設(shè)視角,為同一圖片賦予多維解讀
例如,當(dāng)用戶詢問(wèn)“貓窗探秘,為何貓愛(ài)窗邊的科學(xué)真相?”,文小言能從狩獵本能、能量獲取、領(lǐng)地意識(shí)等角度給出獨(dú)特解讀。

視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
再來(lái)看多模態(tài)另一個(gè)方面,語(yǔ)音通話功能,由百度的全新語(yǔ)音大模型加持。
據(jù)了解,該模型是百度在業(yè)界首個(gè)推出基于全新互相關(guān)注意力(cross attention)的端到端語(yǔ)音語(yǔ)言大模型,調(diào)用成本較行業(yè)平均降低5-10倍,推理響應(yīng)速度極快,將語(yǔ)音交互等待時(shí)間壓縮至1秒左右,極大提升了交互流暢性。
用下來(lái),整體對(duì)話流暢自然、延遲度低,belike:

視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
特別要指出的是其中的百變大咖功能,支持角色模仿和方言,能用各種有趣的腔調(diào)陪你聊天;還有知識(shí)問(wèn)答功能更專注于常識(shí)知識(shí)科普。
有了百變大咖,所以,你還可以聽(tīng)到廣西版的睡前故事:

視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
除了這些功能,文小言還融合了AI修圖、AI視頻生成、寫(xiě)作幫手、翻譯、手抄報(bào)、聽(tīng)聽(tīng)音樂(lè)等諸多功能,感興趣的童鞋可以親自上手試試。
下面是AI視頻生成,讓圖片動(dòng)起來(lái)的效果:
AI落地趨勢(shì)變了
總結(jié)文小言這一次的大翻新,不難發(fā)現(xiàn)它正朝著兩個(gè)關(guān)鍵方向轉(zhuǎn)變:生態(tài)更開(kāi)放、用戶價(jià)值第一
這次直接將DeepSeek接入文小言,不怕跟自家新模型做競(jìng)爭(zhēng),足以見(jiàn)其開(kāi)放的決心。
當(dāng)大家還在爭(zhēng)論“文心X1與DeepSeek孰強(qiáng)孰弱”,文小言早已跳出了單一模型競(jìng)爭(zhēng)的維度,攜手更多伙伴,究其本質(zhì),是為了帶給用戶更好的體驗(yàn)。
為什么會(huì)有這種轉(zhuǎn)變?
背后是AI落地趨勢(shì)正在發(fā)生的變化。
自DeepSeek從開(kāi)源圈殺出重圍,大模型競(jìng)賽逐漸呈現(xiàn)出一種戲劇性轉(zhuǎn)折,行業(yè)意識(shí)到模型本身正逐漸成為一種可替換的“標(biāo)準(zhǔn)件”。以前比模型,就像比誰(shuí)家的菜刀鋼材硬,現(xiàn)在更比誰(shuí)切菜順手,甚至能幫你把土豆絲炒好了。
當(dāng)技術(shù)紅利逐步釋放后,如何讓AI解決真實(shí)場(chǎng)景問(wèn)題成為關(guān)鍵,技術(shù)優(yōu)勢(shì)必須轉(zhuǎn)化為可感知的用戶價(jià)值。
百度在2025開(kāi)年后,不論是文小言免費(fèi),還是文心大模型開(kāi)源,種種系列革新舉措,就是盯準(zhǔn)了AI落地的新趨勢(shì)。
在這種背景下,文小言選擇的路徑頗具啟示性——生態(tài)層選擇開(kāi)放,另外在場(chǎng)景層深耕,同時(shí)在價(jià)值層進(jìn)行重構(gòu)。
作為國(guó)產(chǎn)自研大模型出發(fā)最早、積累最厚的玩家,文小言的新進(jìn)展,不容小覷,或?qū)⒂型蔀樾乱惠啽荒7碌膶?duì)象。
熱門(mén)跟貼