3月的最后一天,文小言進(jìn)行了全面煥新,帶來了多模型融合調(diào)度、全新語音大模型、圖片問答和拍題講解等強(qiáng)大功能升級(jí)。本文將通過實(shí)際體驗(yàn),深入剖析文小言此次升級(jí)的亮點(diǎn),探討其在學(xué)習(xí)教育、旅游戶外、日常生活、設(shè)計(jì)創(chuàng)作等場(chǎng)景中的應(yīng)用表現(xiàn),以及這些升級(jí)如何讓AI交互更智能、更貼近用戶需求。

———— / BEGIN / ————

3 月的 AI 圈持續(xù)熱鬧非凡,先是 AI Agent 領(lǐng)域的 Manus 引發(fā)關(guān)注,隨后 GPT-4o 升級(jí)又在社交平臺(tái)掀起一波“吉卜力風(fēng)”圖片熱潮,讓 AI 視覺生成能力再次成為焦點(diǎn)。

而在 3 月的最后一天,百度的文小言也進(jìn)行了全面煥新,不僅上新了多模型融合調(diào)度、全新語音大模型的能力,同時(shí)也推出了更強(qiáng)大的圖片問答、拍題講解能力。

我第一時(shí)間進(jìn)行了體驗(yàn),這次升級(jí)不僅讓 AI 交互更智能、更流暢,也讓我更加期待 2025 年 AI 應(yīng)用體驗(yàn)的進(jìn)一步躍升。

接下來,就和大家分享下這次文小言的主要升級(jí)點(diǎn):

模型開放:多模型融合調(diào)度,打造更強(qiáng)大腦

如果說 OpenAI 正式推出 ChatGPT 標(biāo)志著基于 LLM 的 AI 開始走入大眾視野,掐指一算,現(xiàn)在也已經(jīng)過去了2 年多,但隨著不同模型的推出,背后其實(shí)呈現(xiàn)了一個(gè)共同規(guī)律,那就是模型層的發(fā)展,已經(jīng)開始根據(jù)特定的應(yīng)用場(chǎng)景進(jìn)行能力的深化,無論是針對(duì)視頻領(lǐng)域的 sora,還是近期推出的針對(duì) svg 矢量圖的starVector,都是如此。

但對(duì)于普通大眾用戶而言,要去識(shí)別在不同場(chǎng)景下使用什么模型,是難度很大的一件事,雖然不同模型基本都會(huì)給出在不同應(yīng)用場(chǎng)景下的測(cè)試效果,但這仍依賴一定的專業(yè)背景。

有沒有可能讓用戶只需專注表達(dá)需求,讓產(chǎn)品來智能匹配最適合的模型,自動(dòng)生成最優(yōu)解呢?

我在文小言這次的升級(jí)中看到了一種新的解法,那就是它的“自動(dòng)模式”:

打開網(wǎng)易新聞 查看精彩圖片

選擇自動(dòng)模式后,文小言會(huì)智能匹配最合適的模式來生成回答,我在自動(dòng)模式下嘗試提問了不同類型的問題,可以看到,在針對(duì)寫詩這類文學(xué)創(chuàng)作,以及一些常識(shí)類的問題時(shí),借助這個(gè)機(jī)制,可以更快速地獲取我們需要的內(nèi)容,而不是仍通過深度思考在那分析我為啥需要開除濕:

打開網(wǎng)易新聞 查看精彩圖片

但當(dāng)我提問類似“如何集合自己的需求買保險(xiǎn)”這類復(fù)雜問題時(shí),文小言則會(huì)自動(dòng)調(diào)用深度思考,給我提供一個(gè)更結(jié)構(gòu)化、更全面的內(nèi)容:

打開網(wǎng)易新聞 查看精彩圖片

除了“自動(dòng)模式”,我也可以自行選擇使用特定的模型,除了百度最新的文心4.5 和x1 模型外,也可以選擇DeepSeek-R1滿血版,不得不說,這對(duì)于一家在自研模型投入巨大的廠商而言,更顯難能可貴。

基于生態(tài)開放的思路,文小言本質(zhì)是將選擇權(quán)留給了用戶。不僅提升了產(chǎn)品競(jìng)爭(zhēng)力,背后也可以看到,它的產(chǎn)品升級(jí)邏輯已經(jīng)從“技術(shù)突破”轉(zhuǎn)向了“用戶價(jià)值”,比拼的也不再是單一模型能力,而是誰能讓 AI 能力更高效、更便捷地提供給用戶,這種思路在我接下來的體驗(yàn)測(cè)評(píng)中,將更加直觀地展現(xiàn)出來。

全新圖片問答:更全面化的個(gè)人助理

這次文心 4.5 模型和 X1 模型(可以理解為為百度「自研的DS」)的接入,為 AI 的場(chǎng)景應(yīng)用提供了更強(qiáng)大的多模態(tài)理解、深度思考、連續(xù)任務(wù)執(zhí)行等能力,除了可以做到從圖片中抽取更豐富、更準(zhǔn)確的信息,還可以在問答中直接輸出圖文混合的內(nèi)容。

為了更全面地體驗(yàn)到文小言的能力,我在不同的場(chǎng)景里都做了體驗(yàn)測(cè)評(píng),包括學(xué)習(xí)教育、旅行戶外、日常生活、設(shè)計(jì)、娛樂等方面:

1. 學(xué)習(xí)教育場(chǎng)景

在這個(gè)場(chǎng)景里,我嘗試了大多數(shù)家長(zhǎng)比較頭疼的小孩作業(yè)輔助問題。

在文小言APP里選擇“拍照解題”后,直接對(duì)習(xí)題冊(cè)或試卷拍照,它可以生成不同的解答方案,還提供專業(yè)的講解視頻,可以有效解決過往我們過往輔導(dǎo)作業(yè)時(shí)“只知道問題答案,但難以給小孩講解清楚”的問題,在題干識(shí)別、解答廣度、解答質(zhì)量上,效果都還不錯(cuò)。

打開網(wǎng)易新聞 查看精彩圖片

2. 旅游戶外場(chǎng)景

在這個(gè)場(chǎng)景里面比較麻煩到的,主要是出國(guó)旅游的時(shí)候,面對(duì)語言環(huán)境的差異,我可能連菜單都看不懂,文小言有可能成為我搞定嗎?

我上傳了一張實(shí)拍的菜單圖片,拍完后讓文小言直接幫我點(diǎn)菜:

打開網(wǎng)易新聞 查看精彩圖片

可以看到,它不但識(shí)別出了菜單的內(nèi)容和價(jià)格,還結(jié)合我的需求生成了點(diǎn)餐的方案,這個(gè)場(chǎng)景看似簡(jiǎn)單,其實(shí)背后對(duì)多模態(tài)理解能力有極強(qiáng)的要求,不但要能提取到圖片信息,還要對(duì)里面哪些是菜品名、哪些是價(jià)格有內(nèi)容層面的理解,這樣才能對(duì)特定菜品進(jìn)行排除,對(duì)價(jià)格進(jìn)行計(jì)算,從而匹配我的點(diǎn)餐訴求。

除了點(diǎn)餐,在旅游路上看到一些風(fēng)景想了解地點(diǎn)時(shí),也可以直接通過文小言調(diào)用攝像頭直接拍照,它結(jié)合圖片搜索地點(diǎn),并給我回復(fù):

打開網(wǎng)易新聞 查看精彩圖片

3. 日常生活場(chǎng)景

生活場(chǎng)景里我重點(diǎn)體驗(yàn)的是比較復(fù)雜的消費(fèi)決策場(chǎng)景,第一個(gè)是裝修。

在這個(gè)場(chǎng)景里,有時(shí)光看樣圖和樣品房很難想象出實(shí)際的裝修效果,這個(gè)時(shí)候結(jié)合文小言的「圖文混排生成能力」有奇效,它可以結(jié)合我描述的戶型情況,生成不同風(fēng)格的裝修效果圖:

打開網(wǎng)易新聞 查看精彩圖片

第二個(gè)場(chǎng)景是購物場(chǎng)景,在購買食品、化妝品和衣服的時(shí)候,我們經(jīng)常需要看食品配料、化妝品成分,以及衣服的材質(zhì),但通常要么看不懂,要么是搜索麻煩,現(xiàn)在通過文小言,拍照上傳直接提問就能搞定了:

打開網(wǎng)易新聞 查看精彩圖片

4. 設(shè)計(jì)創(chuàng)作場(chǎng)景

這是我體驗(yàn)過程中最驚艷的場(chǎng)景之一。只需提供一個(gè)靈感點(diǎn),文小言就能將其轉(zhuǎn)化為具體的設(shè)計(jì)。例如,我讓它以孫克弘的《玉堂芝蘭圖》為靈感,設(shè)計(jì)一套旗袍,并生成前后效果圖:

打開網(wǎng)易新聞 查看精彩圖片

在這個(gè)過程中,它得先找到《玉堂芝蘭圖》,然后理解這幅圖的元素特點(diǎn),再和旗袍圖片的特點(diǎn)進(jìn)行圖生圖的結(jié)合,還得確保不同角度展示的合理性,最終再以圖文混排形式整合輸出——這個(gè)復(fù)雜的過程,如今也簡(jiǎn)化到了用戶輸入一句話就能實(shí)現(xiàn)的程度。

我相信無論是服裝設(shè)計(jì)、珠寶設(shè)計(jì),還是其他創(chuàng)意設(shè)計(jì)領(lǐng)域,這種靈感創(chuàng)作能力都將極大提升設(shè)計(jì)效率與創(chuàng)作自由度。

全新語音大模型:更會(huì)聊天的文小言

除了像助理一樣幫我們解決各種難題,文小言這次還升級(jí)了全新的語音模型。

據(jù)百度語音首席架構(gòu)師賈磊透露,該模型是百度在業(yè)界首個(gè)推出、基于全新互相關(guān)注意力(Cross-Attention)的端到端語音語言大模型,除了調(diào)用成本比行業(yè)平均降低50%-90%外,在推理響應(yīng)速度上,更是將語音交互等待時(shí)間壓縮至1秒左右,同時(shí)還支持方言對(duì)話、復(fù)雜知識(shí)問答及隨時(shí)打斷等場(chǎng)景。

在這個(gè)語音模型的加持下,體驗(yàn)的提升還是比較明顯,一個(gè)是對(duì)話過程更加自然流暢了,讓整個(gè)互動(dòng)的過程更具“真人感”,另外就是多了講故事、聊方言、角色扮演等好玩的互動(dòng)場(chǎng)景,讓文小言更像一個(gè)貼身陪伴我們的智能伙伴。

打開網(wǎng)易新聞 查看精彩圖片

總結(jié)

總體來看,這次文小言的全面煥新,不僅讓產(chǎn)品更智能、更好用,在多模型融合調(diào)度的加持下,也讓 AI 生態(tài)更加開放,為用戶提供了更多選擇空間。

無論是語聊的流暢度提升,還是圖片問答、拍題講解等能力的增強(qiáng),都讓 AI 在實(shí)際應(yīng)用中更高效、更貼近用戶需求。

可以預(yù)見,隨著 AI 技術(shù)的持續(xù)演進(jìn),文小言還將不斷優(yōu)化,讓智能體驗(yàn)更便捷、更個(gè)性化,也讓開放生態(tài)帶來的價(jià)值進(jìn)一步釋放。

本文來自作者:Way