文 | 陶魏斌

沒有跳票!

此前李彥宏透露的“百度有史以來最強大模型”,在今天(3月16日)如約而至——不但來了,百度還扔了一個炸彈。

打開文心一言的官網(wǎng),文心大模型4.5和文心大模型X1都已經(jīng)同步上線,這也預(yù)示著行業(yè)內(nèi)又重燃起大模型競爭的戰(zhàn)火。

打開網(wǎng)易新聞 查看精彩圖片

對廣大用戶而言,科技巨頭們的激烈競爭就是一場福音。這意味著我們能夠享受到更高效、更智能的技術(shù)服務(wù),而且這一切大多是免費的。

“硅基研究室”第一時間對文心X1和文心4.5進行了全面測試,以探究它們究竟能為用戶帶來怎樣的體驗升級。

測試下來,感受最深的是,這兩款新版大模型,在性能上又實現(xiàn)了新突破,特別是文心X1在推理能力上,表現(xiàn)出的強大和專業(yè),令人震驚。

可以這么說,在很多場景上,文心X1扮演的已經(jīng)完全不是“實習(xí)生”,絕對算的上是一個成色很足的“專家”。

更關(guān)鍵的是,登陸文心一言官網(wǎng),這兩款大模型大家都可以免費使用——百度這次真是下了血本,提前免費向用戶開放了。

1、文心X1寫了份財報分析,把我們嚇到了

1、文心X1寫了份財報分析,把我們嚇到了

根據(jù)百度官方介紹,文心大模型X1具備更強的理解、規(guī)劃、反思、進化能力,并支持多模態(tài),是首個自主運用工具的深度思考模型。作為能力更全面的深度思考模型,文心大模型X1兼?zhèn)錅蚀_、創(chuàng)意和文采,在中文知識問答、文學(xué)創(chuàng)作、文稿寫作、日常對話、邏輯推理、復(fù)雜計算及工具調(diào)用等方面表現(xiàn)尤為出色。

作為一名科技博主,第一時間想著,文心X1能不能幫我來寫一篇文章。

首先我們想到的是前段時間超火的Manus,看看文心X1會如何評價這個“當紅炸子雞”。

我們輸入的提示詞是:

請針對最近爆火的Manus以及圍繞其引發(fā)的爭論,寫一篇2500字的評論,要求觀點明確,邏輯清晰,內(nèi)容準確,文字流程,具有可讀性,符合互聯(lián)網(wǎng)傳播特色,同時體現(xiàn)專業(yè)性,有一定的思考。

很快,文心X1就開始干活了,首先它對我們的指令進行了拆解和思考。

打開網(wǎng)易新聞 查看精彩圖片

我們發(fā)現(xiàn)在這一階段,文心X1是不直接進行聯(lián)網(wǎng)的,這個和DeepSeek的方案有一些差異——DS是首先進行了檢索,然后根據(jù)搜索結(jié)果進行拆解思考。

打開網(wǎng)易新聞 查看精彩圖片

緊接著,文心X1開始聯(lián)網(wǎng)搜索,并把搜索結(jié)果和前面的推理思考進行了融合。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

不到1分鐘的時間,文心X1就輸出了一篇評論稿,整個過程非常的流暢,大家更關(guān)心的文章水平怎么樣,到底能不能用,我們在最后會展示整個過程,以及一字不改的文章,請大家來點評。

事實上,因為百度文心X1是一款能自主運用工具的大模型,所以文心X1是支持高級搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢、加盟信息查詢等多款工具。

對于剛才的指令,我們實際上可以直接要求文心X1輸出Word形式的文檔。

鑒于此,我們準備測試一下文心X1的“財經(jīng)”水平。

每年都3月-4月是A股上市公司的財報季,通常一則年度財務(wù)報告大多都有二三百頁。不要說是非專業(yè)人士,就連財經(jīng)口的同學(xué)看起來也都特別費神,再加上A股這么多公司,光重點行業(yè)、重點關(guān)注的上市公司,少說都有上百家,這實在是一項巨大的工程量。

于是我們就準備扔給文心X1,看看它能不能扮演“財經(jīng)專家”的角色。

首先我們找來這個周末剛剛出爐的寧德時代財報,一共229頁。

打開網(wǎng)易新聞 查看精彩圖片

我們把下載下來的PDF格式文檔,上傳給文心X1,輸入了相關(guān)指令:

你現(xiàn)在是一名財經(jīng)專業(yè)分析師,請根據(jù)上傳的寧德時代2024年年度報告文檔,提煉出寧德時代的業(yè)績亮點,同時用一句話做點評,要求客觀專業(yè),并通俗易懂,最后再擬5個適合互聯(lián)網(wǎng)傳播的業(yè)績分析標題。

在這段指令當中,我們其實提出來三個不同類型的要求,第一個是分析亮點,第二個是做點評,第三還要擬標題。

我們看看文心X1是怎么干的:

打開網(wǎng)易新聞 查看精彩圖片

這個過程我們覺得幾乎可以拿滿分,非常準確清晰地理解了我們的意圖,并開始閱讀文檔。

可能因為文檔內(nèi)容比較豐富,文心X1花了將近1分鐘的時間去提取——是不是我們的要求太高了,如果是人工去翻閱的話,再專業(yè)的財務(wù)人員也需要半小時以上,但對于AI,我們居然超過30秒,都有點……不耐煩了。

不過好在文心X1在閱讀完財報后,結(jié)果的輸出還是很快。

打開網(wǎng)易新聞 查看精彩圖片

最終,文心X1在2分鐘以內(nèi),完成了我們輸入的指定。

打開網(wǎng)易新聞 查看精彩圖片

那這個回答到底專業(yè)不專業(yè)?我們找來我們經(jīng)常看到一個財經(jīng)分析師在自己公眾號上的分析,可以作為一個對比。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

可以這么說,專業(yè)分析師關(guān)注的點,文心X1已經(jīng)全部做了提煉,并且也作為關(guān)鍵核心信息去做了分析。

這就很可怕了,要知道要成為一名能被行業(yè)內(nèi)認可的專業(yè)財經(jīng)分析師,沒有10年的積累幾乎是不可能的,但現(xiàn)在文心X1的表現(xiàn)已經(jīng)有模有樣了。

某種程度上來說,文心X1還是一個多面手,不但給你做了財經(jīng)方面的專業(yè)分析,還能成為一位財經(jīng)記者,給你用一句話去總結(jié)好,還幫你擬好適合在網(wǎng)上傳播的標題——在現(xiàn)實生活中,一個財經(jīng)分析師和一個財經(jīng)記者,往往很難在同一個人身上復(fù)合。

而且,一般來說,財經(jīng)分析師也都有自己熟悉和擅長的行業(yè),但對于文心X1來說,上一秒它可以給你分析寧德時代,下一秒馬上可以跟你接著分析茅臺股份或者建設(shè)銀行。

想想這個就覺得——人類太弱小了。

2、不敢直視,妥妥的多面手

2、不敢直視,妥妥的多面手

體驗完文心X1,我們繼續(xù)把目光瞄向了文心大模型4.5。

這個百度首個原生多模態(tài)大模型,此前還沒有面世,就已經(jīng)被冠以“百度史上最強”了,“硅基研究室”第一時間親測,看看到底有哪些強悍的能力,能不能超越此前帶給大家驚艷的DeepSeek R1。

官方給出的介紹比較簡單,稱“文心大模型4.5是百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型,通過多個模態(tài)聯(lián)合建模實現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、代碼能力顯著提升?!?/strong>

翻譯成大白話就是,文心4.5是多模態(tài)的。

市面上現(xiàn)在很多的大模型是單一功能的,比如有的是推理回答,有的是用來作圖的,有的是擅長做視頻的,大家在用的時候,就需要在各種大模型之間不停輸入輸出,才能完成真正的工作要求。

插一句,之前走紅的Manus,就是把各種大模型“套”在了一起,幫你一個流程解決了。但它有一個問題是,因為各個大模型之間的指令和語句理解都不一樣,很容易最后出現(xiàn)走樣。

文心4.5的這個多模態(tài)是原生多模態(tài)——這個能聽,能說,能唱,能畫的“助理”,是同一個大腦指揮的。

這就很符合人類思考的本質(zhì),能做到效率和效果的雙保障。

另一方面,文心4.5還特意指出來“去幻覺”的概念。DeepSeek的流行,讓很多人化身成為“作家”,不僅文筆斐然,還特別會“編故事”,導(dǎo)致出現(xiàn)了很多“無中生有”和“張冠李戴”的情況。

廢話不說,提前來測一波。

作為自媒體博主,圖片版權(quán)問題一直是困擾這個行業(yè)的難題,稍不留神就會造成圖片侵權(quán)。

這次我們就讓文心4.5來根據(jù)提供的文字,來匹配生成不同平臺,比如小紅書、微博、公眾號等不同類型的圖片。

我們先在微博上,找到人民日報今天發(fā)的這個早安語,然后請文心4.5來配圖。

打開網(wǎng)易新聞 查看精彩圖片

馬上開干。

打開網(wǎng)易新聞 查看精彩圖片

放大看一下,一眼看去很有宮崎駿的風(fēng)格。

打開網(wǎng)易新聞 查看精彩圖片

第二個任務(wù)是生成適合小紅書發(fā)布的圖片。

打開網(wǎng)易新聞 查看精彩圖片

這張真的很合適。

打開網(wǎng)易新聞 查看精彩圖片

還有關(guān)鍵的一點是,“懂事”的文心4.5,實際上還調(diào)整了圖片的格式——微博是橫屏,而小紅書的圖片是豎直圖,而這一點完全是它自己理解分析的。

接下來是微信公眾號的配圖。

打開網(wǎng)易新聞 查看精彩圖片

坦白來說,這個和微博配圖有點重復(fù)了,這個當然很大原因是,我們輸入的指定幾乎是相同的——至于我們?yōu)槭裁催@么做,是想讓指令輸入者以“小白”的形式出現(xiàn),不需要懂太多“輸入詞”的熟練工。

令人意外的是,文心4.5好像也發(fā)現(xiàn)了這一點,它馬上貼心地給出了提示:

打開網(wǎng)易新聞 查看精彩圖片

我們點了“改為極簡主義風(fēng)格”,效果出來了:

打開網(wǎng)易新聞 查看精彩圖片

可以這么說,這個配圖水平,可以適配市面上80%以上的內(nèi)容創(chuàng)作者,而且不需要你掌握太多的“提示詞”技巧,你可以直接把你的文章丟給文心4.5,剩下的就是——驗收。

測試完文字生成圖片后,我們拉來個另一個家庭場景——給孩子輔導(dǎo)作業(yè)。

網(wǎng)上有個段子,說“不談學(xué)習(xí),母慈子孝,連摟帶抱;一談學(xué)習(xí),雞飛狗跳,嗚嗷嗷叫;讓老人血壓高,讓鄰居不睡覺”。

而且這還是在能輔導(dǎo)作業(yè)的情況下,很多時候,家長的那點知識都還給了學(xué)校老師,基本就沒有那個能力輔導(dǎo)了。

如果文心4.5能扮演“家庭老師”的身份,輔助解決孩子的學(xué)習(xí)困難,那能“解放”很多的家長了。

先來一題物理的電力問題:

打開網(wǎng)易新聞 查看精彩圖片

注意,我們是直接拍照給到的一張圖片,這很符合家庭的場景,家長直接從孩子的作業(yè)里,拍個照片進行上傳。

很快,答案就出來了。

打開網(wǎng)易新聞 查看精彩圖片

不但有答案,還非常清晰地給出了詳細的答題過程。

要知道,現(xiàn)在市面上的很多中小學(xué)輔導(dǎo)軟件,基本上都是收費的,你想看答案看過程,那就要充值付費,而文心4.5可是——免費的。

3、讓更多“打工人”受益是關(guān)鍵

3、讓更多“打工人”受益是關(guān)鍵

坦白來說,幾輪測試體驗下來,“硅基研究室”的幾個同學(xué)已經(jīng)從興奮勁,摻雜了一點點小困惑。

興奮是因為,文心的強大是顯而易見的,而且文心的原生多模態(tài)特點,效率特別的高,并且能解決目前大家對推理大模型詬病比較多的“幻覺”問題。

在這測試過程中,我們還重點讓文心X1做了很多的挑戰(zhàn),比如回答經(jīng)典的“孤島紅眼睛、藍眼睛島民關(guān)系”的推理題;比如寫了一篇“劇本殺級別的懸疑推理故事”;比如設(shè)計安排了“五一結(jié)婚需要做的準備事項安排”等等。

最終文心X1給出的答案都是專家級別的,感興趣的朋友,可以自己去文心一言的官網(wǎng)去體驗,現(xiàn)在都是免費的。

困惑在于,像百度文心這樣強大的AI大模型出現(xiàn),確實迫使我們?nèi)ニ伎迹?strong>作為人類,我們應(yīng)該如何去合理應(yīng)用和掌握這些工具,最終真正提升生產(chǎn)能力——而不是被取代。

這兩年大模型工具的應(yīng)用已經(jīng)越來越普遍了。以百度文心為例,去年文心大模型日均調(diào)用量持續(xù)高速增長,與2023年同期的5000萬次相比,一年增長33倍至16.5億。

這個背后,是百度一直堅持壓強式、馬拉松式的研發(fā)投入。數(shù)據(jù)顯示,近十年百度累計研發(fā)投入超過1800億元,以大模型為核心的人工智能專利申請量、授權(quán)量,都是國內(nèi)第一,全球領(lǐng)先,其中深度學(xué)習(xí)相關(guān)的專利申請量全球第一。

“我們相信只有規(guī)?;膽?yīng)用才能讓技術(shù)發(fā)揮它的價值。”李彥宏在百度25周年全員信中這樣表示。

事實上,只有讓最前沿的技術(shù)產(chǎn)品化、商業(yè)化,才讓更多的人從中受益。

根據(jù)我們收到的信息,百度文心X1的價格是DeepSeek R1的一半,文心4.5價格是GPT4.5的1%,相信這樣的價格能惠及更多的商業(yè)用戶以及讓大模型助力工業(yè)生產(chǎn)。

回到我們最開始的測試,不賣關(guān)子了,我們把文心X1寫的這篇一字不改呈現(xiàn)出來,請你來點評:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片