打開(kāi)網(wǎng)易新聞 查看精彩圖片

撰文|喬雨晴

編輯|翟文婷

鄭州一位大媽怎么也沒(méi)想到,自己在家門(mén)口學(xué)會(huì)的廣場(chǎng)舞,會(huì)被百度AI搬到法國(guó)凱旋門(mén)前,而且火爆了自己的老年朋友圈。

在百度「AI環(huán)球盲盒拜年」里,只需上傳自己的照片,輕輕一點(diǎn),紅綢扇舞的視頻就能出現(xiàn)在紐約時(shí)代廣場(chǎng)、南極科考站甚至迪拜高樓前。這些帶著中國(guó)年味的數(shù)字影像,如同蒲公英種子般飄向全球地標(biāo)。

一年前,AI可能還是一種高大上的技術(shù)概念;現(xiàn)如今,百度已經(jīng)把AI融入鄉(xiāng)音、灶臺(tái)油漬里的人情冷暖。當(dāng)AI不僅能聽(tīng)懂東北話(huà)「波棱蓋卡禿嚕皮」,還能精準(zhǔn)捕捉重慶麻將桌上的「刮風(fēng)下雨」時(shí),這場(chǎng)技術(shù)革命正在以最柔軟的方式重塑中國(guó)人的日常生活。

老年人甚至比年輕人玩得更上頭。他們不需要明白那些復(fù)雜的技術(shù)參數(shù),只是動(dòng)動(dòng)手指在小程序里上傳照片,就能在老朋友圈子里揚(yáng)眉吐氣一把?!@種「科技爽感」帶來(lái)的滿(mǎn)足,遠(yuǎn)比刷短視頻來(lái)得更持久。

這場(chǎng)始于春節(jié)的AI實(shí)驗(yàn)證明:真正的技術(shù)革命,從來(lái)不是自上而下的顛覆,而是自下而上地打撈那些被忽視的人間煙火。

01什么才是真正的出圈

「我們的模型在N個(gè)維度超越了GPT-4」——這樣的新聞標(biāo)題也許能讓科技圈興奮不已,但在這個(gè)春節(jié),我們看到了更有意思的現(xiàn)象。

喜歡跳廣場(chǎng)舞的阿姨們,只需要在百度AI環(huán)球盲盒拜年里上傳自己的跳舞視頻,就像打開(kāi)任意門(mén),把自己的舞蹈搬運(yùn)到盧浮宮、時(shí)代廣場(chǎng)等全球地標(biāo)前,效果逼真到自家孩子也會(huì)問(wèn)問(wèn)「奶奶,你什么時(shí)候出國(guó)玩啦」。

而通過(guò)百度智能云曦靈數(shù)字人微信小程序「飛貼賀新春」活動(dòng),你不僅可以上傳自己的、父母的、孩子的照片,生成定制的拜年視頻,表情自然、唇音同步;還可以上傳蒙娜麗莎、兵馬俑、達(dá)芬奇等歷史文化名人,讓他們用佟湘玉的陜西話(huà)、東北話(huà)、四川話(huà)、閩南話(huà),替你傳遞祝福。

「AI拜年」功能,更是打開(kāi)了我們對(duì)拜年賀卡的想象力。在百度中搜索「AI拜年」,只需要上傳照片,一句話(huà),25秒就能收獲一張專(zhuān)屬的拜年賀卡。

你可以讓Taylor Swift穿上東北大花襖包餃子:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

也可以讓馬斯克拱手作揖拜年:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

還可以讓向佐一個(gè)手扶著鼻梁,另一個(gè)手撒紅包:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在家族群里,二舅把全家福P到月球表面舞獅,三嬸則在喜馬拉雅山頂煮出會(huì)發(fā)光的餃子,表哥就能把財(cái)神爺請(qǐng)到自家的客廳里來(lái)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

出門(mén)在外、春節(jié)旅行的體驗(yàn),也在發(fā)生變化。百度上線(xiàn)了34個(gè)省級(jí)行政區(qū)的文旅智能體,用會(huì)說(shuō)方言的AI重新定義了導(dǎo)游。這些操著鄉(xiāng)音的AI角色,不再?gòu)?fù)述千篇一律的景區(qū)簡(jiǎn)介,而是化身成帶著煙火氣的數(shù)字老鄉(xiāng)。

福建的簪花花用閩南軟語(yǔ)講述土樓屋檐滴落的煙雨,徽州的包拯以合肥話(huà)解密徽商暗藏在馬頭墻里的算盤(pán)聲,湖南的芙小蘭甚至能用湘江浪花般的語(yǔ)速,教你分辨剁椒魚(yú)頭里朝天椒與七星椒的比例,天津baibai不僅能用天津話(huà)推薦景點(diǎn)、解說(shuō)五大道,還能即興給你來(lái)一段快板。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這些參與、發(fā)布、體驗(yàn)的用戶(hù),大部分從未接觸過(guò)AI工具。

他們不需要理解CLIP或Diffusion模型,只需要知道像跟自己的兒孫對(duì)話(huà)一樣,用自家的方言,說(shuō)出自己想做的事——「在巴黎跳廣場(chǎng)舞」,「我要恭喜發(fā)財(cái)拜年視頻」。

技術(shù)的真正價(jià)值,不在于能打破多少記錄,而在于能觸達(dá)多少普通人的生活。

當(dāng)不會(huì)說(shuō)普通話(huà)的老人能用方言和AI對(duì)話(huà),當(dāng)從未出過(guò)遠(yuǎn)門(mén)的大媽能在世界地標(biāo)起舞,當(dāng)小學(xué)生能用AI設(shè)計(jì)旅游路線(xiàn),當(dāng)不會(huì)打字的大爺大媽用四川話(huà)讓AI生成全家福賀卡——這才是技術(shù)真正的出圈。

02技術(shù)蹲下來(lái)

技術(shù)只有蹲到市井煙火的高度,才能聽(tīng)懂真實(shí)世界的需求。真正的技術(shù)革命,往往發(fā)生在人們意識(shí)不到這是「技術(shù)」的時(shí)刻。

就像此刻,當(dāng)爺爺奶奶們對(duì)著手機(jī)吼著東北話(huà)、河南話(huà)、紹興話(huà)時(shí):「給俺整個(gè)在埃菲爾鐵塔扭秧歌的視頻」,他們并不知道,這句話(huà)正在觸發(fā)全球最先進(jìn)的多模態(tài)大模型協(xié)同作業(yè)。

百度悄無(wú)聲息地降低了創(chuàng)作門(mén)檻,讓男女老少都能享受到技術(shù)的樂(lè)趣。

之前AI生圖、AI生視頻沒(méi)有在普通人里火起來(lái),本質(zhì)上是因?yàn)閯?chuàng)作門(mén)檻高。你需要用非常精細(xì)的prompt,甚至加入「4K ultra-detailed」「cinematic lighting」之類(lèi)的專(zhuān)業(yè)術(shù)語(yǔ),多輪調(diào)整、反復(fù)測(cè)試,才能像抽盲盒一樣抽到理想的效果。而且AI生圖和文本模型一樣,本質(zhì)上是對(duì)每一個(gè)像素點(diǎn)的預(yù)測(cè),很容易出現(xiàn)幻覺(jué),生成不符合現(xiàn)實(shí)的詭異畫(huà)面,比如經(jīng)典的「威爾·史密斯吃意大利面」。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

百度的iRAG技術(shù)致力于消除這樣的幻覺(jué)。RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)是一種結(jié)合了檢索和生成的技術(shù),之前被廣泛用在文本數(shù)據(jù)或者表格這類(lèi)結(jié)構(gòu)化的數(shù)據(jù)上。但百度創(chuàng)新性地把 RAG 技術(shù)用在了圖像數(shù)據(jù)上,搞出了iRAG(Image-Based Retrieval-Augmented Generation,檢索增強(qiáng)的文生圖技術(shù))。

你可以把RAG想象成,給AI配了個(gè)「小抄」,讓他在回答問(wèn)題前能參考一些額外的資料。這些資料通常不在大模型原本的學(xué)習(xí)范圍里,是些專(zhuān)屬或私有的數(shù)據(jù)。通過(guò)參考這些數(shù)據(jù),大模型回答問(wèn)題時(shí)就能更貼合實(shí)際情況,不用重新學(xué)習(xí),就能提升回答質(zhì)量,減少幻覺(jué)。

百度的 iRAG 技術(shù)是 RAG 技術(shù)的一種進(jìn)階版,是 RAG 向多模態(tài)的泛化與拓展,即 iRAG = 圖像 + RAG。

iRAG通過(guò)檢索百度搜索的大規(guī)模圖像數(shù)據(jù)庫(kù),可通過(guò)參考和引用真實(shí)的圖像元素,結(jié)合文本提示詞要求進(jìn)行重繪。這為文生圖的真實(shí)感和事實(shí)性保駕護(hù)航。同時(shí)保持良好的主體一致性,通過(guò)提示詞「Hello Kitty 在某某著名景點(diǎn)前」,你可以讓這只世界上最著名的小貓漫游中國(guó)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

以前讓AI繪畫(huà)「大媽在埃菲爾鐵塔前跳舞」,可能會(huì)長(zhǎng)出六根手指,或者鐵塔上掛著蘭州拉面旗?,F(xiàn)在IRAG就像個(gè)嚴(yán)格的監(jiān)工:紅綢緞該有飄揚(yáng)的質(zhì)感,大媽抬腿的角度必須符合人體工學(xué)。

方言的處理也是如此。以前每個(gè)方言都需要單獨(dú)開(kāi)發(fā)一套系統(tǒng),比如上海話(huà)、廣東話(huà)各自有不同的處理模塊。再比如,用周杰倫的聲音說(shuō)東北話(huà),還需要模型能夠分離音色和方言特征。

之前, AI學(xué)會(huì)說(shuō)方言,不僅要收集成千上萬(wàn)個(gè)小時(shí)的純正發(fā)音,還要再像語(yǔ)文老師一樣逐個(gè)標(biāo)注聲調(diào),光是讓AI分清廣東話(huà)的「九聲六調(diào)」,就要花半年時(shí)間調(diào)整參數(shù)。好不容易教會(huì)AI說(shuō)粵語(yǔ),換成閩南語(yǔ)又得從頭再來(lái)。

而現(xiàn)在,通過(guò)深度神經(jīng)網(wǎng)絡(luò),百度的語(yǔ)音AI系統(tǒng)能將語(yǔ)音拆解為獨(dú)立控制的模塊:音色(誰(shuí)在說(shuō)話(huà)),內(nèi)容(說(shuō)什么),方言(怎么發(fā)音),情感(用什么語(yǔ)氣)。這種參數(shù)化重組技術(shù),使方言研發(fā)從手工作業(yè)躍升到工業(yè)化生產(chǎn)。這意味著周杰倫的聲音可以說(shuō)出純正東北話(huà),而重慶嬢嬢的語(yǔ)調(diào)能完美移植到英語(yǔ)拜年視頻中。

現(xiàn)在,僅需幾分鐘數(shù)據(jù)就能達(dá)到超越真人的tts水平;意味著大爺大媽只要錄兩句話(huà),就能讓AI模仿他們的音色音調(diào)和方言,在賽博世界替他們拜年送祝福。

百度把創(chuàng)作門(mén)檻打了下來(lái)。在技術(shù)專(zhuān)家視角里,這些效果體現(xiàn)為主體一致性、物理合理性、時(shí)空連貫性、語(yǔ)音和口型的匹配度等硬性指標(biāo)的提升;但對(duì)老百姓來(lái)說(shuō),就是「這玩意兒真像那么回事」。

當(dāng)大媽們生成廣場(chǎng)舞視頻時(shí),她們并不關(guān)心背后的技術(shù)如何優(yōu)化,只在乎家族群里收獲了多少點(diǎn)贊表情包——這才是技術(shù)普惠最生動(dòng)的注腳。

03 AI與煙火氣的化學(xué)反應(yīng)

一個(gè)不難發(fā)現(xiàn)的趨勢(shì)是,AI應(yīng)用正在從「精英工具」變成「大眾玩具」,我們可能正處在2025年超級(jí)應(yīng)用爆發(fā)前夜。

兩年前,當(dāng)ChatGPT寫(xiě)出莎士比亞風(fēng)格的十四行詩(shī)時(shí),全世界為之驚嘆。但這個(gè)春節(jié)讓我們明白:文字只是人類(lèi)表達(dá)的一小部分,真實(shí)世界是多模態(tài)的,真正的智能必須理解紅綢扇舞動(dòng)的物理學(xué),以及鄉(xiāng)音的抑揚(yáng)頓挫。

2024年的AI還在實(shí)驗(yàn)室里卷參數(shù)、比benchmark;2025年的春節(jié),它已經(jīng)坐上了千家萬(wàn)戶(hù)的團(tuán)圓飯桌。從寫(xiě)論文、畫(huà)圖表的精英玩具,到大媽跳舞、給親戚拜年的大眾工具,AI正在完成一次意義深遠(yuǎn)的位移。

這種位移的背后,是過(guò)去幾年的積累和普及。大模型賦予的AI原生應(yīng)用正在滲透各行各業(yè),并且從城市進(jìn)入下沉市場(chǎng),AI含量越來(lái)越高,破圈效應(yīng)呼之欲出。

百度就是一個(gè)縮影,展現(xiàn)了AI在不同場(chǎng)景下的廣泛應(yīng)用。從生產(chǎn)力變革的工作場(chǎng)景到日常生活情感陪伴,百度都有產(chǎn)品日漸深入人心。

李彥宏在2025年全員信中表示:大模型賦能的AI原生應(yīng)用正在各行各業(yè)各種場(chǎng)景迅速普及,雖然超級(jí)應(yīng)用尚未出現(xiàn),AI的實(shí)際滲透率已經(jīng)不低,并且將在2025年繼續(xù)井噴式增長(zhǎng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

百度文心智能體平臺(tái)已有15萬(wàn)家企業(yè)和80萬(wàn)開(kāi)發(fā)者入駐,在律師、情感、健康等多個(gè)領(lǐng)域成功跑通模式。這表明AI的應(yīng)用已經(jīng)不再局限于理論和實(shí)驗(yàn)階段,而是真正開(kāi)始在各個(gè)行業(yè)中發(fā)揮作用,為不同領(lǐng)域的企業(yè)和開(kāi)發(fā)者提供了強(qiáng)大的支持和賦能。

因?yàn)槲男拇竽P唾x能,百度文庫(kù)新增上百項(xiàng)AI能力,涉及寫(xiě)作、PPT制作、搜索、文生圖等,使得這個(gè)舊產(chǎn)品爆發(fā)新能量,百度文庫(kù)AI功能MAU突破9000萬(wàn),AI DAU年同比增長(zhǎng)230%,甚至成了付費(fèi)界的頂流。

4000萬(wàn)真金白銀的付費(fèi)用戶(hù),不是靠單純的營(yíng)銷(xiāo)打法能實(shí)現(xiàn)的,本質(zhì)上還是解決了用戶(hù)真實(shí)需求,獲得大家認(rèn)可。

包括今年春節(jié)出圈的方言搜索,也是因?yàn)锳I的魔力,穿透了不同圈層人群,人與人之間的距離也被拉近。方言作為一種承載著地域文化和情感的特殊語(yǔ)言形式,通過(guò)AI的搜索和識(shí)別功能,讓更多人能夠方便地使用和交流,這不僅促進(jìn)了文化的傳承和交流,也體現(xiàn)了AI在情感連接方面的巨大潛力。

過(guò)去兩年,全球科技巨頭在尋找 AI killer app 的路上幾經(jīng)波折。他們投入了大量的資源和精力,試圖找到那個(gè)能夠真正引爆AI市場(chǎng)的殺手級(jí)應(yīng)用。

但這個(gè)春節(jié)給出了答案:當(dāng)全家老小圍著AI生成的拜年視頻笑作一團(tuán)時(shí),超級(jí)應(yīng)用便有了破土的能量。