打開網(wǎng)易新聞 查看精彩圖片

文丨鄔宇琛

編輯丨周近嶼

午夜零點,童裝品牌巴拉巴拉京東直播間的主播結(jié)束了最后一輪商品講解,從屏幕里消失。

很快,直播間再次恢復(fù)了直播,主播是巴拉巴拉的“直播推薦官”小佳。她身著白色連衣裙,開始講解起貨架里的商品。期間有用戶進入直播間,小佳說,“歡迎這位朋友,喜歡就分享,更多人一起來領(lǐng)福利?!焙芸?,聊天框顯示這位用戶拍下了一件衣服。夜已深,小佳化著淡妝的臉上看不到一絲倦意。

這一切交易都在商家和真人主播的睡夢中完成——承擔(dān)深夜銷售任務(wù)的主播小佳,那個態(tài)度親切的“直播推薦官”,實際上是京東言犀數(shù)字人。這樣的場景已成為巴拉巴拉深夜直播間的日常,現(xiàn)在,巴拉巴拉直播間閑時成交額占比約為全天GMV的15%。

過去一年,借助京東言犀數(shù)字人技術(shù),許多商家得以承接午夜等閑時流量,挖掘增量價值,平均閑時直播轉(zhuǎn)化率高達30%。如今,得益于京東云技術(shù)支持,言犀數(shù)字人正逐漸走向忙時,數(shù)據(jù)顯示,言犀數(shù)字人已走進9000+品牌直播間,累計為商家?guī)礓N售增量超140億。

而就在不久前的3月19日,京東憑借言犀數(shù)字人項目獲得中國智能科技最高獎——吳文俊人工智能科學(xué)技術(shù)獎特等獎,這也是本年度唯一的特等獎。這場在直播間悄然發(fā)生的革命,正在以低成本、高轉(zhuǎn)化等特性重塑行業(yè)格局。

直播中場,數(shù)字人上場

2019年,少俠(化名)和一家品牌在某平臺合作直播時,用20天就賣了近億元,“怎么可能這么猛?”連少俠自己也被驚愕。那是直播電商的黃金時期,直播間像是個活火山,站在補光燈后面,他目視著GMV伴隨“321上鏈接”的叫喊聲無法克制地噴涌。

從2011年進入電商行業(yè),到2017年開始創(chuàng)業(yè),做電商品牌代運營公司,少俠幾乎見證了中國電商直播的整個變遷曲線。

2016年,京東、淘寶等入局直播電商,揭開行業(yè)爆發(fā)式增長的序幕。在當(dāng)時,直播間還只是商品展示的延伸渠道,是內(nèi)容營銷的一種方式。隨著頭部主播的影響力逐漸凸顯,達人直播的模式一度作為主流的直播模式之一為品牌方青睞。

那是直播電商行業(yè)的上半場——財富在彌漫,但行業(yè)的競爭也迅速變得激烈。直播行業(yè)里的沖鋒陷陣的角色——主播,作為直播行業(yè)最大的亮點,也同時成為了最大的痛點?!霸谄脚_做電商直播投流,必須在三、四個小時里面高頻輸出、接住流量,如果沒接住,運營、品牌、公司都會罵你,心理壓力特別大,”少俠說。

一個主播,需要配合選品、腳本策劃、內(nèi)容預(yù)熱、設(shè)備調(diào)試等環(huán)節(jié),面對工作的時間,遠不止對著鏡頭那三、四個小時。據(jù)《中國網(wǎng)絡(luò)視聽發(fā)展研究報告(2024)》,職業(yè)網(wǎng)絡(luò)主播的日均工作時長普遍超過10小時。

高強度的工作無法保證主播能在每場直播都表現(xiàn)穩(wěn)定和出彩,這將影響直播間的轉(zhuǎn)化率。真人主播也沒辦法保證24小時工作,這意味著夜間很大一塊的閑時流量成為了品牌方們無法攻占的陣地。最關(guān)鍵的是,每個主播都在為錢燃燒青春,但青春燃盡后,主播們要往哪里去呢?

那時他或許也沒想到,直播電商行業(yè)很快就迎來了中場。

頭部主播們接二連三的“翻車”引發(fā)品牌方們對頭部主播的懷疑,而更大的問題是,只注重短期沖量,倚靠壓價內(nèi)卷而換取利潤的策略已經(jīng)讓品牌方們身心俱疲。各個直播平臺都開始重新洗牌,有意讓直播電商“去個人化”。

也就是在這時,京東言犀數(shù)字人開始上場了。

●巴拉巴拉直播間的靈犀數(shù)字人小佳。圖源:直播間截圖
打開網(wǎng)易新聞 查看精彩圖片
●巴拉巴拉直播間的靈犀數(shù)字人小佳。圖源:直播間截圖

童裝品牌巴拉巴拉從2024年3月開始引入京東言犀數(shù)字人服務(wù),當(dāng)時,管理層一致認為,因為主播的精力有限,錯失夜間流量是巴拉巴拉京東電商直播為數(shù)不多的瓶頸。

作為一款基于多模態(tài)大模型的AI營銷產(chǎn)品,京東言犀數(shù)字人能夠個性化定制,像真人一樣進行語音交流、情感表達和智能互動,可以用于直播帶貨、客服咨詢和品牌宣傳等多個場景。

一個月后,京東言犀數(shù)字人服務(wù)在巴拉巴拉的京東直播間上線,工作時間是0點到第二天8點。過去,巴拉巴拉的真人主播在一些大促的節(jié)點會熬到凌晨2點,已經(jīng)到身體的極限了。

效果立竿見影,引入京東言犀數(shù)字人后,巴拉巴拉京東直播間的數(shù)字人直播時長占比已經(jīng)達到近50%,AI銷售業(yè)績在一天中的占比從早期的5%逐漸提升到15%。不僅如此,直播團隊的成本也在降低。

而據(jù)少俠初步推算,對于大多數(shù)品牌來說,京東言犀數(shù)字人的引入每年至少可以省下30-40萬元的成本。京東言犀則表示,已將單個數(shù)字人生產(chǎn)成本大幅拉低,較真人拍攝模式成本降幅超90%。

巴拉巴拉直播業(yè)務(wù)負責(zé)人蘭朵朵說,數(shù)字人對于商家?guī)缀跤衅毡閮r值和意義:京東言犀數(shù)字人可以填補夜間等流量的空缺,降低直播成本,解放更多人力投入到其他業(yè)務(wù)的運營。在京東平臺上,數(shù)字人直播還能夠獲得公域流量支持。而對中小品牌,在招主播比較困難的情況下,京東言犀數(shù)字人也可以幫助他們低成本進入直播行業(yè)。

在直播電商的中場,數(shù)字人走上場,它象征著降本增效,迎接正在轉(zhuǎn)變的直播電商形勢,以及愈發(fā)明朗的技術(shù)趨勢。

實驗室到直播間的三年

現(xiàn)在,當(dāng)我們看一個京東言犀數(shù)字人,會感嘆它的自然和真實:它的面部表情會變化,會傳達肢體語言,語氣中有態(tài)度和情感的起伏,甚至還有光影的變化。但回到三年前,數(shù)字人面部稍微動一下,嘴唇就會少半邊。

在心理學(xué)上,“恐怖谷”指的是擬人的機器人會給人類帶來一定的恐怖心理,有一點點的不真實都會給人類帶來不舒適的感受。而當(dāng)擬人度接近真實,人類就會跨過“恐怖谷”,反而開始接受它——京東言犀數(shù)字人就始于這樣的挑戰(zhàn)。

2022年左右,京東言犀團隊在接連攻克了人工智能的文本交互、和語音對話之后,開始朝更加復(fù)雜的實時交互方向邁進。而數(shù)字人剛好就在多模態(tài)大模型的技術(shù)方向上。按照京東言犀數(shù)字人項目算法負責(zé)人的話說,“這是順其自然的推進”。

但這并不簡單。

一個鮮活的京東言犀數(shù)字人需要至少三種核心人工智能模型支撐。首先,語音TTS模型負責(zé)將文本轉(zhuǎn)化為自然流暢的語音。其次,言犀大語言模型賦予數(shù)字人強大的語言理解與生成能力,使其具備智能對話能力。最后,通過數(shù)字人大模型驅(qū)動數(shù)字人形象,確保數(shù)字人的面部表情、口型和動作與語音高度同步,實現(xiàn)逼真的視覺呈現(xiàn)。

在當(dāng)時來看,許多技術(shù)細節(jié)幾乎是被認為難以實現(xiàn)的。“沮喪是常態(tài)”,這位負責(zé)人說。單以TTS模型為例,當(dāng)下京東言犀的TTS模型是在20多萬小時高質(zhì)量的數(shù)據(jù)上訓(xùn)練出來的,這些數(shù)據(jù)構(gòu)建不僅是體力活,還是腦力活。

再比如姿態(tài)的表現(xiàn)上,他記得,團隊當(dāng)時遇到的第一個難題是,做好了一個正面的數(shù)字人形象之后,卻無法讓這個數(shù)字人在場景內(nèi)走動起來,在這種情況下,團隊要么把模型結(jié)構(gòu)改了,要么就是改變模型的訓(xùn)練策略——解決這個問題,團隊花了大概2個月的時間。

探索是循序漸進的。起初,京東言犀數(shù)字人基于單一人物模型實現(xiàn)實時交互,比如根據(jù)一段模特的三十分鐘甚至更長時間的素材訓(xùn)練數(shù)據(jù),生成數(shù)字人形象。后來,京東言犀團隊基本構(gòu)建起了“端到端”的核心技術(shù)思路,即通過大模型的技術(shù)路線,采用一個通用模型和一小段更精簡的素材訓(xùn)練,就可以對任何人物形象進行動作和表情的驅(qū)動——這一過程里,建模、驅(qū)動、渲染都是一體化的。

他們很清楚,京東言犀要做的一定不是實驗室產(chǎn)品,而是工業(yè)化產(chǎn)品,它必須是能在嚴(yán)肅的商業(yè)場景里被選擇和廣泛應(yīng)用的。因此,京東言犀數(shù)字人優(yōu)化和突破的重點被放在,更低的信息輸入、更逼真表現(xiàn)力和更高的轉(zhuǎn)化上。

有很長一段時間,京東言犀團隊都在和時間戰(zhàn)斗:倘若當(dāng)下要依靠30分鐘的真人模特素材訓(xùn)練,那么下一個目標(biāo)就是20分鐘,再下一個目標(biāo)是10分鐘,直到1分鐘。同時,隨著算法升級,幻覺率也逐漸降到“極低”,京東言犀數(shù)字人越來越靠近真人。

●京東各行業(yè)的AI數(shù)字人。
打開網(wǎng)易新聞 查看精彩圖片
●京東各行業(yè)的AI數(shù)字人。

而作為一個全自動化的“端到端”產(chǎn)品,京東言犀數(shù)字人技術(shù)也同時實現(xiàn)了成本的降低。在這一系列的醞釀之后,京東言犀數(shù)字人終于走向了公眾的視線。

2024年,4月16日,劉強東的采銷東哥AI數(shù)字人出現(xiàn)在京東采銷直播間,引爆全網(wǎng)討論。2個月后的“京東618”,京東集結(jié)了21位總裁數(shù)字人直播,同期開播的還有超過7500家品牌商家,開啟了行業(yè)內(nèi)數(shù)字人的大規(guī)模實踐。去年11.11、年貨節(jié)等場景,數(shù)字人與個護美妝、家電家居、母嬰寵物等品牌產(chǎn)生化學(xué)反應(yīng),持續(xù)提升直播交互體驗。

京東言犀數(shù)字人就此持續(xù)大規(guī)模鋪開商業(yè)化,登上直播電商新階段的歷史舞臺。

當(dāng)人們看見京東言犀數(shù)字人自然地眨眼、揮手、走動、講解產(chǎn)品,再也不覺詭異,短短這一瞬,卻是技術(shù)突破和創(chuàng)新的三年。

直播間只是第一步

不難看出,在京東言犀數(shù)字人的研發(fā)過程里,團隊有一條清晰的主線,就是圍繞著產(chǎn)業(yè)應(yīng)用去做技術(shù)突破。按照京東言犀團隊的話,“在產(chǎn)品上不能妥協(xié),在技術(shù)上要持續(xù)進步”。

相比于很多電商場景,電商直播間更加復(fù)雜,落地難度更大,但恰恰是這一場景,讓數(shù)字人和產(chǎn)業(yè)的結(jié)合更加密切,更能體現(xiàn)產(chǎn)業(yè)價值。

這樣的共識推動京東言犀數(shù)字人在研發(fā)階段就朝著更加應(yīng)用價值導(dǎo)向的道路邁進。自媒體《淺黑科技》寫過這樣一個故事:言犀數(shù)字人產(chǎn)品團隊為了讓言犀數(shù)字人更加擬人,曾整天看直播,觀察真人主播吸引觀眾的關(guān)鍵姿態(tài)。最后他們發(fā)現(xiàn),真人主播的“小動作”恰恰是能體現(xiàn)“主播感”的東西,比如直播過程中喝口水,撩撩頭發(fā)。這些細節(jié)后來都在言犀數(shù)字人的迭代中被優(yōu)化。

●2024年9月,北京服貿(mào)會,京東展臺數(shù)字人。圖源:視覺中國
打開網(wǎng)易新聞 查看精彩圖片
●2024年9月,北京服貿(mào)會,京東展臺數(shù)字人。圖源:視覺中國

某種程度上,在產(chǎn)業(yè)扎根也是一種戰(zhàn)略。京東在大模型賽道先進入,再優(yōu)化,選擇通過言犀數(shù)字人這樣低成本、高轉(zhuǎn)化的輕量化產(chǎn)品作為探索大模型應(yīng)用的起點,可以讓京東以簡單、快速的方式累積經(jīng)驗,從而更深入地拓寬數(shù)智服務(wù)的可能性。

比如在大規(guī)模推廣商用以后,京東言犀團隊就不斷根據(jù)商家的反饋和建議優(yōu)化數(shù)字人。去年7月發(fā)布的言犀數(shù)字人3.0平臺,更新了100+的個性化角色和50+行業(yè)特定屬性場景,實現(xiàn)零配置下覆蓋90%的常見問詢,商品推薦應(yīng)答準(zhǔn)確率超90%。

到今年2月,京東言犀數(shù)字人還接入了DeepSeek R1/V3模型,使其文本內(nèi)容豐富度進一步增強。今年,言犀團隊還計劃推出“千人千面”的數(shù)字人,基于用戶喜好進行個性化交互。

“早期的數(shù)字人相對來說還是比較像機器人的,現(xiàn)在形象也是越來越逼真,和消費者互動也越來越智能?!卑屠屠辈I(yè)務(wù)負責(zé)人蘭朵朵說。

而除了直播間,京東言犀數(shù)字人也開始服務(wù)更多的場景。去年4月,京東云打造的“花木蘭”數(shù)字人正式“入職”山西大同文旅,她不僅能如數(shù)家珍地介紹當(dāng)?shù)孛麆俟袍E,還能用中英文雙語向全球游客推介大同。在金融領(lǐng)域,京東的金融服務(wù)數(shù)字人已累計為超500萬用戶提供服務(wù),滿意度超過90%。

如今,每個深夜,京東的采銷直播間依然燈火通明。真人主播的麥克風(fēng)靜音之后,京東言犀數(shù)字人準(zhǔn)時“上崗”,用不知疲倦的聲音繼續(xù)直播:“抓緊時間下單哦,有問題隨時問主播!”

在人工智能產(chǎn)業(yè)應(yīng)用加速落地的關(guān)鍵時期,京東正通過引入全球頂尖人才深化其技術(shù)護城河,繼京東科技宣布2025年將實現(xiàn)全員平均20薪后,又傳出算法團隊全員加薪至少30%,這不僅刷新行業(yè)薪酬標(biāo)準(zhǔn),更凸顯出對核心技術(shù)人才的戰(zhàn)略傾斜。京東正在人才引入和培養(yǎng)上持續(xù)加碼,擴大在人工智能產(chǎn)業(yè)應(yīng)用方面的優(yōu)勢。

【版權(quán)聲明】所有內(nèi)容著作權(quán)歸屬鏡相工作室,未經(jīng)書面許可,不得轉(zhuǎn)載、摘編或以其他形式使用,另有聲明除外。

鏡相工作室正在尋找 商業(yè)領(lǐng)域的優(yōu)秀作者加入,請查看:

繼續(xù)閱讀: