
來源|Tech星球
文|王琳
24小時不眠不休,季度GMV超過50萬,拉動訂單量增長超10倍——這不是科幻片,而是百度優(yōu)選主播東北翠花的真實戰(zhàn)績。更重要的是,翠花并沒有額外投入更多的成本,反而使得直播成本大幅度降低。
這其中百度慧播星數(shù)字人起了關(guān)鍵作用——只需要上傳一段3分鐘左右的視頻,最快3小時,便可以生成自己的數(shù)字人直播間。更重要的是,這種“高說服力”數(shù)字人,其聲形超擬真、內(nèi)容更專業(yè)、互動更靈活,實現(xiàn)了數(shù)字人超越真人的體驗。
過去,一個數(shù)字人的制造成本從幾萬到幾百萬不等,因為成本較高,關(guān)于大模型應(yīng)用如何落地的爭論從未停止。但現(xiàn)在,模型能力的進步讓數(shù)字人的成本下降到了百元、千元級別甚至免費,周期也指數(shù)級縮短,效果也更好。
技術(shù)的大規(guī)模下降正在重構(gòu)產(chǎn)業(yè)認(rèn)知。4月25日,百度創(chuàng)始人李彥宏在Create大會表示,AI數(shù)字人是2025年最令人激動的突破性應(yīng)用之一。因為,任何一個時代,創(chuàng)新的本質(zhì)都來源于技術(shù)平權(quán)。而當(dāng)AI生產(chǎn)力成本趨近于零,任何個體都能擁有自己的數(shù)字分身,數(shù)字人進入千行百業(yè),注定引爆百萬級應(yīng)用場景的革命。
0成本開播,人人可享的數(shù)字人
號稱業(yè)界首個AI全棧式數(shù)字人解決方案的慧播星最近上線了一個新功能:一鍵開播,在官方的介紹里,僅憑一部手機,只需要上傳一段2分鐘的真人出鏡視頻,最短3個小時,普通人就可以完成數(shù)字人開播。
按照官方的指引,我們打開了百度APP,搜索“慧播星”,點擊“手機端一鍵開播”、“創(chuàng)建數(shù)字人”變來到了產(chǎn)品首頁,如下圖。

Tech星球首先錄制了一段3分20秒的視頻,我們并沒有準(zhǔn)備諸如打光燈、手機支架類的任何設(shè)備,只是用了一部手機,在視頻的錄制過程中,全程露臉。之后,在等待視頻上傳的同時,我們就可以選擇自己的人設(shè)和主題、以及直播腳本。
慧播星準(zhǔn)備了4個人設(shè),包含情感咨詢、讀書分享、健康咨詢、國學(xué)風(fēng)水,比如,隨機選擇讀書分享,AI就自動幫我們生成了一份人設(shè)指南以及直播主題,甚至連直播腳本都寫好了。如果有需要,你還可以自由設(shè)定自己的專屬人設(shè)。

為了測試慧播星的真實水平,我們并沒有選擇這些預(yù)備好的人設(shè),而是決定自定義,畢竟隨機出題,更能體現(xiàn)AI的能力。我們給自己定義的人設(shè)是,塑身愛好者,尤其擅長解決辦公室久坐造成的各種體態(tài)、體型問題。
至于直播腳本,我們選擇用“AI幫我寫”,整個腳本生成過程不到2分鐘,但卻針對辦公室常見的烏龜頸、扁平臀、大腿粗都有涉及,并給出了解決方案。
這樣一套流程操作下來,就可以靜靜等待專屬數(shù)字人分身開播了。在整個直播制作過程中,無須全程緊盯,制作好會短信通知,頁面也會提示一個大概的開播時間。
市面的數(shù)字人神情呆板、動作木訥、機器音重的并不在少數(shù),因此我們對慧播星的期待值并沒有很高。但3小時43分鐘后,我們的數(shù)字人直播間制作完成,它的表現(xiàn)大大超出了我們的預(yù)期。
首先,慧播星數(shù)字人的表情、語氣、動作都非常真實,嘴唇弧度完全接近真人、甚至發(fā)型的輪廓清晰到可以看到額前飄過的幾根碎發(fā)。在直播過程中,隨著身體的晃動,頭發(fā)也會隨之自然擺動。
市面上很多數(shù)字人在做動作時,往往不符合人類邏輯。比如直播過程中眼鏡下滑,很多數(shù)字人并繞一大圈去扶眼鏡,而是慧播星可以像人類一樣,直接找到鏡腿,過程中動作絲毫不僵硬。再比如很多主播去撥頭發(fā)時,一些數(shù)字人會在頭發(fā)附近隨便繞一圈,但慧播星生成的數(shù)字人手指會沿著鬢角,全程觸摸到頭發(fā),按照一定的弧度完成撥頭發(fā)的動作,非常符合人類行為邏輯。

圖注:左側(cè)為真人,右側(cè)為數(shù)字人。
不同于傳統(tǒng)數(shù)字人全程語氣毫無變化的念腳本,在直播時,慧播星數(shù)字人能夠根據(jù)腳本內(nèi)容的含義和語境,自動調(diào)整說話的語氣和強調(diào)。同時,數(shù)字人的面部表情和口唇也會做出相應(yīng)變化,符合觀眾的感知經(jīng)驗。比如當(dāng)說到“娓娓道來”幾個字時,真人主播嘴唇會輕微翹起,且稍微皺一下眉頭,而數(shù)字人主播也會出現(xiàn)這種完全符合真人行為的微表情變化。
慧播星生成的數(shù)字人不僅僅是像真人,它的直播間的互動表現(xiàn)甚至比真人還要好。在直播過程中,有觀眾進來提問,數(shù)字人會自然地打招呼,并一種充滿熱情地語調(diào)表示“歡迎XX來到直播間”。更重要的是,它會及時回答問題,而且互動有趣。比如,有觀眾問,如何讓大腿根變瘦。主播會表示自己曾經(jīng)也有這樣的困擾,回答完后,還會提醒觀眾繼續(xù)提問。
這樣一套流程下來,即便你從未有過直播經(jīng)驗,沒有動輒上萬的專業(yè)設(shè)備,完全可以在不花一分錢的情況下,開啟自己的直播首秀,并且它的效果完全不亞于,甚至超越真人。對于中小企業(yè)而言,慧播星讓他們徹底甩開了成本負擔(dān),可以放開手腳去探索更多業(yè)務(wù)。
慧播星的出現(xiàn),讓數(shù)字人不再是實驗室里高高在上的技術(shù),企業(yè)發(fā)布會的空頭支票,而是切切實實讓技術(shù)普惠到每一個普通人,數(shù)字人也真正迎來了屬于自己的DeepSeek時刻。
技術(shù)平權(quán)背后,大模型讓數(shù)字人“降本增效”
在大模型出現(xiàn)以前,數(shù)字人技術(shù)經(jīng)歷了從建模、綁定、渲染到語音交互、自然語音處理、視覺技術(shù)等多次迭代,但他們都未能大規(guī)模降低數(shù)字人的成本和周期。制作一個數(shù)字人往往需要幾萬元甚至數(shù)百萬元,周期以月為單位,并且效果欠佳。
大模型技術(shù)的進步徹底改變了這一敘事。以百度慧播星為例子,其數(shù)字人的成本已經(jīng)是去年的三分之一,并且效果更好。
數(shù)字人主播得以更專業(yè)的前提之一,便是以DeepSeek R1、文心4.5、X1等大語言模型的能力大幅度提高,這讓數(shù)字人的腳本能力得以大幅度提升?,F(xiàn)在,AI完全可以根據(jù)直播間的人設(shè)來完成不同風(fēng)格的腳本,比如一個醫(yī)生需要專業(yè)且謹(jǐn)慎,一個電商主播可以引經(jīng)據(jù)典介紹商品。
這很大程度上解決了,真人主播受限于文化水平、語言表達能力,直播講解商品時參差不齊的情況。
但這還不足以讓數(shù)字人超越真人主播,畢竟真人直播間最重要的是,主播的語氣、動作、臨場反應(yīng),這也是實現(xiàn)高說服力的關(guān)鍵突破點。
此次慧播星數(shù)字人非常重要的一次迭代便是由腳本模式升級為劇本模式。在該模式下,數(shù)字人主播可以根據(jù)劇本內(nèi)容實時調(diào)整語調(diào)、表情和動作,比如講解《鋼鐵是怎么煉成的》可以激情澎湃,講到關(guān)鍵情節(jié)時,可以“揮舞拳頭”表達主人公的情緒;講《我的阿勒泰》可以像作者一樣娓娓道來,這些不同的情感,都可以通過劇本模式,根據(jù)語言情境生成,并且可以做到情緒轉(zhuǎn)折、動作切換順暢。
這還不夠。一個真實的直播間,除了主播,往往還有助播、場控、運營等角色打配合。為此,慧播星給數(shù)字人配備了一個可以自主決策的AI大腦,它可以像人一樣具備感知和決策的能力。
在現(xiàn)實的直播情境下,直播間內(nèi)往往會出現(xiàn)多個用戶對同一個商品感興趣,要求主播快點講解的情況。數(shù)字人收到信號后,就會調(diào)度視頻來呈現(xiàn)用戶想要看到的商品講解畫面,跟用戶實時互動講解商品。
當(dāng)講解完后,數(shù)字人發(fā)現(xiàn)用戶的購買熱情很高,便會調(diào)動營銷專家來發(fā)紅包,給出一定的優(yōu)惠政策,同時調(diào)動助播專家調(diào)節(jié)氣氛,以此完成商品的最大轉(zhuǎn)化。這里的每個專家都不是真人,它們是一個一個Agent,只需要一個調(diào)度,直播間便可以實現(xiàn)多個Agent的協(xié)同,實現(xiàn)毫秒級的響應(yīng)。從這個角度講,一個數(shù)字人可以同時干至少3個人的活,其直播水平已經(jīng)超越了真人直播間。
在此前今年3月,百度就曾面向商家客戶推出了“一鍵克隆”功能,只需上傳一段直播回放錄屏或一段真人出鏡短視頻,即可生成與真人無異的數(shù)字人分身,聲音形象和直播間裝修都可以準(zhǔn)備好,實現(xiàn)了開播零門檻。
更重要的是,憑借自研多模態(tài)算法,慧播星攻克了360度大角度側(cè)轉(zhuǎn)、遮擋以及手持等數(shù)行業(yè)難題,借此服飾主播可以手持商品,通過大角度側(cè)轉(zhuǎn)、大幅度動作,讓觀眾看清每一個細節(jié),提高轉(zhuǎn)化率。
百度慧播星數(shù)字人的表現(xiàn)也獲得了IDC的高度評價。近期發(fā)布的《中國AI Agent之電商直播數(shù)字人實測,2Q25》報告顯示,百度慧播星綜合實力排名行業(yè)第一,五項測評指標(biāo)中,百度慧播星在技術(shù)能力、產(chǎn)品表現(xiàn)、平臺合規(guī)與穩(wěn)定性、客戶服務(wù)四項均位列第一。

這一套組合拳下來,過去一年,慧播星數(shù)字人主播數(shù)量累計超過10 萬,其展現(xiàn)出來的高說服力也帶來了顯著的收益,大盤來看數(shù)字人直播轉(zhuǎn)化率提升了31%,降低了80%的開播成本。
當(dāng)數(shù)字人開始接管商業(yè)世界
今年4月,李彥宏在百度25周年的全員信中明確指出,大模型賦能的AI原生應(yīng)用將在2025年繼續(xù)井噴式增長。
在Tech星球看來,AI原生應(yīng)用爆發(fā)的前提需要滿足三個條件:落地成本大幅下降、產(chǎn)品能力和效果顯著提升,且場景多元。4月25日,Create2025百度AI開發(fā)者大會的高說服力數(shù)字人恰好完全滿足,其實績也非??勾?。
今年春節(jié)期間,數(shù)字人讓主播們放了個好假,但同時商家卻并沒有因此業(yè)績下滑。據(jù)Tech星球不完全統(tǒng)計,今年百度優(yōu)選年貨節(jié)期間,蘇寧易購超級買有10場直播,其中5場直播超過18個小時,有些甚至達到了24小時,這些直播里,幾乎全部由數(shù)字人主導(dǎo),他們貢獻了遠超真人直播的業(yè)績,數(shù)據(jù)顯示年貨節(jié)期間,該直播間GMV突破了300萬,訂單量同比提升了50倍。
銷售額大幅提升的同時,企業(yè)并沒有額外支出更多成本,甚至因為用了數(shù)字人,成本還下降了。企業(yè)對數(shù)字人的態(tài)度也從此前的觀望逐漸轉(zhuǎn)向擁抱,他們有了底氣探索更多的賽道,公司的天花板也更高了。
數(shù)字人也正在從電商場景拓展開來。在百度上,用戶可以看到主攻孩子抑郁、厭學(xué)等情緒的觀心實驗室;提供旅游服務(wù)的輕松游旅行等都在使用數(shù)字人直播。未來景區(qū)里既可以講解歷史,又能直播帶貨的數(shù)字人AI導(dǎo)游;孤獨經(jīng)濟下的AI陪伴直播等等,數(shù)字人未來完全有可能滲透到人類生活中的方方面面。
這并非個例,而是技術(shù)發(fā)展的必然。a16z 發(fā)布 AI Avatar 數(shù)字人的最新報告,報告預(yù)測:現(xiàn)在底層模型的技術(shù)水平已經(jīng)顯著提升,能夠生成質(zhì)量較高、觀看體驗較好的 AI 虛擬形象,因此可以肯定地說,應(yīng)用層面將迎來快速發(fā)展的機遇,預(yù)計該領(lǐng)域?qū)⒃杏龆鄠€價值數(shù)十億美元的公司。
現(xiàn)在來看,數(shù)字人應(yīng)用的爆發(fā)已跨越技術(shù)驗證期,正邁入規(guī)?;涞氐男屡R界點。2025年,數(shù)字人將像水電一樣滲透生活,極低的成本和不輸真人的效果很有可能讓它成為企業(yè)嘗試擁抱大模型和應(yīng)用大模型最好的入口之一。這不是未來,而是正在發(fā)生的現(xiàn)實。
熱門跟貼