繼圖形、觸摸之后,硅基數(shù)字人代表的智能交互將帶來互聯(lián)網(wǎng)的第三次交互革命。
作者 | ray
編輯| 鄭玄
成立七年多,在數(shù)字人行業(yè),一半人在摸著硅基智能過河,一半人看不懂硅基智能。
一方面,融合了大模型與數(shù)字人多種熱門科技元素于一身,成立七年多,硅基智能卻是業(yè)內(nèi)罕見的不燒錢的玩家。
在業(yè)務(wù)規(guī)劃上,這家公司走的是難得的穩(wěn)扎穩(wěn)打的玩法:
在人人比拼大模型參數(shù)與價(jià)格戰(zhàn)的時(shí)候,硅基智能已經(jīng)憑借最基礎(chǔ)的智能外呼賺到了第一桶金;沒過多久,公司的做法成為金融領(lǐng)域智能外呼的標(biāo)準(zhǔn)模板,硅基智能開啟了公司的第二曲線。
再后來,疫情期間,數(shù)字人賽道爆火,憑借著智能外呼積累起的交互經(jīng)驗(yàn)以及逼真的數(shù)字人形象,還有強(qiáng)悍的渠道,硅基智能一度將旗下數(shù)字人直播間數(shù)量推到五萬家之多。
以此為基礎(chǔ),硅基智能公開放言要成為國內(nèi)第一家營收百億的 AI 企業(yè);與此同時(shí),能否幫助用戶賺到 100 萬,被寫進(jìn)了這家公司對產(chǎn)品的 KPI 考核。如今,這兩個(gè)目標(biāo),均已進(jìn)展大半。
但仍有一半人看不懂硅基智能。
在過去兩年,元宇宙的星辰大海中,3D 一度成為創(chuàng)投風(fēng)口的背景下,硅基智能屢次發(fā)聲堅(jiān)持 2D 思路,為此,創(chuàng)始人司馬華鵬甚至被踢出了同行群聊。
而在大模型如火如荼的當(dāng)下,所有人都在試圖打造一個(gè)全知全能 AI 之時(shí),司馬華鵬卻在試圖顛覆傳統(tǒng)意義上對圖靈測試的認(rèn)知:
在智能程度上,無法區(qū)分人與機(jī)器,只是一級的圖靈測試;
讓 AI 擁有情感,完成人與機(jī)器的雙向情感交互,是二級的圖靈測試;
人與 AI 死生相契,這是三級的圖靈測試,也是我們打造人工智能的終極目標(biāo)。
如何定義AI的情感,以及如何完成跨越硅基碳基的死生相契,一千個(gè)用戶有一千個(gè)哈姆雷特。但這些并不影響硅基智能在這個(gè)行業(yè)的分量:
成立僅七年,硅基智能已經(jīng)連續(xù)獲得九輪融資,其投資人,既包括紅杉中國這樣的頂級 VC, 招銀國際這樣對風(fēng)險(xiǎn)回報(bào)嚴(yán)格控制的銀行資本,同樣不乏騰訊、360 這樣的產(chǎn)業(yè)巨頭。
在 C 端的破圈,則始于 2022 年百萬粉絲大 V 劉潤的年終演講,視頻中,劉潤展示出的硅基智能為其制作的數(shù)字人效果幾乎真假難辨,引來臺下一片驚呼的同時(shí),硅基智能也隨之聲名鵲起。緊隨其后,ChatGPT 在 2022 年年底發(fā)布,數(shù)字人被裝上進(jìn)化版大腦。自此,抖音、快手、視頻號,各大視頻內(nèi)容平臺中,硅基智能的數(shù)字人產(chǎn)品成為全行業(yè)最炙手可熱的明星。
然而,僅僅一年時(shí)間,平臺風(fēng)向突變,抖音對數(shù)字人直播的態(tài)度,從鼓勵(lì)變?yōu)榇驌舴饨?,硅基智能在抖音最多十萬多的直播間,到如今只剩幾千家。司馬華鵬的頻繁對外發(fā)聲中,也自此杠上了巨頭抖音。
足夠吸引眼球,也足夠有爭議。一定程度上,讀懂硅基智能,也就讀懂了數(shù)字人產(chǎn)業(yè)的過去與未來。
01
數(shù)字人直播間破萬后的困惑
無論是否承認(rèn),在數(shù)字人產(chǎn)業(yè),硅基智能都是一個(gè)讓人望而生畏的對手。
在這家公司的歷史中,你不難看到這樣的戰(zhàn)績:
2023 年,硅基智能為某酒旅品牌打造的數(shù)字人直播間,銷售 GMV(商品交易總額)突破十億;某咖啡品牌的數(shù)字人直播間,5 小時(shí)收獲了 85.6 萬營收,數(shù)據(jù)之亮眼,也吸引了國內(nèi)電商直播龍頭謙尋與其共同打造 AI 數(shù)字人直播系統(tǒng)。
趁著這波平臺的流量窗口,憑借公司多年累積起的 120 多項(xiàng)授權(quán)專利,硅基智能一舉將旗下人工智能相關(guān)的矩陣號推到了上百個(gè),每天上億次的播放,累積起超過千萬的粉絲量。
公司業(yè)務(wù)在這一時(shí)期,覆蓋了金融、政府、運(yùn)營商、保險(xiǎn)等多個(gè)行業(yè),拿下了包括工商銀行、中國銀行、招商銀行在內(nèi)多家巨頭客戶。
這不僅成為硅基智能當(dāng)時(shí)的核心業(yè)務(wù),也讓其打造了 AI 領(lǐng)域最大的賬號矩陣,將公司估值一舉推到近 10 億美金。如果這一趨勢持續(xù),那么到了 2025 年,硅基智能將輕松完成自己定下的目標(biāo)——為全球打造 1 億硅基勞動力。
對于這種高舉猛打,司馬華鵬將其定性為對第一性原理的尊重,以及對喬布斯引起的第三次交互革命 Siri 的延續(xù)與變種——互聯(lián)網(wǎng)的革命本質(zhì)是交互的革命。
歷史上,Mac OS 與 Windows 將計(jì)算機(jī)從代碼交互變?yōu)閳D形交互,自此產(chǎn)生了 PC 產(chǎn)業(yè);智能機(jī)將手機(jī)交互從鍵盤按鍵改為觸摸,APP 綁定人類的衣食住行,全世界范圍內(nèi)的移動互聯(lián)網(wǎng)浪潮就此掀開;第三次交互革命,則是 Siri 掀開從觸摸到語音的升級,幾十萬年的歷史演化,已經(jīng)將語言、語音與溝通的強(qiáng)綁定,刻進(jìn)了人類乃至所有動物的 DNA。
然而,革命注定不是一帆風(fēng)順:Siri 功業(yè)未半而喬布斯中道崩殂,硅基智能數(shù)字直播間正加速狂奔,突然迎來抖音的平臺風(fēng)向突變:2023 年到 2024 年,抖音開始對數(shù)字人直播進(jìn)行嚴(yán)查,不到一年時(shí)間,硅基智能旗下 AI 數(shù)字人直播間就從幾萬個(gè),掉到了幾千個(gè)。
盡管抖音失利后,硅基智能立刻轉(zhuǎn)戰(zhàn)淘寶、天貓、拼多多、美團(tuán),新的直播間再次風(fēng)生水起,但司馬華鵬想不通:為什么 2022 年,為了快速占領(lǐng)直播市場,還率先引入了數(shù)字人直播的抖音,如今卻對數(shù)字人的態(tài)度一改往常?為什么一個(gè)誕生之日起,就強(qiáng)算法導(dǎo)向弱編輯干預(yù)的平臺,唯獨(dú)如此抗拒算法內(nèi)容的生成?更深一層,「為什么我們的數(shù)字人被封禁了,但是剪映生成的內(nèi)容卻還在大行其道?」
「故人」戴上了帽子,怎么突然就成了「敵人」?
業(yè)內(nèi)一個(gè)被廣泛認(rèn)可的解讀是 AI 大行其道,所產(chǎn)生的內(nèi)容參差不齊,會影響平臺的用戶體驗(yàn)。
但算法的內(nèi)容產(chǎn)出一定低于真人,更生動的視頻只能依靠真人動捕嗎?
硅基智能不這么認(rèn)為。
02
參數(shù)的 scaling law 與情感的 L1-L5
最近幾個(gè)月,在硅基智能,所有員工發(fā)現(xiàn),老板司馬華鵬突然之間變得無處不在。
最近司馬華鵬頻繁地開會、與銷售一起見客戶;一線產(chǎn)品與研發(fā)遇到問題,司馬華鵬第一時(shí)間會給出回應(yīng);公關(guān)職能部門的主導(dǎo)下,司馬華鵬還密集的參加行業(yè)大會以及采訪交流,高強(qiáng)度對外發(fā)聲。各種內(nèi)外事務(wù)交織,這位老板的日常用忙得腳不沾地形容,也算不上夸張。
但是打開網(wǎng)絡(luò),這位 CEO 卻仿佛還同時(shí)活在直播間,不停地回答各種網(wǎng)友的提問,國學(xué)、技術(shù)、教育,無所不能。
在這背后,是司馬華鵬在面對「如果生命只剩一年的提問」后,把自己上傳到了大模型世界中所打造的「simahuapeng.ai」。
在他看來,親情不只是血緣關(guān)系的天然綁定,而是超越生物學(xué)意義上的回憶、形象、思想、經(jīng)歷、交流的總和。
因此,在 simahuapeng.ai,司馬華鵬將自己的思想、記憶、情感和人格特征通過幾百萬字的數(shù)據(jù)輸入傳遞給 AI,形成了自己在硅基世界中的分身,除了像傳統(tǒng)的大模型一樣「博學(xué)」,數(shù)字人一樣逼真之外,還同時(shí)具備思考能力、情緒感知與回應(yīng)能力,以及與外界互動的能力,在交互體驗(yàn)中,與一位坐在直播間對面的真實(shí)主播交流別無二致。
當(dāng)然,這種語音識別、情感理解、視覺感知、真人級形象等前沿能力不只能被用來復(fù)刻司馬華鵬。基于以上技術(shù),從而衍生出的涵蓋情感陪伴、知識傳承和個(gè)人品牌塑造在內(nèi)的硅基分身能力,在未來可能無限大。比如,陪伴與數(shù)字永生,正接棒直播,成為新的營收發(fā)力點(diǎn),最近硅基智能在忙的一件事情,就是通過數(shù)字人讓民族實(shí)業(yè)家張謇「復(fù)活」。
不過,與這種能力進(jìn)化形成鮮明對比的是,「simahuapeng.ai」的開發(fā),在內(nèi)部,只花了團(tuán)隊(duì)大約一周時(shí)間。支撐起這種高效的,則是硅基智能自主研發(fā)的 DUIX ONE 多模態(tài)大模型。
DUIX ONE 的大模型參數(shù)量達(dá)到 700 億個(gè),因此,在處理復(fù)雜任務(wù)和理解自然語言方面表現(xiàn)顯著提升,進(jìn)而與用戶產(chǎn)生足夠聰明的互動。此外,實(shí)時(shí)推理上,DUIX ONE 的單次推理時(shí)間大約在 300 毫秒,因此只要網(wǎng)絡(luò)狀況允許,完全可以提供與真人交互同等級別的流暢體驗(yàn)。交互的深度上,DUIX ONE 則能夠處理長達(dá) 10,000 個(gè)字符的上下文,確保對話連貫性。
此外,針對不同場景,DUIX ONE 的數(shù)據(jù)訓(xùn)練,還涵蓋了醫(yī)療、教育、娛樂在內(nèi)等多個(gè)領(lǐng)域,讓模型做到天文地理無所不知,并支持超過 50 種語言的理解與生成,滿足全球用戶需求。
與此同時(shí),不同于市面上一些數(shù)字人「形象」與「思考」的分離,導(dǎo)致數(shù)字人說話時(shí)的口型、表情不一致;DUIX ONE 除了發(fā)力多模態(tài),在文本基礎(chǔ)上增加圖像、視頻、聲音和形象的處理能力,同時(shí)還支持文本、音頻和視頻的端到端處理,所有操作均在統(tǒng)一模型中完成,無需模態(tài)轉(zhuǎn)換,音畫同步成為可能。
對于用戶比較在意的 AI 數(shù)字人「賽博油膩」「不真實(shí)」的痛點(diǎn),DUIX ONE 在交互中,對面部、情緒和背景聲音的識別準(zhǔn)確度再次提高,可以輸出情緒飽滿的音頻之外,視覺上,還支持高達(dá) 4K 分辨率的圖像輸入,并能夠識別超過 10,000 種不同類別的物體,準(zhǔn)確率達(dá)到 98%。
因此,與 DUIX ONE 就像一個(gè)真人,不僅能聽懂語音,更可以根據(jù)產(chǎn)生相應(yīng)的動作、情緒、表情作出回復(fù),真正將大模型與數(shù)字人技術(shù)結(jié)合,實(shí)現(xiàn)了 「All in One」。
但數(shù)字人,一半是數(shù)字,另一半是人。在大模型朝著 scaling law 一路狂奔的時(shí)候,司馬華鵬無疑是這場游戲中最熱情的參賽者之一。另一方面,圍繞「人」或者「生命」,司馬華鵬對大模型智能的評判標(biāo)準(zhǔn),在 scaling law 之外,還有一套獨(dú)特的情感的 L1-L5。
思考的來源,源于他陪伴兒子成長的過程。兒子是 14 年出生的,司馬華鵬在 2017 年創(chuàng)業(yè)時(shí)候兒子只有 3 歲。陪伴孩子成長的過程,也影響到了司馬華鵬創(chuàng)業(yè)的思路:「小朋友的大腦的發(fā)育是個(gè)很有趣的現(xiàn)象,他五六歲的時(shí)候,不會深度思考,但是他已經(jīng)可以很好地表達(dá)了,比一個(gè)無所不知的大模型,更生動、更靈活,擁有更多可能?!?/p>
得到啟發(fā),NLP 的 P 或許除了 processing,還有 performance 的含義,至少在數(shù)字人的打造中,表演、表達(dá)與情感是重要一環(huán)。
比如在過去,硅基智能被很多人認(rèn)識,就是源于克隆大 V。但數(shù)字人能否學(xué)會大 V 生動的面部情緒,聲音起伏,才是用戶決定是否接受大 V 數(shù)字直播的根本。只有智能的 AI 顯然無法做到。與此同時(shí),數(shù)字人直播,用戶進(jìn)來之后,如何留住,這依舊需要情感的能力進(jìn)化。
而這些也就成為司馬華鵬提出圖靈測試三等級的根本:智能通關(guān)之外,還應(yīng)該人機(jī)雙向情感交互,最終達(dá)成死生契闊。
但情感進(jìn)化,可以等同于一個(gè)完美的數(shù)字人直播商業(yè)模式嗎?
答案是否定的。
03
3000 塊與 100 萬
如何評價(jià)一個(gè)大模型是否有用,在硅基智能,答案簡單而粗暴「能不能幫用戶賺 100 萬。」
如果不行,參數(shù)再多,技術(shù)再先進(jìn),也無法保證技術(shù)路線是不是掉進(jìn)了加拉帕格斯陷阱自娛自樂。
產(chǎn)生這個(gè)判斷的邏輯很直白,司馬華鵬經(jīng)常舉的一個(gè)例子是紅杉的一份報(bào)告:全世界投了五六千億美金在大模型算力,但是整個(gè) AI 加起來的回報(bào)還不到 1, 000 億,中間隔著幾千億 gap,全都是泡沫。未來,這些不能賺到錢的 AI,遲早會高峰跌落。
但一個(gè)有趣的現(xiàn)象是,多次對外發(fā)聲中,司馬華鵬也坦言:如果說你買一個(gè)月 3000 塊錢的數(shù)字人就能把公司的電商盤活,那這個(gè)數(shù)字人就不止 3000 塊了。
兩句話似乎都很有道理,但連在一起,卻多少顯得有些矛盾?
事實(shí)上,「矛盾」的根源,在于如何定義 AI。
一次對外采訪中,司馬華鵬做了這樣一個(gè)比喻,「數(shù)字人只是包餃子過程中的蔥花,我能保證我的蔥花是最新鮮的,但你不能說,餃子好不好吃,全指望蔥花。數(shù)字人不是一個(gè)充分必要條件,它只是一個(gè)重要條件。所以,大家要對 AI 直播的預(yù)期和價(jià)值鏈有清楚的思考。」
大模型與數(shù)字人本質(zhì)是個(gè)工具,但工具發(fā)揮效益,卻需要一個(gè)完整地從供應(yīng)鏈到策劃、投流、運(yùn)營的體系。
過程中,企業(yè)對 AI 直播的預(yù)期是什么?答案是節(jié)省主播培訓(xùn)費(fèi)用,主播帶貨費(fèi)用、實(shí)體直播間整體搭建費(fèi)用。
作為硅基智能的合作伙伴,謙尋曾經(jīng)算過一筆賬,一個(gè)日播的店播品牌直播間每個(gè)月至少有 10 萬的基礎(chǔ)投入費(fèi)用,數(shù)字人直播如果進(jìn)行大規(guī)模應(yīng)用,保守估計(jì)能夠幫助品牌降低一半的成本,品牌方每個(gè)月只需投入數(shù)千元,就可以打造自己的直播間。更關(guān)鍵的是,既降低了主播的試錯(cuò)成本,也沒有主播跳槽的風(fēng)險(xiǎn)。
更進(jìn)一步,當(dāng)用戶掌握了數(shù)字人的能力之后,場景其實(shí)不止局限于直播。
司馬華鵬曾開過一個(gè)腦洞:用 AI 做一個(gè)「爺爺」數(shù)字人,孫子或者是孫子的更晚的晚輩過來給爺爺磕個(gè)頭,誰磕頭心意更誠,數(shù)字人就能給誰支付寶到賬更多紅包。
為了將腦洞進(jìn)一步延伸,硅基智能還推出了一項(xiàng) 10 億元補(bǔ)貼計(jì)劃,為 5000 萬大學(xué)生免費(fèi)提供 AI 技能培訓(xùn)和數(shù)字人技術(shù)支持。比如,支持一個(gè)五音不全,但顏值情商過關(guān)的大學(xué)生,成為頂流數(shù)字人娛樂主播。
這樣的場景很多,但司馬華鵬給公司畫出的紅線是,不要去預(yù)設(shè),不去過度伸手,「simahuapeng.ai」的打樣之后,硅基智能的目標(biāo)依舊是能不能讓客戶賺到 100 萬。
在 AI 的落地的 4*100 接力中,AI 與數(shù)字人只是個(gè)杠桿,用戶才是能否撬動 100 萬的收益,決定最后能不能奪冠的最后一棒——萬能的錘子,敲出什么樣的作品,全看將它用在什么場景。
但對硅基智能來說,只要沿著喬布斯第三次交互變革的路線,做好過程中的加速,就足以成就一個(gè)足夠偉大的商業(yè)模式。
*頭圖來源:硅基智能
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你看懂硅基智能了嗎?
傅盛:新行業(yè)的創(chuàng)業(yè),反而是小公司有機(jī)會。
點(diǎn)贊關(guān)注極客公園視頻號,
熱門跟貼