就在昨天,科大訊飛首發(fā)超擬人數(shù)字人,在1024開(kāi)發(fā)者節(jié)發(fā)布會(huì)上,其真實(shí)程度讓人驚呼,外面的世界已經(jīng)發(fā)展成這樣了嗎?筆者從未想過(guò)用一張照片,竟然直接上傳就能生成專屬數(shù)字人形象。
作為首發(fā)「超擬人數(shù)字人」,這次功能已經(jīng)在科大訊飛旗下的訊飛智作產(chǎn)品上開(kāi)通了內(nèi)測(cè)通道。只要通過(guò)內(nèi)測(cè)二維碼,即可申請(qǐng)構(gòu)建超自然的專屬數(shù)字人形象。
要知道,過(guò)去的數(shù)字人定制,一直面臨著三大挑戰(zhàn):費(fèi)用高;定制周期長(zhǎng);交互存在延遲。
而這一次,只要在訊飛智作上傳一張照片,你的專屬數(shù)字人便躍然眼前。
那么問(wèn)題來(lái)了,這次訊飛智作內(nèi)測(cè)開(kāi)放的「超擬人數(shù)字人」到底有什么突出亮點(diǎn)?
直觀感受是:我們即將迎來(lái)人人擁有數(shù)字人的時(shí)代。
便捷個(gè)性定制,打造專屬形象
僅需上傳一張照片,就能瞬間擁有自己個(gè)性化虛擬形象的體驗(yàn),這是筆者此前從未想過(guò)的。這或許是數(shù)字人從B端走向C端的關(guān)鍵技術(shù)創(chuàng)新。
當(dāng)下數(shù)字人隨處可見(jiàn),雖然形象及使用場(chǎng)景逐漸多元,但公版形象在個(gè)性化上仍存在不足。
定制一個(gè)個(gè)性化的數(shù)字人往往需要長(zhǎng)時(shí)間的數(shù)據(jù)采集流程,而且在錄制過(guò)程中對(duì)于定制者的表情變化和動(dòng)作表達(dá)有較高的要求。
而在此次訊飛智作開(kāi)通的超擬人數(shù)字人的內(nèi)測(cè)通道里,咔嚓拍攝一張照片,大模型就能自動(dòng)生成驅(qū)動(dòng)口唇、表情、動(dòng)作,并充分匹配上傳文本。
以往的數(shù)字人定制數(shù)據(jù)采集需要專門的制作團(tuán)隊(duì)制作數(shù)月,在這之后,還需要專業(yè)的技術(shù)人員專門進(jìn)行調(diào)優(yōu)。而訊飛智作內(nèi)測(cè)通道里,由一張照片就能生成的超擬人數(shù)字人極大縮短了數(shù)字人定制的周期,讓普通人擁有專屬的數(shù)字形象成為可能。
訊飛智作小程序內(nèi)測(cè)頁(yè)面
面部情感豐富,表達(dá)更靈動(dòng)
此前,筆者總是感覺(jué)數(shù)字人表情很生硬。面對(duì)問(wèn)題,數(shù)字人似乎在對(duì)著我們讀課文。但這次在訊飛智作上測(cè)試的超擬人數(shù)字人,表情變化及情緒反饋?zhàn)屓搜矍耙涣痢?/p>
無(wú)論問(wèn)她什么,超擬人數(shù)字人都做到變化自如,基于問(wèn)題變化,情緒及表情反饋仿佛如真人一般。在1024開(kāi)發(fā)者節(jié)發(fā)布會(huì)現(xiàn)場(chǎng),超擬人數(shù)字人還可以現(xiàn)場(chǎng)賣萌。當(dāng)聽(tīng)說(shuō)自己剛剛的表現(xiàn)被幾百萬(wàn)人看到,她會(huì)立刻呈現(xiàn)吃驚表情。
超擬人數(shù)字人1024訊飛開(kāi)發(fā)者節(jié)現(xiàn)場(chǎng)賣萌
為了搞清這次超擬人數(shù)字人為什么如此通人性,筆者查閱很多資料后發(fā)現(xiàn),主要是因?yàn)樗捎玫氖谴笳Z(yǔ)言模型(LLM)的多模態(tài)交互技術(shù),貫穿文本、語(yǔ)音和數(shù)字人,這種情感貫穿的多模態(tài)交互不僅是口唇同步,更能感知情緒波動(dòng),讓表達(dá)更靈動(dòng)。
實(shí)時(shí)可交互,響應(yīng)時(shí)間快
不知道大家有沒(méi)有發(fā)現(xiàn),之前我們和很多數(shù)字人交流溝通的時(shí)候能把人氣個(gè)半死。有時(shí)候它聽(tīng)不到你的聲音,有時(shí)候又答非所問(wèn)。如果你在它說(shuō)話的時(shí)候突然打斷它,它甚至?xí)炎x亂回。
但這次在訊飛智作內(nèi)測(cè)的超擬人數(shù)字人,交互的快速響應(yīng)著實(shí)讓人眼前一亮。即使隨時(shí)打斷、插話,超擬人數(shù)字人依舊能做到秒回,這個(gè)快速反應(yīng)能力,感覺(jué)勝過(guò)好多真人。
在1024訊飛開(kāi)發(fā)者節(jié)發(fā)布會(huì)現(xiàn)場(chǎng),訊飛研究院院長(zhǎng)劉聰嘗試讓超擬人數(shù)字人針對(duì)鏡頭識(shí)別的化妝品給一些意見(jiàn),超擬人數(shù)字人立刻識(shí)別眼霜的品牌、功效,甚至在劉聰院士選擇買大瓶裝的時(shí)候還能立刻提出“那可不是眼霜哦,那是人參面霜,用來(lái)滋潤(rùn)面部皮膚的”。
超擬人數(shù)字人1024訊飛開(kāi)發(fā)者節(jié)現(xiàn)場(chǎng)片段
此次訊飛超擬人數(shù)字人采用了動(dòng)作表征抽取技術(shù),將視頻維度進(jìn)行了有效壓縮。正是這種技術(shù)的加持與創(chuàng)新,才讓此次在內(nèi)測(cè)體驗(yàn)時(shí)感覺(jué)和一個(gè)朋友在一個(gè)空間沉浸交流。
而這次在訊飛智作上進(jìn)行內(nèi)測(cè)體驗(yàn)一張照片生成超擬人數(shù)字人時(shí),筆者還順帶體驗(yàn)了訊飛智作整體產(chǎn)品。除了定制自己的數(shù)字人形象,還有一句話復(fù)刻聲音、AI配音、AIGC內(nèi)容生產(chǎn)等諸多功能,可以高效解決很多需要音視頻的場(chǎng)景需求,期待之后會(huì)有更多的技術(shù)創(chuàng)新。
熱門跟貼