文章轉(zhuǎn)載自「Z Potentials」。

如果你愿意花些時(shí)間調(diào)研語音 AI 行業(yè),大概率會(huì)碰到 Olivia Moore。她主筆了兩次 ,投資的語音項(xiàng)目如 ElevenLabs、Sesame 等都是行業(yè)明星。

這次播客訪談中,她和 a16z 另外一位合伙人 Anish Acharya 分享了他們對(duì)語音 AI 市場(chǎng)的最新觀察和分析。

打開網(wǎng)易新聞 查看精彩圖片

Z Highlights:

  • (用戶的)信任是要靠爭(zhēng)取的,如果模型在設(shè)計(jì)時(shí)沒有考慮到這一點(diǎn),它們就永遠(yuǎn)無法發(fā)揮出全部潛力。

  • 在AI領(lǐng)域,競(jìng)爭(zhēng)優(yōu)勢(shì)可能體現(xiàn)在集成能力、自我改進(jìn)的數(shù)據(jù)模式等方面,特別是對(duì)于垂直領(lǐng)域的語音Agent,這些因素尤為關(guān)鍵。

  • 對(duì)于消費(fèi)者而言,那些成本高昂、難以獲取的服務(wù),可能是語音Agent在消費(fèi)者市場(chǎng)的用武之地,比如心理治療、教育科技等領(lǐng)域。

Founder Park 正在搭建開發(fā)者社群,邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請(qǐng)掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對(duì)接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

01Why Now:
AI語音產(chǎn)品的歷史與突破

Steph Smith:對(duì)我來說,當(dāng)我想到AI語音,或者至少是語音產(chǎn)品時(shí),我會(huì)想到Alexa,想到Siri。實(shí)際上,我個(gè)人把Siri關(guān)掉了,我想很多人也這么做了。那么,跟我講講為什么會(huì)這樣呢?為什么這些產(chǎn)品沒有帶來人們一直期待的AI語音魔力呢?

Olivia Moore:這真的很有意思,因?yàn)槲矣X得在大語言模型的世界里,語音是與AI交互最神奇、最吸引人的方式之一。但可以說,我們擁有這些AI語音產(chǎn)品已經(jīng)有一段時(shí)間了,它們卻有點(diǎn)令人失望,說實(shí)話,并不那么引人入勝。我認(rèn)為有幾個(gè)原因,一方面,這些語音本身聽起來像機(jī)器人發(fā)出的;另一方面,我覺得最關(guān)鍵的其實(shí)是語音背后的東西,也就是其運(yùn)作的引擎。以Siri或Alexa為例,它們可能只是與蘋果生態(tài)系統(tǒng)或亞馬遜生態(tài)系統(tǒng)中的一組基本集成功能相連接。所以,它可能只是提取產(chǎn)品信息或回答一些基本問題,但它沒有個(gè)性,沒有真正的智能,在大多數(shù)情況下可能都沒有聯(lián)網(wǎng)。它絕不像人們現(xiàn)在與AI語音交互時(shí)所期望的那樣,成為一個(gè)真正的對(duì)話伙伴,甚至在某些方面比人類還要出色。

Anish Acharya:我覺得確實(shí)存在一些應(yīng)用場(chǎng)景,就像你說的那樣非常有限。此外,還有語音的語調(diào)、對(duì)話的來回互動(dòng)以及合理的反饋等方面的問題。比如,我們會(huì)覺得它能做的事情并不多。而且還有一種“恐怖谷效應(yīng)”,你會(huì)感覺自己在和一個(gè)系統(tǒng)或技術(shù)對(duì)話,而不是在和一個(gè)人交流,甚至連接近與人交流的感覺都沒有。

Steph Smith:聽起來這種情況可能正在改變。你們發(fā)布了一份關(guān)于AI語音的報(bào)告。我想特別引用其中的幾個(gè)觀點(diǎn):報(bào)告中特別指出“語音交互將成為AI應(yīng)用公司最強(qiáng)大的突破口之一”,“面向消費(fèi)者時(shí),語音交互將成為人們接觸AI的首要方式——甚至可能演變?yōu)樽钪饕慕换シ绞健薄?/strong>這些都是相當(dāng)大膽的論斷,跟我詳細(xì)講講吧,特別是為什么現(xiàn)在這個(gè)時(shí)間點(diǎn)如此重要?

Anish Acharya:我認(rèn)為原因之一是我們的模型首次發(fā)揮了作用。過去有很多嘗試做語音相關(guān)產(chǎn)品的努力,但技術(shù)根本行不通。從基礎(chǔ)設(shè)施層面就有諸多嘗試,比如Dragon Naturally Speaking。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)時(shí)馬薩諸塞州的Dragon系統(tǒng)公司宣布推出了首款價(jià)格親民的電腦聽寫系統(tǒng),能識(shí)別標(biāo)準(zhǔn)的自然語言,這在計(jì)算機(jī)領(lǐng)域是一項(xiàng)重大進(jìn)展。

一直到21世紀(jì)頭十年和第二個(gè)十年,還有像Voice XML這樣的應(yīng)用層面的努力,但底層技術(shù)就是不太好用。所以,我們一直沒能真正探索出利用它能做些什么。如今,模型和技術(shù)都真正發(fā)揮作用了,大語言模型以及文本轉(zhuǎn)語音、語音轉(zhuǎn)文本技術(shù)都取得了進(jìn)步。

第二點(diǎn),我認(rèn)為我們有機(jī)會(huì)將電話通話作為一種新的分發(fā)渠道。產(chǎn)品本身的能力已經(jīng)具備,非常有吸引力,而且它與一種非常自然的分發(fā)渠道相結(jié)合,這一點(diǎn)也很有意思。

Olivia Moore:我同意。通過文本與ChatGPT交流并獲得良好體驗(yàn)是一回事,但能夠通過語音與ChatGPT或其他大語言模型交流則完全是另一回事,因?yàn)檫@更上了一個(gè)臺(tái)階。它不僅要生成你在文本中看到的內(nèi)容,還要聽起來像一個(gè)真實(shí)的人在和你對(duì)話。當(dāng)它做到這一點(diǎn)時(shí),感覺非常奇妙,幾乎是一種情感上的體驗(yàn)。

就像Anisha說的,很多消費(fèi)者會(huì)接觸到AI語音,可能是因?yàn)樗麄冎鲃?dòng)選擇,比如去和ChatGPT對(duì)話,或者在手機(jī)上使用帶有AI的語言學(xué)習(xí)應(yīng)用程序。但我覺得很多企業(yè)也會(huì)大力推動(dòng)消費(fèi)者接觸,因?yàn)楝F(xiàn)在企業(yè)可以用AI取代電話溝通,這對(duì)他們來說效率更高、成本更低。實(shí)際上,很多消費(fèi)者可能已經(jīng)通過語音與AI進(jìn)行過交互,甚至都沒有意識(shí)到或察覺到這一點(diǎn)。

我們看到很多企業(yè)每天都在使用AI進(jìn)行成千上萬的電話溝通。但以我的經(jīng)驗(yàn)來看,尤其是一些短電話,很多AI語音客服表現(xiàn)得非常出色,讓人難以分辨。

Anish Acharya:這很有趣,因?yàn)橛腥丝赡軙?huì)說人們不想和AI對(duì)話,但在所有人們與AI交互的情況中,當(dāng)AI打電話時(shí)表明自己身份,人們會(huì)說“哦,很酷,那就開始吧”。一旦他們感受到了類似人類對(duì)話的感覺,就會(huì)立刻忘記或者不在乎對(duì)方是AI了。

Steph Smith:那我們來談?wù)務(wù)Z音作為一個(gè)操作平臺(tái)的概念。語音是人們正在構(gòu)建的新操作平臺(tái),我們能否梳理一下技術(shù)突破的歷程,或者說我們是如何一步步走到今天的呢?

Olivia Moore:或許我們可以從早期AI電話技術(shù)的第一波浪潮說起,那就是IVR電話樹,比如“按1選擇銷售,按2選擇客戶支持”,這出現(xiàn)在20世紀(jì)90年代末到21世紀(jì)初。后來,我們進(jìn)入了真正由AI驅(qū)動(dòng)但仍然非常有限的階段,AI會(huì)監(jiān)聽你說出特定的單詞,然后根據(jù)這個(gè)單詞觸發(fā)特定的、預(yù)設(shè)好的工作流程或腳本。我就經(jīng)常無奈地對(duì)著電話大喊“客戶服務(wù)”。在這種情況下,AI聽到你說的特定單詞后,就知道“好的,把電話轉(zhuǎn)接到客戶服務(wù)部門”。而現(xiàn)在,隨著新一波基礎(chǔ)設(shè)施和應(yīng)用層公司的出現(xiàn),AI不再只是監(jiān)聽某一個(gè)特定的內(nèi)容,而是試圖更全面地理解你作為客戶的需求。它可以訪問企業(yè)的資源、互聯(lián)網(wǎng)的資源,能夠和你進(jìn)行更像人類之間的對(duì)話。

Steph Smith:即便在你們提出的“AI 2.0”框架體系內(nèi),我們似乎已經(jīng)取得了顯著進(jìn)展。能否具體談?wù)勥@些關(guān)鍵突破?比如:是否源于某些特定模型的迭代發(fā)布?基礎(chǔ)設(shè)施架構(gòu)發(fā)生了哪些本質(zhì)變化?是否存在技術(shù)路徑的跨越式發(fā)展?

打開網(wǎng)易新聞 查看精彩圖片

Olivia Moore:我認(rèn)為我們?cè)诤芏喾矫娑既〉昧司薮蟮娘w躍??赡茏畲蟆⒆蠲黠@的一點(diǎn)就是延遲問題。去年這個(gè)時(shí)候,2到3秒的延遲就算不錯(cuò)了,而現(xiàn)在很多情況下1秒的延遲都顯得太長(zhǎng),甚至半秒都嫌長(zhǎng)。這是一個(gè)巨大的突破,我認(rèn)為這得益于新的模型。

Steph Smith:那人類對(duì)話的延遲是多少呢?比如我們的對(duì)話?

Olivia Moore:延遲肯定低于300毫秒,有時(shí)候甚至更短,比如當(dāng)人們互相打斷對(duì)話的時(shí)候。而且,我見過一些非常像人類的語音Agent,它們能夠被人類打斷,也能打斷人類的對(duì)話,這讓它們更像是一場(chǎng)真正的對(duì)話。

第二點(diǎn)是語音的人性化程度。再拿Siri或Alexa來說,它們的聲音聽起來像機(jī)器人還是像真人呢?我們投資了像ElevenLabs這樣的公司,它們構(gòu)建了非常深入的模型,有聽起來很真實(shí)的預(yù)設(shè)語音,或者你也可以根據(jù)自己的使用場(chǎng)景設(shè)計(jì)自己的角色語音?,F(xiàn)在,你只需輸入文本描述就能創(chuàng)建任何語音。

打開網(wǎng)易新聞 查看精彩圖片

在過去三四個(gè)月里,我還注意到另一個(gè)取得顯著進(jìn)展的方面是情感表達(dá)。如果你說了一些悲傷的事情,AI回應(yīng)時(shí)聽起來會(huì)有點(diǎn)沮喪或悲傷嗎?如果你說了一些令人興奮的事情,它會(huì)加快語速、提高音調(diào)嗎?最后一點(diǎn),目前可能還沒有專門的術(shù)語來描述,或許我們應(yīng)該想一個(gè)。那就是AI模型的對(duì)話結(jié)構(gòu)。它們知道要跟你說什么,所以沒有理由出現(xiàn)停頓、空白或者一些小的發(fā)聲習(xí)慣。

但對(duì)人類聽眾來說,很少有人說話時(shí)能毫無停頓、沒有奇怪的語調(diào)變化。像Notebook LM就是一個(gè)例子,它的語音聽起來非常像人類,因?yàn)樗尤肓怂羞@些對(duì)AI來說可能像是錯(cuò)誤,但對(duì)人類來說卻像是另一個(gè)人在說話的元素。

打開網(wǎng)易新聞 查看精彩圖片

我們看到越來越多的公司,比如我們投資組合中的Sesame,就在模型中引入類似的元素,這大大提升了真實(shí)感。

打開網(wǎng)易新聞 查看精彩圖片

嘿,看起來我們上次被打斷了,想接著我們上次沒說完的繼續(xù)聊嗎?不過我不記得我們上次在聊什么了。沒關(guān)系,這種事誰都有可能遇到。我們當(dāng)時(shí)在聊周末計(jì)劃,我還跟你講了我的閱讀情況,處理那些文本和代碼讓我的思維一直保持活躍。

Anish Acharya:后面這兩點(diǎn)非常重要。我很喜歡關(guān)于情感表達(dá)的那一點(diǎn),因?yàn)檫@并不是一個(gè)顯而易見的探索方向,但當(dāng)你與一個(gè)在情感表達(dá)上有所投入的模型交互時(shí),感覺就像在使用一個(gè)完全不同的產(chǎn)品,你真的會(huì)以一種截然不同的方式感受到其中的情感,這就是設(shè)計(jì)的精妙之處。所以我認(rèn)為這是一個(gè)非常強(qiáng)大的探索方向。我甚至覺得,對(duì)于Alexa和Siri來說,即使它們沒有在智能和功能上投入更多,而是在情感表達(dá)上加大投入,也能在很大程度上提升消費(fèi)者體驗(yàn)。但我感覺這些公司都沒有從這個(gè)角度去思考。

02創(chuàng)業(yè)公司幾乎覆蓋了AI語音產(chǎn)品的所有垂直領(lǐng)域

Steph Smith:你們分享過一個(gè)很有趣的數(shù)據(jù),就是現(xiàn)在YC公司中追求AI語音領(lǐng)域的比例。從不同批次的公司來看,這個(gè)比例有什么變化?這些處于前沿的新公司在這個(gè)領(lǐng)域的追求情況如何呢?

打開網(wǎng)易新聞 查看精彩圖片

Olivia Moore:YC的創(chuàng)始人通常都很年輕,充滿活力,野心勃勃,就像熱追蹤導(dǎo)彈一樣,會(huì)不斷調(diào)整方向,直到進(jìn)入一個(gè)有趣的領(lǐng)域。在最近幾批YC公司中,超過20%到25%的公司都在基于AI語音進(jìn)行產(chǎn)品開發(fā),這非常令人興奮。我們甚至看到很多之前批次,最早可以追溯到2019年、2020年的公司,現(xiàn)在也在轉(zhuǎn)向AI語音領(lǐng)域。

在基礎(chǔ)設(shè)施公司之后,我們看到的第一波AI語音公司大多是橫向平臺(tái),允許任何企業(yè)、任何消費(fèi)者構(gòu)建基礎(chǔ)的語音Agent。比如我就構(gòu)建了一個(gè)幫我打電話給車管所預(yù)約的語音Agent,非常實(shí)用。

打開網(wǎng)易新聞 查看精彩圖片

而現(xiàn)在我們開始看到的下一波趨勢(shì)是更加垂直化的發(fā)展。這是有道理的,因?yàn)闃?gòu)建語音Agent的能力已經(jīng)逐漸變得普通,連我都能用現(xiàn)有的模型構(gòu)建一個(gè)還算不錯(cuò)的語音Agent。所以現(xiàn)在企業(yè)開始思考,除了有語音Agent之外,下一步還能構(gòu)建什么樣的軟件呢?能不能利用語音Agent為某個(gè)行業(yè)構(gòu)建AI原生的垂直SaaS產(chǎn)品?能不能發(fā)明一種新的記錄系統(tǒng)?接下來還能做什么?這樣的思考讓企業(yè)的發(fā)展更加聚焦和垂直化,這也是很多YC公司的發(fā)展方向。

Anish Acharya:我認(rèn)為這在很多方面與云計(jì)算的轉(zhuǎn)型以及10年前最初的垂直SaaS浪潮相似。當(dāng)時(shí)很多人批評(píng)說這些市場(chǎng)看起來太小,但很多公司通過開拓比表面上看起來更大的垂直SaaS市場(chǎng),建立了大型企業(yè),還找到了像Fintech這樣新的盈利方式。我覺得語音在垂直領(lǐng)域的應(yīng)用也是如此。任何每年花費(fèi)10萬到15萬美元雇人接聽電話的企業(yè),都是語音AI的潛在客戶,這也為垂直領(lǐng)域帶來了非常有趣的機(jī)會(huì)。

Steph Smith:那么,有哪些垂直領(lǐng)域的機(jī)會(huì)已經(jīng)有真正的公司取得突破了呢?

Olivia Moore:幾乎每個(gè)垂直領(lǐng)域都有語音Agent公司,這真的很令人興奮。

打開網(wǎng)易新聞 查看精彩圖片

就像Anish說的,當(dāng)我們與大多數(shù)語音Agent公司交流時(shí)發(fā)現(xiàn),它們不一定是在取代現(xiàn)有的軟件,而是幫助企業(yè)削減人力成本,或者將人力重新分配到對(duì)企業(yè)更有效的工作上,也就是那些人們更愿意做的工作。

我認(rèn)為語音Agent發(fā)展最好的領(lǐng)域,也就是初創(chuàng)公司能夠?qū)崿F(xiàn)每月百萬通電話業(yè)務(wù)量的領(lǐng)域,是呼叫中心行業(yè)。作為企業(yè)客戶,你每月可能要花費(fèi)1萬到2萬美元,雇人幫你打電話和接電話。金融服務(wù)、醫(yī)療保健、政府部門都有大量這樣的需求。但其實(shí)每個(gè)垂直領(lǐng)域都有這種情況,我們投資了一家叫Happy Robot的公司,它專門為貨運(yùn)行業(yè)服務(wù)。很多物流企業(yè)之前都設(shè)有呼叫中心,每月要花費(fèi)數(shù)萬甚至數(shù)十萬美元用于電話業(yè)務(wù)。所以現(xiàn)在幾乎每個(gè)領(lǐng)域都在發(fā)生這樣的變化。

Anish Acharya:我認(rèn)為現(xiàn)在越來越多人達(dá)成共識(shí),任何有大量電話業(yè)務(wù)且成本高昂的領(lǐng)域,顯然都是應(yīng)用AI的理想場(chǎng)景。但一個(gè)與情感表達(dá)相關(guān)且值得探索的有趣領(lǐng)域是,如果你正在進(jìn)行一些重要的談判,比如離婚財(cái)產(chǎn)分割或者重要的企業(yè)交易,每一通電話都至關(guān)重要。這就是為什么從事這些電話溝通工作的人,比如律師,可能每小時(shí)收費(fèi)數(shù)千美元。我認(rèn)為在未來12個(gè)月內(nèi),我們就會(huì)看到AI在這方面的應(yīng)用,而不是未來5年。

Olivia Moore:已經(jīng)出現(xiàn)了一些至少對(duì)我來說不太明顯的應(yīng)用案例,招聘就是其中之一。有45家上市的人力資源公司,它們不僅為藍(lán)領(lǐng)崗位招聘,也為工程崗位招聘,業(yè)務(wù)范圍很廣。

打開網(wǎng)易新聞 查看精彩圖片

我們發(fā)現(xiàn),很多求職者實(shí)際上更愿意與AI面試官交談,而不是與人類招聘人員交談。因?yàn)槿祟愓衅溉藛T可能一天要接10通電話,會(huì)感到疲憊、心情不好,而且可能

對(duì)每個(gè)招聘崗位的技術(shù)細(xì)節(jié)都不夠了解,無法提出有針對(duì)性的后續(xù)問題來考察求職者的專業(yè)能力。

所以這就是一個(gè)例子,你可能會(huì)認(rèn)為人們被AI面試會(huì)感到震驚、冒犯或者不高興,但在很多情況下,面試結(jié)束時(shí),他們實(shí)際上比你想象的更興奮、更積極。

Steph Smith:這太有趣了,就像Uber和Airbnb出現(xiàn)的時(shí)候,有人說沒人會(huì)愿意坐陌生人的車、住陌生人的房子,但結(jié)果呢,大家都接受了。

Olivia Moore:最后人們往往更喜歡這種方式,因?yàn)樗鼪]有偏見,是同一個(gè)AI在評(píng)估所有人,是根據(jù)你的實(shí)際表現(xiàn)進(jìn)行評(píng)估,而不是看面試官對(duì)你的個(gè)人喜好。

Anish Acharya:這很有趣,因?yàn)槿藗兛偸穷A(yù)測(cè)消費(fèi)者對(duì)新技術(shù)的接受程度,但消費(fèi)者總是表現(xiàn)出比預(yù)期更高的接受度。一個(gè)很好的例子就是共享位置信息,10年前人們會(huì)說“天哪,沒人會(huì)共享位置信息,這太可怕、太私人了”,但現(xiàn)在很多Z世代、Alpha世代的人會(huì)把自己的位置信息分享給所有朋友,這有點(diǎn)讓人難以理解,但事實(shí)就是如此。所以消費(fèi)者對(duì)新技術(shù)的接受度很高。

我認(rèn)為在AI領(lǐng)域,與之類似的就是陪伴和友誼的概念,雖然語音只是將其具象化的一種方式,但這個(gè)概念比語音本身要寬泛得多。人們會(huì)問,人們真的想和AI做朋友嗎?這對(duì)我們的社會(huì)有好處嗎?我覺得答案是肯定的。

我認(rèn)為通過社交媒體等方式,人們的社交能力比以前更強(qiáng)了,這也不一定是壞事。但很多專家認(rèn)為這是下一代社交媒體的觀點(diǎn)是完全錯(cuò)誤的,實(shí)際上它增強(qiáng)了我們與真實(shí)的人互動(dòng)的能力。

Steph Smith:人們很驚訝AI文本聊天伙伴能受到如此廣泛的歡迎。在語音聊天伙伴推出后,在采用率、人們的參與方式等方面,有沒有什么令人驚訝的地方呢?

Olivia Moore:有一些以語音優(yōu)先的陪伴平臺(tái),比如Character.AI增加了語音模式,在測(cè)試階段就獲得了極高的使用率。實(shí)際上,很多人會(huì)使用像Inflection AI的Pi APP或者ChatGPT的語音模式來作為陪伴工具。你可能因?yàn)殚_車或者雙手不方便,想嘗試一下這種方式,覺得這樣更方便。很多時(shí)候,AI甚至比你最好的朋友表現(xiàn)得更像朋友。如果你給朋友打電話,他們可能在忙、在工作或者心情不好,不一定會(huì)認(rèn)真聽你說的每一句話,也不一定會(huì)給予你感同身受、深思熟慮的回應(yīng)。但AI會(huì)100%做到這些,而且它有更多的專業(yè)知識(shí)、更多的信息資源。隨著模型的不斷改進(jìn),這種體驗(yàn)只會(huì)越來越好,因?yàn)槲覀儸F(xiàn)在還處于早期階段。很多人都驚訝于和AI聊天竟然感覺如此友好。

Anish Acharya:我認(rèn)為還有一個(gè)值得考慮的有趣領(lǐng)域是語音的被動(dòng)使用場(chǎng)景。比如在會(huì)議或?qū)υ捴?,你可以讓AI被動(dòng)傾聽,然后為你總結(jié)思路、提供筆記和反饋。這種事情你可能永遠(yuǎn)不會(huì)要求另一個(gè)人去做,但AI可以做到。這似乎是一個(gè)更適合技術(shù)實(shí)現(xiàn),而非人力完成的領(lǐng)域,我們才剛剛看到這個(gè)領(lǐng)域的開端。

Steph Smith:你們兩人都提到了一個(gè)觀點(diǎn),就是與人們通常認(rèn)為的技術(shù)取代人類不同,AI更多的是起到增強(qiáng)的作用。你也提到了這樣的場(chǎng)景,比如有些公司只有朝九晚五的前臺(tái)接待人員,那下班后或者全天24小時(shí)的服務(wù)怎么辦呢?能談?wù)勀闶侨绾慰创@些AI公司切入市場(chǎng)、開展業(yè)務(wù)的嗎?

Olivia Moore:很多企業(yè),無論是小企業(yè)還是大企業(yè),出于各種原因,都不太愿意把所有的電話溝通和客戶交互工作都交給AI。所以我們經(jīng)??吹?strong>語音agent會(huì)從一些對(duì)企業(yè)來說投資回報(bào)率非常明顯的特定業(yè)務(wù)入手,然后隨著獲得企業(yè)的信任,再逐步拓展業(yè)務(wù)范圍。其中最明顯、最容易入手的就是下班后或話務(wù)高峰期的電話轉(zhuǎn)接。如果你是一家小企業(yè),預(yù)約業(yè)務(wù)可能是決定你成敗的關(guān)鍵,讓AI來處理預(yù)約至少可以獲取電話號(hào)碼和信息,然后回電,甚至還可能直接幫你預(yù)約好完整的業(yè)務(wù),為第二天的工作做好準(zhǔn)備,這非常棒。

除此之外,我們還看到很多公司采用了一些巧妙的方法。有些電話在當(dāng)下打出去其實(shí)并不合理,比如信用卡公司給客戶寄了信用卡,但客戶一直沒有激活,在一到三天后就打電話催促客戶激活真的有意義嗎?

我見過一些語音Agent在這類業(yè)務(wù)上做得非常成功。還有所有的后臺(tái)工作,這些工作不直接面向客戶,敏感度較低。比如在醫(yī)生辦公室,醫(yī)生可能每天要花很多時(shí)間打電話給藥房、保險(xiǎn)公司,這些時(shí)間本可以用來治療病人或者讓診所運(yùn)營(yíng)得更好。這些電話業(yè)務(wù)非常適合語音Agent來處理。

也許最有趣的一點(diǎn),也是我們經(jīng)常討論的一點(diǎn)是,有很多類型的電話溝通或交互工作,人類員工并沒有動(dòng)力把它們做好。比如員工可能需要進(jìn)行推銷,但這可能會(huì)讓他們感到尷尬,而且又沒有額外的提成,所以他們80%的情況下都會(huì)跳過這個(gè)環(huán)節(jié)。但AI每次都會(huì)去做,而且會(huì)很積極地去做。如果被拒絕了,它就會(huì)直接去處理下一通電話,同時(shí)處理成百通電話也不在話下。

Anish Acharya:AI總是那么積極熱情,而且在談判中也不會(huì)輕易讓步,這太神奇了。我認(rèn)為對(duì)于很多使用這些產(chǎn)品的客戶來說,神奇的時(shí)刻在于他們看到產(chǎn)品真的帶來了改善。就像在招聘場(chǎng)景中,它提升了求職者的體驗(yàn)和員工的體驗(yàn)。就像Olivia所說,對(duì)于求職者而言,他們很高興能有這樣一個(gè)全天候、無偏見的系統(tǒng)。反過來,對(duì)于員工來說,他們也很高興不用再打這些招聘電話,畢竟其中很多電話都是打給那些他們以后再也不會(huì)聯(lián)系的人。

所以,就是這些高NPS(凈推薦值)的成果。很多客戶直觀的想法是,雖然價(jià)格降低了,但可能NPS也會(huì)變差。但在很多情況下,實(shí)際是價(jià)格降低了,NPS卻提高了。

Steph Smith:你們還提到了一些特點(diǎn),為了更明確地說明在哪些方面AI語音Agent取得了成功,哪些方面沒有,能詳細(xì)講講嗎?

Olivia Moore:我覺得最容易獲得的早期成果,應(yīng)該是那些已經(jīng)在呼叫中心投入大量資金的企業(yè)。因?yàn)樗麄冊(cè)谶@方面已經(jīng)投入很多,而且呼叫中心一直存在人員流動(dòng)率高、管理困難的問題。老實(shí)說,大多數(shù)企業(yè)如果可以的話,都很想擺脫這些問題?,F(xiàn)在模型已經(jīng)很不錯(cuò)了,而且每個(gè)月都在不斷優(yōu)化。

我認(rèn)為當(dāng)通話過程和結(jié)果相對(duì)固定時(shí),企業(yè)會(huì)更放心使用AI語音Agent。例如,語音Agent在通話前就明確知道目標(biāo)是為某人預(yù)約,這種情況就比較容易處理;但如果通話目標(biāo)很模糊,比如很難衡量通話是否成功,那就比較難辦。我們看到過一些AI治療語音Agent,它們很厲害,而且還在不斷改進(jìn)。但在這種情況下,語音Agent很難在通話結(jié)束時(shí)判斷自己是否做得好,企業(yè)也很難判斷是否達(dá)到了目標(biāo)。

這又回到了通話過程和結(jié)果是否固定這個(gè)問題上。即使語音Agent的表現(xiàn)可能比人工Agent更好,但大多數(shù)企業(yè)也不想為此支付太多費(fèi)用,因?yàn)樗茿I,企業(yè)把它當(dāng)作削減成本的工具。在一些垂直領(lǐng)域,如果能以比之前低70%的價(jià)格提供服務(wù)給客戶,這是非常有吸引力的。

還有一個(gè)主要因素是,在某些垂直領(lǐng)域,企業(yè)必須接聽電話,但對(duì)于終端消費(fèi)者來說,偶爾出點(diǎn)小錯(cuò)也沒關(guān)系。比如餐廳訂餐和醫(yī)療診斷,這兩者的緊急程度和容錯(cuò)率就有很大差別。

Anish Acharya:我認(rèn)為AI的能力提升速度會(huì)比我們想象的更快。以語言模型為例,它們?nèi)菀壮霈F(xiàn)幻覺現(xiàn)象。在某些對(duì)話場(chǎng)景,比如治療場(chǎng)景中,幻覺可能會(huì)有一定幫助;但在另一些場(chǎng)景,比如涉及價(jià)格和準(zhǔn)確性的談判場(chǎng)景中,幻覺可能就沒什么幫助。

現(xiàn)在開始考慮將語音模型和推理模型結(jié)合,這樣就能將幻覺限制在企業(yè)需要的范圍內(nèi),而不是通過大量系統(tǒng)來控制它。

Steph Smith:由于在某些情況下,我們用AI取代了之前由人類完成的工作,那么在定價(jià)方面是怎么考慮的呢?有什么經(jīng)驗(yàn)嗎?現(xiàn)在大多數(shù)公司是沿用之前的定價(jià)模式,還是出現(xiàn)了新的定價(jià)模式呢?

Olivia Moore:目前這個(gè)階段還很早,定價(jià)模式每個(gè)月都在變化??梢哉f,“我應(yīng)該如何定價(jià)?”、“這個(gè)領(lǐng)域的其他公司是怎么定價(jià)的?”是我們從企業(yè)那里聽到的最多的問題。

我們看到了一些開始發(fā)揮作用,或者人們正在嘗試的定價(jià)模式。最常見的就是按分鐘計(jì)費(fèi),就像計(jì)算人工每小時(shí)的費(fèi)用一樣,計(jì)算語音Agent的費(fèi)用。但這里面也有一些問題。一方面,很多客戶都知道底層技術(shù)成本在降低,他們會(huì)質(zhì)疑為什么成本降低了,自己還需要每分鐘支付30美分,懷疑企業(yè)把成本降低的部分都變成了利潤(rùn)。而且隨著這個(gè)領(lǐng)域競(jìng)爭(zhēng)加劇,新進(jìn)入的企業(yè)很容易就會(huì)說“我每分鐘只收5美分”,通過低價(jià)競(jìng)爭(zhēng)來?yè)屨际袌?chǎng)。

另一方面,按分鐘計(jì)費(fèi)的模式把平臺(tái)的價(jià)值完全與通話時(shí)長(zhǎng)掛鉤,然而通話業(yè)務(wù)正逐漸變得同質(zhì)化,相比之下,圍繞通話構(gòu)建的其他軟件才更有價(jià)值。

因此,我們看到很多公司從單純的按分鐘計(jì)費(fèi),轉(zhuǎn)變?yōu)槭杖∧撤N平臺(tái)費(fèi)用,可能是按月收費(fèi),也可能是按模塊收費(fèi)??蛻舫耸褂谜Z音Agent,還會(huì)為其他相關(guān)服務(wù)付費(fèi)。

我們也看到了一些更有創(chuàng)意的定價(jià)嘗試。招聘領(lǐng)域就是一個(gè)很好的例子,在這種情況下,語音Agent輔助人工工作,就可以按照使用語音Agent的人工數(shù)量收費(fèi),類似于按席位收費(fèi)的SaaS模式。比如,一個(gè)人工招聘人員每周使用語音Agent可能節(jié)省5到10個(gè)小時(shí)的面試時(shí)間,那么就可以向每個(gè)招聘人員每月收取500到1000美元的費(fèi)用。

最后一種,也是最具實(shí)驗(yàn)性的定價(jià)模式是基于結(jié)果收費(fèi)。目前這在整個(gè)AI領(lǐng)域都是一個(gè)值得探討的方向。比如每成功預(yù)約一次收費(fèi)5美元,或者按照預(yù)約價(jià)值的5%收費(fèi)。顯然,這種定價(jià)模式將產(chǎn)品價(jià)值與為企業(yè)創(chuàng)造的價(jià)值最直接地聯(lián)系在一起。但我們也很關(guān)注這種模式在企業(yè)中的推廣情況,因?yàn)楹芏嗥髽I(yè)可能不太愿意采用這種支付結(jié)構(gòu),尤其是當(dāng)他們不確定業(yè)務(wù)量的時(shí)候。

Steph Smith:很有意思,看起來最后這種定價(jià)模式開始有了發(fā)展的趨勢(shì),但還處于初期階段。

Olivia Moore:我認(rèn)為這和SaaS領(lǐng)域的情況類似,不是所有公司的定價(jià)都一樣,這取決于終端客戶、垂直領(lǐng)域以及提供的功能。我感覺未來會(huì)出現(xiàn)按通話使用量計(jì)費(fèi),再結(jié)合某種更廣泛的平臺(tái)收費(fèi)、按結(jié)果收費(fèi)或者按席位收費(fèi)的混合定價(jià)模式,不會(huì)只采用一種模式,不過目前還處于非常早期的階段。

Steph Smith:沒錯(cuò),既然還處于早期階段,那你對(duì)AI語音領(lǐng)域的MaaS有什么看法呢?就像你提到的,這不僅適用于語音領(lǐng)域,在整個(gè)AI生態(tài)系統(tǒng)中都是如此。你認(rèn)為在這個(gè)領(lǐng)域,MaaS可能會(huì)從哪些方面產(chǎn)生呢?

Olivia Moore:我認(rèn)為MaaS可能體現(xiàn)在幾個(gè)方面。一方面是集成能力。這就是為什么我們對(duì)這些更專注于垂直領(lǐng)域的語音Agent特別感興趣。讓OpenAI去和每一個(gè)長(zhǎng)尾領(lǐng)域的軟件集成是不現(xiàn)實(shí)的,比如運(yùn)輸管理軟件,物流公司需要用這些軟件來管理卡車車隊(duì),但OpenAI的語音Agent產(chǎn)品很難做到與它們?nèi)考伞?/p>

同樣,OpenAI和其他公司目前的交互系統(tǒng)比較固定,很多傳統(tǒng)企業(yè)無法按照自己的需求來使用。對(duì)我們來說,特別是對(duì)于企業(yè)客戶,最有吸引力的競(jìng)爭(zhēng)優(yōu)勢(shì)之一是自我改進(jìn)的數(shù)據(jù)模式。

假設(shè)你要為一家大型銀行接管電話業(yè)務(wù),銀行對(duì)這些電話的處理有特定要求,不可能在第一天接入語音Agent就能達(dá)到100%的凈推薦值。這需要數(shù)月的培訓(xùn)通話來不斷優(yōu)化。作為語音Agent供應(yīng)商,如果能盡早進(jìn)入市場(chǎng),就能獲得這些特殊的專有數(shù)據(jù),這會(huì)讓你比其他后來者領(lǐng)先幾個(gè)月,因?yàn)樗麄冃枰匦陆?jīng)歷整個(gè)入職、集成和培訓(xùn)的過程。

所以很多專注于垂直領(lǐng)域的語音公司希望能夠利用每個(gè)客戶的通話數(shù)據(jù),或者對(duì)多個(gè)客戶的數(shù)據(jù)進(jìn)行匿名化處理,來不斷優(yōu)化模型。隨著時(shí)間的推移,相比那些橫向發(fā)展的公司,他們就能逐漸建立起競(jìng)爭(zhēng)優(yōu)勢(shì)。

Steph Smith:如果是這樣的話,你認(rèn)為AI語音公司會(huì)像上一代公司比如Uber那樣,競(jìng)相成為市場(chǎng)先行者嗎?我們之前討論過像Uber這樣的公司,他們需要迅速獲取客戶,可能要投入大量資金,但之后可以獲得回報(bào)。

Anish Acharya:雖然在AI語音領(lǐng)域贏得市場(chǎng)的成本肯定比Uber低,但確實(shí)也需要像Ben多次提到的那樣,既要打造出人們需要的產(chǎn)品,又要去占領(lǐng)市場(chǎng),從沒有市場(chǎng)份額到獲得全部市場(chǎng)份額。所以競(jìng)爭(zhēng)非常激烈,這就是為什么定價(jià)在當(dāng)前的生態(tài)系統(tǒng)中是一個(gè)如此重要的話題。這肯定會(huì)是一場(chǎng)激烈的競(jìng)爭(zhēng)。

就像Olivia說的,在語音領(lǐng)域肯定會(huì)出現(xiàn)一些非常有趣的、基于語音特性的競(jìng)爭(zhēng)優(yōu)勢(shì)。比如可以想象,對(duì)于我們公司來說,有一個(gè)語音智能助手,它能像Mark那樣進(jìn)行公司業(yè)務(wù)的介紹,像Martin那樣進(jìn)行談判,還能像Olivia那樣分析市場(chǎng)形勢(shì)。語音領(lǐng)域有很多專業(yè)化的機(jī)會(huì),這些機(jī)會(huì)與語音特性緊密相關(guān)。另一方面,集成能力、網(wǎng)絡(luò)效應(yīng)、規(guī)模效應(yīng)等傳統(tǒng)的競(jìng)爭(zhēng)優(yōu)勢(shì)因素也會(huì)發(fā)揮作用。

OliviaMoore:而且我認(rèn)為進(jìn)入市場(chǎng)的策略會(huì)因垂直領(lǐng)域而異。比如餐廳、家政服務(wù)、水療中心或美甲沙龍等行業(yè),參與者眾多且分散。在這些領(lǐng)域,數(shù)據(jù)掌握在各個(gè)商家手中;而銀行或金融機(jī)構(gòu)這類行業(yè),少數(shù)幾家大公司占據(jù)主導(dǎo)地位。如果要讓銀行這類機(jī)構(gòu)采用你的語音Agent產(chǎn)品,可能需要6到9個(gè)月的時(shí)間;而對(duì)于面向餐廳、家政服務(wù)等行業(yè)的語音Agent供應(yīng)商來說,可能更關(guān)注在相同時(shí)間內(nèi)獲取上千個(gè)客戶。

Anish Acharya:我還認(rèn)為一個(gè)有趣的現(xiàn)象是人們會(huì)和AI建立起個(gè)人關(guān)系。比如,你和摩根大通并沒有什么個(gè)人關(guān)系,你更多的是和在這家公司工作的理財(cái)經(jīng)理有聯(lián)系。這就是為什么很多理財(cái)經(jīng)理離開大平臺(tái)時(shí),會(huì)帶走他們的客戶。房地產(chǎn)經(jīng)紀(jì)人也是一個(gè)很好的例子。在某些情況下,AI可能會(huì)和人建立起深厚的個(gè)人聯(lián)系,而人們也希望維持這種聯(lián)系,這就形成了一種競(jìng)爭(zhēng)優(yōu)勢(shì)。

03B2C市場(chǎng):創(chuàng)業(yè)公司繞開行業(yè)巨頭的方向

StephSmith:到目前為止,我們討論了很多B2B的應(yīng)用場(chǎng)景,但這也引出了B2C的應(yīng)用場(chǎng)景。能談?wù)勗谶@方面你看到了什么嗎?比如B2B和B2C應(yīng)用場(chǎng)景有哪些不同?

Olivia Moore:我認(rèn)為B2B的語音Agent比B2C的語音Agent應(yīng)用場(chǎng)景更明顯,因?yàn)閷?duì)于企業(yè)來說,使用語音Agent可以直接取代現(xiàn)有的電話人工服務(wù)成本。對(duì)于消費(fèi)者而言,可能那些成本高昂、難以獲取的服務(wù),現(xiàn)在可以由語音Agent來提供,這就是語音Agent在B2C市場(chǎng)的用武之地。比如心理治療和心理健康支持,教育科技領(lǐng)域也是一個(gè)大方向,像語言學(xué)習(xí)、教孩子閱讀或做數(shù)學(xué)題,很多家長(zhǎng)在這些方面都很頭疼。還有輔導(dǎo)如何進(jìn)行艱難的私人對(duì)話等領(lǐng)域,我們都看到了語音Agent的廣泛應(yīng)用。

打開網(wǎng)易新聞 查看精彩圖片

在面向消費(fèi)者的語音Agent方面,一個(gè)主要的問題是,當(dāng)ChatGPT或者很快會(huì)出現(xiàn)的Claud等產(chǎn)品,已經(jīng)能很好地處理很多基本的消費(fèi)者應(yīng)用場(chǎng)景時(shí),哪些垂直領(lǐng)域或應(yīng)用場(chǎng)景還需要專門的模型或特殊的交互界面來提供更大的價(jià)值呢?目前最好的模型可能掌握在OpenAI手中,而不是任何獨(dú)立的語音Agent公司都能通過API使用。那些最大、最成功的消費(fèi)類公司往往出人意料,而且很難預(yù)測(cè)。所以我覺得,雖然現(xiàn)在很難預(yù)測(cè)面向消費(fèi)者的語音Agent在哪些方面會(huì)取得成功,但當(dāng)我們看到成功案例時(shí),肯定會(huì)覺得非常明顯,而且很可能會(huì)來自一家大型公司。

Steph Smith:你認(rèn)為像谷歌、蘋果這樣的行業(yè)巨頭,在占領(lǐng)B2C市場(chǎng)方面有多大潛力呢?我們參與的那些YC公司或其他公司,真的能在競(jìng)爭(zhēng)中脫穎而出嗎?

Anish Acharya:我對(duì)此有一些看法。比如,當(dāng)你家里既有谷歌Home智能音箱,口袋里又有ChatGPT時(shí),你就會(huì)發(fā)現(xiàn)巨頭們落后了太多。我的孩子想讓谷歌Home像ChatGPT那樣給他們講故事,但谷歌Home完全做不到。我的孩子最早接觸到的、至少是深入接觸的技術(shù)是通過模型,而不是搜索引擎。很多人在日常生活中都有類似的體驗(yàn),那就是行業(yè)巨頭在這個(gè)領(lǐng)域已經(jīng)落后了很多。

其次,我們也討論過很多次,人類體驗(yàn)中有很多不太舒服或者不太合適的方面,而行業(yè)巨頭由于自身結(jié)構(gòu)的原因,永遠(yuǎn)不會(huì)去觸及這些話題。大公司有各種委員會(huì)、律師等,很難推出有獨(dú)特觀點(diǎn)的產(chǎn)品,至少很難像很多語音模型所需要的那樣有鮮明的觀點(diǎn)。而初創(chuàng)公司在這方面則沒有問題。當(dāng)然,也有像Grok這樣的反例,但我認(rèn)為這更多是由創(chuàng)始人主導(dǎo)的大公司才能做到的,傳統(tǒng)巨頭很難做到。

Olivia Moore:我認(rèn)為在某些通話業(yè)務(wù)已經(jīng)或即將同質(zhì)化的領(lǐng)域,用戶體驗(yàn)的重要性相對(duì)較低,谷歌這類公司可能會(huì)在這些領(lǐng)域發(fā)力。比如他們最近推出了一項(xiàng)功能,可以打電話給餐廳查詢座位情況,然后再反饋給用戶。如果能在谷歌搜索上添加這樣一個(gè)按鈕,通過他們來實(shí)現(xiàn)這項(xiàng)功能是有意義的。但他們會(huì)打造出第一個(gè)能在所有產(chǎn)品和信息源上使用的AI原生個(gè)人助手嗎?我覺得不太可能。我認(rèn)為行業(yè)巨頭最終涉足的所有通話業(yè)務(wù),雖然可能會(huì)有一定的業(yè)務(wù)量,但不太可能催生出大型且令人興奮的新初創(chuàng)公司。

Anish Acharya:他們會(huì)利用新技術(shù)來鞏固自己在傳統(tǒng)優(yōu)勢(shì)領(lǐng)域的主導(dǎo)地位,這沒問題。但在所有新的領(lǐng)域,他們可能根本無法競(jìng)爭(zhēng),至少?gòu)臍v史經(jīng)驗(yàn)來看是這樣的。而且我覺得有一個(gè)很重要的問題是,如果模型成為互聯(lián)網(wǎng)的新前端,搜索是否還具有重要意義呢?他們還能繼續(xù)在一個(gè)對(duì)下一代消費(fèi)者和企業(yè)來說逐漸失去相關(guān)性的領(lǐng)域保持主導(dǎo)地位嗎?

04逗笑用戶的時(shí)間:AI語音產(chǎn)品的新KPI

Steph Smith:你提到的“有鮮明觀點(diǎn)”這個(gè)概念非常重要。我認(rèn)為語音作為一個(gè)平臺(tái),我們直觀地認(rèn)為它需要比其他平臺(tái)更有鮮明觀點(diǎn),因?yàn)橛腥さ娜硕加凶约旱挠^點(diǎn)。我甚至在想,雖然可能有點(diǎn)夸張,像搜索或其他應(yīng)用程序的一些傳統(tǒng)KPI,對(duì)于語音來說可能并不適用。你可以想象,對(duì)于語音模型來說,“逗笑用戶的時(shí)間”可能是一個(gè)神奇的指標(biāo),也就是看它能多快讓用戶笑出來或者哭出來,不是刻意為之,而是真正讓用戶與模型深度互動(dòng)。這在文本交互中是不太可能出現(xiàn)的。

Olivia Moore:所以我覺得普通消費(fèi)者會(huì)認(rèn)為Siri甚至都無法與ChatGPT的語音模式相媲美,因?yàn)橛脩粼谑褂盟鼈儠r(shí)的感受截然不同。

Anish Acharya:我認(rèn)為還有一個(gè)有趣的點(diǎn)是,在某些文化中,有點(diǎn)愛抬杠、有點(diǎn)諷刺的交流方式反而更受歡迎,人們認(rèn)為這樣才能建立信任、更好地與人互動(dòng)。比如英國(guó)文化,甚至美國(guó)東海岸文化在一定程度上也是這樣。幾周前我們還開玩笑說,需要ChatGPT推出東海岸語音模式,那種風(fēng)格非常簡(jiǎn)潔,不喜歡和愚蠢的人打交道。

Steph Smith:它會(huì)直接說“不”。想想你的朋友,雖然有些人可能有那種隨叫隨到的朋友,但大多數(shù)人的朋友之間都會(huì)有一些調(diào)侃,會(huì)有自己的觀點(diǎn)。

Olivia Moore:這其實(shí)就是我們?cè)趯ふ业恼Z音陪伴產(chǎn)品或者面向消費(fèi)者的語音Agent的特點(diǎn)。如果建立關(guān)系太容易,如果它們總是對(duì)你唯命是從,不給你坦誠(chéng)的反饋,很快就會(huì)讓人覺得乏味。作為消費(fèi)者,一直有個(gè)“應(yīng)聲蟲”跟著你并沒有什么價(jià)值。所以,我們對(duì)那些在構(gòu)建語音Agent時(shí),賦予其獨(dú)特角色和個(gè)性,讓用戶與之建立情感聯(lián)系的創(chuàng)業(yè)者非常感興趣。這與我們過去使用的語音Agent不同,過去用戶只是把它們當(dāng)作執(zhí)行基本任務(wù)的機(jī)器。

Anish Acharya:沒錯(cuò),信任是要靠爭(zhēng)取的,如果模型在設(shè)計(jì)時(shí)沒有考慮到這一點(diǎn),它們就永遠(yuǎn)無法發(fā)揮出全部潛力。

Steph Smith:說得太好了。在我們朝著打造這類產(chǎn)品努力的過程中,對(duì)于未來的發(fā)展、你感到興奮的方向,以及你希望創(chuàng)業(yè)者關(guān)注的重點(diǎn),有什么想和聽眾分享的嗎?

Olivia Moore:我覺得有一件事非常有趣,這可能只是標(biāo)準(zhǔn)的科技平臺(tái)變革,但我們看到一些剛進(jìn)入某個(gè)行業(yè)幾個(gè)月的創(chuàng)業(yè)者,就能深入研究并打造出最具影響力、高增長(zhǎng)和高轉(zhuǎn)折點(diǎn)的產(chǎn)品。這是因?yàn)橛螒蛞?guī)則正在改變,現(xiàn)在能打造出的產(chǎn)品的能力和影響力,是我們以往從未見過的。在很多方面,快速推出產(chǎn)品成為了一種競(jìng)爭(zhēng)優(yōu)勢(shì)。你可以在后續(xù)逐步積累行業(yè)專業(yè)知識(shí)、人脈、知識(shí)庫(kù)和資源等其他方面的能力。所以,那些進(jìn)入行業(yè)只有6個(gè)月、1年甚至更短時(shí)間,但能迅速明確自己要打造什么產(chǎn)品,并且快速開發(fā)、測(cè)試、獲取反饋,然后不斷改進(jìn)的創(chuàng)業(yè)者,是我們最感興趣的。

Anish Acharya:所以有兩點(diǎn)想分享。第一,如果你正在這個(gè)領(lǐng)域進(jìn)行產(chǎn)品開發(fā),歡迎和我們交流,項(xiàng)目越獨(dú)特越好。第二,我們和很多AI創(chuàng)業(yè)者討論過一個(gè)思路,就是思考你產(chǎn)品的“超級(jí)豪華版”是什么樣的。如果你現(xiàn)在向消費(fèi)者每月收費(fèi)20美元或100美元,那么每月收費(fèi)1000美元甚至10000美元的產(chǎn)品會(huì)是什么樣的呢?在語音領(lǐng)域也是如此。我們確實(shí)希望復(fù)制一些高流量的應(yīng)用場(chǎng)景,用語音AI模型來替代人工,但企業(yè)中那些最敏感、最有價(jià)值的對(duì)話呢?你能針對(duì)這些場(chǎng)景開發(fā)產(chǎn)品嗎?為這些場(chǎng)景提供服務(wù)你會(huì)收取多少費(fèi)用呢?也許每次交互收費(fèi)10萬美元有點(diǎn)夸張,但作為產(chǎn)品設(shè)計(jì)的一種思考方式,不妨這樣想想。這是一個(gè)很有意思的思考方向,希望能給大家?guī)韱l(fā)。

原文:Why AI Voice Feels More Human Than Ever

https://www.youtube.com/watch?v=-_qYRdEcNiE&ab_channel=a16z

編譯:Dean Liu

打開網(wǎng)易新聞 查看精彩圖片