【太平洋科技快訊】4 月9日,亞馬遜正式推出其新一代生成式 AI 語(yǔ)音模型——Nova Sonic。官方表示,新模型在語(yǔ)音交互方面表現(xiàn)出色,能夠自然地處理說(shuō)話者的停頓和打斷,并在合適的時(shí)機(jī)發(fā)言,相比亞馬遜早期的 Alexa 等模型,交互體驗(yàn)更加自然流暢。

打開網(wǎng)易新聞 查看精彩圖片

在多語(yǔ)言 LibriSpeech 基準(zhǔn)測(cè)試中,Nova Sonic 在英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)和西班牙語(yǔ)上的平均單詞錯(cuò)誤率僅為 4.2%,遠(yuǎn)低于行業(yè)平均水平。此外,在多人參與的高音量互動(dòng)測(cè)試中,其單詞錯(cuò)誤率比 OpenAI 的 GPT-4o-transcribe 模型低 46.7%。

Nova Sonic 的平均感知延遲僅為 1.09 秒,比 OpenAI 的 GPT-4o 模型(響應(yīng)時(shí)間為 1.18 秒)更快。亞馬遜聲稱 Nova Sonic 是市場(chǎng)上“最具成本效益”的 AI 語(yǔ)音模型,其價(jià)格比 OpenAI 的 GPT-4o 便宜約 80%。

Nova Sonic 通過(guò)亞馬遜的 Bedrock 開發(fā)者平臺(tái)提供給用戶,該平臺(tái)專注于構(gòu)建企業(yè)級(jí) AI 應(yīng)用。此外,Nova Sonic 可通過(guò)一個(gè)全新的雙向流式 API 進(jìn)行接入,方便開發(fā)者快速部署和使用。Nova Sonic 的部分組件已經(jīng)為亞馬遜升級(jí)版數(shù)字語(yǔ)音助手 Alexa+ 提供了動(dòng)力支持,進(jìn)一步提升了 Alexa+ 的語(yǔ)音交互能力。

據(jù)悉,Nova Sonic 是亞馬遜構(gòu)建人工通用智能(AGI)戰(zhàn)略的重要組成部分。AGI 被定義為“能夠在計(jì)算機(jī)上完成人類所能做的一切事情的 AI 系統(tǒng)”。亞馬遜計(jì)劃在未來(lái)推出更多能夠理解不同模態(tài)(包括圖像、視頻和語(yǔ)音)的 AI 模型,以拓展其在 AI 領(lǐng)域的布局。

亞馬遜表示,從 Nova Sonic 開始,將逐步將更多內(nèi)部 AI 模型提供給開發(fā)者使用,以助力開發(fā)者構(gòu)建各種創(chuàng)新應(yīng)用。此外,亞馬遜還推出了 Nova Act 的預(yù)覽版,這是一個(gè)使用瀏覽器的 AI 模型,為 Alexa+ 和亞馬遜的“代我購(gòu)買”功能的部分元素提供了支持。