桃子水蜜桃,成人综合婷婷国产精品久久蜜臀,日韩精品福利国产午夜福利视频,两个人免费观看播放视频,国产亚洲精品久久精品60www

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel社區(qū)上線，最新上線4090資源不限量，價格實惠，靈活方便，支持在線微調(diào)訓(xùn)練模型，及和，并。

在AI語音交互領(lǐng)域，重大突破正在改寫格局！OpenAI尚未實現(xiàn)的實時交互，被中國團隊以創(chuàng)新性「端到端」方案成功攻克。

成果便是備受矚目的SpeechGPT 2.0-preview ，這是邁向情景智能推出的首個擬人化實時交互系統(tǒng)，基于百萬小時級語音數(shù)據(jù)訓(xùn)練。

其端到端語音大模型設(shè)計，實現(xiàn)擬人口語化表達、百毫秒級低延遲響應(yīng)與實時打斷交互，還對齊語音和文本模態(tài)，支持多情感風(fēng)格控制、工具調(diào)用等，盡顯技術(shù)創(chuàng)新實力。該模型已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B

01.

模型概述

SpeechGPT 2.0-preview是邁向情景智能推出的第一個擬人化實時交互系統(tǒng)。作為在百萬小時級語音數(shù)據(jù)上訓(xùn)練的端到端語音大模型，它具有擬人口語化表達與百毫秒級低延遲響應(yīng)，支持自然流暢的實時打斷交互。

SpeechGPT 2.0-preview較好的對齊了語音和文本兩個模態(tài)：

一方面展現(xiàn)出了一定的風(fēng)格泛化能力，能夠遵循用戶指令，實現(xiàn)多情感、多風(fēng)格、多音色的控制與智能切換；擁有不錯的角色扮演能力，能夠模擬各類角色的語氣和情感狀態(tài)；它還具備多種語音才藝，能夠進行詩歌朗誦、故事講述、說方言等；

另一方面，它在具備語音表現(xiàn)力的同時有不錯的智商與文本能力，從而具備支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識庫等功能的能力。

SpeechGPT 2.0-preview目前只在中文語音數(shù)據(jù)上做了訓(xùn)練，沒有混英文語音數(shù)據(jù)訓(xùn)練，因此目前模型還沒有英文對話能力。

02.

技術(shù)簡介

SpeechGPT 2.0-preview作為一款端到端語音對話大模型，凝聚了研究團隊在在端到端語音對話方向上的認知與技術(shù)積累和沉淀。在其開發(fā)進程中，一系列創(chuàng)新性技術(shù)與系統(tǒng)發(fā)揮了關(guān)鍵作用：

自研超低比特率流式語音Codec：能處理24khz的語音輸入，將語音壓縮至每秒75個token，支持流式輸入輸出，實現(xiàn)200ms以內(nèi)延遲的實時交互。

語音數(shù)據(jù)處理系統(tǒng)：構(gòu)建了高效的語音數(shù)據(jù)爬取系統(tǒng)、多功能高效率語音數(shù)據(jù)清洗pipeline和全方面多粒度語音數(shù)據(jù)標注系統(tǒng)，積累并精細標注了百萬小時級的真實語音數(shù)據(jù)，為模型訓(xùn)練提供了豐富且高質(zhì)量的數(shù)據(jù)。

對話語音合成系統(tǒng)：開發(fā)的對話語音合成系統(tǒng)具有高度口語化和極強音色克隆能力，基于此合成了數(shù)十萬小時的多角色多風(fēng)格語音對話數(shù)據(jù)，使模型的語音輸出更加自然、豐富。

語音文本混合建模：提出新的語音文本混合建模模型架構(gòu)以及多階段語音文本混合建模訓(xùn)練流程，包括模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和鏈式模態(tài)微調(diào)等，兼顧了文本能力與語音能力，還能支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識庫等功能。

通過端到端的方式建模語音對話，SpeechGPT 2.0-preview 在實際測試中實現(xiàn)了200ms以內(nèi)的延遲，能夠為用戶提供流暢的實時交互體驗。

在實驗過程中，研究團隊也觀察到了很多有意思的現(xiàn)象和結(jié)論：比如通過充分的語音文本對齊預(yù)訓(xùn)練，發(fā)現(xiàn)模型可以"涌現(xiàn)"出語音風(fēng)格的泛化性，比如沒有用語速調(diào)整的對話數(shù)據(jù)訓(xùn)練就可以做到語速控制，比如可以扮演對話數(shù)據(jù)中從未見過的角色與風(fēng)格的語氣等；語音數(shù)據(jù)合成引擎的質(zhì)量是提升端到端語音模型的各訓(xùn)練階段能力的關(guān)鍵。

語義-聲學(xué)聯(lián)合建模的超低比特率流式語音 Codec

SpeechGPT 2.0-preview具備一系列卓越關(guān)鍵特性，其支持24khz語音輸入，采用語義-聲學(xué)聯(lián)合建模技術(shù)，實現(xiàn)了低比特率—750bps（每秒75 token），還支持流式輸入輸出，極大提升交互效率與體驗。

基于Codec Patchify的語音-文本混合建模模型架構(gòu)

Codec patchify，我們通過Codec patchify來有效減小語音和文本序列之間的模態(tài)差異，從而緩解跨模態(tài)建模中的沖突問題。具體而言，該方法將相鄰T個時間步的RVQ codec token聚合為一個patch，通過patch projector模塊將其映射為統(tǒng)一的向量表示，隨后輸入到speech-text LLM中進行聯(lián)合建模。

在模型架構(gòu)設(shè)計上，LLM的隱藏狀態(tài)會同時用于兩個解碼任務(wù)：一方面解碼生成文本輸出，另一方面輸入到patch decoder中進行語音重建。

特別地，研究團隊設(shè)計了一個具有多解碼頭的自回歸語言模型作為patch decoder，該模塊能夠通過自回歸方式逐步解碼，每次生成一個時間步的多個RVQ codec token，從而輸出語音。

語音文本聯(lián)合建模，靈活交叉自由組合，speech-text LLM會同時輸入和輸出語音和文本表示。

03.

模型能力

SpeechGPT 2.0-preview為用戶提供了一系列令人矚目的體驗?zāi)芰Α．?dāng)你與它交流時，會發(fā)現(xiàn)其對話輸出極為自然流暢，高度口語化的表達就如同與身邊的朋友親切交談，毫無生硬之感。在交互過程中，它能夠做到實時響應(yīng)，憑借先進的技術(shù)實現(xiàn)200ms以內(nèi)的低延時，即使你在對話中途靈活打斷，它也能迅速調(diào)整，緊跟你的思路。其生成的語音不僅情感豐富，可隨語境表達出喜怒哀樂等多種情緒，而且風(fēng)格多樣，或幽默風(fēng)趣，或沉穩(wěn)專業(yè)。值得一提的是，它還擅長角色扮演，不管是扮演歷史人物講述過去的故事，還是模擬專業(yè)人士解答疑難問題，都能游刃有余，堪稱多才多藝，為用戶帶來獨一無二的對話體驗。

SpeechGPT 2.0-preview在模型穩(wěn)定性以及音質(zhì)穩(wěn)定性上還需要進一步的加強，研究團隊正在進行雙工模型的訓(xùn)練以及系統(tǒng)搭建，結(jié)合RLHF來增強模型表現(xiàn)力與穩(wěn)定性以及進一步擴增語音數(shù)據(jù)量以及擴展到更多的語言，請期待下一版本的更新。

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級：

大賽報名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看