始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
在AI語音交互領(lǐng)域,重大突破正在改寫格局!OpenAI尚未實現(xiàn)的實時交互,被中國團隊以創(chuàng)新性「端到端」方案成功攻克。
成果便是備受矚目的SpeechGPT 2.0-preview ,這是邁向情景智能推出的首個擬人化實時交互系統(tǒng),基于百萬小時級語音數(shù)據(jù)訓(xùn)練。
其端到端語音大模型設(shè)計,實現(xiàn)擬人口語化表達、百毫秒級低延遲響應(yīng)與實時打斷交互,還對齊語音和文本模態(tài),支持多情感風(fēng)格控制、工具調(diào)用等 ,盡顯技術(shù)創(chuàng)新實力。該模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。

模型地址
https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B
01.
模型概述
SpeechGPT 2.0-preview是邁向情景智能推出的第一個擬人化實時交互系統(tǒng)。作為在百萬小時級語音數(shù)據(jù)上訓(xùn)練的端到端語音大模型,它具有擬人口語化表達與百毫秒級低延遲響應(yīng),支持自然流暢的實時打斷交互。
SpeechGPT 2.0-preview較好的對齊了語音和文本兩個模態(tài):
一方面展現(xiàn)出了一定的風(fēng)格泛化能力,能夠遵循用戶指令,實現(xiàn)多情感、多風(fēng)格、多音色的控制與智能切換;擁有不錯的角色扮演能力,能夠模擬各類角色的語氣和情感狀態(tài);它還具備多種語音才藝,能夠進行詩歌朗誦、故事講述、說方言等;
另一方面,它在具備語音表現(xiàn)力的同時有不錯的智商與文本能力,從而具備支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識庫等功能的能力。
SpeechGPT 2.0-preview目前只在中文語音數(shù)據(jù)上做了訓(xùn)練,沒有混英文語音數(shù)據(jù)訓(xùn)練,因此目前模型還沒有英文對話能力。
02.
技術(shù)簡介
SpeechGPT 2.0-preview作為一款端到端語音對話大模型,凝聚了研究團隊在在端到端語音對話方向上的認知與技術(shù)積累和沉淀。在其開發(fā)進程中,一系列創(chuàng)新性技術(shù)與系統(tǒng)發(fā)揮了關(guān)鍵作用:
自研超低比特率流式語音Codec:能處理24khz的語音輸入,將語音壓縮至每秒75個token,支持流式輸入輸出,實現(xiàn)200ms以內(nèi)延遲的實時交互。
語音數(shù)據(jù)處理系統(tǒng):構(gòu)建了高效的語音數(shù)據(jù)爬取系統(tǒng)、多功能高效率語音數(shù)據(jù)清洗pipeline和全方面多粒度語音數(shù)據(jù)標注系統(tǒng),積累并精細標注了百萬小時級的真實語音數(shù)據(jù),為模型訓(xùn)練提供了豐富且高質(zhì)量的數(shù)據(jù)。
對話語音合成系統(tǒng):開發(fā)的對話語音合成系統(tǒng)具有高度口語化和極強音色克隆能力,基于此合成了數(shù)十萬小時的多角色多風(fēng)格語音對話數(shù)據(jù),使模型的語音輸出更加自然、豐富。
語音文本混合建模:提出新的語音文本混合建模模型架構(gòu)以及多階段語音文本混合建模訓(xùn)練流程,包括模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和鏈式模態(tài)微調(diào)等,兼顧了文本能力與語音能力,還能支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識庫等功能。
通過端到端的方式建模語音對話,SpeechGPT 2.0-preview 在實際測試中實現(xiàn)了200ms以內(nèi)的延遲,能夠為用戶提供流暢的實時交互體驗。
在實驗過程中,研究團隊也觀察到了很多有意思的現(xiàn)象和結(jié)論:比如通過充分的語音文本對齊預(yù)訓(xùn)練,發(fā)現(xiàn)模型可以"涌現(xiàn)"出語音風(fēng)格的泛化性,比如沒有用語速調(diào)整的對話數(shù)據(jù)訓(xùn)練就可以做到語速控制,比如可以扮演對話數(shù)據(jù)中從未見過的角色與風(fēng)格的語氣等;語音數(shù)據(jù)合成引擎的質(zhì)量是提升端到端語音模型的各訓(xùn)練階段能力的關(guān)鍵。
語義-聲學(xué)聯(lián)合建模的超低比特率流式語音 Codec

SpeechGPT 2.0-preview具備一系列卓越關(guān)鍵特性,其支持24khz語音輸入,采用語義-聲學(xué)聯(lián)合建模技術(shù),實現(xiàn)了低比特率—750bps(每秒75 token),還支持流式輸入輸出,極大提升交互效率與體驗。
基于Codec Patchify的語音-文本混合建模模型架構(gòu)

Codec patchify,我們通過Codec patchify來有效減小語音和文本序列之間的模態(tài)差異,從而緩解跨模態(tài)建模中的沖突問題。具體而言,該方法將相鄰T個時間步的RVQ codec token聚合為一個patch,通過patch projector模塊將其映射為統(tǒng)一的向量表示,隨后輸入到speech-text LLM中進行聯(lián)合建模。
在模型架構(gòu)設(shè)計上,LLM的隱藏狀態(tài)會同時用于兩個解碼任務(wù):一方面解碼生成文本輸出,另一方面輸入到patch decoder中進行語音重建。
特別地,研究團隊設(shè)計了一個具有多解碼頭的自回歸語言模型作為patch decoder,該模塊能夠通過自回歸方式逐步解碼,每次生成一個時間步的多個RVQ codec token,從而輸出語音。
語音文本聯(lián)合建模,靈活交叉自由組合,speech-text LLM會同時輸入和輸出語音和文本表示。
03.
模型能力
SpeechGPT 2.0-preview為用戶提供了一系列令人矚目的體驗?zāi)芰Α.?dāng)你與它交流時,會發(fā)現(xiàn)其對話輸出極為自然流暢,高度口語化的表達就如同與身邊的朋友親切交談,毫無生硬之感。在交互過程中,它能夠做到實時響應(yīng),憑借先進的技術(shù)實現(xiàn)200ms以內(nèi)的低延時,即使你在對話中途靈活打斷,它也能迅速調(diào)整,緊跟你的思路。 其生成的語音不僅情感豐富,可隨語境表達出喜怒哀樂等多種情緒,而且風(fēng)格多樣,或幽默風(fēng)趣,或沉穩(wěn)專業(yè)。值得一提的是,它還擅長角色扮演,不管是扮演歷史人物講述過去的故事,還是模擬專業(yè)人士解答疑難問題,都能游刃有余,堪稱多才多藝,為用戶帶來獨一無二的對話體驗。
SpeechGPT 2.0-preview在模型穩(wěn)定性以及音質(zhì)穩(wěn)定性上還需要進一步的加強,研究團隊正在進行雙工模型的訓(xùn)練以及系統(tǒng)搭建,結(jié)合RLHF來增強模型表現(xiàn)力與穩(wěn)定性以及進一步擴增語音數(shù)據(jù)量以及擴展到更多的語言,請期待下一版本的更新。
編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
熱門跟貼