阿里的 Qwen Chat (通義千問聊天) 現(xiàn)在可以直接進行實時語音和實時視頻聊聊天了,每天10次

全能選手 Qwen2.5-Omni 登場并開源
支撐這項新功能的,是剛剛發(fā)布的Qwen2.5-Omni-7B模型,它是一個Omni(全能)模型。簡單說,就是一個模型能同時理解文本、音頻、圖像、視頻多種輸入,并且能輸出文本和音頻
阿里繼續(xù)大搞開源,直接將 Qwen2.5-Omni-7B模型基于Apache 2.0 許可證開源了!同時,詳細的技術(shù)報告也已公開,干貨滿滿
這里是所有傳送門,方便大家深入研究和上手:
?體驗 Qwen Chat 新功能:
https://chat.qwenlm.ai
?技術(shù)報告 (Paper):
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
?官方博客:
https://qwenlm.github.io/blog/qwen2.5-omni
?GitHub 代碼倉庫:
https://github.com/QwenLM/Qwen2.5-Omni
?Hugging Face 模型:
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
?ModelScope 模型:
https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
Qwen2.5-Omni 實現(xiàn)這種全能能力的關(guān)鍵,在于其設(shè)計的「Thinker-Talker」(思考者-說話者)架構(gòu)。這個設(shè)計非常巧妙,讓模型能同時思考和說話:
1.Thinker (思考者):扮演大腦的角色。它負責處理來自文本、音頻、視頻等多種模態(tài)的輸入,通過專門的音視頻編碼器提取信息,再利用一個 Transformer 解碼器進行理解和處理,最終生成高層語義表示和相應(yīng)的文本內(nèi)容
2.Talker (說話者):擔當嘴巴的功能。它以流式(streaming)方式接收 Thinker 生成的高層表示和文本,并采用一種雙軌自回歸 Transformer 解碼器架構(gòu),流暢地合成并輸出離散的語音單元(tokens)。
關(guān)鍵點在于,Talker 并非獨立工作,它能直接獲取 Thinker 產(chǎn)生的高維表示,并且共享 Thinker 全部歷史上下文信息。這使得 Thinker 和 Talker 構(gòu)成了一個緊密協(xié)作的單一整體模型,可以進行端到端的訓練和推理。這種設(shè)計是實現(xiàn)低延遲、高流暢度語音交互的核心

性能表現(xiàn)如何?全面且強大
研究團隊對 Qwen2.5-Omni 進行了全面評估,結(jié)果相當亮眼:
跨模態(tài)能力 SOTA:在需要整合多種模態(tài)信息的任務(wù)上(如 OmniBench 基準測試),Qwen2.5-Omni 達到了當前最佳水平(State-of-the-Art)
單模態(tài)能力不俗:與同等規(guī)模的單模態(tài)模型(如 Qwen2.5-VL-7B、Qwen2-Audio)以及一些強大的閉源模型(如 Gemini-1.5-pro)相比,Qwen2.5-Omni 在各項單模態(tài)任務(wù)上也展現(xiàn)出強大的競爭力。具體包括:
*語音識別:Common Voice
*語音翻譯:CoVoST2
*音頻理解:MMAU
*圖像推理:MMMU, MMStar
*視頻理解:MVBench
*語音生成:Seed-tts-eval 及主觀自然度評估
可以說,Qwen2.5-Omni 在保持全能的同時,并沒有犧牲在各個垂直領(lǐng)域的能力

總結(jié):

?星標AI寒武紀,好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
熱門跟貼