國內開源大模型領域競爭愈發(fā)激烈。就在五一假期前夕,先是小米在上午九點左右發(fā)布并開源了MiMo-7B模型;隨后晚上六點,DeepSeek推出了其V2版本;緊接著晚上十點半,阿里再次帶來了輕量級多模態(tài)模型Qwen2.5-Omni-3B。

相比于Qwen2.5-Omni-7B,3B版本在處理長上下文時,顯存消耗降低了超過一半。同時,這款3B模型能夠在24GB的消費級GPU上實現(xiàn)長達30秒的音視頻交互,且保留了超過7B版本90%的多模態(tài)理解能力,語音輸出的準確性和穩(wěn)定性也基本持平。

值得注意的是,阿里在4月29日剛剛開源了Qwen-3模型,短短一天時間就緊接推出了量化版多模態(tài)模型,顯示出其在大模型領域持續(xù)加大投入和技術攻堅的決心。

打開網(wǎng)易新聞 查看精彩圖片

github地址:https://github.com/QwenLM/Qwen2.5-Omni

笑臉:https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

在線體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

用戶反饋非常積極,這款多模態(tài)模型終于解決了顯卡資源緊張的問題,表現(xiàn)更加穩(wěn)定可靠。

打開網(wǎng)易新聞 查看精彩圖片

哇,這真的太酷了。讓人們使用起來更便捷是向前邁出的一大步。祝賀!

打開網(wǎng)易新聞 查看精彩圖片

通義千問將是GPT的終結者。

打開網(wǎng)易新聞 查看精彩圖片

通義千問總是喜歡在不斷取得成功的道路上不知疲倦。

打開網(wǎng)易新聞 查看精彩圖片

游戲規(guī)則改變者。

打開網(wǎng)易新聞 查看精彩圖片

Qwen2.5-Omni是一款集成多種模態(tài)感知能力的端到端模型,能夠處理文本、圖像、音頻和視頻等多種信息形式,并支持以流式方式同時輸出文本和語音響應。該模型采用了創(chuàng)新的“Thinker-Talker”架構,利用時間同步的多模態(tài)RoPE位置編碼,將視頻的時間戳與音頻進行精準對齊,確保多模態(tài)數(shù)據(jù)的高效融合與交互體驗。

打開網(wǎng)易新聞 查看精彩圖片

Qwen2.5-Omni的最大亮點在于其支持完全實時的語音和視頻聊天,能夠處理分段輸入并即時反饋響應。在語音生成方面,它的表現(xiàn)優(yōu)于許多現(xiàn)有流式和非流式模型,展現(xiàn)出極強的穩(wěn)定性與自然流暢度。

該模型在多模態(tài)任務中表現(xiàn)尤為突出,無論是單一模態(tài)的語音識別、翻譯、音頻理解、圖像推理或視頻解析,還是涉及多模態(tài)融合的綜合任務如OmniBench,Qwen2.5-Omni均展現(xiàn)出卓越的能力。

從性能評測來看,Qwen2.5-Omni在與同等規(guī)模的單模態(tài)模型(如Qwen2.5-VL-7B和Qwen2-Audio)以及閉源模型Gemini-1.5-pro的比較中均表現(xiàn)優(yōu)異。它不僅在音頻處理上優(yōu)于Qwen2-Audio,同時在圖像和視頻任務中也達到了與Qwen2.5-VL-7B相當?shù)男Ч?/p>

打開網(wǎng)易新聞 查看精彩圖片

我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。 歡迎關注“福大大架構師每日一題”,讓AI助力您的未來發(fā)展。