阿里通義千問又整了一個大新聞。
昨日凌晨,一款只有70億參數(shù)的Qwen2.5-Omni“小模型”悄悄上線,并在權(quán)威的多模態(tài)融合任務評測OmniBench中,一舉刷新了業(yè)界紀錄,超越了谷歌Gemini-1.5-Pro等眾多同類模型。

說Qwen2.5-Omni-7B這個大模型“小”,還是因為它的尺寸,僅有70億參數(shù),但它卻是時下全球性能最強的端到端全模態(tài)大模型,能夠同時處理文本、圖像、音頻、視頻等多種模態(tài)信息,并實時輸出文本與自然語音,而且,在seed-tts-eval語音生成基準測試中,展現(xiàn)出與人類水平相當?shù)恼Z音合成能力。
自從阿里在QwQ-32B這款“小而強”的大模型上看到了適用性的巨大潛力以來,把模型做“小”,增強端側(cè)的普適性似乎就成了阿里在大模型這條賽道上的主攻方向。
能放進手機里的大模型
在過去的數(shù)月間,我們已經(jīng)見到了太多裝著滿血大模型的洗衣機、電冰箱、電飯鍋,乃至中藥泡腳桶。就像電動機剛出現(xiàn)的時候那樣,不管有用沒用,所有的東西都要來一遍電氣化,這個時間持續(xù)了上百年。就像王堅院士所言,電動汽車,是人類電氣化改造的最后一個行業(yè)。
大模型的發(fā)展路徑似乎亦是如此,當羊毛大衣也開始打出大模型廣告的時候,沸騰且喧囂的行業(yè)也就到了歸納總結(jié)換方向的時候了,大模型產(chǎn)業(yè)的落地,從是否有接入為標準,一步進化到接入后有沒有用的新范式。
阿里通義Qwen2.5-Omni-7B可能就是理順這一切的關(guān)鍵工具。它從需求側(cè)出發(fā),采用了Thinker-Talker架構(gòu),前者類似人類大腦,負責處理和理解來自文本、音頻、視頻等多模態(tài)輸入信息,后者則是嘴巴,以流式的方式接收Thinker實時輸出的語義表征與文本,然后合成離散語音tokens,由此就實現(xiàn)了語義理解與語音生成的高效協(xié)同。簡而言之,因為它,大模型開始會說“人話”了。
大模型會說話有多重要呢,至少情緒價值是給足了。
比如你找不到路了,它會告訴你,“先別太慌,看看有沒有其它辦法,讓你快點兒到會議室”,隨后給你制定一條最快達到的路線。
再或者,當你不確定超市里售賣的零食有沒有“科技和狠活”的時候,它也能從配料表里分析個頭頭是道,指導你的膳食健康。
當然了,這些都是最日常的應用,并不能完全展現(xiàn)Qwen2.5-Omni-7B的實力。在更多專業(yè)領域,它在語音理解、視頻理解、語音生成等領域的測評分數(shù),均領先于專門的Audio或VL模型,且4.51的語音生成測評分數(shù)已經(jīng)達到了與人類持平的能力。換言之,有了這款大模型,真正的自然語音人機對話就成為了現(xiàn)實。


如果你是一名音樂愛好者,你甚至可以對著它彈奏,然后讓它給出指導意見,進一步精進自己的吉他技術(shù)。而在此之前,大部分大模型所能做的,還需要先上傳錄音,然后它再通過文本的方式輸出指導意見。
這種方式當然也很“智能”,只是從用戶的感受角度來說,似乎遠遠不夠“酷”。而Qwen2.5-Omni-7B則不一樣,它因為優(yōu)化了實時交互能力,支持即時輸出,你問什么它就能答什么,展現(xiàn)出了極強的實用性——你不會覺著自己是在和機器對話,而是一個真正的朋友。
不知道你有沒有注意到,在上述的例子中,Qwen2.5-Omni-7B一直都是以手機的形態(tài)在出現(xiàn),這恰恰就是它最強的地方,甚至于比模型參數(shù)的尺寸還要重要的多。
因為它足夠小巧,能裝進手機,所以在適用性上一下子多了無數(shù)的場景,又因為它能說“人話”,在能力展現(xiàn)上又多出了一個維度的可能性。
據(jù)可靠消息, 目前除了在蘋果手機上,Qwen2.5-Omni-7B主導著手機“智能”的一面,在國內(nèi)其它90%的手機上,背后都有它的身影,不管是旅行時問餐館旅店,還是閱讀論文做計算,Qwen2.5-Omni-7B都會“聽聲”而出。
為什么蘋果及其它手機品牌會選擇Qwen2.5-Omni-7B來合作,根本原因還是大模型的效率問題,手機太小,性能和續(xù)航也極其有限,必須要把有限的資源放在最重要的地方。
在以往,很多大模型也能根據(jù)文本或者語音、視頻輸出對話,但它們都是通過各個不同的相對應的模型來實現(xiàn)的。好比你去超市買東西,牛奶在一個區(qū),餅干在一個區(qū),洗發(fā)水又在另一個區(qū),要實現(xiàn)這三件目標,相互獨立的單鏈路模型首先就得去這三個地方分別提取商品(理解語義),然后再分別輸出給你,Qwen2.5-Omni-7B就不一樣了,你只要在超市門口喊一嗓子,“我要牛奶餅干洗發(fā)水”,屏幕和喇叭馬上輸出出全部你想要的內(nèi)容。
正是因為用一個模型打通“聽、說、看”的全鏈路特性,Qwen2.5-Omni-7B才獲得了手機廠商們的集體青睞,并且成為了全球性能最強的端到端全模態(tài)大模型。
全模態(tài)革命,Qwen2.5-Omni-7B重構(gòu)未來產(chǎn)業(yè)圖景
AI大模型亟需要落地。
Qwen2.5-Omni-7B的出現(xiàn)正是AI這一核心價值的具體展現(xiàn),事實上,AI的深層次價值就是在于更貼近人類認知和現(xiàn)實世界的需求,這不僅是邁向AGI(通用人工智能)的必經(jīng)之路,也是大模型發(fā)展的必然趨勢。
在邁向這一遠景的征途中,除了手機以外,以Qwen2.5-Omni-7B為代表的大模型第一個改變的就應該是智能硬件產(chǎn)業(yè),其70億參數(shù)的尺寸使其非常適合在端側(cè)部署,打造出更智能、更便捷的用戶體驗。
比如掃地機器人可以依靠該模型完成復雜任務,不再被桌腿卡住而哇哇亂叫一整天;冰箱和煙機灶具聯(lián)手,通過食材主動推薦菜譜并完成烹飪程序;AR眼鏡以此實現(xiàn)更自然的語音交互和實時信息獲取,徹底改造它的使用場景。
此外,學生可以通過語音提問、文字輸入以及上傳相關(guān)的圖像或視頻資料等方式與模型進行交互,Qwen2.5-Omni-7B則夠根據(jù)這些多模態(tài)輸入,及時解答學生的問題,并提供針對性的學習建議和輔導資料。這不僅有助于提高學生的學習興趣和積極性,還能幫助教師更好地了解學生的學習需求,優(yōu)化教學過程,提升教育質(zhì)量。
醫(yī)療領域一直是人工智能應用的重要場景之一。能夠同時處理文本、圖像、音頻、視頻等多種模態(tài)信息,這使得Qwen2.5-Omni-7B在醫(yī)療診斷方面具備了巨大優(yōu)勢。醫(yī)生可以借助該模型,綜合分析患者的病歷文本、醫(yī)學影像、語音描述等多模態(tài)數(shù)據(jù),從而更全面地了解病情,提高診斷的準確性和效率。
例如,在分析X光片、CT影像等醫(yī)學圖像時,Qwen2.5-Omni-7B能夠快速識別出異常區(qū)域,并結(jié)合患者的病史和其他相關(guān)信息,為醫(yī)生提供更精準的診斷建議。它還可以根據(jù)患者的個體特征和病情發(fā)展,輔助制定個性化的治療方案,推動醫(yī)療行業(yè)向更加精準、高效的個性化醫(yī)療時代邁進。
總之,Qwen2.5-Omni-7B作為一款性能卓越的全模態(tài)大模型,其在醫(yī)療、教育、智能硬件、電商、金融等多個行業(yè)都具有廣闊的應用前景和變革潛力。隨著技術(shù)的不斷進步和應用場景的不斷拓展,Qwen2.5-Omni-7B必將為各行業(yè)帶來更多的創(chuàng)新機遇,推動產(chǎn)業(yè)的智能化升級和高質(zhì)量發(fā)展,為人們的生活和社會的進步創(chuàng)造更大的價值。
熱門跟貼