金磊 發(fā)自 上海
量子位 | 公眾號(hào) QbitAI

不得了。

現(xiàn)在的國產(chǎn)AI應(yīng)用,一口氣看好幾分鐘的視頻,都可以直接做推理解析了!

瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

它會(huì)對(duì)整個(gè)視頻的內(nèi)容先做一個(gè)總結(jié),再按照秒級(jí),對(duì)視頻片段做內(nèi)容上的推演。

如果再給這個(gè)AI“喂”上一段足球游戲,它又會(huì)秒變成一位資深解說員:

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

這一次,在視頻總結(jié)和視頻要點(diǎn)之后,我們繼續(xù)提出要求:

  • 請(qǐng)幫我剪輯視頻中的片段,包含任意由客戶指定的場(chǎng)景,提取相關(guān)片段,標(biāo)明時(shí)間范圍,并為每個(gè)片段配上解說文案,用戶場(chǎng)景為:進(jìn)球時(shí)刻。

它就會(huì)立即執(zhí)行深度思考,自動(dòng)剪輯出一段8秒的高光片段,并附上建議搭配的音樂或音效:

打開網(wǎng)易新聞 查看精彩圖片

這便是商湯最新升級(jí)的日日新SenseNova V6解鎖的新能力——

原生多模態(tài)通用大模型,采用6000億參數(shù)MoE架構(gòu),實(shí)現(xiàn)文本、圖像和視頻的原生融合。

打開網(wǎng)易新聞 查看精彩圖片

從性能評(píng)測(cè)來看,SenseNova V6已經(jīng)在純文本任務(wù)和多模態(tài)任務(wù)中,多項(xiàng)指標(biāo)均已超越GPT-4.5、Gemini 2.0 Pro,并全面超越DeepSeek V3:

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)推理能力上,日日新V6/V6 Reasoner的多模態(tài)和語言深度推理任務(wù)上同時(shí)超過了OpenAI的o1和Gemini 2.0 flash-thinking的水平。

打開網(wǎng)易新聞 查看精彩圖片

同時(shí)在小版本的模型上,SenseNova V6的各項(xiàng)成績也超越GPT-4o:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

縱觀整體,可以將商湯此次發(fā)布新模型的特點(diǎn)總結(jié)為三個(gè)關(guān)鍵詞——

強(qiáng)推理、強(qiáng)交互長記憶。

那么具體效果如何,我們繼續(xù)往下看。

邊看邊聽邊理解的AI

邊看邊聽邊理解的AI

這次我們的實(shí)測(cè)主要聚焦在實(shí)時(shí)音視頻交互的能力上。

我們直接用全新版本的商量APP(內(nèi)測(cè)版)來做一波測(cè)試。

測(cè)試的視頻,便是最近大火的韓劇《苦盡柑來遇見你》中女主媽媽讓婆婆陪她一起去拍遺像的片段:

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

AI在看了整整五分鐘視頻之后,對(duì)于我們的三連問都給出了精準(zhǔn)的答案:

  • 你覺得剛才這兩位女士是什么關(guān)系?
  • 你覺得這兩個(gè)女士為什么要去照相館照相?
  • 畫面中這位女士最后的結(jié)果是怎么樣的?

不僅如此啊,從AI的回復(fù)中,我們也可以聽出情緒上的變化,對(duì)于這樣令無數(shù)人催淚的橋段,它作答的情緒也是略帶sad。

再來一個(gè)比較有意思的——看圖猜城市

打開網(wǎng)易新聞 查看精彩圖片

AI的回答如下:

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

在一番深度思考之后,AI是精準(zhǔn)猜到了長沙這個(gè)城市。

類似的,我們?cè)賮碜鲆粋€(gè)猜成語的游戲,題目長這樣:

打開網(wǎng)易新聞 查看精彩圖片

這一次,AI更是沒有過多的“廢話”,直擊要害地給出了答案——緣木求魚。

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

不光是有趣,在面對(duì)日常生活中的問題,商湯SenseNova V6更是能夠體現(xiàn)它有用的價(jià)值。

比如給小朋友輔導(dǎo)數(shù)學(xué)題,現(xiàn)在真的就是一拍一問就可以的事情了。

要知道,普通大模型只會(huì)提供千篇一律的標(biāo)準(zhǔn)答案,無法基于不同的解題思路提供指導(dǎo)。

但日日新V6不但能識(shí)別手寫體,還能夠提供針對(duì)錯(cuò)誤點(diǎn)的一對(duì)一引導(dǎo)式講解,并給與高效輔導(dǎo):

打開網(wǎng)易新聞 查看精彩圖片

視頻地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw

從多種維度的實(shí)測(cè)來看,SenseNova V6是具備了高度擬人化的感知、表達(dá)和情感理解能力,可針對(duì)不同的對(duì)話內(nèi)容和場(chǎng)景需求,即時(shí)靈活地切換語氣、情感與音調(diào)。

同時(shí),它還擁有較強(qiáng)的實(shí)時(shí)交互、視覺識(shí)別、記憶思考、持續(xù)對(duì)話和復(fù)雜推理等能力。

除此之外,商湯的SenseNova V6,還上身了今年持續(xù)爆火的具身智能,可以說是用它多模態(tài)的能力,給機(jī)器人裝上大腦、眼睛、耳朵和嘴巴:

打開網(wǎng)易新聞 查看精彩圖片

怎么做到的?

怎么做到的?

看完各種實(shí)測(cè),我們?cè)賮砹牧腟enseNova V6背后的原理。

為了更好地理解,量子位與商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華請(qǐng)教了一番。

首先,就是商湯自研的原生多模態(tài)融合訓(xùn)練技術(shù)。

這是一種能夠?qū)⒍喾N模態(tài)信息(如文本、圖像、視頻、音頻等)在模型架構(gòu)和訓(xùn)練過程中進(jìn)行深度融合的AI模型架構(gòu)。

與傳統(tǒng)的將語言模型和多模態(tài)模型分立的方式不同,它通過橋接技術(shù)(如補(bǔ)充訓(xùn)練數(shù)據(jù)和模態(tài)關(guān)聯(lián)機(jī)制)實(shí)現(xiàn)模態(tài)間的協(xié)同,避免傳統(tǒng)方法中“蹺蹺板效應(yīng)”(即增強(qiáng)某一模態(tài)能力導(dǎo)致另一模態(tài)能力下降)。

這種設(shè)計(jì)能更自然處理復(fù)雜場(chǎng)景(如漫畫理解、視頻分析),捕捉跨模態(tài)的細(xì)節(jié)關(guān)聯(lián)(如圖像中的隱含信息)。

在今年1月份的權(quán)威評(píng)測(cè)榜單SuperCLUE(語言模型綜合榜單)和OpenCompass(多模態(tài)綜合榜單)上均位列國內(nèi)第一,這也充分證明了該技術(shù)的強(qiáng)大潛力。

其次,是多模態(tài)長思維鏈合成技術(shù)。

打開網(wǎng)易新聞 查看精彩圖片

面對(duì)復(fù)雜推理任務(wù),傳統(tǒng)AI模型容易因信息過長而丟失關(guān)鍵邏輯;商湯的這一技術(shù)可以通過多智能體協(xié)作,實(shí)現(xiàn)超長思維鏈的生成與驗(yàn)證(目前儲(chǔ)備超1000萬條思維鏈數(shù)據(jù))。

具體而言,它可以合成并理解64K tokens(約5萬字)的多模態(tài)長思維鏈,使模型具備長時(shí)間、多步驟的深度思考能力,適用于數(shù)學(xué)推導(dǎo)、科學(xué)分析、長文檔理解等場(chǎng)景。

林達(dá)華舉例說明,模型在回答問題時(shí)能逐步關(guān)聯(lián)圖像細(xì)節(jié)(如漫畫中的海鷗表情),最終生成富有創(chuàng)造力的輸出。

除此之外,還有多模態(tài)混合增強(qiáng)學(xué)習(xí)。

打開網(wǎng)易新聞 查看精彩圖片

這一技術(shù)的提出主要是為了平衡模型的邏輯推理能力和情感表達(dá)能力。

它同時(shí)采用基于人類偏好的RLHF(強(qiáng)化學(xué)習(xí)人類反饋)和基于確定性答案的RFT(強(qiáng)化學(xué)習(xí)事實(shí)訓(xùn)練),使模型既符合人類喜好,又保證事實(shí)準(zhǔn)確性。

并且通過智能權(quán)重調(diào)整,確保模型在提升推理能力的同時(shí),不會(huì)變得機(jī)械生硬,仍能自然表達(dá)情感。

最后,便是長視頻統(tǒng)一表征和動(dòng)態(tài)壓縮。

打開網(wǎng)易新聞 查看精彩圖片

長視頻理解一直是AI的難題,商湯的統(tǒng)一時(shí)序表征技術(shù)實(shí)現(xiàn)了跨模態(tài)信息的高效對(duì)齊與壓縮。

它可以將畫面(視覺)、語音(聽覺)、字幕(文本)、時(shí)間邏輯統(tǒng)一編碼,形成連貫的時(shí)序表征。

在采用細(xì)粒度級(jí)聯(lián)壓縮+內(nèi)容敏感過濾之后,10分鐘的長視頻可壓縮至16K tokens(僅為原始數(shù)據(jù)的極小部分),同時(shí)保留核心語義,大幅提升處理效率。

以上四大技術(shù),便是商湯SenseNova V6背后的殺手锏了。

不僅要日日新,還要天天用

不僅要日日新,還要天天用

遙想百模大戰(zhàn)之初,商湯CEO徐立博士解釋過為何商湯大模型會(huì)取名為“日日新”:

  • 靈感源自中國古代經(jīng)典《禮記·大學(xué)》中的名句“茍日新,日日新,又日新”

其本意是如果一天能夠自新,就該天天自新,持續(xù)不斷地革新;這也意味著商湯的大模型版本會(huì)持續(xù)更新,能力“日新月異”。

現(xiàn)在回頭來看,從SenseNova V1到現(xiàn)在的V6,商湯大模型發(fā)展速度確實(shí)是做到這一點(diǎn):平均3-4個(gè)月便會(huì)有一次的迭代。

而從今天的發(fā)布會(huì)來看,不論是從技術(shù)的解讀,亦或是案例、demo的分享,無不在劍指易用性。

大到城市管理、物業(yè)運(yùn)營、電網(wǎng)巡檢,小到數(shù)學(xué)解題、游戲解說、繪本故事……

一言蔽之,商湯在透露的核心觀點(diǎn)便是:

  • AI之道,在于百姓之日用。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)此,徐立博士也對(duì)量子位做了更進(jìn)一步的闡述:

  • 推理能力、多模態(tài)能力、模型融合能力,讓AI的通用智能大大泛化,不光能推進(jìn)科學(xué)探索,也能解決老百姓的日常痛點(diǎn)和所需。
  • 核心還是AI通用能力的實(shí)現(xiàn),我認(rèn)為當(dāng)下正是多模態(tài)智能的涌現(xiàn)期。

除此之外,借著此次SenseNova V6“上身”具身智能,還延伸出了一個(gè)有趣的話題——

前不久某知名創(chuàng)投圈大佬一句“批量退出具身智能”引發(fā)了不小熱議。

對(duì)此,商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:

  • 這種觀點(diǎn)很好,科技創(chuàng)新產(chǎn)業(yè)需要這種質(zhì)疑,我們需要直面且客服這種質(zhì)疑,才能邁向更認(rèn)真嚴(yán)肅的產(chǎn)業(yè)階段。
  • 具身智能可能還是試驗(yàn)階段的東西,但我個(gè)人非常有信心,能跟合作伙伴一起為產(chǎn)業(yè)提供更多的價(jià)值。

銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:

  • 有不同討論聲音的時(shí)候,說明大家真的在嚴(yán)肅的討論這個(gè)問題;但這并不意味著具身智能的泡沫有多嚴(yán)重,這是科技創(chuàng)新的驅(qū)動(dòng)力。
  • 我作為科研人員,從謹(jǐn)慎樂觀的角度來看,泡沫對(duì)于創(chuàng)新是非常正常的。
  • 例如騎馬的時(shí)候,對(duì)汽車就是泡沫;是對(duì)技術(shù)的想象力和邊界產(chǎn)生了突破,我們要從宏觀的需求出發(fā),把這個(gè)技術(shù)落實(shí)下進(jìn)去,把對(duì)前沿科技的想象變成真正的產(chǎn)品。

除此之外,上海交通大學(xué)副教授閆維新對(duì)這個(gè)問題的看法是:

  • 泡沫是遠(yuǎn)離了價(jià)值以外的內(nèi)容,只要大方向正確,與之相關(guān)的應(yīng)用、落地的發(fā)展中過程中,我們需要冷靜思考,是否能夠像人一樣有感知力和執(zhí)行力去滿足公眾需求。
  • 我認(rèn)為危險(xiǎn)替代就是具身智能一個(gè)非常好的場(chǎng)景,3-5年后是可以看到的。

打開網(wǎng)易新聞 查看精彩圖片

總而言之,商湯作為國內(nèi)大模型代表性玩家,它今天所強(qiáng)調(diào)的“AI之道”,一來是符合當(dāng)今大模型發(fā)展“應(yīng)用為王”的趨勢(shì),更是反應(yīng)出了AI發(fā)展的根本價(jià)值取向——

技術(shù)必須服務(wù)于人的真實(shí)需求,融入日常生活,解決實(shí)際問題。

那么今天,你用AI了嗎?趕快去試試SenseNova V6吧~

chat.sensetime.com