
新智元報(bào)道
編輯:編輯部 YZNH
【新智元導(dǎo)讀】就在剛剛,商湯第六代大模型震撼升級(jí),強(qiáng)推理、強(qiáng)交互、長記憶能力拉滿。更驚人的是,這個(gè)模型徹底了實(shí)現(xiàn)文本、圖像和視頻的原生融合,看一段幾分鐘柯南視頻,就能推斷出兇手的作案手法,推理絕了!
商湯多模態(tài)大模型,剛剛震撼升級(jí)V6。
從此,日日新SenseNova V6成為真正的原生多模態(tài)通用大模型,完全實(shí)現(xiàn)了文本、圖像和視頻的原生融合。
新升級(jí)的模型,能力值簡直拉滿,看完幾分鐘的視頻,能立馬進(jìn)行深度理解,還能給出推理分析!
比如柯南里「看不見的兇器」這集,兇手究竟是怎么下毒的?
喂一段2分多鐘的視頻,模型就給出了正確分析:兇手大概率是通過妻子每日開的車進(jìn)行間接投毒的。
在分析中,它甚至直接猜出了關(guān)鍵線索——兇手很可能是將毒藥涂抹在了空調(diào)系統(tǒng)管道中。
我們特意去名偵探柯南的動(dòng)畫中考證了一番,模型給出的,就是正確答案!

甚至,它還能自動(dòng)變成「剪刀手」,幫我們剪輯出想要的視頻片段,還給出搭配bgm的建議。
比如給它一段《黑神話·悟空》的經(jīng)典雪地打斗片段后,它就會(huì)根據(jù)要求剪出「精彩的閃躲」高光時(shí)刻,甚至為每個(gè)片段都配上了解說文案。
「歡迎來到黑神話悟空的戰(zhàn)斗世界,當(dāng)boss從飛檐縱身躍下,注意他長矛劃出的完美拋物線?!惯@文案實(shí)在太地道了。
在圖像理解與推理方面,它可以正確地總結(jié)出斯坦福HAI「2025 AI Index」報(bào)告中圖表的內(nèi)容,包括這一年頂尖大模型的性能趨于相近,以及競爭激烈的現(xiàn)象。
同時(shí),它還總結(jié)出了各大模型的動(dòng)態(tài)規(guī)律,以及隱含意義,點(diǎn)出下一階段的決勝關(guān)鍵,就是差異化功能、垂直場景應(yīng)用。


在音頻通話中,我們可以隨時(shí)打斷它,它接得住各種類型的話茬,還能用開心、沮喪等各種情緒和我們說話。
它可以情緒飽滿地讀一首《滿江紅》。
手頭晦澀的英文資料,也可以請(qǐng)它幫忙給出介紹了,比如DeepSeek這篇論文的摘要,它看一眼就可以幫忙給出總結(jié)。
而且,這個(gè)600B的MoE模型不僅解鎖了「強(qiáng)推理、強(qiáng)交互、長記憶」的超強(qiáng)能力,還實(shí)打?qū)嵉貦M掃了各類榜單。
在純文本和多模態(tài)任務(wù)上,它在多項(xiàng)指標(biāo)上超越了GPT-4.5、Gemini 2.0 Pro,甚至全面碾壓DeepSeek V3。
從此,SenseNova V6瞬間解鎖更多高級(jí)場景,再次大大拓寬大模型的應(yīng)用邊界!
多模態(tài)「全能王」誕生
2025的AI舞臺(tái),依舊硝煙彌漫。
單純堆砌參數(shù)的Scaling Law正走向盡頭,效率、多模態(tài)、推理能力成為了全新的競技場。
從GPT-4.5、Gemini 2.5 Pro到剛剛發(fā)布的Llama 4,全球頂尖玩家都在加碼多模態(tài)融合,而商湯也以「日日新SenseNova V6」系列,強(qiáng)勢殺入這場王者之戰(zhàn)。
綜合來看,業(yè)界大模型競爭已從量變轉(zhuǎn)向質(zhì)變,三大趨勢清晰可見:
效率為王,參數(shù)邊際收益越來越小,業(yè)界不再盲目擴(kuò)大參數(shù)量,而是轉(zhuǎn)向模型架構(gòu)創(chuàng)新和高密度數(shù)據(jù)合成,提升 scale斜率。
多模態(tài)登頂,信息融合成為核心。文字、圖像、視頻不再是割裂輸入,而是通過深度融合,帶來更完整的場景價(jià)值。
深度推理能力成焦點(diǎn),更是AI切入高價(jià)值場景的關(guān)鍵。過去,推理多停留在數(shù)理求解任務(wù)上,但未來,它必須與多模態(tài)結(jié)合,才得以應(yīng)對(duì)真實(shí)世界的復(fù)雜挑戰(zhàn)。
原生多模態(tài)融合,三點(diǎn)全面突破
商湯敏銳地捕捉到這三大技術(shù)走向,以此為藍(lán)圖,才打造出SenseNova V6系列,劍指三大技術(shù)高地——
多模態(tài)長思維鏈、多模態(tài)強(qiáng)化學(xué)習(xí)、多模態(tài)全局記憶

在他們看來,真正有價(jià)值的大模型,必須要做到兩點(diǎn):一是能融入真實(shí)業(yè)務(wù),解決復(fù)雜問題;二是能與人自然交互,讓人愿意持續(xù)聊天。
接下來,就讓我們解剖SenseNova V6,看看這款模型憑什么敢挑戰(zhàn)全球頂尖?
基石王者:SenseNova V6 Pro/Reasoner Pro
SenseNova V6 Pro是原生多模態(tài)通用大模型,共有6000億參數(shù),采用了MoE架構(gòu),原生融合了文本、圖像、視頻元素,綜合性能全面開花。
在純文本和多模態(tài)任務(wù)上,SenseNova V6 Pro性能直逼Gemini 2.0 Pro和GPT-4.5。
推理版Reasoner Pro在SenseNova V6 Pro的基礎(chǔ)上,通過多模態(tài)長CoT訓(xùn)練和多模態(tài)增強(qiáng)學(xué)習(xí),推理能力大幅提升。
相較于上一代SenseNova 5.5,Pro推理版多模態(tài)融合能力更強(qiáng)。
甚至,它能夠?qū)?biāo)OpenAI o1和Gemini 2.0 Flash-thinking,輕松破解多模態(tài)復(fù)雜任務(wù)。

此外,SenseNova V6還有面向?qū)崟r(shí)交互、視頻理解等場景的小版本。通過深度融合了語言、語音、視頻,支持視頻-語音端到端實(shí)時(shí)交互,綜合性能直接對(duì)標(biāo)GPT-4o mini,但共情能力和情感語音交互更勝一籌。
四大技術(shù)創(chuàng)新
SenseNova V6的耀眼表現(xiàn),背后是商湯多年技術(shù)積累的爆發(fā)。
2025年1月,商湯融合模型拿下了SuperCLUE 2024年語言模型綜合榜和OpenCompass多模態(tài)綜合榜國內(nèi)第一。
這恰恰驗(yàn)證了,原生多模態(tài)融合訓(xùn)練技術(shù)的巨大潛力。
如今,他們技術(shù)沿著這條路線持續(xù)優(yōu)化和scale,SenseNova V6的性能得以再上新的臺(tái)階。
面對(duì)復(fù)雜問題,SenseNova V6能夠像人類一樣深度思考,一步步推理出答案,正是因?yàn)槠洳捎昧硕嗄B(tài)長思維鏈合成技術(shù)。
通過多智能體協(xié)作,進(jìn)行長CoT合成和驗(yàn)證,最終實(shí)現(xiàn)了64K多模態(tài)長思維鏈,讓模型具備長思考能力。
此外,商湯還構(gòu)建了面向多種圖文任務(wù)「混合增強(qiáng)學(xué)習(xí)」框架,融合了RLHF和RFT,動(dòng)態(tài)去調(diào)節(jié)主客觀表現(xiàn)。
這樣一來,SenseNova V6在推理能力提升的同時(shí),情感表達(dá)也不會(huì)打折。
SenseNova V6能夠處理10分鐘視頻,因其將視覺信息(畫面)、聽覺信息(語音、音效)、語言信息(字幕、口語)、時(shí)間軸邏輯進(jìn)行對(duì)齊,形成了統(tǒng)一表征,再通過動(dòng)態(tài)壓縮保留了關(guān)鍵語義。

由此,10分鐘視頻被大幅濃縮到16k token,既高效又精準(zhǔn),為長視頻理解開辟了全新格局。
看得出,SenseNova V6的誕生,是商湯多年來技術(shù)的集大成。
更重要的是,它并沒有停留在實(shí)驗(yàn)室,已經(jīng)在企業(yè)助手、機(jī)器人等交互場景中落地開花。
從辦公神器到機(jī)器人,「日日新」日日用
如今,全新SenseNova V6多模態(tài)大模型正在解鎖一系列令人驚嘆的應(yīng)用場景。
從打工人效率神器,到深耕日常場景智能助手,再到賦予機(jī)器人「靈魂」,V6正用技術(shù)溫暖生活。
AI的價(jià)值在于解決日常中的繁瑣與痛點(diǎn),讓技術(shù)真正服務(wù)于人。
正如商湯科技創(chuàng)始人徐立所言,「AI之道,在于百姓之日用」。接下來,讓我們一探究竟,V6如何走進(jìn)每個(gè)人生活。
打工人神器,效率倍增
在辦公領(lǐng)域,SenseNova V6再次賦能商湯AI超級(jí)助手——辦公小浣熊。
它是一個(gè)將LLM融入規(guī)劃、數(shù)據(jù)分析、文檔編輯的辦公助手,通過Plan-Analyze-Write三步法,重塑工作流。
舉個(gè)栗子,讓AI幫你去分析餐廳評(píng)論數(shù)據(jù),不到1分鐘時(shí)間,小浣熊就給出了完整建議。
在輸出內(nèi)容左下角,還有「創(chuàng)建一個(gè)新文檔」選項(xiàng),不用跳出網(wǎng)頁端,便可在一鍵生成的內(nèi)容上,與AI再次共創(chuàng)。
針對(duì)開發(fā)者,還有專門的代碼小浣熊,能讓編碼效率蹭蹭提升。
它覆蓋了軟件需求分析、架構(gòu)設(shè)計(jì)、代碼編寫、軟件測試等多個(gè)環(huán)節(jié),可以實(shí)現(xiàn)代碼編寫、編程學(xué)習(xí)等各類需求。
關(guān)鍵是,它還能支持Python、Java、JavaScript等100+編程語言,兼容VS Code、JetBrains系列等主流IDE。
假設(shè)上傳一份產(chǎn)品需求文檔,然后要求寫一個(gè)公有云上微信掃碼訂單模塊,AI會(huì)迅速給出解決方案。
具體來說,它的主要功能包括智能代碼補(bǔ)全、AI代碼對(duì)話、代碼編輯、多模態(tài)軟件研發(fā)、面向企業(yè)級(jí)BizDevOps提供全面智能輔助等。

使用代碼小浣熊后,開發(fā)者的開發(fā)效率提升了50%+,企業(yè)的研發(fā)效率提升了30%+
此外,在商業(yè)保險(xiǎn)核賠中,傳統(tǒng)財(cái)務(wù)人工審核往往耗時(shí)3-7天,且規(guī)則雜難以完全定義。
日日新V6通過學(xué)習(xí)海量數(shù)據(jù),便能迅速發(fā)現(xiàn)單據(jù)中存在的問題,大幅提升了效率并降低錯(cuò)誤率。
比如下面這個(gè)例子,V6就檢查出上傳的憑據(jù)金額不符、時(shí)間矛盾,并且還有處方藥的單子需要補(bǔ)全。
不僅如此,它還發(fā)現(xiàn)了一些非常細(xì)節(jié)的瑕疵——體重沒填、醫(yī)生也沒有簽名等等。
而這一系列風(fēng)險(xiǎn)的提示,都是V6自己進(jìn)行交叉驗(yàn)證之后獲得的。

再比如,一家咖啡店收集了用戶各種反饋,V6通過多模態(tài)分析后,能生成SWOT報(bào)告,指出推廣潛力并給出具體方案。

記賬購物,節(jié)支小幫手
不僅如此,「日日新」多模態(tài)大模型正深入到普通人的每個(gè)生活場景中,讓AI變得更加觸手可及。
就比如,大多數(shù)人會(huì)記賬,那么AI加持的記賬,又會(huì)有何不同呢?
「咔皮記賬」,這款聚焦于消費(fèi)和財(cái)務(wù)管理的工具,采用了Multi-Agent模式,通過「分時(shí)動(dòng)態(tài)推理」靈活分配資源,精準(zhǔn)響應(yīng)需求。
比如,MBTI消費(fèi)分析報(bào)告這個(gè)功能,就把游戲趣味和專業(yè)分析結(jié)合了起來。使用時(shí)不僅能看到表達(dá)高度自由的思維鏈,而且任務(wù)生成的網(wǎng)頁也是實(shí)時(shí)渲染的。


另一大常見的場景,便是上網(wǎng)購物了。
面對(duì)不同平臺(tái)上五花八門折扣信息,難以快速對(duì)比快速抉擇,不如就交給AI。
這時(shí),難點(diǎn)來了——各個(gè)平臺(tái)的布局,差異極大。
比如關(guān)于打折的信息,有的寫在黃色的背景上,有的寫在藍(lán)色的背景上,還有的則是跟在其他文字的后面。
更麻煩的是,包裝的規(guī)格也不盡相同:有80抽16包,有60抽5包的,還有110抽12包的。
對(duì)此,V6不僅能綜合分析商品價(jià)格、包裝、促銷等信息,甚至還可以細(xì)化到「每抽紙巾的單價(jià)」,推薦出最優(yōu)購買方案。

不論是賬,還是購物,省錢也有了小技巧。

機(jī)器人有了「靈魂」
在機(jī)器人領(lǐng)域,SenseNova V6,讓它們不僅讓能「看」清環(huán)境細(xì)節(jié),「聽」懂你的指令,「說」出自然流暢的回答,甚至通過推理,還能讀懂你的情緒。
更厲害的是,V6能夠做到讓機(jī)器人語言和動(dòng)作同步,比如講解時(shí),它會(huì)一遍娓娓道來,一邊用手勢表達(dá);或是對(duì)情緒感知后,做出肢體反應(yīng)的動(dòng)作。
商湯用AI讓機(jī)器人不再是冰冷冷的工具,而是生活中智慧又貼心的伙伴,開啟了人機(jī)交互新時(shí)代。
無論是管理需求、教學(xué)輔助,還是銷售報(bào)告,V6均能處理非結(jié)構(gòu)化數(shù)據(jù),應(yīng)對(duì)開放式問題。
我們可以看到,商湯多模態(tài)大模型,正以「百姓之日用」為導(dǎo)向,讓AI從仰望星空的宏大敘事,落地成為每個(gè)人生活中的得力助手。

AI 2.0未來引擎,三位一體
當(dāng)下,AI正以驚人的速度重塑世界。
在這場AI 2.0變革中,商湯并沒有選擇了單打獨(dú)斗,而是祭出了「大裝置-大模型-應(yīng)用」三位一體的核心戰(zhàn)略。
這不僅僅是一場技術(shù)的協(xié)同進(jìn)化,更是對(duì)AI未來的深刻洞察——
基礎(chǔ)設(shè)施是大模型的「根基」,大模型是應(yīng)用的「引擎」,而應(yīng)用場景又會(huì)反哺技術(shù)迭代,形成一個(gè)生生不息的生態(tài)閉環(huán)。
商湯的目標(biāo)很明確,既要做「最懂算力的大模型服務(wù)商」,也要做「最懂大模型的算力服務(wù)商」,用硬實(shí)力驅(qū)動(dòng)AI落地開花。
他們以「日日新」多模態(tài)大模型為基石,正加速「一基兩翼」的布局。
生產(chǎn)力工具為企業(yè)插上了效率的翅膀,從金融分析到政務(wù)管理,讓打工人工作不再繁瑣,效率成倍提升。
而交互工具則帶來溫暖的智能體驗(yàn),無論是智能陪伴還是個(gè)性化營銷,AI皆可得心應(yīng)手。
這種潤物細(xì)無聲的滲透,才是AI 2.0的真正意義。
熱門跟貼