
作者|冰拿鐵
編輯|星奈
媒體|AI大模型工場(chǎng)
“君子之學(xué)必日新。日新者,日進(jìn)也?!碑?dāng)下,AI創(chuàng)新浪潮翻涌,奔向AGI的星辰大海,追光路上,多模態(tài)、深度推理競技逐漸成為行業(yè)重心:一方面,多模態(tài)走到舞臺(tái)中央,從 Gemini 2.0、GPT 4.5 到最近剛發(fā)布的 Llama 4,可以看到國際主流機(jī)構(gòu)持續(xù)提升原生多模態(tài)能力的清晰脈絡(luò)。這背后的底層邏輯是,多模態(tài)大模型通過更廣泛、更深度的信息交互與整合,可以為用戶更完整的場(chǎng)景價(jià)值。
另一方面,深度推理能力成為技術(shù)競賽的核心焦點(diǎn),畢竟這是讓大模型切入高價(jià)值業(yè)務(wù)場(chǎng)景的關(guān)鍵技術(shù)基礎(chǔ)。不過,目前業(yè)界對(duì)推理能力的關(guān)注主要在數(shù)理求解等純文本推理任務(wù)上,但要實(shí)現(xiàn)推理能力在更廣泛場(chǎng)景的落地,就需要多模態(tài)和推理的緊密結(jié)合。
誰能扛起“多模態(tài)+深度推理”雙重大旗?如今,“扛把子玩家”來了——4月10日,“2025 商湯技術(shù)交流日”舉行,推出主打“強(qiáng)推理”的全新日日新 6.0 AI 模型,性能預(yù)期對(duì)標(biāo)Gemini 2.0 Pro。
作為商湯日日新大模型體系最新版本的基礎(chǔ)模型,日日新SenseNova V6具備深度推理與多模態(tài)理解能力,適用于辦公、教育、文旅、自動(dòng)駕駛等場(chǎng)景。
在獨(dú)立評(píng)測(cè)中,多模態(tài)和語言深度推理任務(wù)上同時(shí)超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。
同時(shí),日日新SenseNova V6創(chuàng)新實(shí)現(xiàn)“慢思考”深度分析,推動(dòng)多模態(tài)AI邁向更高智能。不止于此,商湯日日新SenseNova V6的交互版本「SenseNova V6 Omni」發(fā)布,擁有強(qiáng)大的實(shí)時(shí)交互、視覺識(shí)別、記憶思考、 持續(xù)對(duì)話和復(fù)雜推理等能力,進(jìn)一步強(qiáng)化AI的陪伴感、沉浸感,讓每次互動(dòng)更加智能與貼心。
茍日新,日日新,又日新。如今,超越自己、代表中國競逐國際賽場(chǎng)的日日新6.0版本又帶來了哪些新驚喜?
一、日日新SenseNova V6:多模態(tài)+強(qiáng)推理雙殺!
在當(dāng)下,多模態(tài)能力為何成為行業(yè)競逐重點(diǎn)?這是由于真實(shí)業(yè)務(wù)場(chǎng)景(如自動(dòng)駕駛、工業(yè)制造、金融分析)中的信息天然是多模態(tài)交織的,例如視頻包含視覺和時(shí)序信息,金融報(bào)告融合文本、表格、圖表等。傳統(tǒng)單一語言模型僅能處理文本,無法完整理解這些復(fù)雜場(chǎng)景。
而作為國內(nèi)率先實(shí)現(xiàn)多模態(tài)下的深度思考能力的大模型,日日新具有多模態(tài)原生優(yōu)勢(shì),相較那些雖然會(huì)深度思考但缺乏多模態(tài)能力、“五感未打通”的大模型,贏在起跑線上:
日日新SenseNova V6作為擁有6200億參數(shù)的MoE融合模態(tài)大模型,在一個(gè)統(tǒng)一的模型框架內(nèi),實(shí)現(xiàn)了圖片、文本、視頻能力的原生統(tǒng)一,突破傳統(tǒng)多模態(tài)分立局限,引領(lǐng)AI技術(shù)革新。
如今,憑借多模態(tài)的原生融合優(yōu)勢(shì),商湯日日新SenseNova V6的多模態(tài)理解、推理和交互能力大幅升級(jí),疊加強(qiáng)推理、強(qiáng)交互、長記憶等能力BUFF,率先實(shí)現(xiàn)多模態(tài)下的深度思考。
長思維鏈維度,超過 200B 高質(zhì)量多模態(tài)長思維鏈數(shù)據(jù),最長 64K 思維鏈;數(shù)理能力維度,數(shù)據(jù)分析能力大幅領(lǐng)先 GPT-4o;推理能力維度,多模態(tài)深度推理國內(nèi)第一,對(duì)標(biāo) OpenAI o1;全局記憶維度,率先在國內(nèi)突破長視頻理解,支持10分鐘的視頻理解及深度推理。

在權(quán)威的推理能力及多模態(tài)能力評(píng)測(cè)中,「日日新 V6」在多個(gè)維度獲得SOTA:

【核心指標(biāo)】純文本任務(wù)綜合性能優(yōu)秀,比肩國際一線模型;多模態(tài)性能領(lǐng)先,各方面性能突出;純文本推理與多模態(tài)推理能力均取得SOTA

【強(qiáng)推理能力】日日新融合模型從 5.5 到 V6 / V6 Reasoner,推理能力顯著提升。在獨(dú)立評(píng)測(cè)中,多模態(tài)和語言深度推理任務(wù)上同時(shí)超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。
實(shí)測(cè)中,日日新可以get到emoji中有趣的梗,比如這個(gè)張梗圖:

這么抽象的圖也是被“商量”玩明白了。

也能做到根據(jù)圖片給出裝修建議,把我們公司雜亂的一角喂給它:

可以看到他從安全隱患到視覺審美再到家居智能化都給出了詳細(xì)的建議。

復(fù)雜繁瑣的文檔處理場(chǎng)景遇上多模態(tài)強(qiáng)推理AI,效率提升翻倍,也可來商湯辦公小浣熊體驗(yàn):https://xiaohuanxiong.com/officev2/
值得一提的是,日日新SenseNova V6是首個(gè)支持10分鐘中長視頻深度解析的大模型:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,視頻已成為大眾獲取信息與知識(shí)的主流方式。相較于傳統(tǒng)文本形式,視頻融合了圖像、語言、動(dòng)作及場(chǎng)景等多模態(tài)信息,能夠更加直觀、生動(dòng)、沉浸式地實(shí)現(xiàn)知識(shí)的立體化傳播。然而,這種信息密度的躍升也使得視頻的理解門檻更高,對(duì)AI技術(shù)提出了更加復(fù)雜的挑戰(zhàn)。
而商湯日日新SenseNova V6是國內(nèi)首個(gè)支持10分鐘中長視頻深度解析的大模型,視頻理解能力國內(nèi)最強(qiáng),基礎(chǔ)性能逼近Gemini 2.5 Turbo,同時(shí)支持視頻中的音頻+視頻的混合模態(tài)分析。
比如,打開商量視頻助手,上傳柯南劇集,其能概述劇情以及柯南破案經(jīng)過,成為最佳追劇搭子:
再比如,上傳視頻,輸入“請(qǐng)幫我剪輯視頻中的片段,包含任意由客戶指定的場(chǎng)景,提取相關(guān)片段,標(biāo)明時(shí)間范圍,并為每個(gè)片段配上解說文案,用戶場(chǎng)景為:進(jìn)球時(shí)刻”,商量就能聚焦進(jìn)球時(shí)刻的核心場(chǎng)景,精選最具張力的破門瞬間與戰(zhàn)術(shù)配合段落。
而且這位AI剪輯師還有一套專業(yè)的技術(shù)方法論:通過「慢動(dòng)作特寫+多視角切換視覺沖擊,配合數(shù)據(jù)可視化包裝(如射門軌跡熱區(qū)圖),最終呈現(xiàn)FIFA Online3賽事解說的專業(yè)性與游戲足球的美感。
(恐怖如斯,我司剪輯已經(jīng)汗流浹背了?。?/strong>
再投喂一個(gè)視頻,指令是以列表形式輸出視頻中必買好物,格式為“序號(hào)、物件、原因及用途”。AI很快指出是一位裝修達(dá)人分享的裝修開工需要提前準(zhǔn)備的小物件清單,隨后列出了十個(gè)需要網(wǎng)購的物品:錢(開玩笑)、網(wǎng)錢,水井房鑰匙……
最絕的是,它能分辨出“買錢”是開玩笑!
一套測(cè)評(píng)下來,能看到日日新的大幅飛躍:傳統(tǒng)視頻分析多依賴單一模態(tài),如僅視覺或音頻的淺層特征提取,而日日新V6通過混合模態(tài)分析,實(shí)現(xiàn)了對(duì)視頻中非結(jié)構(gòu)化信息的立體化解析;
同時(shí),支持10分鐘中長視頻解析,意味著模型需具備長上下文記憶與動(dòng)態(tài)場(chǎng)景建模能力,通過先進(jìn)的模態(tài)信息壓縮技術(shù),實(shí)現(xiàn)長時(shí)域信息的連貫推理,在超長視頻中保持對(duì)關(guān)鍵事件(如會(huì)議記錄、教學(xué)演示)的持續(xù)追蹤,避免信息斷層,這標(biāo)志著AI從“片段式理解”向“全局認(rèn)知”的躍遷。
這一視頻解析能力突破,不僅是技術(shù)層面的里程碑,更開啟了“視頻即數(shù)據(jù)庫”的新時(shí)代。好比文字識(shí)別技術(shù)對(duì)紙質(zhì)文檔的數(shù)字化革命,有望重構(gòu)用戶與視頻信息的交互范式,并滲透至產(chǎn)業(yè)毛細(xì)血管,成為驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)的新引擎。
那么,應(yīng)用層面,基于商湯日日新SenseNova V6、全新升級(jí)的交互版本SenseNova V6 Omni帶來了哪些驚喜?
二、實(shí)測(cè)全新升級(jí)交互版本SenseNova V6 Omni:感知、情感理解更擬人!
商湯認(rèn)為,大模型在商業(yè)應(yīng)用上有兩個(gè)方面的關(guān)鍵價(jià)值:一是融入真實(shí)的業(yè)務(wù)應(yīng)用,具備處理復(fù)雜信息和解決復(fù)雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗(yàn),愿意和模型持續(xù)交流。
這在「SenseNova V6 Omni」上體現(xiàn)得恰如其分——其擁有國內(nèi)最強(qiáng)的多模態(tài)交互能力,是國內(nèi)首個(gè)商業(yè)化的全模態(tài)實(shí)時(shí)交互模型。
SenseNova V6 Omni具備高度擬人化的感知、表達(dá)和情感理解能力,可針對(duì)不同的對(duì)話內(nèi)容和場(chǎng)景需求,即時(shí)靈活地切換語氣、情感與音調(diào),同時(shí)還擁有強(qiáng)大的實(shí)時(shí)交互、視覺識(shí)別、記憶思考、持續(xù)對(duì)話和復(fù)雜推理等能力。
比如,數(shù)學(xué)解題場(chǎng)景,基于強(qiáng)大的音視頻溝通能力,SenseNova V6 Omni支持手寫答案識(shí)別和深度思考,可通過多步驟的縝密思考提高解題準(zhǔn)確性。
基于其創(chuàng)新打造的“一對(duì)一講解能力”,SenseNova V6 Omni如同個(gè)性化數(shù)學(xué)私教,可幫助用戶快速了解解題過程中的失誤和疏漏,并以引導(dǎo)提問的方式為用戶逐步剖析解題思路,還支持語音實(shí)時(shí)答疑,隨時(shí)解答用戶在解題過程中遇到的問題。
這不僅有望降低優(yōu)質(zhì)教育資源獲取門檻,還能通過數(shù)據(jù)積累優(yōu)化教學(xué)策略,推動(dòng)“因材施教”在AI時(shí)代的規(guī)模化落地。
再比如,點(diǎn)讀翻譯場(chǎng)景,在音視頻通話模式下,SenseNova V6 Omni可對(duì)用戶指尖指向位置的文字進(jìn)行精準(zhǔn)翻譯,帶來“指哪兒翻哪兒”的即時(shí)語言轉(zhuǎn)換體驗(yàn)。
據(jù)悉,結(jié)合中英文翻譯能力,可以實(shí)現(xiàn)接近100%的點(diǎn)讀翻譯準(zhǔn)確率,同時(shí),突破傳統(tǒng)的手動(dòng)選框或輸入操作翻譯模式,讓翻譯過程更高效、更流暢,交互更自然,完美契合“所見即所得”的認(rèn)知習(xí)慣。在教育場(chǎng)景中,這種能力有望應(yīng)用于雙語教材閱讀、外文文獻(xiàn)研究等領(lǐng)域,提升學(xué)習(xí)效率的同時(shí)降低認(rèn)知負(fù)荷。例如,學(xué)生閱讀英文原版書時(shí),指尖觸碰即可生成詞匯卡,結(jié)合上下文語境提供精準(zhǔn)釋義。
文旅講解維度,SenseNova V6 Omni可擔(dān)任“擬人化導(dǎo)游”,通過“視覺+語言”的多模態(tài)信息融合方式為用戶帶來沉浸式的文旅場(chǎng)景介紹。
在探尋文明密碼、叩問“何以中國”蔚然成風(fēng)、各地掀起文旅熱的當(dāng)下,這一技能無疑為文化遺產(chǎn)的數(shù)字化保護(hù)與傳播提供新工具,期待未來,博物館、文化遺址等機(jī)構(gòu)開發(fā)虛實(shí)融合的導(dǎo)覽項(xiàng)目,吸引年輕群體關(guān)注傳統(tǒng)文化。
從技術(shù)演進(jìn)角度看,SenseNova V6 Omni的突破不僅在于多模態(tài)能力本身,更在于其通過“感知-決策-交互”閉環(huán)重構(gòu)人機(jī)關(guān)系,有望推動(dòng)各行業(yè)從“工具輔助”階段邁向“智能協(xié)同”新紀(jì)元。
三、訓(xùn)練成本、推理成本業(yè)界最低、優(yōu)于DeepSeek:再燃AI普惠之火!
為什么多模態(tài)+深度思考時(shí)代,商湯能領(lǐng)跑賽道、為AGI時(shí)代的產(chǎn)業(yè)升級(jí)奠定基礎(chǔ)?這得益于商湯對(duì)多模態(tài)的精準(zhǔn)判斷與果斷押注:商湯認(rèn)為,融合多模態(tài)是未來的一條必由之路,其技術(shù)最顯著的特點(diǎn)是「單一模型,多模態(tài)融合」。而這種“單一模型融合多模態(tài)的技術(shù)路徑”也為國際頂尖頭部玩家趨之若鶩,GPT-4o、Claude 3.5、Gemini 2.0都采用了類似路徑。
值得一提的是,得益于商湯大裝置與大模型的協(xié)同優(yōu)化,實(shí)現(xiàn)“模型 - 系統(tǒng) - 計(jì)算”的垂直整合,商湯日日新SenseNova V6的訓(xùn)練和推理效率顯著提升,成本大幅降低,整體推理成本達(dá)到行業(yè)最低,優(yōu)于DeepSeek。
惟創(chuàng)新者進(jìn),惟創(chuàng)新者強(qiáng)。日拱一卒無有盡,功不唐捐終入海:如今,商湯等企業(yè)不斷更新、降本提質(zhì),通過資源垂直整合實(shí)現(xiàn)效率提升與成本優(yōu)化,讓AI從“可用”向“易用”“普惠”階段跨越,通過“日日新”體系的持續(xù)迭代,商湯正在構(gòu)建AGI時(shí)代的基礎(chǔ)設(shè)施。如商湯科技聯(lián)合創(chuàng)始人徐立所言:“AI之道,在于百姓之日用。商湯日日新V6將跨越多模態(tài)邊界,釋放推理與智能的無限可能。”期待未來,如徐立所言,其在模型的迭代速度及處理問題的能力上可以日日更新,不斷解鎖AGI的更多可能。
熱門跟貼