擁有行業(yè)最強(qiáng)多模態(tài)推理與交互能力的商湯「日日新 SenseNova V6」來(lái)了。

如果讓大模型像人一樣聰明,應(yīng)該是什么樣的?

你可能會(huì)回答,我們生活的世界紛繁復(fù)雜,常常涉及多模態(tài)信息(如聲音、文字、視覺(jué)、時(shí)間、空間等等),對(duì)大模型提出了極為復(fù)雜和嚴(yán)苛的挑戰(zhàn)。

這要求大模型必須擁有極強(qiáng)的推理和交互能力。

GPT-4o 的出現(xiàn)讓我們看到了人機(jī)交互新方式。就像這樣,它可以為你講解數(shù)學(xué)題。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

可以說(shuō),一直以來(lái),GPT-4o 是可交互模型的行業(yè)標(biāo)桿。

現(xiàn)在,來(lái)自國(guó)內(nèi)的一款大模型,表現(xiàn)甚至更勝一籌。

下面是來(lái)自國(guó)產(chǎn)大模型的解題過(guò)程,它能循序漸進(jìn)的教你如何解題,看起來(lái)比 GPT-4o 更像一位有耐心的老師:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

又比如,我們指尖指向哪個(gè)單詞,它就進(jìn)行精準(zhǔn)翻譯,并自動(dòng)生成單詞卡,整個(gè)過(guò)程自然絲滑。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這正是商湯全新升級(jí)的融合多模態(tài)模型「日日新 SenseNova V6」(以下簡(jiǎn)稱:日日新 V6)在 APP 端的體驗(yàn)效果。

模型通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)等方面的技術(shù)突破,擁有行業(yè)最強(qiáng)的多模態(tài)推理與交互能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

相比此前 V5.5 版本,日日新 V6 / V6 Reasoner 推理能力顯著增強(qiáng)。其中在多模態(tài)推理任務(wù)上,SenseNova V6 Reasoner 同時(shí)超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在語(yǔ)言深度推理任務(wù)上,SenseNova V6 Reasoner 也同樣超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

日日新 V6 在權(quán)威的推理能力及多模態(tài)能力評(píng)測(cè)中,也處于行業(yè)領(lǐng)先水平。在純文本和多模態(tài)任務(wù)上,多項(xiàng)指標(biāo)超越 GPT-4.5、Gemini 2.0 Pro,并且在純文本任務(wù)上全面超越 DeepSeek V3。純文本推理與多模態(tài)推理能力均對(duì)標(biāo) GPT-4.5 和 Gemini 2.0 Pro 等國(guó)際一流模型的水平。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在強(qiáng)推理能力上,日日新 V6 大幅領(lǐng)先 GPT-4o。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,日日新 V6 在音頻理解、視覺(jué)理解等基準(zhǔn)上也處于領(lǐng)先水平。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

目前,日日新 V6 已經(jīng)正式開(kāi)放 API,并可通過(guò)商量 Web、商量 App(內(nèi)測(cè)版),以及商湯小浣熊、咔皮記賬等應(yīng)用進(jìn)行體驗(yàn)。

一手實(shí)測(cè):主打多模態(tài)與深度思考的融合

既然日日新 V6 各項(xiàng)指標(biāo)已經(jīng)做到了全面領(lǐng)先水平,那真實(shí)體驗(yàn)效果如何呢?

接下來(lái),我們第一時(shí)間上手實(shí)測(cè)一下日日新 V6 大模型,看看它在實(shí)際應(yīng)用場(chǎng)景中的表現(xiàn)究竟如何。

首先考考它的推理能力。

我們出了一道純文本的邏輯推理題,商量花了 42 秒進(jìn)行了深度思考,先根據(jù)題目條件來(lái)逐步推理,再倒推驗(yàn)證,最終給出正確答案,整個(gè)思路非常清晰。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

商量還支持多模態(tài)深度思考,換句話說(shuō),我們不僅可以輸入文字,還可以上傳最多 4 張圖片。

比如,我們上傳了一張莫妮卡?貝魯奇的經(jīng)典劇照,看它能否準(zhǔn)確說(shuō)出其出處。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

商量綜合分析了紅發(fā)黑裙的人物造型,石板街道、戶外咖啡館等場(chǎng)景細(xì)節(jié),以及主題氛圍和視覺(jué)風(fēng)格,最后認(rèn)出這是《西西里的美麗傳說(shuō)》。同時(shí),它還一并回答了該電影的導(dǎo)演以及主要的影片內(nèi)容。

接著,我們又測(cè)了下它的交互能力,涉及數(shù)學(xué)講題、翻譯點(diǎn)讀、文旅講解和繪本故事四大應(yīng)用場(chǎng)景。

對(duì)于年輕父母來(lái)說(shuō),輔導(dǎo)孩子學(xué)習(xí)可是一件苦差事,甚至「不寫作業(yè),母慈子孝;一寫作業(yè),雞飛狗跳」一度成為網(wǎng)絡(luò)熱梗,而商量的「數(shù)學(xué)講題」場(chǎng)景,簡(jiǎn)直幫了父母?jìng)兊拇竺Α?/p>

它包括判題和講題兩大功能。只要拿著孩子寫的試卷,咔嚓拍個(gè)照,它就能精準(zhǔn)識(shí)別手寫答案,而且它的深度思考模式可顯著提高解題準(zhǔn)確性,正確率可達(dá)到 95%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

同時(shí),基于強(qiáng)大的音視頻溝通能力,商量還搞了個(gè)「免費(fèi)數(shù)學(xué)私教」,不僅能快速鎖定孩子在解題中的錯(cuò)誤、以引導(dǎo)提問(wèn)的方式逐步剖析解題思路,還可以實(shí)時(shí)一對(duì)一語(yǔ)音答疑。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

視頻開(kāi)啟 2 倍速

給孩子講繪本故事也讓不少家長(zhǎng)頭疼,雖然繪本圖文并茂,但照本宣科講出來(lái)就顯得干干巴巴。商量則通過(guò)多模態(tài)識(shí)別與語(yǔ)音表達(dá)技術(shù),將繪本內(nèi)容進(jìn)行情感化演繹,融入語(yǔ)音互動(dòng)或后續(xù)故事問(wèn)答等內(nèi)容。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如果出門旅游,商量還是個(gè)合格的導(dǎo)游。拍攝一段文物或景點(diǎn)畫面,它就能聲情并茂地講解相關(guān)歷史背景。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

從基準(zhǔn)測(cè)試到實(shí)際體驗(yàn)來(lái)看,毫不夸張的說(shuō),日日新 V6 確實(shí)是一位名副其實(shí)的全能優(yōu)等生。大家可能會(huì)疑問(wèn)了,打造這樣一款大模型體系,成本一定很高吧。

事實(shí)上成本與效率這塊商湯也拿捏了。

技術(shù)解讀:原生融合多模態(tài),還有獨(dú)門技術(shù)

在日日新 V6 大模型上,商湯通過(guò)一系列創(chuàng)新性的技術(shù)突破和商業(yè)策略,成功實(shí)現(xiàn)了高性能與低成本的完美平衡。

從硬件基礎(chǔ)說(shuō)起,利用商湯大裝置,商湯構(gòu)建了「模型 - 系統(tǒng) - 計(jì)算」的垂直整合體系,實(shí)現(xiàn)了大模型算法與基礎(chǔ)設(shè)施的聯(lián)合優(yōu)化,大幅提升了日日新 V6 的訓(xùn)練和推理效率。

依靠 6D 自動(dòng)并行、FP8 低精度訓(xùn)練等技術(shù),日日新 V6 的訓(xùn)練成本達(dá)到了行業(yè)最優(yōu)水平。在推理時(shí),日日新 V6 實(shí)現(xiàn)了生產(chǎn)級(jí)的 INT4 量化、高適應(yīng)性的分級(jí)緩存、分鐘級(jí)彈性擴(kuò)縮容,整體推理成本也做到了行業(yè)最低,效率超過(guò)了 DeepSeek。

在此之上的大模型算法,也是商湯在 AI 領(lǐng)域深耕多年的結(jié)果。

如今,多模態(tài)大模型已成為人們追求的方向。然而,我們?cè)诤芏鄳?yīng)用中接觸到的多模態(tài)模型并不能說(shuō)是「完全體」。正如我們?cè)诤芏鄳?yīng)用中所接觸到的,不少大模型是把圖像、語(yǔ)音、文本分別訓(xùn)練好,再用「膠水代碼」粘在一起。就像用翻譯軟件先把圖片轉(zhuǎn)文字,再把文字轉(zhuǎn)成語(yǔ)音 —— 看似多模態(tài),實(shí)際上是多個(gè)單模態(tài)在接力干活。

真正的多模態(tài)應(yīng)該像人類感官與大腦,比如當(dāng)人類看到蘋果時(shí),視覺(jué)(顏色)、觸覺(jué)(手感)、味覺(jué)(甜味)是同時(shí)感知的。

商湯從一開(kāi)始就全面瞄準(zhǔn)多模態(tài)。他們從模型底層架構(gòu)和數(shù)據(jù)訓(xùn)練階段就實(shí)現(xiàn)不同模態(tài)(如文本、圖像、音頻、視頻等)的統(tǒng)一理解和生成,而非后期拼接多個(gè)單模態(tài)模型。

去年 7 月,商湯推出的日日新 SenseNova 5.5 大模型體系引發(fā)了業(yè)內(nèi)關(guān)注。它是國(guó)內(nèi)首個(gè)流式原生多模態(tài)交互模型,擁有 6000 億參數(shù),基于超過(guò) 10TB tokens 的高質(zhì)量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了 109.5 字 / 秒的推理速度。

今年 1 月,商湯在原生融合多模態(tài)訓(xùn)練上實(shí)現(xiàn)突破,發(fā)布了「日日新」融合大模型。并在 SuperCLUE 2024 年語(yǔ)言模型綜合榜單、OpenCompass 多模態(tài)綜合榜單上取得了國(guó)內(nèi)模型榜首的成績(jī),驗(yàn)證和商湯融合訓(xùn)練技術(shù)的巨大潛力。

沿著這一路徑,商湯進(jìn)行了進(jìn)一步優(yōu)化和規(guī)模擴(kuò)展,并在日日新 V6 上實(shí)現(xiàn)了多模態(tài)綜合性能的顯著提升。

日日新 V6 進(jìn)一步強(qiáng)化了推理能力,它可以支撐起對(duì)人類意圖的深化理解,對(duì)復(fù)雜信息進(jìn)行分析判斷,并解決真實(shí)環(huán)境中的難題。與此同時(shí),它還可以充分理解感情,與人進(jìn)行流暢的交互。它擁有足夠長(zhǎng)的記憶,能夠記住過(guò)去一段時(shí)間內(nèi)發(fā)生的事,并將記憶內(nèi)信息融入推理。

模態(tài)越多,大模型處理的實(shí)際上下文就越長(zhǎng)。在思維鏈上,商湯通過(guò)多智能體協(xié)作進(jìn)行長(zhǎng)思維鏈合成和驗(yàn)證,實(shí)現(xiàn)了多模態(tài)長(zhǎng)思維鏈合成技術(shù),可以支持合成最長(zhǎng)64K token 的多模態(tài)長(zhǎng)思維鏈,這相當(dāng)于讓模型在給出答案之前可以連續(xù)進(jìn)行長(zhǎng)達(dá) 6 萬(wàn)字的思考,讓模型具備了面對(duì)復(fù)雜問(wèn)題的長(zhǎng)時(shí)間思考能力。

日日新 V6 的思維鏈引擎中,商湯調(diào)用了一系列以往在計(jì)算機(jī)視覺(jué)方面的能力,包括視頻、圖像、3D 等以給出主思維鏈的反饋,其輸出的多模態(tài)思維鏈會(huì)被智能體改寫為符合模型的訓(xùn)練格式。日日新 V6 在思考時(shí)還可以調(diào)用沙盒甚至外部代碼能力來(lái)呈現(xiàn)出更好的思維鏈。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這就讓日日新 V6 在做立體幾何問(wèn)題時(shí),甚至可以做輔助線。

前不久,DeepSeek R1 通過(guò)強(qiáng)化學(xué)習(xí)算法 GRPO 取得了突破,商湯在 SenseNova V6 上為大模型帶來(lái)了多模態(tài)混合強(qiáng)化學(xué)習(xí),面向多種圖文任務(wù)構(gòu)建起混合增強(qiáng)學(xué)習(xí)框架,可以同步進(jìn)行基于人類偏好的 RLHF 和基于確定性答案的 RFT,并且通過(guò)動(dòng)態(tài)調(diào)節(jié)機(jī)制保證主客觀表現(xiàn)的均衡,能在提升推理能力的同時(shí)不損害模型的情感表達(dá)。

在這個(gè)過(guò)程中,原始的多模態(tài)模型可以被調(diào)用到獎(jiǎng)勵(lì)模型中,獲得先驗(yàn)知識(shí)的反饋,隨著持續(xù)反思,模型的響應(yīng)長(zhǎng)度變得更長(zhǎng),這也意味著推理變得更仔細(xì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最后,日日新 V6 還具備獨(dú)一無(wú)二的長(zhǎng)視頻統(tǒng)一表征和動(dòng)態(tài)壓縮能力,它可以將視覺(jué)、聽(tīng)覺(jué)、文本、時(shí)間軸邏輯進(jìn)行對(duì)齊,形成多模態(tài)統(tǒng)一的時(shí)序表征,通過(guò)細(xì)粒度級(jí)聯(lián)信息壓縮和內(nèi)容敏感的動(dòng)態(tài)過(guò)濾,實(shí)現(xiàn)長(zhǎng)視頻的 400 倍高比例壓縮。據(jù)介紹,商湯的大模型可以把 10 分鐘視頻壓縮到僅有 16K tokens,仍能保留關(guān)鍵語(yǔ)義。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于真實(shí)世界中的應(yīng)用,這一系列技術(shù)至關(guān)重要。

發(fā)布會(huì)現(xiàn)場(chǎng),我們看到商湯與傅利葉機(jī)器人合作,基于 SenseNova V6,傅利葉機(jī)器人可以通過(guò)融合圖像、視頻、語(yǔ)音和文本信息理解環(huán)境進(jìn)行思考與表達(dá),洞察用戶的需求與情緒,與人類進(jìn)行順暢交互,機(jī)器人在說(shuō)話的同時(shí),還能同步生成與語(yǔ)義相匹配的動(dòng)作,實(shí)現(xiàn)語(yǔ)言與行為的統(tǒng)一。

此外還有更多搭載 SenseNova V6 的 AI 產(chǎn)品和應(yīng)用,涵蓋辦公、兒童教育、金融、翻譯、電商購(gòu)物、情感陪伴、支付等等,讓我們感受到,AI 已經(jīng)落實(shí)于百姓的日常生活場(chǎng)景。

生成式 AI,正在進(jìn)入新時(shí)代

時(shí)間進(jìn)入 2025 年,大模型技術(shù)的發(fā)展正在進(jìn)入新的階段,一些重要技術(shù)已經(jīng)走入瓶頸期,新的方向正在出現(xiàn)。

圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家 Yann LeCun 在談及 AI 為何難以做出科學(xué)發(fā)現(xiàn)時(shí)曾表示,純粹的語(yǔ)言模型不能完整地表達(dá)智能,無(wú)法創(chuàng)造新的事物。

基于文本的生成式 AI 也在接近「上限」,大語(yǔ)言模型的發(fā)展正在快速耗盡互聯(lián)網(wǎng)的文本數(shù)據(jù)。OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 認(rèn)為,耗盡的時(shí)間會(huì)在 2028 年前后。

另一方面,在數(shù)字世界、物理世界中還有很多、甚至更大數(shù)量級(jí)的更多模態(tài)的內(nèi)容還沒(méi)有挖掘。

從 DeepSeek 橫空出世,到英偉達(dá) H300 超算的發(fā)布,我們可以觀察到,AI 領(lǐng)域正在出現(xiàn)幾個(gè)新的趨勢(shì):

  • 首先是對(duì)于 Scaling Laws 的新思考,隨著大模型參數(shù)和訓(xùn)練數(shù)據(jù)量級(jí)增加效益的遞減,業(yè)界正在逐漸把關(guān)注點(diǎn)轉(zhuǎn)向效率提升;
  • 其次是多模態(tài)能力,從 GPT-4o 和最近發(fā)布的 Llama 4 上可以看出,具備原生的多模態(tài)能力,能夠?qū)崿F(xiàn)更深度、更廣泛的信息交互與整合,將會(huì)成為未來(lái)大模型的競(jìng)爭(zhēng)重點(diǎn);
  • 在它們的基礎(chǔ)上,大模型的強(qiáng)推理則會(huì)成為人們打造復(fù)雜任務(wù)智能體,實(shí)現(xiàn)高價(jià)值場(chǎng)景應(yīng)用的關(guān)鍵。

有趣的是這三個(gè)方面,也正是商湯的優(yōu)勢(shì)項(xiàng):憑借大量融入真實(shí)業(yè)務(wù)的應(yīng)用,商湯構(gòu)建出的大模型體系擁有處理復(fù)雜信息和解決復(fù)雜問(wèn)題的能力;多年在計(jì)算機(jī)視覺(jué)等方向上的積累,讓商湯在大模型邁向多模態(tài)時(shí)具備了絕對(duì)優(yōu)勢(shì);在算力方面,商湯的大裝置 SenseCore 一直在推動(dòng) AI 算力設(shè)施、應(yīng)用與行業(yè)需求的深度融合,其能力還在不斷增長(zhǎng)。

在 AI 2.0 時(shí)代,基礎(chǔ)設(shè)施、大模型和應(yīng)用三者的關(guān)系已變得密不可分。越來(lái)越廣泛的應(yīng)用場(chǎng)景在推動(dòng)著 AI 模型的發(fā)展,AI 技術(shù)也在不斷創(chuàng)造并推動(dòng)新的應(yīng)用需求;與此同時(shí),對(duì)大模型優(yōu)化的 AI 基礎(chǔ)設(shè)施正在出現(xiàn),新的模型也在催生著更為強(qiáng)大的技術(shù)。

未來(lái),商湯的日日新大模型,還會(huì)向生產(chǎn)力工具 + 交互工具兩大方向進(jìn)行大規(guī)模落地。其中生產(chǎn)力工具面向傳統(tǒng)企業(yè)、金融、政務(wù)等領(lǐng)域,能幫助人們提升工作效率、優(yōu)化工作流程;交互工具則面向所有普通用戶,覆蓋從智能助手、智能硬件到智能營(yíng)銷……

過(guò)不了多久,最常見(jiàn)的日常場(chǎng)景,也都能用上原生多模態(tài) AI 的力量。

文中視頻鏈接:

https://mp.weixin.qq.com/s/Fy1Yk94_NvYuwVRge2PXGA