豆国产97在线亚洲hd,激情久久亚洲中文字幕,久久网亚洲,在线观看av网站.,又黄又色又爽的视频.

擁有行業(yè)最強(qiáng)多模態(tài)推理與交互能力的商湯「日日新 SenseNova V6」來(lái)了。

如果讓大模型像人一樣聰明，應(yīng)該是什么樣的？

你可能會(huì)回答，我們生活的世界紛繁復(fù)雜，常常涉及多模態(tài)信息（如聲音、文字、視覺(jué)、時(shí)間、空間等等），對(duì)大模型提出了極為復(fù)雜和嚴(yán)苛的挑戰(zhàn)。

這要求大模型必須擁有極強(qiáng)的推理和交互能力。

GPT-4o 的出現(xiàn)讓我們看到了人機(jī)交互新方式。就像這樣，它可以為你講解數(shù)學(xué)題。

可以說(shuō)，一直以來(lái)，GPT-4o 是可交互模型的行業(yè)標(biāo)桿。

現(xiàn)在，來(lái)自國(guó)內(nèi)的一款大模型，表現(xiàn)甚至更勝一籌。

下面是來(lái)自國(guó)產(chǎn)大模型的解題過(guò)程，它能循序漸進(jìn)的教你如何解題，看起來(lái)比 GPT-4o 更像一位有耐心的老師：

又比如，我們指尖指向哪個(gè)單詞，它就進(jìn)行精準(zhǔn)翻譯，并自動(dòng)生成單詞卡，整個(gè)過(guò)程自然絲滑。

這正是商湯全新升級(jí)的融合多模態(tài)模型「日日新 SenseNova V6」（以下簡(jiǎn)稱：日日新 V6）在 APP 端的體驗(yàn)效果。

模型通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)等方面的技術(shù)突破，擁有行業(yè)最強(qiáng)的多模態(tài)推理與交互能力。

相比此前 V5.5 版本，日日新 V6 / V6 Reasoner 推理能力顯著增強(qiáng)。其中在多模態(tài)推理任務(wù)上，SenseNova V6 Reasoner 同時(shí)超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在語(yǔ)言深度推理任務(wù)上，SenseNova V6 Reasoner 也同樣超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。

日日新 V6 在權(quán)威的推理能力及多模態(tài)能力評(píng)測(cè)中，也處于行業(yè)領(lǐng)先水平。在純文本和多模態(tài)任務(wù)上，多項(xiàng)指標(biāo)超越 GPT-4.5、Gemini 2.0 Pro，并且在純文本任務(wù)上全面超越 DeepSeek V3。純文本推理與多模態(tài)推理能力均對(duì)標(biāo) GPT-4.5 和 Gemini 2.0 Pro 等國(guó)際一流模型的水平。

在強(qiáng)推理能力上，日日新 V6 大幅領(lǐng)先 GPT-4o。

此外，日日新 V6 在音頻理解、視覺(jué)理解等基準(zhǔn)上也處于領(lǐng)先水平。

目前，日日新 V6 已經(jīng)正式開(kāi)放 API，并可通過(guò)商量 Web、商量 App（內(nèi)測(cè)版），以及商湯小浣熊、咔皮記賬等應(yīng)用進(jìn)行體驗(yàn)。

一手實(shí)測(cè)：主打多模態(tài)與深度思考的融合

既然日日新 V6 各項(xiàng)指標(biāo)已經(jīng)做到了全面領(lǐng)先水平，那真實(shí)體驗(yàn)效果如何呢？

接下來(lái)，我們第一時(shí)間上手實(shí)測(cè)一下日日新 V6 大模型，看看它在實(shí)際應(yīng)用場(chǎng)景中的表現(xiàn)究竟如何。

首先考考它的推理能力。

我們出了一道純文本的邏輯推理題，商量花了 42 秒進(jìn)行了深度思考，先根據(jù)題目條件來(lái)逐步推理，再倒推驗(yàn)證，最終給出正確答案，整個(gè)思路非常清晰。

商量還支持多模態(tài)深度思考，換句話說(shuō)，我們不僅可以輸入文字，還可以上傳最多 4 張圖片。

比如，我們上傳了一張莫妮卡?貝魯奇的經(jīng)典劇照，看它能否準(zhǔn)確說(shuō)出其出處。

商量綜合分析了紅發(fā)黑裙的人物造型，石板街道、戶外咖啡館等場(chǎng)景細(xì)節(jié)，以及主題氛圍和視覺(jué)風(fēng)格，最后認(rèn)出這是《西西里的美麗傳說(shuō)》。同時(shí)，它還一并回答了該電影的導(dǎo)演以及主要的影片內(nèi)容。

接著，我們又測(cè)了下它的交互能力，涉及數(shù)學(xué)講題、翻譯點(diǎn)讀、文旅講解和繪本故事四大應(yīng)用場(chǎng)景。

對(duì)于年輕父母來(lái)說(shuō)，輔導(dǎo)孩子學(xué)習(xí)可是一件苦差事，甚至「不寫作業(yè)，母慈子孝；一寫作業(yè)，雞飛狗跳」一度成為網(wǎng)絡(luò)熱梗，而商量的「數(shù)學(xué)講題」場(chǎng)景，簡(jiǎn)直幫了父母?jìng)兊拇竺Α?/p>

它包括判題和講題兩大功能。只要拿著孩子寫的試卷，咔嚓拍個(gè)照，它就能精準(zhǔn)識(shí)別手寫答案，而且它的深度思考模式可顯著提高解題準(zhǔn)確性，正確率可達(dá)到 95%。

同時(shí)，基于強(qiáng)大的音視頻溝通能力，商量還搞了個(gè)「免費(fèi)數(shù)學(xué)私教」，不僅能快速鎖定孩子在解題中的錯(cuò)誤、以引導(dǎo)提問(wèn)的方式逐步剖析解題思路，還可以實(shí)時(shí)一對(duì)一語(yǔ)音答疑。

視頻開(kāi)啟 2 倍速

給孩子講繪本故事也讓不少家長(zhǎng)頭疼，雖然繪本圖文并茂，但照本宣科講出來(lái)就顯得干干巴巴。商量則通過(guò)多模態(tài)識(shí)別與語(yǔ)音表達(dá)技術(shù)，將繪本內(nèi)容進(jìn)行情感化演繹，融入語(yǔ)音互動(dòng)或后續(xù)故事問(wèn)答等內(nèi)容。

如果出門旅游，商量還是個(gè)合格的導(dǎo)游。拍攝一段文物或景點(diǎn)畫面，它就能聲情并茂地講解相關(guān)歷史背景。

從基準(zhǔn)測(cè)試到實(shí)際體驗(yàn)來(lái)看，毫不夸張的說(shuō)，日日新 V6 確實(shí)是一位名副其實(shí)的全能優(yōu)等生。大家可能會(huì)疑問(wèn)了，打造這樣一款大模型體系，成本一定很高吧。

事實(shí)上成本與效率這塊商湯也拿捏了。

技術(shù)解讀：原生融合多模態(tài)，還有獨(dú)門技術(shù)

在日日新 V6 大模型上，商湯通過(guò)一系列創(chuàng)新性的技術(shù)突破和商業(yè)策略，成功實(shí)現(xiàn)了高性能與低成本的完美平衡。

從硬件基礎(chǔ)說(shuō)起，利用商湯大裝置，商湯構(gòu)建了「模型 - 系統(tǒng) - 計(jì)算」的垂直整合體系，實(shí)現(xiàn)了大模型算法與基礎(chǔ)設(shè)施的聯(lián)合優(yōu)化，大幅提升了日日新 V6 的訓(xùn)練和推理效率。

依靠 6D 自動(dòng)并行、FP8 低精度訓(xùn)練等技術(shù)，日日新 V6 的訓(xùn)練成本達(dá)到了行業(yè)最優(yōu)水平。在推理時(shí)，日日新 V6 實(shí)現(xiàn)了生產(chǎn)級(jí)的 INT4 量化、高適應(yīng)性的分級(jí)緩存、分鐘級(jí)彈性擴(kuò)縮容，整體推理成本也做到了行業(yè)最低，效率超過(guò)了 DeepSeek。

在此之上的大模型算法，也是商湯在 AI 領(lǐng)域深耕多年的結(jié)果。

如今，多模態(tài)大模型已成為人們追求的方向。然而，我們?cè)诤芏鄳?yīng)用中接觸到的多模態(tài)模型并不能說(shuō)是「完全體」。正如我們?cè)诤芏鄳?yīng)用中所接觸到的，不少大模型是把圖像、語(yǔ)音、文本分別訓(xùn)練好，再用「膠水代碼」粘在一起。就像用翻譯軟件先把圖片轉(zhuǎn)文字，再把文字轉(zhuǎn)成語(yǔ)音 —— 看似多模態(tài)，實(shí)際上是多個(gè)單模態(tài)在接力干活。

真正的多模態(tài)應(yīng)該像人類感官與大腦，比如當(dāng)人類看到蘋果時(shí)，視覺(jué)（顏色）、觸覺(jué)（手感）、味覺(jué)（甜味）是同時(shí)感知的。

商湯從一開(kāi)始就全面瞄準(zhǔn)多模態(tài)。他們從模型底層架構(gòu)和數(shù)據(jù)訓(xùn)練階段就實(shí)現(xiàn)不同模態(tài)（如文本、圖像、音頻、視頻等）的統(tǒng)一理解和生成，而非后期拼接多個(gè)單模態(tài)模型。

去年 7 月，商湯推出的日日新 SenseNova 5.5 大模型體系引發(fā)了業(yè)內(nèi)關(guān)注。它是國(guó)內(nèi)首個(gè)流式原生多模態(tài)交互模型，擁有 6000 億參數(shù)，基于超過(guò) 10TB tokens 的高質(zhì)量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了 109.5 字 / 秒的推理速度。

今年 1 月，商湯在原生融合多模態(tài)訓(xùn)練上實(shí)現(xiàn)突破，發(fā)布了「日日新」融合大模型。并在 SuperCLUE 2024 年語(yǔ)言模型綜合榜單、OpenCompass 多模態(tài)綜合榜單上取得了國(guó)內(nèi)模型榜首的成績(jī)，驗(yàn)證和商湯融合訓(xùn)練技術(shù)的巨大潛力。

沿著這一路徑，商湯進(jìn)行了進(jìn)一步優(yōu)化和規(guī)模擴(kuò)展，并在日日新 V6 上實(shí)現(xiàn)了多模態(tài)綜合性能的顯著提升。

日日新 V6 進(jìn)一步強(qiáng)化了推理能力，它可以支撐起對(duì)人類意圖的深化理解，對(duì)復(fù)雜信息進(jìn)行分析判斷，并解決真實(shí)環(huán)境中的難題。與此同時(shí)，它還可以充分理解感情，與人進(jìn)行流暢的交互。它擁有足夠長(zhǎng)的記憶，能夠記住過(guò)去一段時(shí)間內(nèi)發(fā)生的事，并將記憶內(nèi)信息融入推理。

模態(tài)越多，大模型處理的實(shí)際上下文就越長(zhǎng)。在思維鏈上，商湯通過(guò)多智能體協(xié)作進(jìn)行長(zhǎng)思維鏈合成和驗(yàn)證，實(shí)現(xiàn)了多模態(tài)長(zhǎng)思維鏈合成技術(shù)，可以支持合成最長(zhǎng)64K token 的多模態(tài)長(zhǎng)思維鏈，這相當(dāng)于讓模型在給出答案之前可以連續(xù)進(jìn)行長(zhǎng)達(dá) 6 萬(wàn)字的思考，讓模型具備了面對(duì)復(fù)雜問(wèn)題的長(zhǎng)時(shí)間思考能力。

日日新 V6 的思維鏈引擎中，商湯調(diào)用了一系列以往在計(jì)算機(jī)視覺(jué)方面的能力，包括視頻、圖像、3D 等以給出主思維鏈的反饋，其輸出的多模態(tài)思維鏈會(huì)被智能體改寫為符合模型的訓(xùn)練格式。日日新 V6 在思考時(shí)還可以調(diào)用沙盒甚至外部代碼能力來(lái)呈現(xiàn)出更好的思維鏈。

這就讓日日新 V6 在做立體幾何問(wèn)題時(shí)，甚至可以做輔助線。

前不久，DeepSeek R1 通過(guò)強(qiáng)化學(xué)習(xí)算法 GRPO 取得了突破，商湯在 SenseNova V6 上為大模型帶來(lái)了多模態(tài)混合強(qiáng)化學(xué)習(xí)，面向多種圖文任務(wù)構(gòu)建起混合增強(qiáng)學(xué)習(xí)框架，可以同步進(jìn)行基于人類偏好的 RLHF 和基于確定性答案的 RFT，并且通過(guò)動(dòng)態(tài)調(diào)節(jié)機(jī)制保證主客觀表現(xiàn)的均衡，能在提升推理能力的同時(shí)不損害模型的情感表達(dá)。

在這個(gè)過(guò)程中，原始的多模態(tài)模型可以被調(diào)用到獎(jiǎng)勵(lì)模型中，獲得先驗(yàn)知識(shí)的反饋，隨著持續(xù)反思，模型的響應(yīng)長(zhǎng)度變得更長(zhǎng)，這也意味著推理變得更仔細(xì)。

最后，日日新 V6 還具備獨(dú)一無(wú)二的長(zhǎng)視頻統(tǒng)一表征和動(dòng)態(tài)壓縮能力，它可以將視覺(jué)、聽(tīng)覺(jué)、文本、時(shí)間軸邏輯進(jìn)行對(duì)齊，形成多模態(tài)統(tǒng)一的時(shí)序表征，通過(guò)細(xì)粒度級(jí)聯(lián)信息壓縮和內(nèi)容敏感的動(dòng)態(tài)過(guò)濾，實(shí)現(xiàn)長(zhǎng)視頻的 400 倍高比例壓縮。據(jù)介紹，商湯的大模型可以把 10 分鐘視頻壓縮到僅有 16K tokens，仍能保留關(guān)鍵語(yǔ)義。

對(duì)于真實(shí)世界中的應(yīng)用，這一系列技術(shù)至關(guān)重要。

發(fā)布會(huì)現(xiàn)場(chǎng)，我們看到商湯與傅利葉機(jī)器人合作，基于 SenseNova V6，傅利葉機(jī)器人可以通過(guò)融合圖像、視頻、語(yǔ)音和文本信息理解環(huán)境進(jìn)行思考與表達(dá)，洞察用戶的需求與情緒，與人類進(jìn)行順暢交互，機(jī)器人在說(shuō)話的同時(shí)，還能同步生成與語(yǔ)義相匹配的動(dòng)作，實(shí)現(xiàn)語(yǔ)言與行為的統(tǒng)一。

此外還有更多搭載 SenseNova V6 的 AI 產(chǎn)品和應(yīng)用，涵蓋辦公、兒童教育、金融、翻譯、電商購(gòu)物、情感陪伴、支付等等，讓我們感受到，AI 已經(jīng)落實(shí)于百姓的日常生活場(chǎng)景。

生成式 AI，正在進(jìn)入新時(shí)代

時(shí)間進(jìn)入 2025 年，大模型技術(shù)的發(fā)展正在進(jìn)入新的階段，一些重要技術(shù)已經(jīng)走入瓶頸期，新的方向正在出現(xiàn)。

圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家 Yann LeCun 在談及 AI 為何難以做出科學(xué)發(fā)現(xiàn)時(shí)曾表示，純粹的語(yǔ)言模型不能完整地表達(dá)智能，無(wú)法創(chuàng)造新的事物。

基于文本的生成式 AI 也在接近「上限」，大語(yǔ)言模型的發(fā)展正在快速耗盡互聯(lián)網(wǎng)的文本數(shù)據(jù)。OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 認(rèn)為，耗盡的時(shí)間會(huì)在 2028 年前后。

另一方面，在數(shù)字世界、物理世界中還有很多、甚至更大數(shù)量級(jí)的更多模態(tài)的內(nèi)容還沒(méi)有挖掘。

從 DeepSeek 橫空出世，到英偉達(dá) H300 超算的發(fā)布，我們可以觀察到，AI 領(lǐng)域正在出現(xiàn)幾個(gè)新的趨勢(shì)：

首先是對(duì)于 Scaling Laws 的新思考，隨著大模型參數(shù)和訓(xùn)練數(shù)據(jù)量級(jí)增加效益的遞減，業(yè)界正在逐漸把關(guān)注點(diǎn)轉(zhuǎn)向效率提升；
其次是多模態(tài)能力，從 GPT-4o 和最近發(fā)布的 Llama 4 上可以看出，具備原生的多模態(tài)能力，能夠?qū)崿F(xiàn)更深度、更廣泛的信息交互與整合，將會(huì)成為未來(lái)大模型的競(jìng)爭(zhēng)重點(diǎn)；
在它們的基礎(chǔ)上，大模型的強(qiáng)推理則會(huì)成為人們打造復(fù)雜任務(wù)智能體，實(shí)現(xiàn)高價(jià)值場(chǎng)景應(yīng)用的關(guān)鍵。

有趣的是這三個(gè)方面，也正是商湯的優(yōu)勢(shì)項(xiàng)：憑借大量融入真實(shí)業(yè)務(wù)的應(yīng)用，商湯構(gòu)建出的大模型體系擁有處理復(fù)雜信息和解決復(fù)雜問(wèn)題的能力；多年在計(jì)算機(jī)視覺(jué)等方向上的積累，讓商湯在大模型邁向多模態(tài)時(shí)具備了絕對(duì)優(yōu)勢(shì)；在算力方面，商湯的大裝置 SenseCore 一直在推動(dòng) AI 算力設(shè)施、應(yīng)用與行業(yè)需求的深度融合，其能力還在不斷增長(zhǎng)。

在 AI 2.0 時(shí)代，基礎(chǔ)設(shè)施、大模型和應(yīng)用三者的關(guān)系已變得密不可分。越來(lái)越廣泛的應(yīng)用場(chǎng)景在推動(dòng)著 AI 模型的發(fā)展，AI 技術(shù)也在不斷創(chuàng)造并推動(dòng)新的應(yīng)用需求；與此同時(shí)，對(duì)大模型優(yōu)化的 AI 基礎(chǔ)設(shè)施正在出現(xiàn)，新的模型也在催生著更為強(qiáng)大的技術(shù)。

未來(lái)，商湯的日日新大模型，還會(huì)向生產(chǎn)力工具 + 交互工具兩大方向進(jìn)行大規(guī)模落地。其中生產(chǎn)力工具面向傳統(tǒng)企業(yè)、金融、政務(wù)等領(lǐng)域，能幫助人們提升工作效率、優(yōu)化工作流程；交互工具則面向所有普通用戶，覆蓋從智能助手、智能硬件到智能營(yíng)銷……

過(guò)不了多久，最常見(jiàn)的日常場(chǎng)景，也都能用上原生多模態(tài) AI 的力量。

文中視頻鏈接：

https://mp.weixin.qq.com/s/Fy1Yk94_NvYuwVRge2PXGA