打開網(wǎng)易新聞 查看精彩圖片

作者 ZeR0

編輯 漠影

國產(chǎn)大模型,給人形機(jī)器人裝上大腦、眼睛、耳朵和嘴巴了!

這位傅利葉通用人形機(jī)器人GRx,立即辨認(rèn)出“水”和“可樂”,還能根據(jù)說話人提出的“想減肥+愛運動”需求,給出適合的建議。

傅里葉人形機(jī)器人在商湯技術(shù)交流日展區(qū)展示實時視覺能力
打開網(wǎng)易新聞 查看更多視頻
傅里葉人形機(jī)器人在商湯技術(shù)交流日展區(qū)展示實時視覺能力

讓它夸人,也是張口就來。

傅里葉人形機(jī)器人在商湯技術(shù)交流日展區(qū)展示多模態(tài)能力
打開網(wǎng)易新聞 查看更多視頻
傅里葉人形機(jī)器人在商湯技術(shù)交流日展區(qū)展示多模態(tài)能力

另一位具身智能機(jī)器人“飛燕”,能娓娓道來地描述眼前的場景,包括室內(nèi)環(huán)境如何、人們在做什么。

具身智能機(jī)器人“飛燕”在商湯技術(shù)交流日展區(qū)與展示實時視覺能力
打開網(wǎng)易新聞 查看更多視頻
具身智能機(jī)器人“飛燕”在商湯技術(shù)交流日展區(qū)與展示實時視覺能力

這意味著以后機(jī)器人迎賓或當(dāng)解說員,不再是站樁上崗了,而是活人感滿滿,更自如地跟人侃天侃地聊周圍,還能察覺眼前人的心情,通過改變語氣和音調(diào)給足情緒價值。

這些多模態(tài)能力,來自商湯剛剛發(fā)布的新一代「日日新SenseNova V6」大模型

今天,「日日新SenseNova V6」火力全開,實現(xiàn)「長思維鏈 x 數(shù)理能力 x 推理能力 x 全局記憶」能力升級,包括最長64K思維鏈、大幅領(lǐng)先GPT-4o的數(shù)據(jù)分析能力模態(tài)深度推理國內(nèi)第一、10分鐘長視頻理解及深度推理等強(qiáng)項,還展示了將先進(jìn)視覺交互和理解引入機(jī)器人的應(yīng)用效果。

商湯這次多模態(tài)能力的升級,讓人形機(jī)器人在視覺和語言能力上,具備了更趨近人的水平。

當(dāng)智東西問到是否會推動大模型加速應(yīng)用到具身智能機(jī)器人,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華干脆利落地回答:“這個肯定會去做。

林達(dá)華說,商湯將“如何將機(jī)器人交互能力與具身智能的結(jié)合”視作一個非常重要的未來發(fā)展方向。他認(rèn)為最終的AI交互形態(tài)是像人一樣交互,不會是對著一個電腦窗口,屆時從機(jī)器人、汽車到手機(jī)、眼鏡,多模態(tài)交互將無處不在。

除了當(dāng)導(dǎo)游、講解員,「日日新SenseNova V6」也能玩創(chuàng)意,智東西實測了讓它給空白梗圖設(shè)計對話,腦洞開得既多又大。

打開網(wǎng)易新聞 查看精彩圖片

它還能速覽中長分鐘視頻,總結(jié)重點內(nèi)容,精確到視頻里的幾分幾秒,而且能按照用戶要求,將信息按列表形式輸出,或是剪輯指定場景的視頻片段。

只需在商量網(wǎng)頁版上傳一個視頻,你就可以做針對性的提問,比如“這倆人關(guān)系怎么樣?”、“這個人推薦的三個商品,哪個性價比高?”

你還可以讓它深入分析故事情節(jié),比如分析某一集《名偵探柯南》里兇手是怎么下毒的。

林達(dá)華透露說,今年商湯將把視頻理解支持時長進(jìn)一步提升到1小時。

商量App上的實時視音頻交互能力也非常絲滑方便,打開手機(jī)攝像頭,就可以哪里不懂問哪里。無論是鏡頭里一掃而過的街景,還是講解數(shù)學(xué)題和翻譯文字,或者看圖講故事,AI都信手拈來。

全新商量網(wǎng)頁版即日上線,商量App已開啟內(nèi)測,日日新SenseNova V6 API明日上線。

網(wǎng)頁版指路:chat.sensetime.com

商湯還發(fā)布商湯大裝置SenseCore 2.0,同時推出四大行業(yè)解決方案,要做“最懂大模型的AI基礎(chǔ)設(shè)施”。

值得一提的是,國產(chǎn)芯片參與了「日日新SenseNova V6」的訓(xùn)練。

商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆告訴智東西,國產(chǎn)芯片這三年快速進(jìn)步,商湯持續(xù)對進(jìn)口及國產(chǎn)芯片做適配和優(yōu)化,希望能提供市場最優(yōu)的性價比。

2025年大模型發(fā)展有三大重要技術(shù)趨勢:效率至上、多模態(tài)、深度推理。

新發(fā)布的「日日新SenseNova V6」原生多模態(tài)通用大模型,采用混合專家架構(gòu)(MoE),擁有6000億參數(shù),做到三合一:多模態(tài)長思維鏈+多模態(tài)強(qiáng)化學(xué)習(xí)+多模態(tài)全局記憶。

其推理能力顯著提升,一個模型同時在多模態(tài)推理和純文本推理上做到性能對標(biāo)國際領(lǐng)先模型。從商湯展示的分?jǐn)?shù)來看,SenseNova V6 Reasoner推理模型的推理能力超過了OpenAI o1和Gemini 2.0 flash-thinking。

商湯也實誠地放出了SenseNova V6與OpenAI、谷歌、DeepSeek先進(jìn)模型在純文本、多模態(tài)、純文本推理、多模態(tài)推理上的具體分?jǐn)?shù)對比,總體旗鼓相當(dāng),高低略有參差。

其中,純文本推理和多模態(tài)推理方面,SenseNova V6在多項數(shù)學(xué)基準(zhǔn)測試中的超過了DeepSeek-R1、OpenAI o1、GPT-4.5。

SenseNova V6的Tablebench通過率超過GPT-4o,展現(xiàn)出強(qiáng)推理能力。

主打?qū)崟r視音頻交互的SenseNova V6 Omni,實現(xiàn)了視頻-語音交融的端到端輸入輸出,在多模態(tài)音視頻學(xué)術(shù)榜單上的綜合能力全面領(lǐng)先,單項能力對標(biāo)專用大模型水準(zhǔn),做到視覺理解準(zhǔn)確度高,語音錯誤率低。

在場景能力私域評測中,SenseNova V6 Omni在識別能力、問答對話、記憶能力等維度均顯著領(lǐng)先于同類產(chǎn)品。

模型不能紙上談兵,解決現(xiàn)實問題才是硬本事。商湯認(rèn)為,大模型在商業(yè)應(yīng)用上有兩個關(guān)鍵價值:融入真實的業(yè)務(wù)應(yīng)用,優(yōu)化與人交互體驗。

而真實世界中的對話,不是像跟DeepSeek對話那樣,把每個指令都描述得很完整清晰,可能隨手指著一個東西提問:“那個是啥?”“這道題怎么做?”

對應(yīng)到機(jī)器人也是如此。

多模態(tài)融合模型可以成為機(jī)器人的大腦和眼睛,增強(qiáng)感知能力,像人一樣進(jìn)行深入思考和自然表達(dá),還有更強(qiáng)的記憶力,比如能夠記住之前來參觀過的人。

這使得機(jī)器人在落地到導(dǎo)覽等應(yīng)用場景時,可以隨時隨地做講解,在網(wǎng)絡(luò)通暢的狀態(tài)下,實時理解和響應(yīng)語音意圖,與人流暢對話,實現(xiàn)更擬人化的社交與互動。

得益于「日日新SenseNova V6 Omni」多模態(tài)能力的進(jìn)化,機(jī)器人能夠看懂人的手勢,回答人們對周圍環(huán)境及物品的提問,根據(jù)對話內(nèi)容和場景靈活切換交流方式,帶給用戶更真實、親切的互動體驗。

具身智能將是商湯多模態(tài)推理模型的重要場景之一。此次技術(shù)交流日上,商湯特別設(shè)置具身智能主題論壇。

談到近期引起輿論爭議的“朱嘯虎批量退出人形機(jī)器人”以及具身智能泡沫話題,作為人形機(jī)器人嘉賓代表,銀河通用合伙人、大模型負(fù)責(zé)人張直政談道,作為科研人員,他從謹(jǐn)慎樂觀的角度來看待,泡沫對于驅(qū)動科技創(chuàng)新很正常。

商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆認(rèn)為,科技產(chǎn)業(yè)要經(jīng)歷質(zhì)疑,克服質(zhì)疑,才能邁向更認(rèn)真嚴(yán)肅的產(chǎn)業(yè)階段,讓大家更認(rèn)真的思考距離商業(yè)落地還有多遠(yuǎn)。他相信多模態(tài)交互能力會給機(jī)器人帶來幫助。

在日常生活和辦公場景中,應(yīng)用了「日日新SenseNova V6」系列模型后,也能帶來更多便利和生產(chǎn)力的提升。

比如上傳時長10分鐘以內(nèi)的網(wǎng)課、旅游、生活類視頻,就可以讓AI快速整理重點、回答與視頻內(nèi)容相關(guān)的問題。

商湯日日新SenseNova V6 Video視頻理解模型好物安利測試
打開網(wǎng)易新聞 查看更多視頻
商湯日日新SenseNova V6 Video視頻理解模型好物安利測試

商家可以收集顧客對新品的評論吐槽截圖,讓「日日新SenseNova V6」做專業(yè)的經(jīng)營分析。

它還能解決真實辦公場景里繁瑣但重要的需求,包括信息管理、報告生成、運維日志生成、數(shù)學(xué)建模等。

另外通過商量app,不僅有常見的文字聊天、圖片問答、深度思考等功能,還能進(jìn)行音頻通話和視頻通話,并針對四大高頻需求,提供「數(shù)學(xué)解題」、「點讀翻譯」、「文旅講解」、「繪本講解」四大功能。

你可以跟AI玩“你畫我猜”。在開場演示中,「日日新SenseNova V6」立即識別出用戶正在畫的是哪吒大電影里的太乙真人。它還能惟妙惟肖地模仿太乙真人角色的口音。

商湯日日新SenseNova V5展示猜畫和模仿口音能力
打開網(wǎng)易新聞 查看更多視頻
商湯日日新SenseNova V5展示猜畫和模仿口音能力

拍照解題幾乎已經(jīng)是各類多模態(tài)AI聊天app的標(biāo)配。但這些普遍要先拍照,上傳照片,再等AI輸出一個很長的答案。

而通過商量app實時視頻通話,AI可以像一個真人家教,精準(zhǔn)識別手寫體,深度推理分析和定位錯誤,并針對錯誤點一步一步引導(dǎo)式講題。

外出旅游就更方便了,相當(dāng)于在手機(jī)里擁有一個博學(xué)多識的免費導(dǎo)游,打開攝像頭一掃,想問什么都能立即獲得答案。你還可以把攝像頭對準(zhǔn)外文書籍或菜單,讓AI實時翻譯。

在家庭場景,很多家長沒有時間讀繪本,或者得絞盡腦汁地給孩子講故事。這也可以由商量app代勞,它能實現(xiàn)連續(xù)記憶與時序邏輯理解,講述更完整生動的故事,還能挖掘故事深意,升華主旨。

上述進(jìn)展離不開商湯在技術(shù)上的持續(xù)創(chuàng)新。會上,商湯著重強(qiáng)調(diào)了三類技術(shù):

(1)多模態(tài)長思維鏈:通過智能體(Agents)協(xié)作進(jìn)行長思維鏈合成和驗證,可支持合成最長 64K的多模態(tài)長思維鏈,使模型具備面對復(fù)雜問題的長時間思考能力。

(2)多模態(tài)強(qiáng)化學(xué)習(xí):構(gòu)建了面向多種圖文任務(wù)的混合增強(qiáng)學(xué)習(xí)框架,可以同步進(jìn)行基于人類偏好的RLHF、基于確定性答案或沙盒運行的RFT,并通過動態(tài)調(diào)節(jié)機(jī)制保證主客觀表現(xiàn)的均衡。

打開網(wǎng)易新聞 查看精彩圖片

(3)多模態(tài)全局記憶:可將視覺信息、聽覺、語言、與時間軸邏輯進(jìn)行對齊,形成多模態(tài)統(tǒng)一時序表征。在此基礎(chǔ)上通過內(nèi)容敏感的細(xì)粒度級聯(lián)信息壓縮,實現(xiàn)400倍的長視頻壓縮。

此外,SenseNova V6 Video將視頻理解時長突破到10分鐘,離不開長視頻統(tǒng)一表征和動態(tài)壓縮的技術(shù)進(jìn)步,可將10分鐘長視頻壓縮到16K tokens,同時仍然保留關(guān)鍵語義。通過“視覺-聽覺-語義”三重關(guān)聯(lián)推理,它能發(fā)現(xiàn)視頻內(nèi)容中的一些矛盾和漏洞。

大模型技術(shù)的高效落地與規(guī)?;瘧?yīng)用,離不開高效穩(wěn)定的算力底座。據(jù)商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆透露,商湯大裝置已經(jīng)將商湯多模態(tài)推理應(yīng)用的成本降到和大語言模型一樣。

通過PD分離/通信計算折疊/FP8強(qiáng)化/算子優(yōu)化等基礎(chǔ)設(shè)施與模型協(xié)同優(yōu)化,結(jié)合預(yù)測模型驅(qū)動的彈性伸縮技術(shù),商湯大裝置實現(xiàn)了推理性能的突破,在線服務(wù)性能較頭部廠商提升15%,超行業(yè)平均水平25%;離線推理方面,Prefill階段提速5倍,Decode階段提速3.5倍。

此外,商湯大裝置聯(lián)合某頭部客戶進(jìn)行了大規(guī)模異構(gòu)混訓(xùn),基于自動并行策略、跨芯通信、容錯恢復(fù)等核心技術(shù),在5000張國產(chǎn)GPU集群上實現(xiàn)1個月穩(wěn)定異構(gòu)混訓(xùn),達(dá)成80%算力利用率,成功突破單一GPU限制,為國產(chǎn)芯片碎片化問題提供了關(guān)鍵解決方案。

打開網(wǎng)易新聞 查看精彩圖片

商湯大裝置還宣布今年發(fā)放1億代金券,全棧賦能場景落地。

大模型算法與基礎(chǔ)設(shè)施的聯(lián)合優(yōu)化,已經(jīng)成為推動生成式AI飛速發(fā)展的核心動力。

當(dāng)前,商湯正基于“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略,全面構(gòu)建未來競爭力,致力于通過基礎(chǔ)設(shè)施、大模型和應(yīng)用的協(xié)同迭代,成為“最懂算力的大模型服務(wù)商”和“最懂大模型的算力服務(wù)商”。

基于三位一體戰(zhàn)略,商湯打造以日日新(SenseNova)多模態(tài)大模型為基石,以生產(chǎn)力工具和交互工具為兩大落地方向的“一基兩翼”布局。其中生產(chǎn)力工具側(cè)重在企業(yè)copilot、金融、政務(wù),交互化工具側(cè)重在擬人交互、多模態(tài)交互、智能營銷。

從技術(shù)突破、商業(yè)落地到生態(tài)協(xié)同,商湯正在摸索出作為獨立AI企業(yè)的核心競爭力,深入真實場景需求,服務(wù)于大眾和企業(yè)日常,將多模態(tài)大模型的優(yōu)勢真正落到實處,實現(xiàn)更智慧、更溫暖、更有用的人機(jī)交互。