
作者|參商 西梅汁
編輯|星奈
媒體|AI大模型工場(chǎng)

國(guó)內(nèi)大模型發(fā)展趨勢(shì)|3月份解讀
AI繪圖進(jìn)入用“嘴”作圖時(shí)代
最近,各大平臺(tái)被GPT-4O生成的“吉卜力”風(fēng)圖片刷屏,OpenAI創(chuàng)始人奧特曼還連夜將自己X賬號(hào)的頭像換成漫畫(huà)風(fēng)。此次GPT-4O的出圈,不僅是網(wǎng)友玩梗而形成的病毒式傳播,更為重要的是其表現(xiàn)出的極強(qiáng)的上下文理解能力。
GPT-4o通過(guò)端到端的多模態(tài)訓(xùn)練,實(shí)現(xiàn)自然語(yǔ)言指令實(shí)現(xiàn)圖像生成與多輪優(yōu)化,用戶(hù)僅需描述"吉卜力風(fēng)格貓咪偵探漫畫(huà)",模型即可自動(dòng)融合水彩筆觸、同類(lèi)色氛圍和角色一致性等復(fù)雜要素。這種"需求-生成-迭代"的閉環(huán)交互,標(biāo)志著AI繪圖從專(zhuān)業(yè)工具向日常對(duì)話(huà)工具的跨越,用戶(hù)無(wú)需掌握PS等專(zhuān)業(yè)技能,僅憑語(yǔ)言描述即可完成創(chuàng)作。
“吉卜力濾鏡”的爆火(如特朗普變魔法師、紐約世貿(mào)中心變煤球精靈)證明,AI已滲透至大眾娛樂(lè)與文化消費(fèi)。用戶(hù)通過(guò)簡(jiǎn)單指令即可將現(xiàn)實(shí)場(chǎng)景轉(zhuǎn)化為宮崎駿動(dòng)畫(huà)風(fēng)格,這種“童年回憶殺”式的創(chuàng)作狂歡,標(biāo)志著AI從生產(chǎn)力工具升級(jí)為文化表達(dá)媒介。數(shù)據(jù)顯示,GPT-4o上線(xiàn)首周生成圖像量超Midjourney全年總量。
同時(shí),國(guó)內(nèi)企業(yè)迅速跟進(jìn)技術(shù)趨勢(shì),例如快手“可靈”上線(xiàn)吉卜力濾鏡,即夢(mèng)3.0支持影視級(jí)海報(bào)、表情包等多元設(shè)計(jì),覆蓋從個(gè)人創(chuàng)作到商業(yè)用途的場(chǎng)景。AI繪圖工具逐步從“輔助創(chuàng)作”轉(zhuǎn)向“全民可用”,例如教育領(lǐng)域通過(guò)AI生成學(xué)生職業(yè)照,激發(fā)情感共鳴并成為爆款內(nèi)容。國(guó)內(nèi)大模型通過(guò)“開(kāi)源框架+商業(yè)服務(wù)”模式,推動(dòng)AI繪圖從C端娛樂(lè)向B端滲透。
從技術(shù)底層看,這一趨勢(shì)是多模態(tài)大模型、開(kāi)源生態(tài)、推理效率提升的綜合結(jié)果;從應(yīng)用層看,它反映了AI繪畫(huà)從“專(zhuān)業(yè)工具”到“人人可用”的交互革命,而“用嘴作圖”正是自然語(yǔ)言與生成能力深度結(jié)合的標(biāo)志性節(jié)點(diǎn)。
國(guó)內(nèi)外廠商跟進(jìn)多模態(tài)推理
目前,國(guó)際廠商正在加速多模態(tài)推理技術(shù)的研發(fā)與應(yīng)用。谷歌推出了新一代Gemini 2.5系列,尤其是Gemini 2.5 Pro Experimental,通過(guò)超長(zhǎng)上下文窗口和多模態(tài)輸入顯著提升了推理、編碼與決策能力,同時(shí)優(yōu)化了響應(yīng)速度與能耗;而OpenAI則在GPT-4o基礎(chǔ)上不斷完善圖像生成和推理過(guò)程,利用o3系列進(jìn)一步提高了復(fù)雜邏輯、數(shù)學(xué)和代碼任務(wù)的表現(xiàn)。
其中,谷歌與OpenAI在技術(shù)突破上各有側(cè)重。谷歌借助先進(jìn)的多模態(tài)大語(yǔ)言框架和優(yōu)化算法,實(shí)現(xiàn)了單次處理百萬(wàn)token的數(shù)據(jù)能力,為復(fù)雜垂直應(yīng)用(如醫(yī)療診斷、法律文書(shū)生成)提供了堅(jiān)實(shí)支持;OpenAI則通過(guò)原生圖像生成功能和思維鏈推理機(jī)制,不僅在對(duì)話(huà)交互中實(shí)現(xiàn)了更精準(zhǔn)的多輪思考,還借助o3-mini等新型推理模型進(jìn)一步提升了在專(zhuān)業(yè)基準(zhǔn)測(cè)試中的成績(jī)。
而國(guó)內(nèi)廠商也在多模態(tài)推理領(lǐng)域加大布局。阿里巴巴相繼發(fā)布了視頻推理模型QvQ-Max、全模態(tài)模型Qwen2.5-Omni以及開(kāi)源推理模型QwQ-32B,這些產(chǎn)品在圖片、視頻識(shí)別與即時(shí)語(yǔ)音交互等方面實(shí)現(xiàn)了較大的技術(shù)突破,并通過(guò)低參數(shù)量、高性?xún)r(jià)比的策略,在復(fù)雜任務(wù)中展現(xiàn)出與國(guó)際頂尖模型相媲美的性能。此外,阿里巴巴還通過(guò)夸克等終端產(chǎn)品,將這些前沿模型快速落地到消費(fèi)者應(yīng)用,推動(dòng)AI To C生態(tài)建設(shè)。
商湯在上周也發(fā)布了多模態(tài)+強(qiáng)推理雙殺的日日新SenseNova V6,憑借多模態(tài)的原生融合優(yōu)勢(shì),商湯日日新SenseNova V6的多模態(tài)理解、推理和交互能力大幅升級(jí),疊加強(qiáng)推理、強(qiáng)交互、長(zhǎng)記憶等能力BUFF,率先實(shí)現(xiàn)多模態(tài)下的深度思考。
“AI六小虎”之一的階躍星辰同樣所有布局,推出多模態(tài)模型Step-R1-V-Mini,支持圖文輸入、文字輸出、有良好的指令遵循和通用能力,能夠高精度感知圖像并完成復(fù)雜推理任務(wù)。
總體來(lái)看,國(guó)內(nèi)外廠商均在多模態(tài)推理上展開(kāi)激烈競(jìng)爭(zhēng),但各自側(cè)重點(diǎn)略有不同。國(guó)際巨頭以追求超高性能、極長(zhǎng)上下文和全模態(tài)整合為目標(biāo),重點(diǎn)突破模型的推理深度和算力優(yōu)化;而國(guó)內(nèi)大廠則更注重通過(guò)開(kāi)源策略和成本控制,實(shí)現(xiàn)技術(shù)普惠和生態(tài)閉環(huán),推動(dòng)AI能力在C端落地。兩者的聯(lián)動(dòng)與相互競(jìng)爭(zhēng),共同推動(dòng)了全球AI技術(shù)向更高效、更智能、更廣泛應(yīng)用的方向邁進(jìn)。
Manus爆火,Agent崛起
Manus的爆火標(biāo)志著AI Agent從概念探索邁入規(guī)模化應(yīng)用的新階段,其核心突破在于將大模型的“理解能力”轉(zhuǎn)化為“行動(dòng)能力”。傳統(tǒng)大模型如GPT-4或Claude 4雖具備強(qiáng)大的語(yǔ)言生成與推理能力,但受限于單向交互模式和上下文長(zhǎng)度限制,難以持續(xù)處理復(fù)雜任務(wù)。而Manus通過(guò)多模型協(xié)作架構(gòu),實(shí)現(xiàn)了從“提供建議”到“自主執(zhí)行”的跨越,例如在用戶(hù)授權(quán)下直接操作軟件、整合多平臺(tái)數(shù)據(jù)并完成跨系統(tǒng)任務(wù),這種“執(zhí)行者”定位恰好填補(bǔ)了大模型落地場(chǎng)景中的關(guān)鍵空白。
技術(shù)層面,Manus的崛起反映出AI開(kāi)發(fā)范式轉(zhuǎn)變,行業(yè)更關(guān)注模型效率與垂直場(chǎng)景適配性。其采用的業(yè)務(wù)對(duì)象模型抽象方法,降低了企業(yè)部署AI Agent的門(mén)檻,與當(dāng)前AI投資邏輯轉(zhuǎn)向“效率優(yōu)先”高度契合。Manus的免費(fèi)策略與競(jìng)品高價(jià)訂閱形成對(duì)比,既快速聚集了用戶(hù)流量,也暴露出大模型商業(yè)化路徑的分歧——究竟是通過(guò)技術(shù)壟斷維持高溢價(jià),還是以開(kāi)放生態(tài)搶占市場(chǎng)入口。
從行業(yè)影響看,Manus爆火加速了AI Agent對(duì)操作系統(tǒng)底層邏輯的重構(gòu),AI Agent正從輔助工具升級(jí)為智能中樞。不過(guò),當(dāng)前技術(shù)仍面臨挑戰(zhàn),復(fù)雜交互時(shí)易出現(xiàn)任務(wù)中斷或邏輯斷層。未來(lái),AI Agent的持續(xù)進(jìn)化將依賴(lài)大模型在推理效率、持續(xù)學(xué)習(xí)及跨模態(tài)協(xié)同方面的突破,Manus的階段性成功,也為行業(yè)指明了方向。
國(guó)內(nèi)主要大模型最新進(jìn)展
阿里
3月,阿里巴巴在AI領(lǐng)域動(dòng)作頻繁,進(jìn)一步擴(kuò)大了其在AI領(lǐng)域的影響力,也為其在AI市場(chǎng)的競(jìng)爭(zhēng)增添了砝碼。
3月11日,阿里通義實(shí)驗(yàn)室開(kāi)源R1-Omni模型——業(yè)界首個(gè)將具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)應(yīng)用于全能多模態(tài)大語(yǔ)言模型。研究人員利用RLVR對(duì)開(kāi)源Omni模型HumanOmni-0.5B進(jìn)行優(yōu)化,在推理能力、情感識(shí)別準(zhǔn)確性和泛化能力三個(gè)關(guān)鍵方面顯著提高了其性能。
阿里通義團(tuán)隊(duì)選擇開(kāi)源Omni模型HumanOmni-0.5B作為基礎(chǔ)模型,目前已經(jīng)開(kāi)源了基本模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT、直接在MAFW和DFEW訓(xùn)練集上微調(diào)的模型MAFW-DFEW-SFT,以及最終模型R1-Omni。
3月13日,阿里巴巴宣布推出AI旗艦應(yīng)用——新夸克。據(jù)了解,新夸克基于阿里通義領(lǐng)先的推理及多模態(tài)大模型,整合了AI對(duì)話(huà)、深度思考、深度搜索、深度研究、深度執(zhí)行等功能。全面升級(jí)為一個(gè)無(wú)邊界的“AI超級(jí)框”,為2億用戶(hù)帶來(lái)全新體驗(yàn)。用戶(hù)可直接在“AI超級(jí)框”輸入指令,夸克智能中樞系統(tǒng)將自動(dòng)識(shí)別意圖并進(jìn)行深度思考、規(guī)劃和完成AI搜索、AI寫(xiě)作、AI生圖、AI PPT、學(xué)術(shù)研究、AI搜題、AI健康問(wèn)答、旅行計(jì)劃等,做到不同場(chǎng)景下的問(wèn)題解答與任務(wù)達(dá)成。AI會(huì)思考、執(zhí)行,并在過(guò)程中互動(dòng)調(diào)整,完成最終的任務(wù)交付。
阿里巴巴集團(tuán)副總裁、夸克CEO吳嘉表示,此次升級(jí)的版本僅僅是全新夸克的一個(gè)雛形,“隨著未來(lái)模型能力的不斷迭代升級(jí),我們希望夸克AI超級(jí)框就像機(jī)器貓的口袋一樣,能夠讓用戶(hù)在這里進(jìn)入AI世界。
3月26日,阿里正式開(kāi)源視覺(jué)語(yǔ)言模型 Qwen2.5-VL-32B-Instruct。這款 32B 參數(shù)的模型號(hào)稱(chēng)在主觀體驗(yàn)評(píng)估基準(zhǔn) MM-MT-Bench 上超越自家前代 72B 模型 Qwen2-VL-72B-Instruct,并且,該模型在Qwen2.5-VL系列的基礎(chǔ)上,基于強(qiáng)化學(xué)習(xí)優(yōu)化,具備更符合人類(lèi)偏好的回答風(fēng)格、顯著提升的數(shù)學(xué)推理能力,更強(qiáng)的圖像細(xì)粒度理解和推理能力。
3月27日,阿里巴巴發(fā)布并開(kāi)源首個(gè)端到端全模態(tài)大模型通義千問(wèn)Qwen2.5-Omni-7B,可同時(shí)處理文本、圖像、音頻和視頻等多種輸入,并實(shí)時(shí)生成文本與自然語(yǔ)音合成輸出。并且在權(quán)威的多模態(tài)融合任務(wù)OmniBench等測(cè)評(píng)中,Qwen2.5-Omni刷新業(yè)界紀(jì)錄,全維度超越Google的Gemini-1.5-Pro等同類(lèi)模型。
據(jù)了解,Qwen2.5-Omni以接近人類(lèi)的多感官方式“立體”認(rèn)知世界并與之實(shí)時(shí)交互,還能通過(guò)音視頻識(shí)別情緒。目前開(kāi)發(fā)者和企業(yè)可免費(fèi)下載商用Qwen2.5-Omni,手機(jī)等終端智能硬件也可部署運(yùn)行。
3月28日,阿里通義千問(wèn)團(tuán)隊(duì)宣布推出視覺(jué)推理模型QVQ-Max。作為此前實(shí)驗(yàn)性模型 QVQ-72B-Preview 的正式升級(jí)版本,QVQ-Max 在視覺(jué)信息處理與復(fù)雜推理能力上實(shí)現(xiàn)了顯著突破。
據(jù)官方介紹,QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容,還能為上述信息提供分析并推理。不止分析和推理,QVQ-Max 還可以完成設(shè)計(jì)插圖、生成短視頻劇本等內(nèi)容,甚至根據(jù)用戶(hù)的需求創(chuàng)建角色扮演內(nèi)容。
騰訊
3月11日,中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE發(fā)布最新報(bào)告。測(cè)評(píng)模擬了用戶(hù)的真實(shí)搜索需求,考察AI在查找實(shí)時(shí)新聞、文化生活、經(jīng)濟(jì)動(dòng)態(tài)等信息時(shí)的準(zhǔn)確度,以及在復(fù)雜問(wèn)題上的推理計(jì)算、數(shù)據(jù)分析和排序能力。
據(jù)了解,騰訊元寶在10家接入DeepSeek-R1的平臺(tái)中聯(lián)網(wǎng)搜索能力最強(qiáng),在總分、基礎(chǔ)檢索能力和分析推理能力三項(xiàng)核心指標(biāo)上均排名第一。其測(cè)評(píng)結(jié)果驗(yàn)證了騰訊元寶在信息篩選效率上的優(yōu)勢(shì),用戶(hù)可減少30%以上的無(wú)效信息瀏覽時(shí)間。
3月17日,騰訊元寶電腦版再次發(fā)布升級(jí),新增了截圖提問(wèn)功能,用戶(hù)可通過(guò)快捷鍵截圖,讓元寶直接結(jié)合圖片內(nèi)容給出回答;也支持拖拽文件和圖片到輸入框,便捷交給元寶解析。同時(shí),元寶電腦版還能調(diào)節(jié)字體大小,并上線(xiàn)深色模式,減少長(zhǎng)時(shí)間使用帶來(lái)的視覺(jué)疲勞。用戶(hù)還可以隨時(shí)中斷思考和回答、把提問(wèn)回退到輸入欄重新編輯問(wèn)題。此次升級(jí)通過(guò)截圖交互、多模態(tài)解析及交互容錯(cuò)優(yōu)化,進(jìn)一步強(qiáng)化了AI辦公場(chǎng)景的實(shí)用性與人性化設(shè)計(jì),體現(xiàn)了從“功能堆砌”向“體驗(yàn)驅(qū)動(dòng)”的轉(zhuǎn)型思路。
3月19日,騰訊混元大模型在《中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE 3月報(bào)告》中,騰訊混元位列基礎(chǔ)模型國(guó)內(nèi)第二,綜合實(shí)力穩(wěn)居國(guó)內(nèi)大模型第一梯隊(duì)。在海外最新發(fā)布的大模型競(jìng)技場(chǎng)chatbot arena中,騰訊混元首次上榜,進(jìn)入全球Top 15,獲官方推薦。
3月21日,騰訊推出了自研的深度思考模型混元T1正式版。這款模型具備快速響應(yīng)、擅長(zhǎng)處理超長(zhǎng)文本的特點(diǎn),是騰訊自主研發(fā)的高性能推理模型?;煸猅1通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),結(jié)合數(shù)學(xué)、邏輯推理、科學(xué)等領(lǐng)域的知識(shí),能夠在多個(gè)維度上評(píng)測(cè)指標(biāo)優(yōu)于競(jìng)品模型。它采用創(chuàng)新的Hybrid-Mamba-Transformer融合模式,最大輸入32k,最大輸出4K。
此外,除了發(fā)布混元T1正式版,騰訊還推出了新一代快思考模型混元Turbo S,主打更快的任務(wù)處理能力?;煸猅urbo S是混元大模型家族的最新成員,旨在提供更高效的任務(wù)處理體驗(yàn)。
3月26日,騰訊元寶迎來(lái)重大升級(jí),同時(shí)接入兩大模型:深度思考模型“騰訊混元T1”正式版,和DeepSeek V3-0324最新版。升級(jí)后,元寶的能力全面增強(qiáng),在編程、數(shù)學(xué)推理和長(zhǎng)文本處理等場(chǎng)景中的表現(xiàn)更加出色。值得一提的是,騰訊元寶是最早一批接入 DeepSeek V3-0324版本的AI應(yīng)用,從模型開(kāi)源到上線(xiàn)僅用1天。
目前,騰訊元寶的“混元+DeepSeek”雙模型均支持深度思考和秒出答案。近期,元寶持續(xù)高頻更新,35天迭代30個(gè)版本,不斷上線(xiàn)實(shí)用功能。所有能力均免費(fèi)開(kāi)放、不限次數(shù),覆蓋更多工作、學(xué)習(xí)和生活場(chǎng)景。
DeepSeek
3月24日,DeepSeek發(fā)布了更新后的模型DeepSeek-V3-0324,開(kāi)源版本已上線(xiàn)。本次更新為DeepSeek-V3模型的版本更新,并非市場(chǎng)此前一直期待的DeepSeek-V4或R2。
同日,DeepSeek在其官方交流群宣布稱(chēng),DeepSeek-V3模型已完成小版本升級(jí),該版本的最新模型也已經(jīng)同步至官網(wǎng)、APP和小程序,關(guān)閉“深度思考”就可體驗(yàn)。此次發(fā)布的版本更新,在性能上,編程能力的優(yōu)化成了最大亮點(diǎn),新版本DeepSeek-V3-0324生成前端代碼的能力大幅提升。
盡管官方稱(chēng)其為"小版本更新",但實(shí)際性能提升顯著,特別是在推理能力、編碼能力和對(duì)話(huà)交互方面。DeepSeek-V3-0324的開(kāi)源策略與高性能結(jié)合,使其成為AI社區(qū)的重要貢獻(xiàn),也為中小企業(yè)提供了低成本部署AI工具的選擇。
百度
3月16日,百度正式推出文心大模型4.5與文心大模型X1,兩款產(chǎn)品已同步上線(xiàn)文心一言官網(wǎng)及百度智能云千帆大模型平臺(tái)。用戶(hù)現(xiàn)可登錄官網(wǎng)免費(fèi)體驗(yàn)新模型,企業(yè)用戶(hù)與開(kāi)發(fā)者則可通過(guò)千帆平臺(tái)調(diào)用API接口開(kāi)啟商用開(kāi)發(fā)。
據(jù)介紹,文心大模型4.5作為百度首個(gè)原生多模態(tài)大模型,在文本推理、邏輯分析及多模態(tài)理解能力上實(shí)現(xiàn)突破,其綜合表現(xiàn)已超越GPT4.5且調(diào)用成本僅為其1%;文心大模型X1專(zhuān)注深度思考領(lǐng)域,性能對(duì)標(biāo)DeepSeek-R1的同時(shí)實(shí)現(xiàn)調(diào)用成本減半,為行業(yè)提供更具性?xún)r(jià)比的AI解決方案。
3月17日,新搜索智能助手文小言全面接入文心大模型4.5和X1,以及DeepSeek-R1滿(mǎn)血版,并支持多種模型自動(dòng)調(diào)度。據(jù)了解,文小言全量開(kāi)放文心4.5和文心X1兩款最新大模型以及DeepSeek-R1滿(mǎn)血版后,最大亮點(diǎn)是支持多種模型自動(dòng)調(diào)度。用戶(hù)既可以自行選擇使用特定模型進(jìn)行回答,也可以直接開(kāi)啟智能模式,由系統(tǒng)自行判斷并匹配適合的模型。此外,文小言近期還將上線(xiàn)全新升級(jí)的端到端語(yǔ)音對(duì)話(huà)、拍照搜索、AI 生視頻等功能,并免費(fèi)向用戶(hù)開(kāi)放。
3月24日,百度在AI Day宣布生成式應(yīng)用開(kāi)發(fā)平臺(tái)「秒噠」全量上線(xiàn)。該平臺(tái)通過(guò)無(wú)代碼開(kāi)發(fā)模式革新應(yīng)用創(chuàng)建流程,用戶(hù)僅需自然語(yǔ)言描述需求即可驅(qū)動(dòng)多智能體協(xié)同開(kāi)發(fā),全程無(wú)需編寫(xiě)代碼,支持實(shí)時(shí)多輪對(duì)話(huà)修改并即時(shí)預(yù)覽效果,大幅降低開(kāi)發(fā)門(mén)檻。
據(jù)了解,「秒噠」獨(dú)創(chuàng)"多智能體協(xié)作矩陣",集成需求收集、內(nèi)容生成等十余種AI角色,可動(dòng)態(tài)調(diào)配智能體組合策略。平臺(tái)深度融合百度智能云的數(shù)據(jù)檢索、圖像處理、語(yǔ)音識(shí)別等工具鏈,并實(shí)現(xiàn)云計(jì)算資源的智能調(diào)度,為企業(yè)提供全棧式AI開(kāi)發(fā)解決方案。
3月31日,百度旗下AI產(chǎn)品文小言完成品牌與功能雙重升級(jí),正式上線(xiàn)多模型調(diào)度系統(tǒng)及全新語(yǔ)音大模型。新版文小言深度融合文心大模型X1、4.5等模型能力,重點(diǎn)強(qiáng)化邏輯推理與多模態(tài)交互功能,支持圖文混合內(nèi)容生成、工具鏈調(diào)用及連續(xù)任務(wù)處理,其圖片理解能力尤為突出。
同時(shí),文小言升級(jí)全新語(yǔ)音大模型,支持方言對(duì)話(huà)、復(fù)雜知識(shí)問(wèn)答及隨時(shí)打斷等,用戶(hù)可進(jìn)行語(yǔ)音知識(shí)問(wèn)答或趣味角色扮演。通過(guò)整合多模型協(xié)同調(diào)度與工具調(diào)用能力,文小言已構(gòu)建起“感知-推理-執(zhí)行”的閉環(huán)智能服務(wù)體系。
字節(jié)跳動(dòng)
從發(fā)布國(guó)內(nèi)首個(gè)AI原生集成開(kāi)發(fā)環(huán)境(AI IDE)Trae國(guó)內(nèi)版,到開(kāi)源MoE架構(gòu)的關(guān)鍵優(yōu)化技術(shù)COMET,再到推出Coze產(chǎn)品和AI數(shù)字人模型OmniHuman-1,字節(jié)跳動(dòng)在AI領(lǐng)域的布局日益完善。
4月2日,字節(jié)跳動(dòng)旗下AI圖像生成平臺(tái)即夢(mèng)正式啟動(dòng)3.0版本灰度測(cè)試。該版本的AI圖像生成帶來(lái)了三個(gè)核心突破:影視級(jí)畫(huà)質(zhì)、精準(zhǔn)的文字控制以及2K高清圖像的直出體驗(yàn),其文字識(shí)別精準(zhǔn)度提升30%,生成速度較前代快20%,引發(fā)設(shè)計(jì)圈和內(nèi)容創(chuàng)作者的熱烈討論。
3月3日,字節(jié)跳動(dòng)正式發(fā)布了中國(guó)首個(gè)AI原生集成開(kāi)發(fā)環(huán)境(AI IDE)——Trae國(guó)內(nèi)版,該工具搭載了doubao-1.5-pro模型,并支持切換至滿(mǎn)血版DeepSeek R1&V3模型,為開(kāi)發(fā)者提供了強(qiáng)大的AI輔助編程能力。
此前,字節(jié)跳動(dòng)已在今年1月推出的Trae國(guó)際版已引發(fā)市場(chǎng)關(guān)注,而3月3日Trae國(guó)內(nèi)版的發(fā)布進(jìn)一步鞏固了其在AI編程領(lǐng)域的地位。
3月7日,即夢(mèng)AI的數(shù)字人功能正式上線(xiàn)「大師模式」。該功能模式由字節(jié)跳動(dòng)自研的OmniHuman-1模型驅(qū)動(dòng),用戶(hù)僅需輸入一張圖片和一段音頻,就可以讓圖片中的人物生成與音頻匹配的動(dòng)作,包括演講、唱歌、樂(lè)器演奏以及移動(dòng),效果生動(dòng)自然。該功能模式在即夢(mèng)AI Web和移動(dòng)端均已上線(xiàn),用戶(hù)更新至最新版本即可使用。
即夢(mèng)數(shù)字人功能「大師模式」可支持肖像、半身以及全身等不同尺寸的圖片輸入,對(duì)動(dòng)漫、3D卡通等非真人圖片輸入的支持效果也較為出色。即夢(mèng)方面表示會(huì)對(duì)這一功能設(shè)置嚴(yán)格的安全審核機(jī)制,并對(duì)輸出的視頻標(biāo)注「AI生成」水印以作提醒,努力確保該功能被恰當(dāng)使用。該功能展示了AI在數(shù)字人交互領(lǐng)域的技術(shù)突破與場(chǎng)景創(chuàng)新潛力,同時(shí)體現(xiàn)出平臺(tái)對(duì)技術(shù)倫理的前瞻性考量。
3月10日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)在國(guó)際知名開(kāi)源社區(qū)平臺(tái)GitHub上開(kāi)源了一項(xiàng)針對(duì)MoE(混合專(zhuān)家模型)架構(gòu)的關(guān)鍵優(yōu)化技術(shù)COMET??蓪⒋竽P陀?xùn)練效率提升1.7倍,成本節(jié)省40%。據(jù)悉,該技術(shù)已實(shí)際應(yīng)用于字節(jié)的萬(wàn)卡集群訓(xùn)練,累計(jì)幫助節(jié)省了數(shù)百萬(wàn)GPU小時(shí)訓(xùn)練算力。
此前,豆包團(tuán)隊(duì)還曾發(fā)布新一代稀疏架構(gòu)UltraMem,將模型推理成本砍掉83%。目前,COMET核心代碼已開(kāi)源,并計(jì)劃兼容Triton等編譯生態(tài)。
3月28日,字節(jié)跳動(dòng)旗下豆包宣布,新版深度思考功能開(kāi)啟測(cè)試。 據(jù)介紹,和之前的深度思考不同,新版功能將推理過(guò)程的思維鏈與搜索深度結(jié)合,支持邊想邊搜。思考過(guò)程中,豆包可基于推理多次調(diào)用工具、搜索信息,提供更加全面、準(zhǔn)確的結(jié)果。新版深度思考適用于制定方案和規(guī)劃、輔助專(zhuān)業(yè)文章寫(xiě)作、模糊條件搜索等多種場(chǎng)景。
智譜AI
3月4日,智譜官方宣布推出「智譜2025開(kāi)源年」的第一個(gè)模型:首個(gè)支持生成漢字的開(kāi)源文生圖模型——CogView4。據(jù)介紹,CogView4 在 DPG-Bench 基準(zhǔn)測(cè)試中的綜合評(píng)分排名第一,在開(kāi)源文生圖模型中達(dá)到 SOTA,也是首個(gè)遵循 Apache 2.0 協(xié)議的圖像生成模型。
性能方面,CogView4 具備較強(qiáng)的復(fù)雜語(yǔ)義對(duì)齊和指令跟隨能力,支持任意長(zhǎng)度的中英雙語(yǔ)輸入,能夠生成在給定范圍內(nèi)的任意分辨率圖像,同時(shí)具備較強(qiáng)的文字生成能力。
中文理解與生成方面,CogView4 支持中英雙語(yǔ)提示詞輸入,擅長(zhǎng)理解和遵循中文提示詞,是首個(gè)能夠在畫(huà)面中生成漢字的開(kāi)源文生圖模型,能更好地滿(mǎn)足廣告、短視頻等領(lǐng)域的創(chuàng)意需求。
3月31日,智譜在 2025 中關(guān)村論壇上發(fā)布最新 Agent 產(chǎn)品 AutoGLM 沉思。作為首個(gè)集深度研究能力和操作能力于一體的 Agent,AutoGLM 沉思能一邊進(jìn)行復(fù)雜思考,一邊執(zhí)行操作。像人類(lèi)一樣打開(kāi)并瀏覽網(wǎng)頁(yè),完成從數(shù)據(jù)檢索、分析到生成報(bào)告。
智譜表示,AutoGLM沉思背后是智譜 GLM 全棧自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,前者不僅性能比肩DeepSeek-R1,在速度提升最高8倍的同時(shí),價(jià)格僅需DeepSeek-R1的1/30。
AutoGLM沉思通過(guò)“研究-執(zhí)行”閉環(huán)架構(gòu),重新定義了AI Agent的能力邊界。其開(kāi)源策略與國(guó)產(chǎn)化適配能力,不僅降低了企業(yè)AI應(yīng)用門(mén)檻,更在金融、科研等領(lǐng)域樹(shù)立了標(biāo)桿案例。未來(lái)或進(jìn)一步拓展至工業(yè)物聯(lián)網(wǎng)、智能制造等復(fù)雜場(chǎng)景,推動(dòng)AGI技術(shù)普惠化。
科大訊飛
3月3日,訊飛星火深度推理大模型X1升級(jí)了,科大訊飛官方宣稱(chēng),星火X1在完全采用國(guó)產(chǎn)算力訓(xùn)練的前提下,以70B參數(shù)量,實(shí)現(xiàn)了在數(shù)學(xué)能力上全面對(duì)標(biāo)DeepSeek R1(參數(shù)量671B)和OpenAIo1,在中小學(xué)測(cè)試集上或超越DeepSeek-R1。星火X1采用全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練,可單機(jī)部署,大幅降低成本,實(shí)現(xiàn)自主可控,適合各類(lèi)機(jī)構(gòu)使用。
訊飛星火X1通過(guò)算法優(yōu)化與國(guó)產(chǎn)算力適配,在數(shù)學(xué)推理、醫(yī)療診斷等場(chǎng)景實(shí)現(xiàn)突破,其“小參數(shù)、高效果”的特性為行業(yè)提供了低成本、高安全性的AI解決方案。
360
3月3日,360集團(tuán)宣布已與華為深度合作,華為向360提供昇騰云服務(wù)器,為納米AI及其接入的DeepSeek-R1滿(mǎn)血版大模型提供算力支持。
據(jù)了解,雙方此次合作旨在共同構(gòu)建一條覆蓋AI算力支撐及產(chǎn)品化落地的鏈條。作為算力的核心力量,華為昇騰云服務(wù)器為360的模型訓(xùn)練與推理提供高性能算力保障;360則推動(dòng)技術(shù)產(chǎn)品化,將DeepSeek-R1滿(mǎn)血版模型與算力結(jié)合,在納米AI中提供“開(kāi)箱即用”的用戶(hù)體驗(yàn),實(shí)現(xiàn)從技術(shù)到服務(wù)的轉(zhuǎn)化。
近期,納米AI迎來(lái)全新升級(jí),個(gè)人知識(shí)庫(kù)的高階功能知識(shí)廣場(chǎng)上線(xiàn)并開(kāi)放,知識(shí)廣場(chǎng)包含考研真題、合同模板、法律文書(shū)、財(cái)稅知識(shí)、爆款短視頻腳本等垂直專(zhuān)業(yè)內(nèi)容,用戶(hù)可以立取立用。值得一提的是,納米AI將單一用戶(hù)知識(shí)庫(kù)擴(kuò)容至36G,成為目前空間容量最大的主流知識(shí)庫(kù)產(chǎn)品,能容納更多個(gè)人用戶(hù)的視頻、文本、語(yǔ)音內(nèi)容上傳。
昆侖萬(wàn)維
3月18日,昆侖萬(wàn)維宣布正式開(kāi)源Skywork R1V多模態(tài)視覺(jué)思維鏈推理模型,并即日起開(kāi)源模型權(quán)重和技術(shù)報(bào)告。該公司在官方公眾號(hào)中表示,和開(kāi)源同規(guī)?;蚋竽P拖啾?,Skywork R1V在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出色。
3月26日,昆侖萬(wàn)維正式發(fā)布全球首款音樂(lè)推理大模型Mureka O1及其基座模型Mureka V6,兩者均支持官網(wǎng)自由切換。Mureka O1作為行業(yè)首個(gè)引入思維鏈(CoT)的音樂(lè)模型,通過(guò)推理過(guò)程中的自我批判機(jī)制優(yōu)化生成邏輯,性能超越Suno并登頂SOTA榜單,其基于V6的推理架構(gòu)實(shí)現(xiàn)了音樂(lè)結(jié)構(gòu)連貫性與創(chuàng)作效率的突破。
其中,Mureka V6作為底層基座,創(chuàng)新應(yīng)用自研ICL技術(shù)強(qiáng)化聲場(chǎng)表現(xiàn),支持純音樂(lè)生成及10種語(yǔ)言(含中文、英語(yǔ)等)的AI音樂(lè)創(chuàng)作,顯著提升人聲質(zhì)感與混音設(shè)計(jì)能力,為多風(fēng)格曲風(fēng)(爵士、電子、搖滾等)和復(fù)雜情感表達(dá)提供技術(shù)支撐。
昆侖萬(wàn)維集團(tuán)官方表示,短期來(lái)看,AI生成的音樂(lè)有望在三到五年內(nèi)迎來(lái)爆發(fā)式增長(zhǎng)。
商湯科技
近日,商湯發(fā)布多模態(tài)推理模型日日新SenseNova V6,通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破,形成領(lǐng)先的多模態(tài)推理能力,并突破成本邊界。
模型能力上著提升,在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面擁有顯著優(yōu)勢(shì),多模態(tài)推理能力國(guó)內(nèi)第一,對(duì)標(biāo)GPT-o1,數(shù)據(jù)分析能力大幅領(lǐng)先GPT-4o;輕量級(jí)的全模態(tài)交互模型升級(jí),SenseNova V6 Omni擁有國(guó)內(nèi)最強(qiáng)的多模態(tài)交互能力;國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型,對(duì)標(biāo)Gemini 2.5 Turbo達(dá)到同類(lèi)型最強(qiáng),同時(shí)實(shí)現(xiàn)高效能與低成本完美結(jié)合:多模態(tài)訓(xùn)練整體效率對(duì)齊語(yǔ)言訓(xùn)練實(shí)現(xiàn)業(yè)內(nèi)最優(yōu)水平,推理成本亦實(shí)現(xiàn)業(yè)界最低。
熱門(mén)跟貼