农村妇女毛片精品久久久,国产免费黄频在线观看,久久精品免费久久,可以在线观看的国产精品,久久一区二区电影日本

作者｜參商西梅汁

編輯｜星奈

媒體｜AI大模型工場(chǎng)

國(guó)內(nèi)大模型發(fā)展趨勢(shì)|3月份解讀

AI繪圖進(jìn)入用“嘴”作圖時(shí)代

最近，各大平臺(tái)被GPT-4O生成的“吉卜力”風(fēng)圖片刷屏，OpenAI創(chuàng)始人奧特曼還連夜將自己X賬號(hào)的頭像換成漫畫(huà)風(fēng)。此次GPT-4O的出圈，不僅是網(wǎng)友玩梗而形成的病毒式傳播，更為重要的是其表現(xiàn)出的極強(qiáng)的上下文理解能力。

GPT-4o通過(guò)端到端的多模態(tài)訓(xùn)練，實(shí)現(xiàn)自然語(yǔ)言指令實(shí)現(xiàn)圖像生成與多輪優(yōu)化，用戶(hù)僅需描述"吉卜力風(fēng)格貓咪偵探漫畫(huà)"，模型即可自動(dòng)融合水彩筆觸、同類(lèi)色氛圍和角色一致性等復(fù)雜要素。這種"需求-生成-迭代"的閉環(huán)交互，標(biāo)志著AI繪圖從專(zhuān)業(yè)工具向日常對(duì)話(huà)工具的跨越，用戶(hù)無(wú)需掌握PS等專(zhuān)業(yè)技能，僅憑語(yǔ)言描述即可完成創(chuàng)作。

“吉卜力濾鏡”的爆火（如特朗普變魔法師、紐約世貿(mào)中心變煤球精靈）證明，AI已滲透至大眾娛樂(lè)與文化消費(fèi)。用戶(hù)通過(guò)簡(jiǎn)單指令即可將現(xiàn)實(shí)場(chǎng)景轉(zhuǎn)化為宮崎駿動(dòng)畫(huà)風(fēng)格，這種“童年回憶殺”式的創(chuàng)作狂歡，標(biāo)志著AI從生產(chǎn)力工具升級(jí)為文化表達(dá)媒介。數(shù)據(jù)顯示，GPT-4o上線(xiàn)首周生成圖像量超Midjourney全年總量。

同時(shí)，國(guó)內(nèi)企業(yè)迅速跟進(jìn)技術(shù)趨勢(shì)，例如快手“可靈”上線(xiàn)吉卜力濾鏡，即夢(mèng)3.0支持影視級(jí)海報(bào)、表情包等多元設(shè)計(jì)，覆蓋從個(gè)人創(chuàng)作到商業(yè)用途的場(chǎng)景。AI繪圖工具逐步從“輔助創(chuàng)作”轉(zhuǎn)向“全民可用”，例如教育領(lǐng)域通過(guò)AI生成學(xué)生職業(yè)照，激發(fā)情感共鳴并成為爆款內(nèi)容。國(guó)內(nèi)大模型通過(guò)“開(kāi)源框架+商業(yè)服務(wù)”模式，推動(dòng)AI繪圖從C端娛樂(lè)向B端滲透。

從技術(shù)底層看，這一趨勢(shì)是多模態(tài)大模型、開(kāi)源生態(tài)、推理效率提升的綜合結(jié)果；從應(yīng)用層看，它反映了AI繪畫(huà)從“專(zhuān)業(yè)工具”到“人人可用”的交互革命，而“用嘴作圖”正是自然語(yǔ)言與生成能力深度結(jié)合的標(biāo)志性節(jié)點(diǎn)。

國(guó)內(nèi)外廠商跟進(jìn)多模態(tài)推理

目前，國(guó)際廠商正在加速多模態(tài)推理技術(shù)的研發(fā)與應(yīng)用。谷歌推出了新一代Gemini 2.5系列，尤其是Gemini 2.5 Pro Experimental，通過(guò)超長(zhǎng)上下文窗口和多模態(tài)輸入顯著提升了推理、編碼與決策能力，同時(shí)優(yōu)化了響應(yīng)速度與能耗；而OpenAI則在GPT-4o基礎(chǔ)上不斷完善圖像生成和推理過(guò)程，利用o3系列進(jìn)一步提高了復(fù)雜邏輯、數(shù)學(xué)和代碼任務(wù)的表現(xiàn)。

其中，谷歌與OpenAI在技術(shù)突破上各有側(cè)重。谷歌借助先進(jìn)的多模態(tài)大語(yǔ)言框架和優(yōu)化算法，實(shí)現(xiàn)了單次處理百萬(wàn)token的數(shù)據(jù)能力，為復(fù)雜垂直應(yīng)用（如醫(yī)療診斷、法律文書(shū)生成）提供了堅(jiān)實(shí)支持；OpenAI則通過(guò)原生圖像生成功能和思維鏈推理機(jī)制，不僅在對(duì)話(huà)交互中實(shí)現(xiàn)了更精準(zhǔn)的多輪思考，還借助o3-mini等新型推理模型進(jìn)一步提升了在專(zhuān)業(yè)基準(zhǔn)測(cè)試中的成績(jī)。

而國(guó)內(nèi)廠商也在多模態(tài)推理領(lǐng)域加大布局。阿里巴巴相繼發(fā)布了視頻推理模型QvQ-Max、全模態(tài)模型Qwen2.5-Omni以及開(kāi)源推理模型QwQ-32B，這些產(chǎn)品在圖片、視頻識(shí)別與即時(shí)語(yǔ)音交互等方面實(shí)現(xiàn)了較大的技術(shù)突破，并通過(guò)低參數(shù)量、高性?xún)r(jià)比的策略，在復(fù)雜任務(wù)中展現(xiàn)出與國(guó)際頂尖模型相媲美的性能。此外，阿里巴巴還通過(guò)夸克等終端產(chǎn)品，將這些前沿模型快速落地到消費(fèi)者應(yīng)用，推動(dòng)AI To C生態(tài)建設(shè)。

商湯在上周也發(fā)布了多模態(tài)+強(qiáng)推理雙殺的日日新SenseNova V6，憑借多模態(tài)的原生融合優(yōu)勢(shì)，商湯日日新SenseNova V6的多模態(tài)理解、推理和交互能力大幅升級(jí)，疊加強(qiáng)推理、強(qiáng)交互、長(zhǎng)記憶等能力BUFF，率先實(shí)現(xiàn)多模態(tài)下的深度思考。

“AI六小虎”之一的階躍星辰同樣所有布局，推出多模態(tài)模型Step-R1-V-Mini，支持圖文輸入、文字輸出、有良好的指令遵循和通用能力，能夠高精度感知圖像并完成復(fù)雜推理任務(wù)。

總體來(lái)看，國(guó)內(nèi)外廠商均在多模態(tài)推理上展開(kāi)激烈競(jìng)爭(zhēng)，但各自側(cè)重點(diǎn)略有不同。國(guó)際巨頭以追求超高性能、極長(zhǎng)上下文和全模態(tài)整合為目標(biāo)，重點(diǎn)突破模型的推理深度和算力優(yōu)化；而國(guó)內(nèi)大廠則更注重通過(guò)開(kāi)源策略和成本控制，實(shí)現(xiàn)技術(shù)普惠和生態(tài)閉環(huán)，推動(dòng)AI能力在C端落地。兩者的聯(lián)動(dòng)與相互競(jìng)爭(zhēng)，共同推動(dòng)了全球AI技術(shù)向更高效、更智能、更廣泛應(yīng)用的方向邁進(jìn)。

Manus爆火，Agent崛起

Manus的爆火標(biāo)志著AI Agent從概念探索邁入規(guī)模化應(yīng)用的新階段，其核心突破在于將大模型的“理解能力”轉(zhuǎn)化為“行動(dòng)能力”。傳統(tǒng)大模型如GPT-4或Claude 4雖具備強(qiáng)大的語(yǔ)言生成與推理能力，但受限于單向交互模式和上下文長(zhǎng)度限制，難以持續(xù)處理復(fù)雜任務(wù)。而Manus通過(guò)多模型協(xié)作架構(gòu)，實(shí)現(xiàn)了從“提供建議”到“自主執(zhí)行”的跨越，例如在用戶(hù)授權(quán)下直接操作軟件、整合多平臺(tái)數(shù)據(jù)并完成跨系統(tǒng)任務(wù)，這種“執(zhí)行者”定位恰好填補(bǔ)了大模型落地場(chǎng)景中的關(guān)鍵空白。

技術(shù)層面，Manus的崛起反映出AI開(kāi)發(fā)范式轉(zhuǎn)變，行業(yè)更關(guān)注模型效率與垂直場(chǎng)景適配性。其采用的業(yè)務(wù)對(duì)象模型抽象方法，降低了企業(yè)部署AI Agent的門(mén)檻，與當(dāng)前AI投資邏輯轉(zhuǎn)向“效率優(yōu)先”高度契合。Manus的免費(fèi)策略與競(jìng)品高價(jià)訂閱形成對(duì)比，既快速聚集了用戶(hù)流量，也暴露出大模型商業(yè)化路徑的分歧——究竟是通過(guò)技術(shù)壟斷維持高溢價(jià)，還是以開(kāi)放生態(tài)搶占市場(chǎng)入口。

從行業(yè)影響看，Manus爆火加速了AI Agent對(duì)操作系統(tǒng)底層邏輯的重構(gòu)，AI Agent正從輔助工具升級(jí)為智能中樞。不過(guò)，當(dāng)前技術(shù)仍面臨挑戰(zhàn)，復(fù)雜交互時(shí)易出現(xiàn)任務(wù)中斷或邏輯斷層。未來(lái)，AI Agent的持續(xù)進(jìn)化將依賴(lài)大模型在推理效率、持續(xù)學(xué)習(xí)及跨模態(tài)協(xié)同方面的突破，Manus的階段性成功，也為行業(yè)指明了方向。

國(guó)內(nèi)主要大模型最新進(jìn)展

阿里

3月，阿里巴巴在AI領(lǐng)域動(dòng)作頻繁，進(jìn)一步擴(kuò)大了其在AI領(lǐng)域的影響力，也為其在AI市場(chǎng)的競(jìng)爭(zhēng)增添了砝碼。

3月11日，阿里通義實(shí)驗(yàn)室開(kāi)源R1-Omni模型——業(yè)界首個(gè)將具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）應(yīng)用于全能多模態(tài)大語(yǔ)言模型。研究人員利用RLVR對(duì)開(kāi)源Omni模型HumanOmni-0.5B進(jìn)行優(yōu)化，在推理能力、情感識(shí)別準(zhǔn)確性和泛化能力三個(gè)關(guān)鍵方面顯著提高了其性能。

阿里通義團(tuán)隊(duì)選擇開(kāi)源Omni模型HumanOmni-0.5B作為基礎(chǔ)模型，目前已經(jīng)開(kāi)源了基本模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT、直接在MAFW和DFEW訓(xùn)練集上微調(diào)的模型MAFW-DFEW-SFT，以及最終模型R1-Omni。

3月13日，阿里巴巴宣布推出AI旗艦應(yīng)用——新夸克。據(jù)了解，新夸克基于阿里通義領(lǐng)先的推理及多模態(tài)大模型，整合了AI對(duì)話(huà)、深度思考、深度搜索、深度研究、深度執(zhí)行等功能。全面升級(jí)為一個(gè)無(wú)邊界的“AI超級(jí)框”，為2億用戶(hù)帶來(lái)全新體驗(yàn)。用戶(hù)可直接在“AI超級(jí)框”輸入指令，夸克智能中樞系統(tǒng)將自動(dòng)識(shí)別意圖并進(jìn)行深度思考、規(guī)劃和完成AI搜索、AI寫(xiě)作、AI生圖、AI PPT、學(xué)術(shù)研究、AI搜題、AI健康問(wèn)答、旅行計(jì)劃等，做到不同場(chǎng)景下的問(wèn)題解答與任務(wù)達(dá)成。AI會(huì)思考、執(zhí)行，并在過(guò)程中互動(dòng)調(diào)整，完成最終的任務(wù)交付。

阿里巴巴集團(tuán)副總裁、夸克CEO吳嘉表示，此次升級(jí)的版本僅僅是全新夸克的一個(gè)雛形，“隨著未來(lái)模型能力的不斷迭代升級(jí)，我們希望夸克AI超級(jí)框就像機(jī)器貓的口袋一樣，能夠讓用戶(hù)在這里進(jìn)入AI世界。

3月26日，阿里正式開(kāi)源視覺(jué)語(yǔ)言模型 Qwen2.5-VL-32B-Instruct。這款 32B 參數(shù)的模型號(hào)稱(chēng)在主觀體驗(yàn)評(píng)估基準(zhǔn) MM-MT-Bench 上超越自家前代 72B 模型 Qwen2-VL-72B-Instruct，并且，該模型在Qwen2.5-VL系列的基礎(chǔ)上，基于強(qiáng)化學(xué)習(xí)優(yōu)化，具備更符合人類(lèi)偏好的回答風(fēng)格、顯著提升的數(shù)學(xué)推理能力，更強(qiáng)的圖像細(xì)粒度理解和推理能力。

3月27日，阿里巴巴發(fā)布并開(kāi)源首個(gè)端到端全模態(tài)大模型通義千問(wèn)Qwen2.5-Omni-7B，可同時(shí)處理文本、圖像、音頻和視頻等多種輸入，并實(shí)時(shí)生成文本與自然語(yǔ)音合成輸出。并且在權(quán)威的多模態(tài)融合任務(wù)OmniBench等測(cè)評(píng)中，Qwen2.5-Omni刷新業(yè)界紀(jì)錄，全維度超越Google的Gemini-1.5-Pro等同類(lèi)模型。

據(jù)了解，Qwen2.5-Omni以接近人類(lèi)的多感官方式“立體”認(rèn)知世界并與之實(shí)時(shí)交互，還能通過(guò)音視頻識(shí)別情緒。目前開(kāi)發(fā)者和企業(yè)可免費(fèi)下載商用Qwen2.5-Omni，手機(jī)等終端智能硬件也可部署運(yùn)行。

3月28日，阿里通義千問(wèn)團(tuán)隊(duì)宣布推出視覺(jué)推理模型QVQ-Max。作為此前實(shí)驗(yàn)性模型 QVQ-72B-Preview 的正式升級(jí)版本，QVQ-Max 在視覺(jué)信息處理與復(fù)雜推理能力上實(shí)現(xiàn)了顯著突破。

據(jù)官方介紹，QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容，還能為上述信息提供分析并推理。不止分析和推理，QVQ-Max 還可以完成設(shè)計(jì)插圖、生成短視頻劇本等內(nèi)容，甚至根據(jù)用戶(hù)的需求創(chuàng)建角色扮演內(nèi)容。

騰訊

3月11日，中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE發(fā)布最新報(bào)告。測(cè)評(píng)模擬了用戶(hù)的真實(shí)搜索需求，考察AI在查找實(shí)時(shí)新聞、文化生活、經(jīng)濟(jì)動(dòng)態(tài)等信息時(shí)的準(zhǔn)確度，以及在復(fù)雜問(wèn)題上的推理計(jì)算、數(shù)據(jù)分析和排序能力。

據(jù)了解，騰訊元寶在10家接入DeepSeek-R1的平臺(tái)中聯(lián)網(wǎng)搜索能力最強(qiáng)，在總分、基礎(chǔ)檢索能力和分析推理能力三項(xiàng)核心指標(biāo)上均排名第一。其測(cè)評(píng)結(jié)果驗(yàn)證了騰訊元寶在信息篩選效率上的優(yōu)勢(shì)，用戶(hù)可減少30%以上的無(wú)效信息瀏覽時(shí)間。

3月17日，騰訊元寶電腦版再次發(fā)布升級(jí)，新增了截圖提問(wèn)功能，用戶(hù)可通過(guò)快捷鍵截圖，讓元寶直接結(jié)合圖片內(nèi)容給出回答；也支持拖拽文件和圖片到輸入框，便捷交給元寶解析。同時(shí)，元寶電腦版還能調(diào)節(jié)字體大小，并上線(xiàn)深色模式，減少長(zhǎng)時(shí)間使用帶來(lái)的視覺(jué)疲勞。用戶(hù)還可以隨時(shí)中斷思考和回答、把提問(wèn)回退到輸入欄重新編輯問(wèn)題。此次升級(jí)通過(guò)截圖交互、多模態(tài)解析及交互容錯(cuò)優(yōu)化，進(jìn)一步強(qiáng)化了AI辦公場(chǎng)景的實(shí)用性與人性化設(shè)計(jì)，體現(xiàn)了從“功能堆砌”向“體驗(yàn)驅(qū)動(dòng)”的轉(zhuǎn)型思路。

3月19日，騰訊混元大模型在《中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE 3月報(bào)告》中，騰訊混元位列基礎(chǔ)模型國(guó)內(nèi)第二，綜合實(shí)力穩(wěn)居國(guó)內(nèi)大模型第一梯隊(duì)。在海外最新發(fā)布的大模型競(jìng)技場(chǎng)chatbot arena中，騰訊混元首次上榜，進(jìn)入全球Top 15，獲官方推薦。

3月21日，騰訊推出了自研的深度思考模型混元T1正式版。這款模型具備快速響應(yīng)、擅長(zhǎng)處理超長(zhǎng)文本的特點(diǎn)，是騰訊自主研發(fā)的高性能推理模型?；煸猅1通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)，結(jié)合數(shù)學(xué)、邏輯推理、科學(xué)等領(lǐng)域的知識(shí)，能夠在多個(gè)維度上評(píng)測(cè)指標(biāo)優(yōu)于競(jìng)品模型。它采用創(chuàng)新的Hybrid-Mamba-Transformer融合模式，最大輸入32k，最大輸出4K。

此外，除了發(fā)布混元T1正式版，騰訊還推出了新一代快思考模型混元Turbo S，主打更快的任務(wù)處理能力?；煸猅urbo S是混元大模型家族的最新成員，旨在提供更高效的任務(wù)處理體驗(yàn)。

3月26日，騰訊元寶迎來(lái)重大升級(jí)，同時(shí)接入兩大模型：深度思考模型“騰訊混元T1”正式版，和DeepSeek V3-0324最新版。升級(jí)后，元寶的能力全面增強(qiáng)，在編程、數(shù)學(xué)推理和長(zhǎng)文本處理等場(chǎng)景中的表現(xiàn)更加出色。值得一提的是，騰訊元寶是最早一批接入 DeepSeek V3-0324版本的AI應(yīng)用，從模型開(kāi)源到上線(xiàn)僅用1天。

目前，騰訊元寶的“混元+DeepSeek”雙模型均支持深度思考和秒出答案。近期，元寶持續(xù)高頻更新，35天迭代30個(gè)版本，不斷上線(xiàn)實(shí)用功能。所有能力均免費(fèi)開(kāi)放、不限次數(shù)，覆蓋更多工作、學(xué)習(xí)和生活場(chǎng)景。

DeepSeek

3月24日，DeepSeek發(fā)布了更新后的模型DeepSeek-V3-0324，開(kāi)源版本已上線(xiàn)。本次更新為DeepSeek-V3模型的版本更新，并非市場(chǎng)此前一直期待的DeepSeek-V4或R2。

同日，DeepSeek在其官方交流群宣布稱(chēng)，DeepSeek-V3模型已完成小版本升級(jí)，該版本的最新模型也已經(jīng)同步至官網(wǎng)、APP和小程序，關(guān)閉“深度思考”就可體驗(yàn)。此次發(fā)布的版本更新，在性能上，編程能力的優(yōu)化成了最大亮點(diǎn)，新版本DeepSeek-V3-0324生成前端代碼的能力大幅提升。

盡管官方稱(chēng)其為"小版本更新"，但實(shí)際性能提升顯著，特別是在推理能力、編碼能力和對(duì)話(huà)交互方面。DeepSeek-V3-0324的開(kāi)源策略與高性能結(jié)合，使其成為AI社區(qū)的重要貢獻(xiàn)，也為中小企業(yè)提供了低成本部署AI工具的選擇。

百度

3月16日，百度正式推出文心大模型4.5與文心大模型X1，兩款產(chǎn)品已同步上線(xiàn)文心一言官網(wǎng)及百度智能云千帆大模型平臺(tái)。用戶(hù)現(xiàn)可登錄官網(wǎng)免費(fèi)體驗(yàn)新模型，企業(yè)用戶(hù)與開(kāi)發(fā)者則可通過(guò)千帆平臺(tái)調(diào)用API接口開(kāi)啟商用開(kāi)發(fā)。

據(jù)介紹，文心大模型4.5作為百度首個(gè)原生多模態(tài)大模型，在文本推理、邏輯分析及多模態(tài)理解能力上實(shí)現(xiàn)突破，其綜合表現(xiàn)已超越GPT4.5且調(diào)用成本僅為其1%；文心大模型X1專(zhuān)注深度思考領(lǐng)域，性能對(duì)標(biāo)DeepSeek-R1的同時(shí)實(shí)現(xiàn)調(diào)用成本減半，為行業(yè)提供更具性?xún)r(jià)比的AI解決方案。

3月17日，新搜索智能助手文小言全面接入文心大模型4.5和X1，以及DeepSeek-R1滿(mǎn)血版，并支持多種模型自動(dòng)調(diào)度。據(jù)了解，文小言全量開(kāi)放文心4.5和文心X1兩款最新大模型以及DeepSeek-R1滿(mǎn)血版后，最大亮點(diǎn)是支持多種模型自動(dòng)調(diào)度。用戶(hù)既可以自行選擇使用特定模型進(jìn)行回答，也可以直接開(kāi)啟智能模式，由系統(tǒng)自行判斷并匹配適合的模型。此外，文小言近期還將上線(xiàn)全新升級(jí)的端到端語(yǔ)音對(duì)話(huà)、拍照搜索、AI 生視頻等功能，并免費(fèi)向用戶(hù)開(kāi)放。

3月24日，百度在AI Day宣布生成式應(yīng)用開(kāi)發(fā)平臺(tái)「秒噠」全量上線(xiàn)。該平臺(tái)通過(guò)無(wú)代碼開(kāi)發(fā)模式革新應(yīng)用創(chuàng)建流程，用戶(hù)僅需自然語(yǔ)言描述需求即可驅(qū)動(dòng)多智能體協(xié)同開(kāi)發(fā)，全程無(wú)需編寫(xiě)代碼，支持實(shí)時(shí)多輪對(duì)話(huà)修改并即時(shí)預(yù)覽效果，大幅降低開(kāi)發(fā)門(mén)檻。

據(jù)了解，「秒噠」獨(dú)創(chuàng)"多智能體協(xié)作矩陣"，集成需求收集、內(nèi)容生成等十余種AI角色，可動(dòng)態(tài)調(diào)配智能體組合策略。平臺(tái)深度融合百度智能云的數(shù)據(jù)檢索、圖像處理、語(yǔ)音識(shí)別等工具鏈，并實(shí)現(xiàn)云計(jì)算資源的智能調(diào)度，為企業(yè)提供全棧式AI開(kāi)發(fā)解決方案。

3月31日，百度旗下AI產(chǎn)品文小言完成品牌與功能雙重升級(jí)，正式上線(xiàn)多模型調(diào)度系統(tǒng)及全新語(yǔ)音大模型。新版文小言深度融合文心大模型X1、4.5等模型能力，重點(diǎn)強(qiáng)化邏輯推理與多模態(tài)交互功能，支持圖文混合內(nèi)容生成、工具鏈調(diào)用及連續(xù)任務(wù)處理，其圖片理解能力尤為突出。

同時(shí)，文小言升級(jí)全新語(yǔ)音大模型，支持方言對(duì)話(huà)、復(fù)雜知識(shí)問(wèn)答及隨時(shí)打斷等，用戶(hù)可進(jìn)行語(yǔ)音知識(shí)問(wèn)答或趣味角色扮演。通過(guò)整合多模型協(xié)同調(diào)度與工具調(diào)用能力，文小言已構(gòu)建起“感知-推理-執(zhí)行”的閉環(huán)智能服務(wù)體系。

字節(jié)跳動(dòng)

從發(fā)布國(guó)內(nèi)首個(gè)AI原生集成開(kāi)發(fā)環(huán)境（AI IDE）Trae國(guó)內(nèi)版，到開(kāi)源MoE架構(gòu)的關(guān)鍵優(yōu)化技術(shù)COMET，再到推出Coze產(chǎn)品和AI數(shù)字人模型OmniHuman-1，字節(jié)跳動(dòng)在AI領(lǐng)域的布局日益完善。

4月2日，字節(jié)跳動(dòng)旗下AI圖像生成平臺(tái)即夢(mèng)正式啟動(dòng)3.0版本灰度測(cè)試。該版本的AI圖像生成帶來(lái)了三個(gè)核心突破：影視級(jí)畫(huà)質(zhì)、精準(zhǔn)的文字控制以及2K高清圖像的直出體驗(yàn)，其文字識(shí)別精準(zhǔn)度提升30%，生成速度較前代快20%，引發(fā)設(shè)計(jì)圈和內(nèi)容創(chuàng)作者的熱烈討論。

3月3日，字節(jié)跳動(dòng)正式發(fā)布了中國(guó)首個(gè)AI原生集成開(kāi)發(fā)環(huán)境（AI IDE）——Trae國(guó)內(nèi)版，該工具搭載了doubao-1.5-pro模型，并支持切換至滿(mǎn)血版DeepSeek R1&V3模型，為開(kāi)發(fā)者提供了強(qiáng)大的AI輔助編程能力。

此前，字節(jié)跳動(dòng)已在今年1月推出的Trae國(guó)際版已引發(fā)市場(chǎng)關(guān)注，而3月3日Trae國(guó)內(nèi)版的發(fā)布進(jìn)一步鞏固了其在AI編程領(lǐng)域的地位。

3月7日，即夢(mèng)AI的數(shù)字人功能正式上線(xiàn)「大師模式」。該功能模式由字節(jié)跳動(dòng)自研的OmniHuman-1模型驅(qū)動(dòng)，用戶(hù)僅需輸入一張圖片和一段音頻，就可以讓圖片中的人物生成與音頻匹配的動(dòng)作，包括演講、唱歌、樂(lè)器演奏以及移動(dòng)，效果生動(dòng)自然。該功能模式在即夢(mèng)AI Web和移動(dòng)端均已上線(xiàn)，用戶(hù)更新至最新版本即可使用。

即夢(mèng)數(shù)字人功能「大師模式」可支持肖像、半身以及全身等不同尺寸的圖片輸入，對(duì)動(dòng)漫、3D卡通等非真人圖片輸入的支持效果也較為出色。即夢(mèng)方面表示會(huì)對(duì)這一功能設(shè)置嚴(yán)格的安全審核機(jī)制，并對(duì)輸出的視頻標(biāo)注「AI生成」水印以作提醒，努力確保該功能被恰當(dāng)使用。該功能展示了AI在數(shù)字人交互領(lǐng)域的技術(shù)突破與場(chǎng)景創(chuàng)新潛力，同時(shí)體現(xiàn)出平臺(tái)對(duì)技術(shù)倫理的前瞻性考量。

3月10日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)在國(guó)際知名開(kāi)源社區(qū)平臺(tái)GitHub上開(kāi)源了一項(xiàng)針對(duì)MoE（混合專(zhuān)家模型）架構(gòu)的關(guān)鍵優(yōu)化技術(shù)COMET?？蓪⒋竽Ｐ陀?xùn)練效率提升1.7倍，成本節(jié)省40%。據(jù)悉，該技術(shù)已實(shí)際應(yīng)用于字節(jié)的萬(wàn)卡集群訓(xùn)練，累計(jì)幫助節(jié)省了數(shù)百萬(wàn)GPU小時(shí)訓(xùn)練算力。

此前，豆包團(tuán)隊(duì)還曾發(fā)布新一代稀疏架構(gòu)UltraMem，將模型推理成本砍掉83%。目前，COMET核心代碼已開(kāi)源，并計(jì)劃兼容Triton等編譯生態(tài)。

3月28日，字節(jié)跳動(dòng)旗下豆包宣布，新版深度思考功能開(kāi)啟測(cè)試。據(jù)介紹，和之前的深度思考不同，新版功能將推理過(guò)程的思維鏈與搜索深度結(jié)合，支持邊想邊搜。思考過(guò)程中，豆包可基于推理多次調(diào)用工具、搜索信息，提供更加全面、準(zhǔn)確的結(jié)果。新版深度思考適用于制定方案和規(guī)劃、輔助專(zhuān)業(yè)文章寫(xiě)作、模糊條件搜索等多種場(chǎng)景。

智譜AI

3月4日，智譜官方宣布推出「智譜2025開(kāi)源年」的第一個(gè)模型：首個(gè)支持生成漢字的開(kāi)源文生圖模型——CogView4。據(jù)介紹，CogView4 在 DPG-Bench 基準(zhǔn)測(cè)試中的綜合評(píng)分排名第一，在開(kāi)源文生圖模型中達(dá)到 SOTA，也是首個(gè)遵循 Apache 2.0 協(xié)議的圖像生成模型。

性能方面，CogView4 具備較強(qiáng)的復(fù)雜語(yǔ)義對(duì)齊和指令跟隨能力，支持任意長(zhǎng)度的中英雙語(yǔ)輸入，能夠生成在給定范圍內(nèi)的任意分辨率圖像，同時(shí)具備較強(qiáng)的文字生成能力。

中文理解與生成方面，CogView4 支持中英雙語(yǔ)提示詞輸入，擅長(zhǎng)理解和遵循中文提示詞，是首個(gè)能夠在畫(huà)面中生成漢字的開(kāi)源文生圖模型，能更好地滿(mǎn)足廣告、短視頻等領(lǐng)域的創(chuàng)意需求。

3月31日，智譜在 2025 中關(guān)村論壇上發(fā)布最新 Agent 產(chǎn)品 AutoGLM 沉思。作為首個(gè)集深度研究能力和操作能力于一體的 Agent，AutoGLM 沉思能一邊進(jìn)行復(fù)雜思考，一邊執(zhí)行操作。像人類(lèi)一樣打開(kāi)并瀏覽網(wǎng)頁(yè)，完成從數(shù)據(jù)檢索、分析到生成報(bào)告。

智譜表示，AutoGLM沉思背后是智譜 GLM 全棧自研大模型，包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414，前者不僅性能比肩DeepSeek-R1，在速度提升最高8倍的同時(shí)，價(jià)格僅需DeepSeek-R1的1/30。

AutoGLM沉思通過(guò)“研究-執(zhí)行”閉環(huán)架構(gòu)，重新定義了AI Agent的能力邊界。其開(kāi)源策略與國(guó)產(chǎn)化適配能力，不僅降低了企業(yè)AI應(yīng)用門(mén)檻，更在金融、科研等領(lǐng)域樹(shù)立了標(biāo)桿案例。未來(lái)或進(jìn)一步拓展至工業(yè)物聯(lián)網(wǎng)、智能制造等復(fù)雜場(chǎng)景，推動(dòng)AGI技術(shù)普惠化。

科大訊飛

3月3日，訊飛星火深度推理大模型X1升級(jí)了,科大訊飛官方宣稱(chēng),星火X1在完全采用國(guó)產(chǎn)算力訓(xùn)練的前提下,以70B參數(shù)量,實(shí)現(xiàn)了在數(shù)學(xué)能力上全面對(duì)標(biāo)DeepSeek R1(參數(shù)量671B)和OpenAIo1，在中小學(xué)測(cè)試集上或超越DeepSeek-R1。星火X1采用全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練，可單機(jī)部署，大幅降低成本，實(shí)現(xiàn)自主可控，適合各類(lèi)機(jī)構(gòu)使用。

訊飛星火X1通過(guò)算法優(yōu)化與國(guó)產(chǎn)算力適配，在數(shù)學(xué)推理、醫(yī)療診斷等場(chǎng)景實(shí)現(xiàn)突破，其“小參數(shù)、高效果”的特性為行業(yè)提供了低成本、高安全性的AI解決方案。

360

3月3日，360集團(tuán)宣布已與華為深度合作，華為向360提供昇騰云服務(wù)器，為納米AI及其接入的DeepSeek-R1滿(mǎn)血版大模型提供算力支持。

據(jù)了解，雙方此次合作旨在共同構(gòu)建一條覆蓋AI算力支撐及產(chǎn)品化落地的鏈條。作為算力的核心力量，華為昇騰云服務(wù)器為360的模型訓(xùn)練與推理提供高性能算力保障；360則推動(dòng)技術(shù)產(chǎn)品化，將DeepSeek-R1滿(mǎn)血版模型與算力結(jié)合，在納米AI中提供“開(kāi)箱即用”的用戶(hù)體驗(yàn)，實(shí)現(xiàn)從技術(shù)到服務(wù)的轉(zhuǎn)化。

近期，納米AI迎來(lái)全新升級(jí)，個(gè)人知識(shí)庫(kù)的高階功能知識(shí)廣場(chǎng)上線(xiàn)并開(kāi)放，知識(shí)廣場(chǎng)包含考研真題、合同模板、法律文書(shū)、財(cái)稅知識(shí)、爆款短視頻腳本等垂直專(zhuān)業(yè)內(nèi)容，用戶(hù)可以立取立用。值得一提的是，納米AI將單一用戶(hù)知識(shí)庫(kù)擴(kuò)容至36G，成為目前空間容量最大的主流知識(shí)庫(kù)產(chǎn)品，能容納更多個(gè)人用戶(hù)的視頻、文本、語(yǔ)音內(nèi)容上傳。

昆侖萬(wàn)維

3月18日，昆侖萬(wàn)維宣布正式開(kāi)源Skywork R1V多模態(tài)視覺(jué)思維鏈推理模型，并即日起開(kāi)源模型權(quán)重和技術(shù)報(bào)告。該公司在官方公眾號(hào)中表示，和開(kāi)源同規(guī)?；蚋竽Ｐ拖啾?，Skywork R1V在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出色。

3月26日，昆侖萬(wàn)維正式發(fā)布全球首款音樂(lè)推理大模型Mureka O1及其基座模型Mureka V6，兩者均支持官網(wǎng)自由切換。Mureka O1作為行業(yè)首個(gè)引入思維鏈（CoT）的音樂(lè)模型，通過(guò)推理過(guò)程中的自我批判機(jī)制優(yōu)化生成邏輯，性能超越Suno并登頂SOTA榜單，其基于V6的推理架構(gòu)實(shí)現(xiàn)了音樂(lè)結(jié)構(gòu)連貫性與創(chuàng)作效率的突破。

其中，Mureka V6作為底層基座，創(chuàng)新應(yīng)用自研ICL技術(shù)強(qiáng)化聲場(chǎng)表現(xiàn)，支持純音樂(lè)生成及10種語(yǔ)言（含中文、英語(yǔ)等）的AI音樂(lè)創(chuàng)作，顯著提升人聲質(zhì)感與混音設(shè)計(jì)能力，為多風(fēng)格曲風(fēng)（爵士、電子、搖滾等）和復(fù)雜情感表達(dá)提供技術(shù)支撐。

昆侖萬(wàn)維集團(tuán)官方表示，短期來(lái)看，AI生成的音樂(lè)有望在三到五年內(nèi)迎來(lái)爆發(fā)式增長(zhǎng)。

商湯科技

近日，商湯發(fā)布多模態(tài)推理模型日日新SenseNova V6，通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破，形成領(lǐng)先的多模態(tài)推理能力，并突破成本邊界。

模型能力上著提升，在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面擁有顯著優(yōu)勢(shì)，多模態(tài)推理能力國(guó)內(nèi)第一，對(duì)標(biāo)GPT-o1，數(shù)據(jù)分析能力大幅領(lǐng)先GPT-4o；輕量級(jí)的全模態(tài)交互模型升級(jí)，SenseNova V6 Omni擁有國(guó)內(nèi)最強(qiáng)的多模態(tài)交互能力；國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型，對(duì)標(biāo)Gemini 2.5 Turbo達(dá)到同類(lèi)型最強(qiáng)，同時(shí)實(shí)現(xiàn)高效能與低成本完美結(jié)合：多模態(tài)訓(xùn)練整體效率對(duì)齊語(yǔ)言訓(xùn)練實(shí)現(xiàn)業(yè)內(nèi)最優(yōu)水平，推理成本亦實(shí)現(xiàn)業(yè)界最低。