撰文|夜郎西

編輯|夜郎西

審核|燁 Lydia

聲明|圖片來源網(wǎng)絡(luò)。日晞研究所原創(chuàng)文章,如需轉(zhuǎn)載請留言申請開白。

打開網(wǎng)易新聞 查看精彩圖片

這是中國AI發(fā)展史上的高光時刻!

2025年4月25日,隨著視覺大模型Vi du在全球視頻生成權(quán)威評測VID-eval中以91.2分的絕對優(yōu)勢登頂,中國人工智能終于跨越了“追趕”與“引領(lǐng)”的分水嶺。

對比三年前還在為數(shù)據(jù)標(biāo)注精度發(fā)愁的行業(yè)困局,此刻Vi du生成的視頻已能精準(zhǔn)捕捉“落葉飄入咖啡杯的漩渦軌跡”“玻璃破碎的力學(xué)傳導(dǎo)路徑”等復(fù)雜場景,其技術(shù)成熟度讓眾多科學(xué)家不禁感嘆:“中國同行的突破速度,重新定義了AI發(fā)展的時間軸。”

打開網(wǎng)易新聞 查看精彩圖片

從追隨到引領(lǐng)的國產(chǎn)視覺大模型之路

2025年VIDU大模型登頂國際榜單的背后,是中國團隊對技術(shù)路徑的深度重構(gòu)。

生數(shù)科技與清華大學(xué)聯(lián)合研發(fā)的U-ViT架構(gòu),首次將Diffusion模型與Transformer架構(gòu)融合,實現(xiàn)16秒1080P高清視頻的端到端生成,訓(xùn)練效率較傳統(tǒng)模型提升300%。

打開網(wǎng)易新聞 查看精彩圖片

這種架構(gòu)創(chuàng)新并非孤例:商湯科技的"元宇宙架構(gòu)"打破單一任務(wù)限制,支持圖像、視頻、3D場景的統(tǒng)一建模。

上海AI實驗室的UniAD模型在自動駕駛領(lǐng)域?qū)崿F(xiàn)感知決策一體化,性能超越特斯拉FSD。

更值得關(guān)注的是,IDEA研究院的DINO-X模型通過構(gòu)建1億高質(zhì)量定位樣本的Grounding-100M數(shù)據(jù)集,在零樣本目標(biāo)檢測中達到59.7%的AP值,顯著領(lǐng)先國際水平。

這些突破不僅改寫了技術(shù)標(biāo)準(zhǔn),更催生了從實驗室到產(chǎn)業(yè)端的鏈?zhǔn)椒磻?yīng)——華為昇騰910B芯片與視覺模型深度適配,推理速度較英偉達A100提升40%。

阿里平頭哥玄鐵C910處理器集成視覺處理單元,使邊緣端部署成本下降80%。

而中國團隊在全球頂級賽事中的表現(xiàn),標(biāo)志著技術(shù)話語權(quán)的實質(zhì)性轉(zhuǎn)移。

CVPR2024最佳論文由北京大學(xué)"多模態(tài)視頻理解框架"摘得,在視頻問答任務(wù)中超越谷歌DeepMind。

百度文心一格在ImageNet2025圖像分類任務(wù)中達到98.6%準(zhǔn)確率,刷新行業(yè)紀(jì)錄。

商湯科技"大裝置"模型在MSCOCO2025目標(biāo)檢測中,AP50指標(biāo)突破95%,超越MetaSegmentAnything。

更值得關(guān)注的是,深圳兔展智能的Open-SoraPlan在GitHub獲超5000標(biāo)星,成為國際社區(qū)引用率最高的視覺開源模型之一,其AnyReal產(chǎn)品單張圖像售價達百元,劍指Midjourney后的"第三大爆款"。

這場視覺智能革命的底層邏輯,是數(shù)據(jù)、場景與生態(tài)的深度耦合。

打開網(wǎng)易新聞 查看精彩圖片

中國擁有全球最大的制造業(yè)數(shù)據(jù)池,深圳黃渤海新區(qū)整合8434路視頻資源構(gòu)建城市級視覺數(shù)據(jù)庫,華為河圖系統(tǒng)積累超10億公里自動駕駛數(shù)據(jù),中央廣播電視總臺建立影視級視頻素材庫。

這些數(shù)據(jù)資源與奧比中光的3D視覺芯片、清思智能的城市級視覺認(rèn)知解決方案、視比特機器人的工業(yè)檢測系統(tǒng)等硬件能力結(jié)合,形成獨特的產(chǎn)業(yè)優(yōu)勢。

而開源協(xié)作與政策支持,則為這種優(yōu)勢的轉(zhuǎn)化提供了制度保障。

打開網(wǎng)易新聞 查看精彩圖片

行業(yè)地震

傳統(tǒng)影視制作中,特效和場景構(gòu)建占據(jù)70%以上的成本。而AI的介入正在引發(fā)一場成本革命。

例如某部動漫通過BaseMedia的AI特效技術(shù),將角色設(shè)計周期從數(shù)月壓縮至一周,并節(jié)省數(shù)千萬成本,這一案例直觀展現(xiàn)了AI對傳統(tǒng)流程的顛覆。

AI在影視制作中的滲透遠(yuǎn)不止于此:劇本創(chuàng)作環(huán)節(jié),AI可分析海量文學(xué)與影視數(shù)據(jù),自動生成劇本草稿或提出情節(jié)優(yōu)化建議。

場景構(gòu)建方面,AI基于圖像數(shù)據(jù)庫能快速生成或修改背景環(huán)境,顯著減少實景搭建的時間與費用。

特效生成領(lǐng)域,AI不僅能精準(zhǔn)跟蹤演員表情并轉(zhuǎn)換為CGI角色,提升動畫真實性,還可模擬爆炸、流體動力學(xué)等復(fù)雜特效,如《復(fù)仇者聯(lián)盟》系列中的大規(guī)模戰(zhàn)斗場景便可借助AI技術(shù)實現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

此外,AI翻譯技術(shù)能快速完成多語言字幕制作,助力電影拓展國際市場。

動畫與游戲領(lǐng)域因AI實現(xiàn)“創(chuàng)意平權(quán)”。

階躍星辰的Step-Video-T2V模型支持生成204幀游戲CG,其3D全注意力DiT架構(gòu)可模擬剛體碰撞、流體運動等物理效果,甚至能通過調(diào)整重力系數(shù)、材質(zhì)彈性模量等參數(shù)優(yōu)化視覺表現(xiàn)。

該模型采用時空解耦訓(xùn)練,將物體運動軌跡與材質(zhì)形變分離學(xué)習(xí),配合高壓縮Video-VAE技術(shù),在降低顯存占用的同時保證畫質(zhì)。

快手的“可靈”模型則進一步降低創(chuàng)作門檻,用戶輸入文字描述即可生成動畫短片,其3D時空聯(lián)合注意力機制能精準(zhǔn)捕捉復(fù)雜時空動態(tài),確保運動幅度自然且符合物理規(guī)律。

這種技術(shù)普惠正在瓦解行業(yè)壁壘,但也引發(fā)對原創(chuàng)性保護的討論。

與此同時廣告與電商行業(yè)正陷入AI引發(fā)的“效率競賽”。

在廣告領(lǐng)域,AI可實時分析用戶行為數(shù)據(jù),動態(tài)調(diào)整投放策略。

某電商平臺通過用戶瀏覽、點擊、購買等行為數(shù)據(jù)建立畫像,利用機器學(xué)習(xí)模型預(yù)測廣告效果,使點擊率提升20%,轉(zhuǎn)化率提高15%。

AI還能自動生成多尺寸物料并模擬投放效果,甚至根據(jù)社交媒體趨勢創(chuàng)作個性化海報。

打開網(wǎng)易新聞 查看精彩圖片

電商領(lǐng)域,AI已實現(xiàn)從商品圖生成到虛擬試穿的全流程自動化。

美圖MiracleVision3.0使電商設(shè)計效率提升300%,虛擬試穿圖的轉(zhuǎn)化率超越真人模特。

AI還能根據(jù)用戶偏好生成定制化產(chǎn)品展示圖,如為戶外運動愛好者添加相關(guān)元素,提升購買意愿。

此外,AI在廣告特效合成、動畫制作等方面也展現(xiàn)強大能力。

打開網(wǎng)易新聞 查看精彩圖片

在智能浪潮中尋找人類價值

AI的觸角已悄然滲透至社會運轉(zhuǎn)的每一個齒輪,從內(nèi)容創(chuàng)作到醫(yī)療診斷,從城市管理到教育普及,這場靜默的技術(shù)革命正在重塑人類文明的底層邏輯。

當(dāng)AI導(dǎo)演能自主完成劇本創(chuàng)作與鏡頭調(diào)度,當(dāng)AI藝術(shù)家可感知物理世界并實時創(chuàng)作,我們不得不正視一個核心命題:在算法編織的未來圖景中,人類究竟該扮演何種角色?

倫理邊界的模糊化已成為首要挑戰(zhàn)。

深度偽造技術(shù)不僅制造虛假信息,更在解構(gòu)真實與虛構(gòu)的認(rèn)知框架。

當(dāng)AI生成的政要演講足以亂真,當(dāng)虛擬偶像能引發(fā)真實粉絲的情感共鳴,我們亟需構(gòu)建超越技術(shù)層面的倫理防線。

全球性監(jiān)管框架的建立刻不容緩,但技術(shù)中立原則與創(chuàng)作自由的博弈,使得每項法規(guī)都需在創(chuàng)新風(fēng)險與社會安全間走鋼絲。

這種治理困境,本質(zhì)上是人類在為自身創(chuàng)造的“孩子”制定行為準(zhǔn)則。

打開網(wǎng)易新聞 查看精彩圖片

職業(yè)版圖的重構(gòu)遠(yuǎn)比想象中劇烈。

當(dāng)AI訓(xùn)練師成為新貴職業(yè),當(dāng)創(chuàng)意策展人取代傳統(tǒng)編劇,勞動力市場的結(jié)構(gòu)性震蕩已然發(fā)生。

這種轉(zhuǎn)變不是簡單的技能迭代,而是思維模式的根本轉(zhuǎn)型——未來的從業(yè)者必須同時精通藝術(shù)表達與數(shù)據(jù)邏輯,在感性創(chuàng)意與理性算法間架設(shè)橋梁。

教育體系正面臨前所未有的改革壓力,如何培養(yǎng)既懂藝術(shù)鑒賞又掌握數(shù)據(jù)分析的復(fù)合型人才,成為橫亙在文明傳承路上的新命題。

技術(shù)賦能帶來的不是替代危機,而是認(rèn)知維度的躍遷。

三甲醫(yī)院中,AI診療助手已能處理80%的常規(guī)問診,但人類醫(yī)生在復(fù)雜病例研判中的價值反而愈發(fā)凸顯。

這種此消彼長的關(guān)系,揭示著人機協(xié)作的本質(zhì):AI擅長處理確定性任務(wù),而人類的核心競爭力在于提出顛覆性假設(shè)。

當(dāng)科研團隊采用“人類出題、AI解題”模式攻克蛋白質(zhì)結(jié)構(gòu)難題時,他們實際上開創(chuàng)了全新的創(chuàng)新范式——人類智慧負(fù)責(zé)突破認(rèn)知邊界,機器智能負(fù)責(zé)驗證執(zhí)行,這種協(xié)同進化正在將科學(xué)探索推向未知領(lǐng)域。

站在Agent元年的門檻上回望,AI的發(fā)展軌跡愈發(fā)清晰:它不是要取代人類,而是要推動人類完成自我進化。

當(dāng)圍棋AI教會我們重新定義“直覺”,當(dāng)繪畫模型啟示我們重構(gòu)“創(chuàng)意”內(nèi)涵,人類終于意識到,技術(shù)革命的終極價值在于拓展認(rèn)知的邊界。

未來的創(chuàng)新戰(zhàn)場,將是人類提出問題的深度與AI解決問題能力的結(jié)合,這種共生關(guān)系或許會催生超越硅基與碳基的生命形態(tài),開啟文明進化的新紀(jì)元。

參考資料:

1.娛樂資本論《5秒動畫價格不到1.5元,Vidu 視頻大模型助中國動畫彎道超車》

2.機器之心《「全球首個自回歸視頻生成大模型」,剛剛,Swin Transformer作者創(chuàng)業(yè)團隊重磅開源!》

3.新智元《國產(chǎn)Vidu Q1出道即頂流,登頂VBench!吉卜力、廣告大片、科幻特效全包了》

一點想法(北京)旗下矩陣公眾號

點擊圖片即可閱讀

《中美網(wǎng)友“賬本大公開”:原來我們都想錯了?》

《“TikTok難民”涌入小紅書,中美網(wǎng)民開啟民間外交》

《“病來如山倒”,造車開始大退潮》