打開網(wǎng)易新聞 查看精彩圖片

圖片系A(chǔ)I生成

人工智能的戰(zhàn)場,正從“云端算力壟斷”轉(zhuǎn)向“終端智能覺醒”,這是一場更多人能參與、更多變數(shù)存在的普遍競爭。

過去數(shù)月,大模型行業(yè)的認知快速刷新,在DeepSeek之前,終端設(shè)備受制于功耗、散熱和存儲空間,只能運行輕量化模型,而且效果和體驗并不好。當(dāng)DeepSeek通過"小參數(shù)大智能"的技術(shù)路徑,將百億級模型壓縮進終端芯片時,整個行業(yè)開始意識到,端側(cè)AI的底層邏輯已發(fā)生質(zhì)變。

從資本市場上相關(guān)概念股業(yè)績表現(xiàn)和走勢也可窺見一斑。端側(cè)AI概念龍頭移遠通信、美格智能業(yè)績表現(xiàn)亮眼,廣和通市場關(guān)注度同步提升。其中,移遠通信預(yù)計2025年一季度歸母凈利潤2億元,同比增長265.19%,主要受益于物聯(lián)網(wǎng)需求復(fù)蘇及車載、AIoT場景的拓展,邊緣計算模組及大模型技術(shù)加速落地。?美格智能預(yù)計一季度凈利潤范圍取中值為4600萬元,同比增長611%,高算力AI模組在智能汽車、無人機等領(lǐng)域出貨量激增,海外業(yè)務(wù)占比提升至32%。?廣和通雖未明確披露一季度凈利潤,但其股價區(qū)間漲幅達25.11%,顯示市場對其5G模組及車載業(yè)務(wù)前景的樂觀預(yù)期。

從云端算力來看,頭部大模型廠商的門檻是萬卡集群,甚至十萬卡集群也在規(guī)劃,大模型開始趨于集中,但這部分頭部廠商的預(yù)訓(xùn)練需求不會縮減,反而會增加。與此同時,更多AI公司正在投入后訓(xùn)練、推理算力的布局,產(chǎn)業(yè)逐漸達成共識,未來AI算力特別是推理算力會出現(xiàn)千倍的增長,網(wǎng)絡(luò)帶寬會出現(xiàn)百倍增長,存儲需求也會出現(xiàn)千倍增長。

2025年或是端側(cè)AI的爆發(fā)元年,算力行業(yè)加速競逐推理算力。

DeepSeek效應(yīng),大模型重心轉(zhuǎn)向推理

“端側(cè)AI目前處在一個最好的時代”,愛簿智能CEO孫玉昆表示,我們認為大模型的開源給端側(cè)和邊緣AI的發(fā)展帶來了巨大的發(fā)展機遇。從端側(cè)芯片的發(fā)展來看,不管是算力還是內(nèi)存帶寬都有創(chuàng)新和提升,從模型能力來看,適合端側(cè)運行的模型能力突飛猛進,端側(cè)智能會越來越好,從AI普及水平來看,越來越多的人正在使用端側(cè)和邊緣部署大模型的推理,個性化需求越來越多,這些需求在端側(cè)也更容易得到滿足。

DeepSeek的模型迭代(如V1到V3)仍遵循Scaling Law,通過增加參數(shù)規(guī)模(如從千億到萬億級)和訓(xùn)練數(shù)據(jù)量提升性能。這一路徑在早期AI發(fā)展中普遍存在,例如GPT系列模型的參數(shù)爆炸式增長。但隨著模型規(guī)模接近物理極限(如算力、數(shù)據(jù)獲取瓶頸),單純依賴參數(shù)擴張的邊際收益遞減,技術(shù)重心逐漸轉(zhuǎn)向推理優(yōu)化和多模態(tài)應(yīng)用,典型代表就是DeepSeek-R1通過模型蒸餾降低推理成本。

DeepSeek推出的NSA(NativeSparseAttention)機制,通過優(yōu)化稀疏注意力機制與硬件適配能力,顯著提升了長上下文任務(wù)的訓(xùn)練和推理速度。在保持與完全注意力模型相當(dāng)性能的前提下,NSA降低了預(yù)訓(xùn)練成本,并在指令推理任務(wù)中表現(xiàn)更優(yōu)。這一技術(shù)進展為復(fù)雜任務(wù)的端側(cè)部署提供了可能性。

阿里云智能集團資深副總裁、公共云事業(yè)部總裁劉偉光表示,阿里云開發(fā)新模型最重要的兩個方向,一個在Reasoning推理,一個在全模態(tài)融合。在推理方面,大模型未來一定會向越來越強的推理能力演化,強化學(xué)習(xí)不斷提升思維鏈的能力,伴隨著模型內(nèi)生的任務(wù)規(guī)劃、工具使用能力不斷增強,大模型會越來越智慧,可以不斷思考更難更高問題,完成更復(fù)雜任務(wù),這是一個重要方向,

“特別需要強調(diào)一下強化學(xué)習(xí),2025年我們發(fā)現(xiàn)一個新的重要趨勢,很多客戶都在利用更為強大的基礎(chǔ)大模型做基于強化學(xué)習(xí)的后訓(xùn)練,同時強化學(xué)習(xí)后訓(xùn)練反過來為推理提供重要能力補充,我相信未來會有更多客戶基于強化學(xué)習(xí)做后訓(xùn)練,基于更強大的基模會開發(fā)出更新的、更有價值的AI原生應(yīng)用以及AI Agent?!彼f。

打開網(wǎng)易新聞 查看精彩圖片

中科曙光方面對鈦媒體App表示,DeepSeek正在引發(fā)算力產(chǎn)業(yè)鏈式反應(yīng),不僅大大激發(fā)了模型后訓(xùn)練、推理環(huán)節(jié)算力需求,加快改變AI算力結(jié)構(gòu),同時也有助于打破市場對高算力GPU的路徑依賴,為國產(chǎn)GPU加速卡帶來重大機遇。

無論是面向云端智算中心,還是面向端側(cè)的大模型一體機,針對GPU加速卡進行軟硬件協(xié)同設(shè)計優(yōu)化,實現(xiàn)芯片-算法-模型深度耦合,已成為AI基礎(chǔ)設(shè)施的重要創(chuàng)新方向。

“今年已經(jīng)是AI大模型商業(yè)應(yīng)用元年了?!本┤A信息科技股份有限公司副總裁李思偉認為,“去年我們很糾結(jié),行業(yè)存在一個‘不可能三角’。我們想用大模型更好的智能,就需要付出比較大的成本做部署和訓(xùn)練,但是央國企等客戶優(yōu)先考慮的是安全問題,想要安全就必須私有化部署,私有化部署成本又受不了,部署小參數(shù)的模型又有一點雞肋。前兩年我們?yōu)榭蛻羲龅腁I項目都會遇到這樣的問題,很多項目因此拖延到現(xiàn)在?!?/p>

為什么DeepSeek在B端或者G端落地受政府和企業(yè)的歡迎,就是因為解決了“不可能三角”的問題,但DeepSeek的應(yīng)用還是有很多門檻,比如安全問題,國產(chǎn)化技術(shù)路線等,這不是通過簡單部署可以一次性解決的問題,目前很多一體機遍地開花,但一體機一般只能服務(wù)于一個應(yīng)用或者一個業(yè)務(wù)。

端側(cè)AI,越接近上層應(yīng)用問題越多

基礎(chǔ)設(shè)施的穩(wěn)定和高效,是端側(cè)AI生態(tài)賴以生長的基礎(chǔ)。大模型仍處于產(chǎn)業(yè)發(fā)展的早期階段,技術(shù)的演進呈現(xiàn)出上下影響、交替迭代的趨勢,AI應(yīng)用爆發(fā)對模型性能和模型之下的基礎(chǔ)設(shè)施,以及AI應(yīng)用開發(fā)工具,都提出了非常高的要求,這三大均處于高速演進過程當(dāng)中,

以中科曙光為例,2025年2月,中科曙光推出DeepAI深算智能引擎方案,集成了GPU開發(fā)工具套件、AI基礎(chǔ)軟件棧和大模型應(yīng)用開發(fā)平臺,目的是為了讓國產(chǎn)AI算力更適用、更好用,賦能從十億級模型端側(cè)推理到千億級模型云端訓(xùn)練全場景需求。

通過全面兼容CUDA、Rcom雙棧生態(tài),DeepAI深算智能引擎支持2000+算子,對標CUDA的算子覆蓋度已超99%,并可通過手動算子優(yōu)化、編譯優(yōu)化和匯編指令級優(yōu)化,國產(chǎn)GPU單卡訓(xùn)推性能提升可達1倍以上。

劉偉光表示,全世界的大語言模型幾乎以每兩周為一個時間單位演進,基礎(chǔ)模型仍然是整個AI應(yīng)用生態(tài)最核心的引擎,通過提供深度的推理能力、多模態(tài)理解和交互能力,支持多樣化、高質(zhì)量服務(wù),基于不同類型尺寸模型滿足復(fù)雜、輕型以及更多探索型需求。

“很多客戶在探索AI應(yīng)用過程中發(fā)現(xiàn),支撐大語言模型的基礎(chǔ)設(shè)施能力,特別是推理服務(wù)能力,是保障AI應(yīng)用服務(wù)順暢、平滑、穩(wěn)定、高效運行的重要基礎(chǔ)設(shè)施,云計算也在慢慢為AI所改變,讓所有AI訓(xùn)練、推理、應(yīng)用能夠在云基礎(chǔ)設(shè)施上進行更穩(wěn)定平滑高效運行?!?/p>

他還表示,當(dāng)模型能力足夠強大,AI應(yīng)用呼之欲出的時候,更多客戶需要更完整、更完備的工具鏈基于模型進行AI應(yīng)用開發(fā),AI開發(fā)工具是連接大語言模型和真實應(yīng)用的重要橋梁,客戶需要功能齊全、生態(tài)豐富、靈活部署的工具,加速應(yīng)用開發(fā)。

打開網(wǎng)易新聞 查看精彩圖片

中科曙光DeepAI深算智能引擎也內(nèi)置了DAP企業(yè)級全棧AI應(yīng)用開發(fā)平臺,提供多模型開放納管、高性能推理服務(wù)、知識融合增強、智能體可視化編排、智能數(shù)據(jù)分析等功能,企業(yè)客戶在國產(chǎn)AI算力底座可一站式跑通DeepSeek、阿里QwQ等大模型應(yīng)用。

孫玉昆認為,面向AI的開發(fā)者面臨著兩大核心挑戰(zhàn):一是算力不足,成本高。好的模型可能需要萬卡或者更大規(guī)模的集群,現(xiàn)在海外算力基本上不行,國內(nèi)算力生態(tài)還在共同培養(yǎng)。二是開發(fā)工具鏈支持不足,開發(fā)環(huán)境配置復(fù)雜。端側(cè)和云端的環(huán)境不統(tǒng)一,難以滿足大模型、智能體等應(yīng)用快速迭代的需求。

他補充表示,部署開發(fā)環(huán)境流程煩瑣,很多初學(xué)者就倒在了做人工智能開發(fā)的第一關(guān),大模型都是基于Linux開源又穩(wěn)定的系統(tǒng)服務(wù)器訓(xùn)練出來的,很多人工智能的開發(fā)框架基于Linux開發(fā),在實際開發(fā)中,開發(fā)者首先是要完成跨平臺開發(fā),通常需要在其他操作系統(tǒng)上通過虛擬化方式運行Linux,這個過程就會面臨很多問題,比如安裝配置復(fù)雜,兼容性問題,工具鏈和依賴庫的版本差異,這些工具不好導(dǎo)致的問題,不僅增加了開發(fā)的復(fù)雜性,開發(fā)者也消耗了很多無謂的精力。

此外,即使開發(fā)者辛萬苦地把環(huán)境配置好了,但性能和原生Linux相比也有差異,不僅是CPU計算性能,GPU的模型訓(xùn)練也有一些損失,用Windows電腦做小模型訓(xùn)練的性能不達標,用原生Linux系統(tǒng)則能實現(xiàn)更高的性能水平,所以做人工智能開發(fā)必須掌握Linux。

愛簿智能也推出了自己的AIBOOK 算力本,該產(chǎn)品以50TOPS端側(cè)算力為核心,有意將AI算力本和市場已有的AI PC區(qū)分開。

在孫玉昆看來,不同于AIPC,AI算力本是基于原生Linux開發(fā)環(huán)境的端側(cè)AI開發(fā)工具,與市面主流AIPC的主要差異包括基于Linux內(nèi)核的AI原生操作系統(tǒng),預(yù)裝了各種實用AI應(yīng)用,還預(yù)置了編程開發(fā)環(huán)境和工具,做到AI的“開箱即用”,同時具備“端云一體”的AI算力,端側(cè)是指AIBOOK本地計算,云側(cè)是摩爾線程夸娥云計算,端云一體組合覆蓋從大模型部署到應(yīng)用、微調(diào)及訓(xùn)練的AI開發(fā)全場景。

云還是端,沒有絕對的好與壞

算力在云還是在端,取決于客戶的業(yè)務(wù)需求,相較于以往端側(cè)推理的限制,目前大量高質(zhì)量小模型的涌現(xiàn),讓推理工作負載再次受到關(guān)注,云端算力和終端算力生態(tài)將長期持續(xù)演進,兩者并不矛盾,更多是扮演大模型產(chǎn)業(yè)的不同角色,不少廠商也在布局端云一體。

杰文斯悖論告訴我們,技術(shù)效率提升反而會刺激需求擴張。例如,DeepSeek通過FP8混合精度訓(xùn)練、動態(tài)稀疏算法等技術(shù)將單次訓(xùn)練成本降低53%(至557.6萬美元),但頭部企業(yè)因此增加并行實驗次數(shù)(從年均3次躍升至28次),反而推高全球算力芯片采購量。類似現(xiàn)象在能源領(lǐng)域也曾出現(xiàn)(如蒸汽機效率提升后煤炭消耗激增)。在AI領(lǐng)域,推理成本降低將加速應(yīng)用場景泛化(如金融、醫(yī)療、智能制造),最終導(dǎo)致算力總需求增長。

黃仁勛在英偉達GTC2025上表示:ChatGPT是靠預(yù)測下一個tokens、大概率出現(xiàn)幻覺的生成式AI,而現(xiàn)在已經(jīng)走進了Deep Research、Manus這樣的agentic AI應(yīng)用,上一個token是下一個token生成時輸入的上下文、是感知、規(guī)劃、行動的一步步推理,由于每一層計算都不同,所需要的tokens會百倍增長。推理模型需要更多的計算,因為模型更復(fù)雜。R1的尺寸是6800億個參數(shù),它的下一代版本可能有數(shù)萬億個參數(shù)。Agentic AI應(yīng)用是無數(shù)次調(diào)用類似DeepSeek-R1做推理的過程,需要的計算只會更多。

高通發(fā)布的白皮書也提到,AI推理功能在終端側(cè)的廣泛普及賦能打造了豐富的生成式AI應(yīng)用和助手。文檔摘要、AI圖像生成和編輯以及實時語言翻譯現(xiàn)在已成為常見功能。影像方面的應(yīng)用可以利用AI進行計算攝影、物體識別和實時場景優(yōu)化。

這之后迎來了多模態(tài)應(yīng)用的發(fā)展,這類應(yīng)用結(jié)合多種數(shù)據(jù)類型(文本、視覺、音頻和傳感器輸入),以提供更豐富、更具情境感知能力且更加個性化的體驗。高通AI引擎結(jié)合了定制NPU、CPU和GPU的能力,能夠在終端側(cè)優(yōu)化此類任務(wù),使AI助手能夠在不同溝通模式間切換,并生成多模態(tài)輸出。

智能體AI(Agentic AI)是下一代用戶交互的核心。AI系統(tǒng)能夠通過預(yù)測用戶需求,并在終端和應(yīng)用內(nèi)主動執(zhí)行復(fù)雜工作流,進行決策和管理任務(wù)。一些實時AI處理任務(wù)的智能體,可在終端側(cè)安全運行,同時依靠個人知識圖譜準確定義用戶偏好和需求,無需依賴云端。

愛簿智能看好AI端側(cè)的發(fā)展。但認為不會顛覆云計算主導(dǎo)的AI開發(fā)范式,孫玉昆提到,端云協(xié)同是未來的主流趨勢,AI計算正經(jīng)歷從純云端向"云-邊-端"協(xié)同的范式轉(zhuǎn)移,5G、邊緣計算等技術(shù)使分布式計算延遲降低到可接受范圍,端側(cè)AI芯片算力已達50TOPS及以上,可承擔(dān)更復(fù)雜任務(wù),而模型壓縮技術(shù)(如蒸餾、量化)使7B這類小參數(shù)模型在端側(cè)達到接近云端13B模型的能力水平。

“通過輕量化模型突破端側(cè)算力瓶頸,結(jié)合端云一體架構(gòu)實現(xiàn)能力的彈性擴展,正在定義AI算力的新范式。在這一架構(gòu)下,用戶將獲得AI的‘無縫體驗’,日常場景由端側(cè)快速響應(yīng),復(fù)雜任務(wù)延伸至云端,二者協(xié)同工作升級智能體驗。”他說

劉偉光則表示,AI應(yīng)用構(gòu)建方式非常多樣化,既可以在公共云上進行開發(fā)部署,阿里云也支持本地化服務(wù),為了更好服務(wù)本地服務(wù),特別滿足部分政企客戶監(jiān)管性要求,阿里云推出了百煉專署版,支持一云多芯異構(gòu)計算等客戶需求,

他表示,從算力資源到組件調(diào)用,直接影響AI實際應(yīng)用的效果,阿里云內(nèi)部提出了全棧AI,不僅是大模型,也不僅是云下技術(shù)架構(gòu)層,包含底層的異構(gòu)算力、模型服務(wù)平臺、百煉平臺,以及上面所有面向客戶服務(wù),技術(shù)架構(gòu)層面計算資源需求日益增長,GPU需求增長速度遠遠高于傳統(tǒng)CPU增長,遍布全球AI計算集群會成為未來新的剛需,這些集群支持大規(guī)模的訓(xùn)練任務(wù),并且同時滿足實時的推理應(yīng)用的需求。(本文首發(fā)于鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達)