特斯拉Optimus機器人完成工廠零件分揀、宇樹機器人在春晚上精準完成舞蹈動作、比亞迪拉開智能駕駛全民普及序幕……這些標志性事件宣告了人工智能正在步入技術進化的關鍵之年。
近日,阿里巴巴集團CEO吳泳銘宣布,未來三年,阿里將投入超過3800億元,用于建設云和AI基礎設施,總額超過去十年總和。這也創(chuàng)下中國民營企業(yè)在云和AI基礎設施建設領域有史以來最大規(guī)模投資紀錄。據(jù)IDC預測,到2030年,AI將為全球經(jīng)濟貢獻19.9萬億美元,推動2030年全球GDP增長3.5%。
從工業(yè)革命到信息革命,每一次技術躍遷都伴隨基礎設施的顛覆。如果說AGI是一場星辰大海的遠征,那么AI基礎設施就是通往目的地的“陽關大道”。蒸汽機車需要鐵路網(wǎng)、電力需要電網(wǎng)、互聯(lián)網(wǎng)需要光纖與基站。AI的爆發(fā),正在呼喚一張全新的基礎設施網(wǎng)絡——它不僅是數(shù)據(jù)傳輸?shù)墓艿?,更是連接實體與智能、協(xié)調全局與局部、平衡效率與安全的“神經(jīng)中樞”,是一個能讓機器智能與物理世界同頻共振的新型網(wǎng)絡。
在這個網(wǎng)絡下,機器人、自動駕駛汽車、低空飛行器等各類智能體通過自主決策與協(xié)同控制,完成了一次又一次實時對話和人機交互,通往AGI新世界的大門也將由此開啟。

AGI必然路徑,從感知AI到物理AI
語音助手能準確識別方言指令、手機攝像頭能自動捕捉最燦爛的笑容,這些感知AI的杰作構建了現(xiàn)代社會的數(shù)字感官。它們如同隱形的眼睛與耳朵,將光信號、聲波轉化為可計算的數(shù)據(jù)流。
但當自動駕駛汽車面對突發(fā)的道路塌陷,或服務機器人在凌亂的客廳里找不到充電接口時,單純的環(huán)境感知能力立刻暴露出致命短板。
波士頓動力的人形機器人Atlas在平衡木上完成空翻時展現(xiàn)的不僅僅是動作精準度,更揭示了物理智能的本質:重力加速度計算需要與關節(jié)扭矩控制同步,攝像頭捕捉的視覺信息必須即時轉化為肌肉記憶般的機械響應。這種感知與行動的毫秒級閉環(huán),遠比AlphaGo戰(zhàn)勝人類冠軍更能體現(xiàn)智能的本質特征。
大模型的持續(xù)進化,如同蝴蝶振翅般顛覆了人們對人工智能的傳統(tǒng)理解。從初次嘗試新架構到發(fā)現(xiàn)新的普適定律,從能力泛化到模態(tài)無縫融合,這些突破性進展正在不斷刷新機器智能的邊界。
大模型實現(xiàn)了感知與認知能力的全面升級,讓機器具備了更加細膩豐富的理解能力。與此同時,人工智能正在向著另一個關鍵維度挺進——對真實物理世界的模擬與適應。
從感知到?jīng)Q策再到控制執(zhí)行,端到端的智能系統(tǒng)正在崛起,機器的適應性和靈活性持續(xù)突破,不僅能夠自主感知和推理復雜場景,更能夠主動規(guī)劃行動、做出決策,而具身智能、自動駕駛的加速落地,又進一步塑造了機器的物理形態(tài)。
作為人工智能發(fā)展的初級階段,感知式AI關注的是機器對環(huán)境的感知能力,使機器能夠通過視覺、聽覺等感官獲取信息,并進行基本的理解和響應。感知式AI使機器能夠與外界進行初步交互,為更復雜的智能行為提供了可能性。這一階段的典型應用包括語音識別、圖像處理以及推薦系統(tǒng)。
2012年,一個名為AlexNet的神經(jīng)網(wǎng)絡引爆了AI研究界,它的表現(xiàn)遠遠超過所有其他類型的模型,并贏得了當年的ImageNet競賽。自那時起,神經(jīng)網(wǎng)絡開始騰飛。自ImageNet以來的13年里,計算機視覺研究者們掌握了物體識別,并轉向圖像和視頻生成,為后續(xù)生成式AI奠定了基礎。

在感知式AI的基礎上,生成式AI通過進一步發(fā)展延伸,形成了機器生成內容的能力。這一階段標志著人工智能不僅能夠理解信息,還能創(chuàng)造文本、圖像和音頻等新的內容,被認為是“生產(chǎn)力放大器”,為營銷和創(chuàng)作領域提供了前所未有的工具和可能性。
今年,DeepSeek的火爆出圈將生成式AI再次推上了風口。不過,DeepSeek底層邏輯依然是統(tǒng)計機器學習——喂數(shù)據(jù)、訓練、輸出結果。這意味著生成式AI的技術天花板已經(jīng)清晰可見,甚至因為它的“深度思考”過程透明化,反而更讓人看清它的本質——一個被訓練出的智能模型,而非真正的智能體。
一個有趣的例子:當被問“strawberry有幾個r”時,DeepSeek需要反復思考50秒才能給出正確答案。它能解決復雜問題,卻在簡單場景中暴露局限性。這是因為其依賴統(tǒng)計相關性,而不是因果邏輯。就像超市發(fā)現(xiàn)“尿布和啤酒銷量正相關”,AI能發(fā)現(xiàn)規(guī)律,卻無法理解背后是“爸爸們順手買酒”的因果鏈?!奔幢銖娙鏞penAI,也在嘗試反思式推理(如GPT-4o的多路徑思考),但本質仍是數(shù)據(jù)驅動的優(yōu)化。
近日,Meta首席AI科學家楊立昆(Yann LeCun)在2025年人工智能行動峰會上表示,AI需要理解物理世界,只有在這基礎上,AI才能真正接近人類智慧。
盡管當前的大模型在諸如通過律師資格考試、解決數(shù)學問題等任務上表現(xiàn)出色,但它們無法執(zhí)行日常生活中的基本任務,如做家務。對于人工智能而言,許多看似簡單的動作,如洗碗或擦桌子,依然是無法解決的復雜問題。這些模型并未真正理解物理世界,只是通過模式識別和數(shù)據(jù)生成來模擬現(xiàn)象。
為進一步提升AI理解真實世界的能力,物理AI被提了出來,它使人工智能系統(tǒng)不僅能夠理解信息,還能在物理世界中進行操作,它結合了對物理現(xiàn)象的理解與智能決策能力,使得智能系統(tǒng)能夠靈活應對復雜情況。
物理AI賦予具身智能、自動駕駛更強的環(huán)境感知、理解和交互能力,使它們能夠更好地理解周圍環(huán)境,并根據(jù)物理規(guī)律做出相應的反應。例如,AI可以直接控制倉庫中的機器人進行貨物運輸,或是優(yōu)化自動駕駛汽車的行駛策略。
從感知式AI、生成式AI,最終邁向物理AI,這一演變過程反映了人工智能技術不斷演進的軌跡。每個階段都承襲了前一階段人工智能發(fā)展的技術成果,使得機器不僅能夠“看”和“聽”,還能夠“理解”和“行動”。這種逐步演進為實現(xiàn)更高級別的通用人工智能(AGI)奠定了基礎,也為各行各業(yè)帶來了深遠影響。
AI與物理智能“雙螺旋上升”
傳統(tǒng)人工智能如同“缸中之腦”,雖能解方程、作詩詞,卻無法真正觸碰現(xiàn)實。物理AI的顛覆性在于:它將智能注入物理實體,讓機器具備“感知-決策-執(zhí)行”的閉環(huán)能力。從自動駕駛車輛到智能電網(wǎng),從柔性機器人到分子級制造設備,這些系統(tǒng)不再滿足于“理解世界”,而是執(zhí)著于“改變世界”。

相比生成式AI處理的是一維或二維信息的輸入,如文字、圖片、音頻或視頻,并輸出相同類型的信息,物理AI需要從三維、甚至四維(包含時空)的角度理解信息,這與信息智能有本質的不同。
在輸入層面,物理AI系統(tǒng)可以從許多工具中獲取輸入,比如攝像頭、慣性傳感器、雷達和激光雷達,處理的是感知和理解世界的數(shù)據(jù),包括視覺和觸覺等感官信息,并且能夠直接從傳感器數(shù)據(jù)中學習和理解環(huán)境,讓人工智能從單純的感知、生成,進階到能夠進行推理、規(guī)劃與行動。
在輸出層面,物理AI生成的是TSD數(shù)據(jù),即時間(T)序列(S)數(shù)據(jù),這種數(shù)據(jù)可以直接用于控制具身智能,賦予其一個能在現(xiàn)實物理規(guī)則下靈活運轉的“大腦”。
此外,生成式AI和物理AI在產(chǎn)品形態(tài)和應用場景也有所不同。生成式AI不受時間影響,不需要實時反饋,例如ChatGPT中有些信息可能只更新到去年9月。而物理AI系統(tǒng)必須實時處理輸入信息,需要實時感知和推理環(huán)境,以確保具身智能能夠及時響應。
目前,大多數(shù)物理AI系統(tǒng)還只能處理特定任務或小環(huán)境,并且效果參差不齊。落地上,一個目前很火的例子是宇樹科技的四足機器狗,可以爬山涉水,還可以用一連套高難度的體操動作亮相,包括原地旋轉兩周接倒立旋轉三周半,以及一套流暢的托馬斯全旋、側空翻和360度跳躍轉體等。
如同大模型革新了生成式AI一樣,物理AI成為具身智能、自動駕駛等領域進入新階段的“鑰匙”。
首先,大模型“上車”難題將得到很好解決。
目前,大模型在汽車領域的應用主要體現(xiàn)在兩個方面:一是智能座艙,二是自動駕駛。前者跟大模型技術有著天然的契合度,因為當前的智能座艙更側重于娛樂和交互功能,這與大模型的語言處理能力非常相符,難點在于后者。
對于自動駕駛而言,如何在復雜動態(tài)的交通環(huán)境中實現(xiàn)高效、安全的車輛控制成為一大核心難題?,F(xiàn)有的自動駕駛系統(tǒng)普遍缺乏多智能體協(xié)作能力、高效決策與解釋能力,在面對復雜交通環(huán)境時,難以有效理解周圍交通參與者的行為和意圖。
第二是數(shù)據(jù)。在自動駕駛領域,大模型需要“喂”大量的真實世界數(shù)據(jù)進行訓練,讓它更擬人。所以如何讓這些數(shù)據(jù)更好地服務大模型做訓練,這是目前普遍車企面臨的另一個難點。
其次,人形機器人加速邁向“ChatGPT時刻”。
去年,人工智能機器人初創(chuàng)公司Figure AI發(fā)布Figure 02時,就曾引發(fā)市場高度關注。Figure 02在大腦上,集成了OpenAI的GPT-4o多模態(tài)大模型,使其能夠更好地理解和響應復雜指令。
多模態(tài)大模型不僅是技術的簡單疊加,而是推動物理AI向前發(fā)展的重要技術支撐。大模型能力的本質是對信息的壓縮與二次處理,多模態(tài)大模型擴大了信息輸入模態(tài),提升了模型能力天花板。
多模態(tài)大模型技術路徑是從圖像-語言模態(tài)融合再到三種以上模態(tài)的融合。語言模態(tài)的訓練賦予了模型邏輯思維能力與信息生成能力;視覺模態(tài)的信息流密度較高,也與現(xiàn)實世界更貼切,可以大幅度拓展應用場景,因此成為多模態(tài)技術的首選信息載體。在此基礎上,模型可以繼續(xù)發(fā)展動作、聲音、觸覺等不同模態(tài),以應對更加復雜的場景。

多模態(tài)大模型的核心優(yōu)勢在于卓越的信息融合能力。通過對不同模態(tài)數(shù)據(jù)的同步處理與深度整合,模型能夠挖掘出跨模態(tài)信息之間的內在關聯(lián),從而生成更全面、準確且富有洞察力的理解與回應。
例如,在圖像描述生成任務中,模型可以結合圖像中的視覺元素與相關文本描述,生成精準且流暢的自然語言描述,讓機器不僅能“看到”圖像內容,更能以人類可理解的語言“講述”其中的故事,因此更能滿足機器在物理世界中廣泛應用的需求。
通往AGI的新型網(wǎng)絡基礎設施
物理AI的崛起,正在將人工智能發(fā)展推向一個臨界點:我們能否構建一張足夠智慧、堅韌且包容的網(wǎng)絡,既釋放技術的全部潛力,又守護技術的核心價值?這不僅是工程師的挑戰(zhàn),更是全社會的共同課題。
物理世界的運行法則遠比數(shù)字空間殘酷:決策偏差導致的不是程序報錯,而是血淋淋的交通事故;模型推理需要的不是概率優(yōu)化,而是毫秒級的精準控制。車路云網(wǎng)絡作為智能體與實體世界實時交互的AI網(wǎng)絡,正是打破這層玻璃的關鍵鑰匙,其通過大規(guī)模部署路側感知單元、每秒處理海量數(shù)據(jù)的邊緣計算節(jié)點,以及覆蓋城市道路的網(wǎng)絡,將數(shù)字智能注入物理世界的毛細血管。
這個龐大網(wǎng)絡的技術內核在于“通感算一體化”架構的突破。通信光纖如同神經(jīng)系統(tǒng)傳遞著每輛汽車0.1秒內的加速度變化,激光雷達陣列如同視覺神經(jīng)捕捉著200米外行人的步態(tài)特征,云端超算集群則在時空維度編織著城市交通的數(shù)字孿生。
當暴雨導致某路口能見度驟降時,路側基站能在百毫秒內完成對車道行駛軌跡的預測,并通過車路云網(wǎng)絡向800米范圍內的車輛發(fā)送分級制動指令,賦予自動駕駛車輛實現(xiàn)超越人類反應極限的群體決策能力。
虛實融合的AI網(wǎng)絡正在重構技術演進的底層邏輯。車路云架構將70%的感知計算任務轉移至路側設備后,車輛只需保留基礎算力模塊,如同普通駕駛者借助智能交通系統(tǒng)獲得“上帝視角”,相當于用市政設施的群體智能彌補了單車感知的物理局限。
更深層的變革發(fā)生在模型和算法層面。數(shù)字世界AI可以承受99%的準確率,但控制剎車系統(tǒng)的模型容錯率必須是六個九。車路云網(wǎng)絡通過數(shù)字孿生技術,將現(xiàn)實路網(wǎng)克隆為可無限試錯的虛擬沙盤。這種虛實閉環(huán)的進化機制,讓人工智能在應對電動自行車突然變道時,能像三十年駕齡的老司機般預判軌跡,卻又不受人類駕駛員的情緒干擾。
在車路云網(wǎng)絡中,車輛不僅僅是信息的接收者,它同時也是信息的生產(chǎn)者。每一輛車的傳感器、攝像頭和其他設備所收集到的數(shù)據(jù),都會實時傳輸?shù)皆贫?。這些數(shù)據(jù)不僅幫助優(yōu)化當前車輛的駕駛決策,還會反向影響整個智能交通系統(tǒng)的運行,通過共享信息,多個車輛和交通管理系統(tǒng)可以形成協(xié)同感知,從而提升整體道路的安全性和流暢度。
站在技術演進的維度觀察,車路云網(wǎng)絡的價值遠不止于交通效率的提升。它證明了一個更具普適性的范式:當AI突破數(shù)字世界的邊界,其進化軌跡必然要與物理實體深度融合。
這種融合不是簡單的控制與被控制,而是通過持續(xù)的環(huán)境交互形成自主演化能力。就像生物神經(jīng)系統(tǒng)的進化史,從單細胞生物的應激反應到人類大腦的復雜認知,智能的躍升永遠伴隨著與真實世界互動維度的拓展。
物理AI的覺醒,昭示著智能革命的拐點時刻已經(jīng)到來。當城市化作流動的神經(jīng)網(wǎng)絡,每個機器人、每輛汽車都可以成為自主決策的智能體。就像DeepSeek創(chuàng)始人梁文峰所言:“AI 的未來不在于取代人類,而應該像水電一樣成為基礎設施,讓每個人都能享受到科技帶來的便利。”
實驗室里的機械臂正在學習預測咖啡杯滑落前的震顫頻率,氣象AI系統(tǒng)同步調整著風力發(fā)電機的葉片角度。這些看似碎片化的技術突破,實則在編織覆蓋全球的智能協(xié)同網(wǎng)絡。當這個網(wǎng)絡達到臨界規(guī)模時,或許我們終將理解圖靈在1950年提出的那個終極問題:機器能否思考?答案可能藏在機器與物理世界持續(xù)對話時產(chǎn)生的電光石火之中。
熱門跟貼