中信出版社 投稿
量子位 | 公眾號 QbitAI

“10年后,機器人將可能比人都多,會陸續(xù)進入工廠、社會,最終形態(tài)是進入家庭。未來每個人、每個家庭都有機器人?!?/p>

這樣的預(yù)言,來自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤。

在其新書《智能涌現(xiàn)》中,基于數(shù)十年對AI的思考與實踐,從他領(lǐng)導(dǎo)下AIR研究院正在推進的三大方向——多模態(tài)大模型、自動駕駛和生物智能出發(fā),張亞勤還給出了更多對AI技術(shù)演進方向的長期預(yù)判,包括:

  • 我們經(jīng)歷了“數(shù)字化1.0”和“2.0”,目前正經(jīng)歷著向“數(shù)字化3.0”的升維躍遷——從“小模型”到“大模型”、從“單模態(tài)”到“多模態(tài)”、從“數(shù)字智能”到“物理智能”。
  • 未來的發(fā)展方向?qū)⑹侵悄?X(AI+X),即把日漸強大的AI能力投射到千行百業(yè)?!癤”既是無限可能的產(chǎn)業(yè),也是無限產(chǎn)業(yè)的可能。
  • 這場變革沒有旁觀者,全球80億人都已置身其中。

打開網(wǎng)易新聞 查看精彩圖片

總結(jié)起來,對于AI技術(shù)的未來發(fā)展方向與突破路徑,張亞勤做了以下展望:

  • AI大模型的五大演進趨勢
  • AI技術(shù)進一步發(fā)展的五個觀點
  • 自動駕駛未來發(fā)展的五大趨勢

AI大模型的五個發(fā)展方向

AI大模型作為數(shù)字化3.0的重要基石,其發(fā)展將決定未來技術(shù)攀升的高度與覆蓋的廣度。張亞勤眼中,未來AI大模型架構(gòu)的關(guān)鍵發(fā)展方向如下:

  1. 多模態(tài)智能:將帶來全面的、具有深度的智能分析。結(jié)合語言、文字、圖片、視頻、激光雷達點云、3D結(jié)構(gòu)信息、4D時空信息及生物信息,實現(xiàn)多尺度、跨模態(tài)的智能感知、決策和生成。
  2. 自主智能:將帶來個性化的智能體。將大模型作為一種工具,開發(fā)出能夠自主規(guī)劃任務(wù)、編寫代碼、調(diào)用插件、優(yōu)化路徑的智能體,實現(xiàn)高度自主智能,可自我迭代、升級和優(yōu)化。
  3. 邊緣智能:將帶來高效率、低功耗、低成本、低延時的邊緣計算網(wǎng)絡(luò)。將大模型部署到邊緣設(shè)備端,如新一代AI PC(人工智能電腦)、新一代Intelligent Phone(智能電話)、新一代Intelligent Home(智能家庭,包括TV),大幅提升處理速度和相應(yīng)的效能表現(xiàn),從而實現(xiàn)邊緣智能。
  4. 物理智能:將帶來更加先進的自動駕駛車輛、機器人等。當(dāng)下大模型正在被應(yīng)用于無人車、無人機、機器人、工廠、交通、通信、電網(wǎng)和電站以及其他物理基礎(chǔ)設(shè)施,以提升各類設(shè)備、設(shè)施的自動化與智能化水平。
  5. 生物智能:將帶來生命健康、腦機交互、醫(yī)療機器人的突破,將大模型應(yīng)用到人腦、生命體、生物體中,實現(xiàn)AI與生物體聯(lián)結(jié)的生物智能,并最終迎來信息智能、物理智能與生物智能的融合。

關(guān)于AI技術(shù)進一步發(fā)展的五個觀點

1.大模型和生成式人工智能是未來十年的主流技術(shù)與產(chǎn)業(yè)路線

大模型(GPT-4o、ChatGPT-o1、BERT等)和生成式人工智能將成為今后10年內(nèi)的創(chuàng)新主軸與連鎖變革的導(dǎo)火索。

2.基礎(chǔ)大模型+垂直大模型+邊緣模型、開源+商業(yè)

基礎(chǔ)大模型將是AI時代的技術(shù)底座,與垂直產(chǎn)業(yè)模型、邊緣模型共同孵化出新的產(chǎn)業(yè)生態(tài)。其生態(tài)規(guī)模將比個人計算機時代大100 倍,比移動互聯(lián)網(wǎng)時代大10倍以上。在這個生態(tài)中,開源模型將和商業(yè)模型并存,為開發(fā)者提供靈活的選擇。

3.統(tǒng)一標(biāo)識(Tokenisation)+規(guī)模定律(Scaling Law)

大模型最核心的兩個要素是統(tǒng)一標(biāo)識和規(guī)模定律。統(tǒng)一標(biāo)識通過將文本和其他類型的數(shù)據(jù)統(tǒng)一編碼為單元,使模型能夠處理不同形式的輸入。規(guī)模定律則揭示了模型規(guī)模與性能之間的關(guān)系,表明隨著模型參數(shù)的增加和數(shù)據(jù)規(guī)模的擴大,模型的表現(xiàn)會顯著提升。

4.需要新的算法體系

與人腦相比,現(xiàn)有算法存在效率低、能耗高的問題,因此需要開發(fā)出新的算法體系,包括世界模型、DNA記憶、智能體、強化學(xué)習(xí)、概率系統(tǒng)和決定系統(tǒng)等,以實現(xiàn)100倍的效率提升。未來五年內(nèi)可能會在AI技術(shù)架構(gòu)上取得重大突破,當(dāng)前主流的AI技術(shù)框架,如Transformer、Diffusion、AR,可能在未來5年內(nèi)被新技術(shù)顛覆。

5.從大模型走向通用人工智能

預(yù)計15 ~ 20年內(nèi)可實現(xiàn)通用人工智能,并通過新圖靈測試。更進一步的預(yù)測:5年內(nèi),在信息智能領(lǐng)域,AI對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試;10年內(nèi),在物理智能(具身智能)領(lǐng)域,實現(xiàn)大模型在物理環(huán)境中的理解與操作能力的大幅提升,通過新圖靈測試;20年內(nèi),在生物智能領(lǐng)域,將AI應(yīng)用于人體、腦機接口、生物體、制藥和生命科學(xué),實現(xiàn)大模型與生物體聯(lián)結(jié)的生物智能,通過新圖靈測試。

自動駕駛的未來發(fā)展

1.自動駕駛是未來五年最重要的物理智能/具身智能應(yīng)用,有望成為第一個通過新圖靈測試的具身智能系統(tǒng)

在安全性方面,實現(xiàn)完全無人操作的自動駕駛的安全性要比人類駕駛的至少高出10倍,達到人類“好司機”的水平;在人性化體驗方面,通過模仿學(xué)習(xí)和自主學(xué)習(xí),自動駕駛系統(tǒng)將具備更自然的駕駛風(fēng)格,結(jié)合乘客或車主的駕駛習(xí)慣,提供更人性化的體驗,達到人類“老司機”的水平。

2.大模型及生成式AI將在提升L4級別自動駕駛系統(tǒng)的泛化能力方面發(fā)揮關(guān)鍵作用

一是與數(shù)據(jù)智能相關(guān),過往自動駕駛系統(tǒng)的邊角案例數(shù)據(jù)不足,大模型及生成式AI可結(jié)合真實數(shù)據(jù)生成高質(zhì)量的邊角案例數(shù)據(jù)。

二是與長尾問題相關(guān),生成式AI可有效改善邊角案例中場景仿真、模擬度不足等問題,解決感知領(lǐng)域的長尾問題。

三是與常識推理相關(guān),大模型的推理能力可助力自動駕駛系統(tǒng)理解并應(yīng)對道路上的各種突發(fā)情況,從而提高自動駕駛系統(tǒng)的能力上限。

3.自動駕駛技術(shù)將整合多模態(tài)傳感器數(shù)據(jù),如計算機視覺、激光雷達等,采用端到端的訓(xùn)練方式,實現(xiàn)云端大模型與車端實時精確模型的協(xié)同工作

一是多模態(tài)融合。相較人類而言,機器具備多模態(tài)感知優(yōu)勢,可通過融合計算機視覺、激光雷達和其他傳感器數(shù)據(jù),使自動駕駛系統(tǒng)更全面細(xì)致地感知周圍環(huán)境。

二是端到端。以前自動駕駛算法由許多專門針對特定任務(wù)的小模型組成,這些小模型各自負(fù)責(zé)不同的任務(wù)?,F(xiàn)在,這些小模型可能會被一個統(tǒng)一的端到端的大模型取代。

三是云端與車端協(xié)同。云端大模型提供通用性泛化能力,車端模型提供實時精確響應(yīng)與本地優(yōu)化部署。云端和車端協(xié)同能夠確保駕駛決策兼具泛化性、及時性與準(zhǔn)確性。

4.未來的自動駕駛應(yīng)用將以單車智能為主,“車-路-云”一體協(xié)同工作,從而確保安全冗余,輔助智能交通

一方面,每一輛自動駕駛車輛都必須具備獨立且強大的單車智能駕駛能力。

另一方面,通過“車-路-云”一體化,在為自動駕駛提供多重安全冗余保障、提高駕駛安全性的同時,控制、優(yōu)化交通流量,提升交通效率。

5.2025年,自動駕駛或?qū)⒂瓉怼癈hatGPT時刻”;2030年,自動駕駛漸成主流

2025年,在一個具備復(fù)雜交通環(huán)境的大城市,自動駕駛系統(tǒng)將表現(xiàn)出人類“老司機”的水平,這可能極大地激發(fā)產(chǎn)業(yè)與市場對于自動駕駛的熱情。2030年,自動駕駛車輛將逐漸躋身市場主流,預(yù)計屆時會有10%的新車具備L4級別的自動駕駛能力。