通用人工智能(AGI,Artificial General Intelligence)到底何時(shí)到來?在近期一篇論文中,DeepMind 認(rèn)為 AGI 的時(shí)間表充滿著不確定性,不過DeepMind 認(rèn)為到 2030 年開發(fā)出來是合理的,并認(rèn)為距離這一時(shí)間點(diǎn)的到來可能“非常緊迫”。
AGI 有望帶來變革性的益處,但也伴隨著重大風(fēng)險(xiǎn)。論文中,DeepMind 探討了 AGI 的四個(gè)主要風(fēng)險(xiǎn)領(lǐng)域:濫用、錯(cuò)位、事故和結(jié)構(gòu)性風(fēng)險(xiǎn),并重點(diǎn)研究了濫用問題和錯(cuò)位問題。
具體來說:
- 濫用:指的是用戶故意指示 AI 采取違背開發(fā)者意圖的行動(dòng),從而造成傷害。例如,AI 系統(tǒng)可能幫助黑客針對關(guān)鍵基礎(chǔ)設(shè)施進(jìn)行網(wǎng)絡(luò)攻擊。
- 錯(cuò)位:指的是 AI 系統(tǒng)故意違背開發(fā)者的意圖造成傷害。例如,AI 系統(tǒng)可能會(huì)給出“自信的答案”,這些答案經(jīng)得起人類監(jiān)督者的審查,但是 AI 知道這些答案實(shí)際上是不正確的。DeepMind 認(rèn)為錯(cuò)位的具體表現(xiàn)包含但不限于欺騙、耍心機(jī)以及非預(yù)期的主動(dòng)失控等。
- 錯(cuò)誤:指的是 AI 系統(tǒng)產(chǎn)生了一連串直接造成傷害的輸出,但該系統(tǒng)并不知道這些輸出會(huì)導(dǎo)致開發(fā)者未曾預(yù)見的有害后果。例如,運(yùn)行電網(wǎng)的 AI 智能體可能并未意識到某條輸電線路需要維護(hù),因此可能會(huì)使其過載并燒毀從而導(dǎo)致停電。
- 結(jié)構(gòu)性風(fēng)險(xiǎn):指的是這些風(fēng)險(xiǎn)是由多主體動(dòng)態(tài)(涉及多個(gè)人、組織或 AI 系統(tǒng))引發(fā)的危害,僅通過改變一個(gè)人的行為、一個(gè)系統(tǒng)的對齊方式或一個(gè)系統(tǒng)的安全控制措施根本無法預(yù)防這種風(fēng)險(xiǎn)。

針對濫用問題,DeepMind 的策略旨在通過主動(dòng)識別危險(xiǎn)能力,并實(shí)施穩(wěn)健的安全措施、訪問限制、監(jiān)控以及模型安全緩解措施,來防止不良行為者獲取危險(xiǎn)能力。
針對錯(cuò)位問題,DeepMind 提出了兩道防線。首先,模型層面的緩解措施如加強(qiáng)監(jiān)督和強(qiáng)化訓(xùn)練,有助于構(gòu)建一個(gè)一致的模型。其次,即使模型出現(xiàn)錯(cuò)位,系統(tǒng)級安全措施(如監(jiān)控和訪問控制)也能減輕危害??山忉屝?、不確定性估計(jì)和更安全的設(shè)計(jì)模式等技術(shù)可以提高這些緩解措施的有效性。
同時(shí),DeepMind 提出了四種減輕 AI 錯(cuò)誤的方法:第一種方法是提高 AI 能力,第二種方法是避免在存在極端利害關(guān)系的情況下部署 AI,第三種方法是使用驗(yàn)證 AI 行動(dòng)安全的防護(hù)措施,第四種方法是分階段部署。
在制定本次方法時(shí),DeepMind 權(quán)衡了不同方案的利弊。例如,一些安全方法可以提供更穩(wěn)健、更通用的理論保障,但尚不清楚它們是否能及時(shí)落地。其他方法則更具臨時(shí)性、實(shí)驗(yàn)性,雖能快速落地但存在明顯缺陷。
出于權(quán)衡利弊的考慮,DeepMind 主要依賴于幾個(gè)關(guān)于 AGI 開發(fā)方式的背景假設(shè):在當(dāng)前發(fā)展范式之下,DeepMind 并未看到任何“限制 AI 達(dá)到比肩人類能力水平”的根本性障礙。因此,對于尚未出現(xiàn)的更強(qiáng)大的 AI 能力,人類需要認(rèn)真對待并做好準(zhǔn)備。
毫無疑問,對一個(gè)能力超越真人監(jiān)管者的 AI 系統(tǒng)進(jìn)行監(jiān)管頗有挑戰(zhàn),而且這種難度會(huì)不斷增加。
因此,對于足夠強(qiáng)大的 AI 系統(tǒng)來說,DeepMind 的方法并沒有依賴于人類監(jiān)督者,而是利用 AI 本身的能力來進(jìn)行監(jiān)督,這一方法好比中醫(yī)療法中的“以毒攻毒”。
由于 AGI 到來的時(shí)間可能非常緊迫,所以 DeepMind 的安全方法旨在實(shí)現(xiàn)“隨時(shí)可用”,即在必要時(shí)迅速采取緩解措施。
出于這個(gè)原因,DeepMind 主要關(guān)注那些能夠輕松用于當(dāng)前機(jī)器學(xué)習(xí)流程的緩解措施。
DeepMind 認(rèn)為隨著 AI 系統(tǒng)逐漸實(shí)現(xiàn)自動(dòng)化科學(xué)研究與開發(fā),AI 發(fā)展可能會(huì)進(jìn)入一個(gè)加速增長階段。在這個(gè)階段,通過自動(dòng)化研發(fā)能夠開發(fā)出更多、更高效的 AI 系統(tǒng),進(jìn)而實(shí)現(xiàn)更進(jìn)一步的自動(dòng)化研發(fā),從而開啟一個(gè)失控的正反饋循環(huán)。這種情況將大大加快 AGI 的進(jìn)展速度,以至于人類幾乎沒有多少時(shí)間來發(fā)現(xiàn)問題和應(yīng)對問題。
論文中,DeepMind 根據(jù)抽象的結(jié)構(gòu)特征(例如哪個(gè)參與者有惡意)來定義風(fēng)險(xiǎn)領(lǐng)域,而非根據(jù)具體的風(fēng)險(xiǎn)領(lǐng)域比如網(wǎng)絡(luò)攻擊或失去人為控制來識別。 這意味著此次指出的風(fēng)險(xiǎn)區(qū)域適用于 AI 帶來的普遍危害,而非僅僅限于 AGI。

如前所述,DeepMind 指出的四大風(fēng)險(xiǎn)區(qū)域分別是:濫用、錯(cuò)位、錯(cuò)誤、結(jié)構(gòu)性風(fēng)險(xiǎn)。不過,其表示這并非一種絕對的分類:這些領(lǐng)域既不相互排斥,也并非詳盡無遺。在實(shí)踐中,許多具體場景往往是多個(gè)領(lǐng)域的混合體。例如,一個(gè)未對齊的 AI 系統(tǒng)可能會(huì)利用不良行為者的幫助來泄露其自身的模型權(quán)重,而這就是濫用問題和未對齊問題的結(jié)合。 預(yù)計(jì)在此類情況下,納入緩解措施仍然會(huì)起作用,不過也應(yīng)考慮研發(fā)針對組合風(fēng)險(xiǎn)的特定緩解措施。
在系統(tǒng)錯(cuò)誤等非對抗性場景下,標(biāo)準(zhǔn)安全工程實(shí)踐(例如測試驗(yàn)證)能夠大幅降低風(fēng)險(xiǎn)。現(xiàn)有工程實(shí)踐已經(jīng)足以將人為失誤導(dǎo)致嚴(yán)重危害的概率降至極低水平,這某種程度上也是源于“嚴(yán)重危害”本身屬于極高閾值事件這一客觀事實(shí)。
因此,DeepMind 認(rèn)為由 AI 錯(cuò)誤導(dǎo)致嚴(yán)重傷害的可能性,將遠(yuǎn)遠(yuǎn)低于濫用或錯(cuò)位造成的嚴(yán)重性。但是,通過適當(dāng)?shù)陌踩胧┛梢赃M(jìn)一步降低這種 AI 錯(cuò)誤。
為了防止濫用,DeepMind 認(rèn)為應(yīng)該使用其所提出的前沿安全框架,這一框架能夠評估模型是否具有造成傷害的能力,并能在必要時(shí)在安全和部署上采取緩解措施。
針對錯(cuò)位問題,DeepMind的策略也是先從實(shí)現(xiàn)良好的監(jiān)管入手,這也是整個(gè) AGI 安全領(lǐng)域的重中之重。
當(dāng)人類用戶故意違背開發(fā)者的意愿,利用 AI 系統(tǒng)造成傷害時(shí)便會(huì)發(fā)生濫用。為了防止濫用,DeepMind 在安全和部署這兩方面采取了緩解措施,以便防止不良行為者通過獲得足夠權(quán)限來使用危險(xiǎn)功能。
對于一個(gè)已經(jīng)采取緩解措施的 AI 系統(tǒng)來說,人們可以通過有意濫用模型同時(shí)避免造成實(shí)際傷害,來評估這些緩解措施的效果。
如果我們無法利用這些模型造成間接危害,那么外部行為主體同樣無法利用它們造成實(shí)際危害。需要補(bǔ)充的是,那些不良行為者可能會(huì)付出比我們多得多的努力。
相反,如果不需要不良行為者的介入就能帶來“智能體傷害”,那么就需要加強(qiáng)緩解措施。
論文中,DeepMind 構(gòu)建了一套任務(wù)評估體系,旨在通過代表性能力測試來捕捉潛在的濫用風(fēng)險(xiǎn),并驗(yàn)證現(xiàn)有模型能否在該評估體系中獲得高分表現(xiàn)。
然后,基于此類評估結(jié)果來論證濫用行為的不可行性,如果模型缺乏必要的能力,那么就無需實(shí)施額外的防護(hù)措施。
為了實(shí)現(xiàn)這一點(diǎn),DeepMind 設(shè)定了可能發(fā)生濫用的能力閾值,并將其映射到危險(xiǎn)能力評估中的某個(gè)具體、可衡量的分?jǐn)?shù)上。根據(jù)閾值達(dá)到時(shí)間的預(yù)測,可以在適當(dāng)?shù)臅r(shí)間尺度上制定緩解措施。
部署緩解措施的目的在于通過規(guī)范化的應(yīng)用程序編程接口(API,Application Programming Interface)訪問控制,來防止不良行為者獲取危險(xiǎn)能力。這是一種始于模型層級的防護(hù)體系,它具體包括兩部分:
第一部分是安全性后訓(xùn)練:開發(fā)人員可以在后訓(xùn)練過程中教導(dǎo)模型不要執(zhí)行有害請求,在使用這種方法時(shí)還需要確保模型能夠抵御越獄攻擊。
第二部分是能力抑制:在理想情況下,應(yīng)該完全移除模型的危險(xiǎn)能力。需要說明的是,迄今為止這在技術(shù)上依舊難以實(shí)現(xiàn),而且可能會(huì)對有益用例造成過大損害,以至于無法在實(shí)踐中使用。
與此同時(shí),DeepMind 的方法進(jìn)一步考慮了系統(tǒng)層級的部署防護(hù)措施,與模型層防護(hù)相結(jié)合能夠形成一個(gè)縱深防御體系。這些部署防護(hù)措施包括:
第一種是監(jiān)控:監(jiān)控涉及到檢測不良行為者在何時(shí)試圖不當(dāng)?shù)卦L問危險(xiǎn)功能,并能做出應(yīng)對措施。其中,檢測可以通過以下三個(gè)方式加以實(shí)現(xiàn):使用能夠輸出危害概率分?jǐn)?shù)的分類器、利用模型的內(nèi)部激活機(jī)制或者手動(dòng)審核生成的內(nèi)容等。
第二種是訪問限制:具有危險(xiǎn)能力的模型可能僅限于經(jīng)過審查的用戶群體和使用場景,從而減少不良行為者試圖不當(dāng)訪問危險(xiǎn)能力的機(jī)會(huì)。如果某一用戶經(jīng)常觸發(fā)安全監(jiān)控,也可以對其進(jìn)行限制。
安全緩解措施旨在防止不良行為者竊取具有危險(xiǎn)能力的 AI 系統(tǒng)。雖然類似這樣的緩解措施總體上更加適用于安全保障工作,但也有一些專門針對防御 AI 模型特定挑戰(zhàn)而制定的措施。例如,為了限制單方面訪問模型權(quán)重的人數(shù)而制定的措施。
要想實(shí)現(xiàn)這一目標(biāo),需要能夠支持標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)工作流程的接口,以便通過這些接口進(jìn)行模型開發(fā),并針對這些接口進(jìn)行加固。
DeepMind 在論文中特別提到了社會(huì)防御強(qiáng)化機(jī)制,該機(jī)制通過 AI 系統(tǒng)提升社會(huì)韌性,例如針對 AI 網(wǎng)絡(luò)攻擊能力該機(jī)制能夠通過快速修復(fù)關(guān)鍵基礎(chǔ)設(shè)施漏洞來實(shí)現(xiàn)主動(dòng)防御。
此類緩解措施的作用在于:確保即使不良行為者獲取了危險(xiǎn)能力,也無法造成嚴(yán)重傷害。
當(dāng)緩解措施到位之后,在使用 DeepMind 的方法時(shí)還需要對以下問題構(gòu)建一個(gè)詳細(xì)論點(diǎn):即在使用一套濫用緩解措施之后,是否足以將風(fēng)險(xiǎn)降低到適當(dāng)水平。
通過此,可以厘清上述論證所依托的關(guān)鍵前提假設(shè),并通過壓力測試揭示這些假設(shè)中的潛在缺陷。例如,一些 AI 領(lǐng)域的紅隊(duì)可能會(huì)發(fā)現(xiàn)那些能夠規(guī)避安全微調(diào)緩解措施的新型越獄方法。
紅隊(duì)這一概念源自軍事和網(wǎng)絡(luò)安全領(lǐng)域的對抗訓(xùn)練。在 AI 領(lǐng)域它指的是一組專門模擬對手或惡意行為者的專家團(tuán)隊(duì)。由于不良行為者可能會(huì)付出更多努力,因此紅隊(duì)會(huì)獲得額外優(yōu)勢以便進(jìn)行補(bǔ)償。
例如,紅隊(duì)可能被授予對現(xiàn)有防護(hù)措施的完全知悉權(quán),或通過主動(dòng)放寬防護(hù)閾值人為降低系統(tǒng)攻擊難度,以此來測試防御體系在最不利條件下的有效性。
此外,將紅隊(duì)與緩解措施的開發(fā)進(jìn)行分離,能夠降低出現(xiàn)共同盲點(diǎn)的風(fēng)險(xiǎn)。關(guān)于此,可以通過設(shè)立一個(gè)獨(dú)立的內(nèi)部專家紅隊(duì)來實(shí)現(xiàn),或者由外部合作伙伴進(jìn)行壓力測試。
安全論證,是一種基于證據(jù)體系的結(jié)構(gòu)化論證框架,旨在系統(tǒng)化地證明某體系的安全特性是否符合既定標(biāo)準(zhǔn)。
DeepMind 的方法支持兩種類型的安全案例:
第一種是無害性的安全案例:該系統(tǒng)不具備造成傷害的能力,這一結(jié)論是基于危險(xiǎn)能力評估的結(jié)果以及這些能力如何引發(fā)風(fēng)險(xiǎn)而得出的。
第二種是紅隊(duì)測試案例:對于具有危險(xiǎn)能力的模型,需要進(jìn)行壓力測試,以便了解緩解措施的穩(wěn)健性。這些證據(jù)隨后會(huì)成為論據(jù),證明緩解措施足以將風(fēng)險(xiǎn)降至適當(dāng)水平。
目前,紅隊(duì)測試方法(包括自動(dòng)化和手動(dòng)法)能夠量化獲取危險(xiǎn)能力的難度,但還需要更多研究來將其與整體風(fēng)險(xiǎn)聯(lián)系起來。
如前所述,針對錯(cuò)位問題 DeepMind 的方法設(shè)有兩道防線。
首先,DeepMind 希望能夠使用模型層面的緩解措施,來確保模型不會(huì)追求錯(cuò)位的目標(biāo)。其所遵循的機(jī)器學(xué)習(xí)策略如下:(1)提高獲得良好監(jiān)督的能力即增強(qiáng)監(jiān)督;(2)利用這種監(jiān)督來改進(jìn)模型即引導(dǎo)模型行為;(3)找出需要監(jiān)督的地方,以便訓(xùn)練出一個(gè)能夠穩(wěn)健地執(zhí)行期望任務(wù)的模型。
其次,DeepMind 考慮在模型出現(xiàn)錯(cuò)位即出現(xiàn)“AI 失控”的情況下,應(yīng)該通過系統(tǒng)層面的緩解措施來減輕危害(即“AI 控制”)。因此,在設(shè)計(jì)這一防御體系時(shí),DeepMind 從計(jì)算機(jī)安全領(lǐng)域汲取了靈感:將 AI 系統(tǒng)視為不可信的內(nèi)部實(shí)體,從而采用訪問控制等防護(hù)機(jī)制。其中,監(jiān)測機(jī)制尤為關(guān)鍵,因?yàn)槠湫軐㈦S著 AI 能力的提升而持續(xù)增強(qiáng)。
DeepMind 還探索了能夠強(qiáng)化上述防御體系的研究方向:
首先是不確定性量化。作為魯棒性訓(xùn)練與監(jiān)測的核心要素,其研究涵蓋分布外檢測、置信度校準(zhǔn)等技術(shù)路徑;
其次是可解釋性。通過特征歸因、電路分析等方法解析 AI 決策機(jī)制,為針對性防護(hù)提供依據(jù);
再次是安全設(shè)計(jì)范式。在性能-安全帕累托前沿上進(jìn)行權(quán)衡分析,比如通過模塊化架構(gòu)降低整體風(fēng)險(xiǎn),推動(dòng)安全邊界向更優(yōu)方向拓展。
需要說明的是,DeepMind 在論文指出考慮到技術(shù)加速發(fā)展的可能性,其在論文中并未針對“以年為單位的進(jìn)展速度”設(shè)定任何限制。
因此,AI 開發(fā)者可以針對本次方法進(jìn)行迭代式和實(shí)證性的測試,以便發(fā)現(xiàn)隨著能力的提升而出現(xiàn)的缺陷性假設(shè)。
當(dāng)然,對于任意能力的 AI 系統(tǒng),DeepMind 的方法并不都具備魯棒性。但是,AI 開發(fā)者可以采取前瞻性規(guī)劃來部署相關(guān)能力。
參考資料:
https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/
https://arstechnica.com/ai/2025/04/google-deepmind-releases-its-plan-to-keep-agi-from-running-wild/
運(yùn)營/排版:何晨龍
熱門跟貼