編輯部 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

隨著大模型加速滲透核心行業(yè),其安全可控性正從技術(shù)議題升級(jí)為產(chǎn)業(yè)落地的先決條件。

特別是金融、醫(yī)療等關(guān)鍵領(lǐng)域,對(duì)數(shù)據(jù)隱私保護(hù)、模型行為可控性及倫理合規(guī)提出了更高的要求。

如何為AI應(yīng)用構(gòu)建堅(jiān)實(shí)的防護(hù)邊界?

在第三屆AIGC產(chǎn)業(yè)大會(huì)上,瑞萊智慧CEO田天博士帶來(lái)了他們的最新實(shí)踐。田天博士畢業(yè)于清華大學(xué)計(jì)算機(jī)系,他帶領(lǐng)團(tuán)隊(duì)致力于人工智能安全和垂類(lèi)大模型應(yīng)用。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了完整體現(xiàn)田天的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)其演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來(lái)更多啟發(fā)。

中國(guó)AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的AI領(lǐng)域前沿峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾超千人,線上直播觀眾320萬(wàn)+,累計(jì)曝光2000萬(wàn)+。

話題要點(diǎn)

話題要點(diǎn)

  • 無(wú)論是深度學(xué)習(xí)時(shí)代還是大模型時(shí)代,人工智能在落地過(guò)程中已出現(xiàn)大量安全問(wèn)題亟待解決。除模型自身問(wèn)題外,其發(fā)展落地還有新的濫用風(fēng)險(xiǎn)。
  • 隨著AIGC技術(shù)逼真度提升,AI檢測(cè)系統(tǒng)的重要性將愈發(fā)凸顯。
  • 目前大模型落地基本上可以分為三步:初步的問(wèn)答工作流;工作輔助流;深度重構(gòu)關(guān)鍵任務(wù)流,即實(shí)現(xiàn)人機(jī)深度協(xié)同工作。
  • 可以從系統(tǒng)層面利用像Agent這樣的技術(shù),提升模型的可控性和安全性。
  • 大模型形成強(qiáng)生產(chǎn)力關(guān)鍵在把智能體組織起來(lái),安全可控是核心前置門(mén)檻。

以下為田天演講全文:

AI落地過(guò)程中出現(xiàn)大量安全問(wèn)題亟待解決

AI落地過(guò)程中出現(xiàn)大量安全問(wèn)題亟待解決

我是瑞萊智慧田天,很榮幸今天有機(jī)會(huì)跟大家做這個(gè)分享。

瑞萊智慧在AI領(lǐng)域,或者在整個(gè)AI產(chǎn)業(yè)鏈上是非常有特色的一家公司,我們更關(guān)注安全、通用的人工智能,安全是我們極為關(guān)注的核心點(diǎn)。

為何關(guān)注這個(gè)方向?先舉幾個(gè)例子。

無(wú)論是深度學(xué)習(xí)時(shí)代還是大模型時(shí)代,人工智能在廣泛落地過(guò)程中已出現(xiàn)大量安全問(wèn)題亟待解決,這些問(wèn)題影響了人工智能應(yīng)用產(chǎn)業(yè)落地的關(guān)鍵進(jìn)程。

典型如ChatGPT這類(lèi)應(yīng)用,曾在網(wǎng)上流傳“奶奶漏洞”,用戶誘導(dǎo)大模型回答不該回答的問(wèn)題,例如讓模型扮演奶奶,以“念Windows 11旗艦版序列號(hào)哄我睡覺(jué)”為由,使大模型被騙輸出序列號(hào),且有網(wǎng)友驗(yàn)證該序列號(hào)為未激活可用狀態(tài)。

既暴露了大模型易受欺騙的問(wèn)題,也反映出商業(yè)公司在大模型應(yīng)用中面臨的信息安全與數(shù)據(jù)泄露風(fēng)險(xiǎn)

另外,大模型還涉及價(jià)值觀層面的問(wèn)題。去年也有非常知名模型在回答問(wèn)題的時(shí)候,答案違背主流價(jià)值觀,這種回答若是出現(xiàn)在兒童產(chǎn)品中,影響將極為深遠(yuǎn)和嚴(yán)重。

除模型自身問(wèn)題外,其發(fā)展落地還有新的濫用風(fēng)險(xiǎn),典型如AIGC合成內(nèi)容用于造謠和詐騙。

左側(cè)案例是西藏地震后流傳的“地震小孩”視頻,實(shí)為AI合成的假視頻,誤導(dǎo)公眾同情并意圖誘導(dǎo)捐款;右側(cè)是通過(guò) APP指令生成的“某地著火”視頻,足以讓不在現(xiàn)場(chǎng)的人誤以為真實(shí)災(zāi)難發(fā)生,大幅降低謠言制造成本。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這些都是隨著AI能力越來(lái)越強(qiáng)所顯現(xiàn)出來(lái)新的問(wèn)題。

還有下方案例是AI詐騙場(chǎng)景,利用AI生成虛假人物視頻,偽造一些沒(méi)有做過(guò)的事情,又或者偽造成你信任的人問(wèn)你借錢(qián)或者誘導(dǎo)你做一些事情,很容易成功,國(guó)內(nèi)外已發(fā)生多起此類(lèi)案件。

大模型時(shí)代安全產(chǎn)品的落地實(shí)踐

大模型時(shí)代安全產(chǎn)品的落地實(shí)踐

剛才是從兩個(gè)視角跟大家舉了一些例子,在瑞萊智慧RealAI的視角下,怎么看待AI安全落地的問(wèn)題?

我們認(rèn)為至少分為三個(gè)階段。

第一在AI本身發(fā)展的過(guò)程中,我們最需要關(guān)注的是提升AI自身的可靠性和安全性

正如前面所講的,大模型越獄、價(jià)值觀對(duì)齊、模型幻覺(jué),這些都是AI能力還不夠強(qiáng),需要我們對(duì)AI自身進(jìn)行加固防御。

第二,隨著AI能力越來(lái)越強(qiáng),很有可能被濫用,本身也是一把雙刃劍。比如剛才所講的利用AI造謠、詐騙、生成虛假內(nèi)容,我們必須要防范AI濫用所帶來(lái)的一些危害。

通過(guò)這兩層,可以看到AI能力越來(lái)越強(qiáng),但也帶來(lái)了新的問(wèn)題。如果AI能力進(jìn)一步增強(qiáng),真的達(dá)到我們所認(rèn)為的AGI全方位超越人類(lèi)的水平時(shí),又會(huì)有新一代的問(wèn)題

我們?cè)趺幢WCAGI的安全發(fā)展?怎樣讓真正AGI時(shí)出現(xiàn)的新物種能夠服務(wù)于人類(lèi),而不是對(duì)人類(lèi)社會(huì)造成挑戰(zhàn)、危害?這里面有大量的工作需要去做。

圍繞這幾個(gè)方面,瑞萊智慧RealAI已開(kāi)展長(zhǎng)期實(shí)踐并已經(jīng)有一系列的平臺(tái)、產(chǎn)品的落地。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

像左邊針對(duì)提升AI自身可靠性,我們有AI安全與應(yīng)用平臺(tái)、AI安全與支撐平臺(tái)以及上層更安全可控的垂類(lèi)大模型。

圍繞防范AI濫用,我們則推出了先進(jìn)的AIGC檢測(cè)平臺(tái),以AI對(duì)抗AI,識(shí)別圖像、視頻、文本、音頻等合成內(nèi)容。

針對(duì)AGI安全發(fā)展,我們也在開(kāi)展前沿研究,如搭建超級(jí)對(duì)齊平臺(tái)、探索用AI監(jiān)管AI,以實(shí)現(xiàn)安全的超級(jí)智能。

在落地實(shí)踐中,我們有諸多產(chǎn)業(yè)服務(wù)案例。比如說(shuō)最典型是在深度學(xué)習(xí)時(shí)代就早早開(kāi)始做的AI安全產(chǎn)品,即人臉AI防火墻

人臉識(shí)別是目前落地最廣的AI產(chǎn)品之一,像大家通過(guò)手機(jī)銀行辦理業(yè)務(wù),在驗(yàn)證身份的時(shí)候都會(huì)要求你張張嘴、眨眨眼、搖搖頭,確認(rèn)你是本人。

其實(shí)利用AIGC技術(shù)可以通過(guò)一張?jiān)既宋锏恼掌由弦粋€(gè)其他人做的驅(qū)動(dòng)視頻,就可以生成一個(gè)假的目標(biāo)對(duì)象張嘴、眨眼,做各種動(dòng)作的視頻。我們發(fā)現(xiàn),把這個(gè)視頻通過(guò)一些方式注入到移動(dòng)手機(jī)里面,真的可以誤導(dǎo)真實(shí)的金融APP的身份核驗(yàn)。

為防范這種攻擊,我們做了一個(gè)人臉AI防火墻產(chǎn)品——RealGuard

它可以作為人臉識(shí)別的前置環(huán)節(jié),首先識(shí)別一個(gè)輸入的請(qǐng)求有沒(méi)有攻擊,是否是一個(gè)攻擊樣本,如果是攻擊樣本的話就把它拒絕掉,如果不是再給到后面的真正識(shí)別環(huán)節(jié),從而保證人臉識(shí)別更加安全。

這個(gè)產(chǎn)品現(xiàn)在已經(jīng)服務(wù)了非常多的客戶,特別是銀行客戶,一半以上國(guó)內(nèi)頭部銀行都已經(jīng)使用了這樣的產(chǎn)品以保證系統(tǒng)的安全性。

在大模型時(shí)代,我們也已經(jīng)有一系列的安全產(chǎn)品的落地。

第一步一定是要去發(fā)現(xiàn)現(xiàn)有大模型產(chǎn)品的安全隱患,先要知道它的問(wèn)題在哪。對(duì)于客戶來(lái)說(shuō),才可以選擇是否要讓AI產(chǎn)品上線以及產(chǎn)品還要進(jìn)行哪些方面的迭代和加固。

我們發(fā)現(xiàn)用固定的測(cè)試集還是非常不足的,很多大模型很聰明,我們沒(méi)有辦法在前置的環(huán)節(jié)發(fā)現(xiàn)各個(gè)維度的安全隱患。

我們專(zhuān)門(mén)做了一個(gè)紅隊(duì)模型,它可以自動(dòng)地生成對(duì)其它模型來(lái)說(shuō)有威脅性的答案,相當(dāng)于利用一個(gè)扮演邪惡角色的大模型誤導(dǎo)其它大模型,從而發(fā)現(xiàn)被測(cè)模型是不是安全,最終形成一個(gè)完整的報(bào)告。

發(fā)現(xiàn)問(wèn)題之后,我們對(duì)現(xiàn)有模型進(jìn)行安全加固增強(qiáng)。

這里舉一個(gè)典型例子。DeepSeek出來(lái)之后它的能力特別強(qiáng),海外一些公司的專(zhuān)家會(huì)跳出來(lái)講,DeepSeek雖然很強(qiáng),但是安全性很差。

我們測(cè)了一下,其實(shí)DeepSeek的安全問(wèn)題主要出在過(guò)于善良,提問(wèn)者不管問(wèn)什么問(wèn)題,即使知道這個(gè)問(wèn)題不夠安全,它最終也會(huì)回答出來(lái),從而帶來(lái)一些安全隱患。

針對(duì)這個(gè)問(wèn)題怎么辦?我們專(zhuān)門(mén)提出了一個(gè)模型安全能力增強(qiáng)的框架,通過(guò)后訓(xùn)練的方式對(duì)模型能力在推理階段進(jìn)行持續(xù)的提升。

最終帶來(lái)的效果是我們發(fā)布的安全增強(qiáng)版DeepSeek,在通用能力上跟原版基本上沒(méi)有任何下降,包括數(shù)學(xué)能力、回答通用問(wèn)題的能力、推理能力等等。

但是它的安全性相比于原版有大幅度的提升,基本上達(dá)到了國(guó)際上最優(yōu)的閉源大模型的安全水平。

前面講的是模型安全和增強(qiáng),再來(lái)說(shuō)說(shuō)偽造內(nèi)容、AIGC濫用帶來(lái)的安全隱患,應(yīng)該如何應(yīng)對(duì)?

我們發(fā)布了一個(gè)生成式人工智能內(nèi)容監(jiān)測(cè)平臺(tái)DeepReal,它也是用AI對(duì)抗AI的思路,用一個(gè)AI模型幫我們分辨人臉已經(jīng)沒(méi)有辦法分辨的內(nèi)容到底是真的還是假的,包括剛才提到圖片、視頻、音頻、文本等,這些都可以去檢測(cè)。

除了被動(dòng)上傳檢測(cè)方式,我們還專(zhuān)門(mén)推出了一個(gè)實(shí)時(shí)主動(dòng)檢測(cè)的系統(tǒng),把它作為手機(jī)或者電腦的軟件來(lái)運(yùn)行,如果在電腦上開(kāi)視頻會(huì)議時(shí),對(duì)方突然AI換臉,系統(tǒng)可以給你對(duì)應(yīng)的警示,告訴你對(duì)方有AI換臉的嫌疑,需提高警惕,從而防范AI詐騙。

隨著AIGC技術(shù)逼真度提升,此類(lèi)檢測(cè)系統(tǒng)的重要性將愈發(fā)凸顯,甚至說(shuō)每一個(gè)人都需要有這樣的系統(tǒng)幫我們分辨每天看到的內(nèi)容到底是真是假。

垂類(lèi)大模型落地需以安全為前置門(mén)檻

垂類(lèi)大模型落地需以安全為前置門(mén)檻

在推進(jìn)安全工作的同時(shí),我們發(fā)現(xiàn)垂類(lèi)大模型落地需以安全為前置門(mén)檻,只有我們做好安全,人工智能大模型應(yīng)該才能真正在行業(yè)里面落地。

我們也做大量的行業(yè)大模型落地的工作,我們發(fā)現(xiàn)目前大模型落地基本上可以分為三步。

第一步是比較初步的問(wèn)答工作流,類(lèi)似于客服、內(nèi)部信息咨詢等,它的好處是與客戶的系統(tǒng)耦合度比較淺,可以快速出箱,但是距離核心業(yè)務(wù)會(huì)遠(yuǎn)一些。

第二步是工作輔助流,利用大模型先完成一些工作給人一些建議,比如說(shuō)寫(xiě)研究報(bào)告,人再對(duì)答案進(jìn)行最終的確認(rèn)完善。它的好處是最終有人在把關(guān),它的可控性、安全性可以靠人進(jìn)行二次校驗(yàn)得到提升。

第三步價(jià)值最高,我們認(rèn)為是深度重構(gòu)關(guān)鍵任務(wù)流,即實(shí)現(xiàn)人機(jī)深度協(xié)同工作。這其實(shí)是在很多場(chǎng)景,包括我們?cè)趦?nèi)的很多廠商,大家都在努力的一個(gè)方向。

怎么讓這種行業(yè)大模型更加安全可控地落地?

這里我也列了一些關(guān)鍵點(diǎn),包括在模型階段怎樣對(duì)模型安全能力進(jìn)行提升,包括對(duì)有害輸出內(nèi)容的安全風(fēng)險(xiǎn)的提示,還有訓(xùn)練、推理層面的加固以及模型安全問(wèn)題的緩解。

我們可以在模型以外,從系統(tǒng)層面利用像Agent這樣的技術(shù),提升模型的可控性和安全性。

如何理解?有一些問(wèn)題或者有一些工作,模型本身確實(shí)做起來(lái)非常有困難,比如說(shuō)做長(zhǎng)的算術(shù)題,這種問(wèn)題就需要在合適場(chǎng)景通過(guò)Agent調(diào)用工具,通過(guò)調(diào)用可信工具的方式提升整體AI大模型系統(tǒng)的安全性。

最后,講一下我們對(duì)于大模型應(yīng)用落地的一些觀點(diǎn)。

剛才講了很多AI大模型安全的事情,可能大家會(huì)有疑問(wèn):是不是隨著AI大模型能力越來(lái)越強(qiáng),甚至到了AGI的時(shí)代,自然而然變得更加安全可控,我們不需要進(jìn)行獨(dú)立的安全的研究和布局了?

其實(shí)我的觀點(diǎn)不是這樣。

我們可以去類(lèi)比人類(lèi)社會(huì)智能的發(fā)展,如果回溯到2000年,甚至3000年以前,古代的人類(lèi)個(gè)體智慧水平相比于現(xiàn)在的人類(lèi),并沒(méi)有那么大的差異,因?yàn)楣湃艘部梢赃M(jìn)行相關(guān)的研究工作,寫(xiě)出來(lái)非常有哲理的文章,留給我們很多寶貴的智慧結(jié)晶。

但是古代,人類(lèi)沒(méi)有辦法形成很強(qiáng)的生產(chǎn)力,而現(xiàn)今人類(lèi)通過(guò)強(qiáng)有力的組織形式以及相應(yīng)的分工,可以實(shí)現(xiàn)登上月球,甚至未來(lái)有可能登上火星等,完成非常復(fù)雜、龐大的工程。

這里面的差異是怎么把智能體組織起來(lái)

對(duì)于大模型也一樣,今天大模型也已經(jīng)具備了非常強(qiáng)的智力、能力,我們不需要單一的智能體無(wú)所不能。如果把現(xiàn)有的智能體通過(guò)比較好的方式融入到工作流之中,甚至說(shuō)以大模型為核心,對(duì)現(xiàn)有的各行各業(yè)的工作流程進(jìn)行重構(gòu),就能大幅度解放AI的生產(chǎn)力,真正看到AI重塑、改造社會(huì)。

在這個(gè)過(guò)程中,安全可控一定是非常核心的前置門(mén)檻。

希望將來(lái)能夠跟更多人探討交流安全可控AI的落地,謝謝大家。