編輯部 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
隨著大模型加速滲透核心行業(yè),其安全可控性正從技術(shù)議題升級為產(chǎn)業(yè)落地的先決條件。
特別是金融、醫(yī)療等關(guān)鍵領(lǐng)域,對數(shù)據(jù)隱私保護、模型行為可控性及倫理合規(guī)提出了更高的要求。
如何為AI應(yīng)用構(gòu)建堅實的防護邊界?
在第三屆AIGC產(chǎn)業(yè)大會上,瑞萊智慧CEO田天博士帶來了他們的最新實踐。田天博士畢業(yè)于清華大學計算機系,他帶領(lǐng)團隊致力于人工智能安全和垂類大模型應(yīng)用。

為了完整體現(xiàn)田天的思考,在不改變原意的基礎(chǔ)上,量子位對其演講內(nèi)容進行了編輯整理,希望能給你帶來更多啟發(fā)。
中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的AI領(lǐng)域前沿峰會,20余位產(chǎn)業(yè)代表與會討論。線下參會觀眾超千人,線上直播觀眾320萬+,累計曝光2000萬+。
話題要點
- 無論是深度學習時代還是大模型時代,人工智能在落地過程中已出現(xiàn)大量安全問題亟待解決。除模型自身問題外,其發(fā)展落地還有新的濫用風險。
- 隨著AIGC技術(shù)逼真度提升,AI檢測系統(tǒng)的重要性將愈發(fā)凸顯。
- 目前大模型落地基本上可以分為三步:初步的問答工作流;工作輔助流;深度重構(gòu)關(guān)鍵任務(wù)流,即實現(xiàn)人機深度協(xié)同工作。
- 可以從系統(tǒng)層面利用像Agent這樣的技術(shù),提升模型的可控性和安全性。
- 大模型形成強生產(chǎn)力關(guān)鍵在把智能體組織起來,安全可控是核心前置門檻。
以下為田天演講全文:
AI落地過程中出現(xiàn)大量安全問題亟待解決
我是瑞萊智慧田天,很榮幸今天有機會跟大家做這個分享。
瑞萊智慧在AI領(lǐng)域,或者在整個AI產(chǎn)業(yè)鏈上是非常有特色的一家公司,我們更關(guān)注安全、通用的人工智能,安全是我們極為關(guān)注的核心點。
為何關(guān)注這個方向?先舉幾個例子。
無論是深度學習時代還是大模型時代,人工智能在廣泛落地過程中已出現(xiàn)大量安全問題亟待解決,這些問題影響了人工智能應(yīng)用產(chǎn)業(yè)落地的關(guān)鍵進程。
典型如ChatGPT這類應(yīng)用,曾在網(wǎng)上流傳“奶奶漏洞”,用戶誘導(dǎo)大模型回答不該回答的問題,例如讓模型扮演奶奶,以“念Windows 11旗艦版序列號哄我睡覺”為由,使大模型被騙輸出序列號,且有網(wǎng)友驗證該序列號為未激活可用狀態(tài)。
既暴露了大模型易受欺騙的問題,也反映出商業(yè)公司在大模型應(yīng)用中面臨的信息安全與數(shù)據(jù)泄露風險
另外,大模型還涉及價值觀層面的問題。去年也有非常知名模型在回答問題的時候,答案違背主流價值觀,這種回答若是出現(xiàn)在兒童產(chǎn)品中,影響將極為深遠和嚴重。
除模型自身問題外,其發(fā)展落地還有新的濫用風險,典型如AIGC合成內(nèi)容用于造謠和詐騙。
左側(cè)案例是西藏地震后流傳的“地震小孩”視頻,實為AI合成的假視頻,誤導(dǎo)公眾同情并意圖誘導(dǎo)捐款;右側(cè)是通過 APP指令生成的“某地著火”視頻,足以讓不在現(xiàn)場的人誤以為真實災(zāi)難發(fā)生,大幅降低謠言制造成本。

這些都是隨著AI能力越來越強所顯現(xiàn)出來新的問題。
還有下方案例是AI詐騙場景,利用AI生成虛假人物視頻,偽造一些沒有做過的事情,又或者偽造成你信任的人問你借錢或者誘導(dǎo)你做一些事情,很容易成功,國內(nèi)外已發(fā)生多起此類案件。
大模型時代安全產(chǎn)品的落地實踐
剛才是從兩個視角跟大家舉了一些例子,在瑞萊智慧RealAI的視角下,怎么看待AI安全落地的問題?
我們認為至少分為三個階段。
第一在AI本身發(fā)展的過程中,我們最需要關(guān)注的是提升AI自身的可靠性和安全性
正如前面所講的,大模型越獄、價值觀對齊、模型幻覺,這些都是AI能力還不夠強,需要我們對AI自身進行加固防御。
第二,隨著AI能力越來越強,很有可能被濫用,本身也是一把雙刃劍。比如剛才所講的利用AI造謠、詐騙、生成虛假內(nèi)容,我們必須要防范AI濫用所帶來的一些危害。
通過這兩層,可以看到AI能力越來越強,但也帶來了新的問題。如果AI能力進一步增強,真的達到我們所認為的AGI全方位超越人類的水平時,又會有新一代的問題
我們怎么保證AGI的安全發(fā)展?怎樣讓真正AGI時出現(xiàn)的新物種能夠服務(wù)于人類,而不是對人類社會造成挑戰(zhàn)、危害?這里面有大量的工作需要去做。
圍繞這幾個方面,瑞萊智慧RealAI已開展長期實踐并已經(jīng)有一系列的平臺、產(chǎn)品的落地。

像左邊針對提升AI自身可靠性,我們有AI安全與應(yīng)用平臺、AI安全與支撐平臺以及上層更安全可控的垂類大模型。
圍繞防范AI濫用,我們則推出了先進的AIGC檢測平臺,以AI對抗AI,識別圖像、視頻、文本、音頻等合成內(nèi)容。
針對AGI安全發(fā)展,我們也在開展前沿研究,如搭建超級對齊平臺、探索用AI監(jiān)管AI,以實現(xiàn)安全的超級智能。
在落地實踐中,我們有諸多產(chǎn)業(yè)服務(wù)案例。比如說最典型是在深度學習時代就早早開始做的AI安全產(chǎn)品,即人臉AI防火墻
人臉識別是目前落地最廣的AI產(chǎn)品之一,像大家通過手機銀行辦理業(yè)務(wù),在驗證身份的時候都會要求你張張嘴、眨眨眼、搖搖頭,確認你是本人。
其實利用AIGC技術(shù)可以通過一張原始人物的照片,加上一個其他人做的驅(qū)動視頻,就可以生成一個假的目標對象張嘴、眨眼,做各種動作的視頻。我們發(fā)現(xiàn),把這個視頻通過一些方式注入到移動手機里面,真的可以誤導(dǎo)真實的金融APP的身份核驗。
為防范這種攻擊,我們做了一個人臉AI防火墻產(chǎn)品——RealGuard
它可以作為人臉識別的前置環(huán)節(jié),首先識別一個輸入的請求有沒有攻擊,是否是一個攻擊樣本,如果是攻擊樣本的話就把它拒絕掉,如果不是再給到后面的真正識別環(huán)節(jié),從而保證人臉識別更加安全。
這個產(chǎn)品現(xiàn)在已經(jīng)服務(wù)了非常多的客戶,特別是銀行客戶,一半以上國內(nèi)頭部銀行都已經(jīng)使用了這樣的產(chǎn)品以保證系統(tǒng)的安全性。
在大模型時代,我們也已經(jīng)有一系列的安全產(chǎn)品的落地。
第一步一定是要去發(fā)現(xiàn)現(xiàn)有大模型產(chǎn)品的安全隱患,先要知道它的問題在哪。對于客戶來說,才可以選擇是否要讓AI產(chǎn)品上線以及產(chǎn)品還要進行哪些方面的迭代和加固。
我們發(fā)現(xiàn)用固定的測試集還是非常不足的,很多大模型很聰明,我們沒有辦法在前置的環(huán)節(jié)發(fā)現(xiàn)各個維度的安全隱患。
我們專門做了一個紅隊模型,它可以自動地生成對其它模型來說有威脅性的答案,相當于利用一個扮演邪惡角色的大模型誤導(dǎo)其它大模型,從而發(fā)現(xiàn)被測模型是不是安全,最終形成一個完整的報告。
發(fā)現(xiàn)問題之后,我們對現(xiàn)有模型進行安全加固增強。
這里舉一個典型例子。DeepSeek出來之后它的能力特別強,海外一些公司的專家會跳出來講,DeepSeek雖然很強,但是安全性很差。
我們測了一下,其實DeepSeek的安全問題主要出在過于善良,提問者不管問什么問題,即使知道這個問題不夠安全,它最終也會回答出來,從而帶來一些安全隱患。
針對這個問題怎么辦?我們專門提出了一個模型安全能力增強的框架,通過后訓練的方式對模型能力在推理階段進行持續(xù)的提升。
最終帶來的效果是我們發(fā)布的安全增強版DeepSeek,在通用能力上跟原版基本上沒有任何下降,包括數(shù)學能力、回答通用問題的能力、推理能力等等。
但是它的安全性相比于原版有大幅度的提升,基本上達到了國際上最優(yōu)的閉源大模型的安全水平。
前面講的是模型安全和增強,再來說說偽造內(nèi)容、AIGC濫用帶來的安全隱患,應(yīng)該如何應(yīng)對?
我們發(fā)布了一個生成式人工智能內(nèi)容監(jiān)測平臺DeepReal,它也是用AI對抗AI的思路,用一個AI模型幫我們分辨人臉已經(jīng)沒有辦法分辨的內(nèi)容到底是真的還是假的,包括剛才提到圖片、視頻、音頻、文本等,這些都可以去檢測。
除了被動上傳檢測方式,我們還專門推出了一個實時主動檢測的系統(tǒng),把它作為手機或者電腦的軟件來運行,如果在電腦上開視頻會議時,對方突然AI換臉,系統(tǒng)可以給你對應(yīng)的警示,告訴你對方有AI換臉的嫌疑,需提高警惕,從而防范AI詐騙。
隨著AIGC技術(shù)逼真度提升,此類檢測系統(tǒng)的重要性將愈發(fā)凸顯,甚至說每一個人都需要有這樣的系統(tǒng)幫我們分辨每天看到的內(nèi)容到底是真是假。
垂類大模型落地需以安全為前置門檻
在推進安全工作的同時,我們發(fā)現(xiàn)垂類大模型落地需以安全為前置門檻,只有我們做好安全,人工智能大模型應(yīng)該才能真正在行業(yè)里面落地。
我們也做大量的行業(yè)大模型落地的工作,我們發(fā)現(xiàn)目前大模型落地基本上可以分為三步。
第一步是比較初步的問答工作流,類似于客服、內(nèi)部信息咨詢等,它的好處是與客戶的系統(tǒng)耦合度比較淺,可以快速出箱,但是距離核心業(yè)務(wù)會遠一些。
第二步是工作輔助流,利用大模型先完成一些工作給人一些建議,比如說寫研究報告,人再對答案進行最終的確認完善。它的好處是最終有人在把關(guān),它的可控性、安全性可以靠人進行二次校驗得到提升。
第三步價值最高,我們認為是深度重構(gòu)關(guān)鍵任務(wù)流,即實現(xiàn)人機深度協(xié)同工作。這其實是在很多場景,包括我們在內(nèi)的很多廠商,大家都在努力的一個方向。
怎么讓這種行業(yè)大模型更加安全可控地落地?
這里我也列了一些關(guān)鍵點,包括在模型階段怎樣對模型安全能力進行提升,包括對有害輸出內(nèi)容的安全風險的提示,還有訓練、推理層面的加固以及模型安全問題的緩解。
我們可以在模型以外,從系統(tǒng)層面利用像Agent這樣的技術(shù),提升模型的可控性和安全性。
如何理解?有一些問題或者有一些工作,模型本身確實做起來非常有困難,比如說做長的算術(shù)題,這種問題就需要在合適場景通過Agent調(diào)用工具,通過調(diào)用可信工具的方式提升整體AI大模型系統(tǒng)的安全性。
最后,講一下我們對于大模型應(yīng)用落地的一些觀點。
剛才講了很多AI大模型安全的事情,可能大家會有疑問:是不是隨著AI大模型能力越來越強,甚至到了AGI的時代,自然而然變得更加安全可控,我們不需要進行獨立的安全的研究和布局了?
其實我的觀點不是這樣。
我們可以去類比人類社會智能的發(fā)展,如果回溯到2000年,甚至3000年以前,古代的人類個體智慧水平相比于現(xiàn)在的人類,并沒有那么大的差異,因為古人也可以進行相關(guān)的研究工作,寫出來非常有哲理的文章,留給我們很多寶貴的智慧結(jié)晶。
但是古代,人類沒有辦法形成很強的生產(chǎn)力,而現(xiàn)今人類通過強有力的組織形式以及相應(yīng)的分工,可以實現(xiàn)登上月球,甚至未來有可能登上火星等,完成非常復(fù)雜、龐大的工程。
這里面的差異是怎么把智能體組織起來
對于大模型也一樣,今天大模型也已經(jīng)具備了非常強的智力、能力,我們不需要單一的智能體無所不能。如果把現(xiàn)有的智能體通過比較好的方式融入到工作流之中,甚至說以大模型為核心,對現(xiàn)有的各行各業(yè)的工作流程進行重構(gòu),就能大幅度解放AI的生產(chǎn)力,真正看到AI重塑、改造社會。
在這個過程中,安全可控一定是非常核心的前置門檻。
希望將來能夠跟更多人探討交流安全可控AI的落地,謝謝大家。
熱門跟貼