打開網(wǎng)易新聞 查看精彩圖片

大規(guī)模預(yù)訓(xùn)練攻擊框架 Any Attack 無需預(yù)設(shè)標(biāo)簽,即可將普通圖像轉(zhuǎn)化為有目標(biāo)的 有目標(biāo) 對抗樣本。

作者丨張家明

打開網(wǎng)易新聞 查看精彩圖片

近年來,視覺語言模型(Vision-Language Models, VLMs)在多模態(tài) AI 領(lǐng)域展現(xiàn)了重要的研究價值和應(yīng)用潛力,但其安全性問題也逐漸受到關(guān)注。例如,攻擊者可能通過對抗樣本操控模型輸出,導(dǎo)致模型生成錯誤信息或內(nèi)容被篡改等風(fēng)險。傳統(tǒng)對抗攻擊方法因依賴預(yù)設(shè)標(biāo)簽,難以適應(yīng)大規(guī)模數(shù)據(jù)場景,因此其威脅范圍相對有限。

針對這一問題,來自香港科技大學(xué)、北京交通大學(xué)、復(fù)旦大學(xué)、新加坡管理大學(xué)等機(jī)構(gòu)的學(xué)者聯(lián)合提出了一種新的大規(guī)模預(yù)訓(xùn)練攻擊框架AnyAttack,通過設(shè)計的創(chuàng)新自監(jiān)督學(xué)習(xí)任務(wù),在LAION-400M數(shù)據(jù)集上完成了對攻擊噪聲生成器的大規(guī)模預(yù)訓(xùn)練?;陬A(yù)訓(xùn)練的攻擊生成器,攻擊者可以針對任何下游任務(wù),微調(diào)生成指向任何目標(biāo)圖像的對抗噪聲。該框架能夠在無需預(yù)設(shè)標(biāo)簽的情況下,將普通圖像轉(zhuǎn)化為有目標(biāo)的有目標(biāo)對抗樣本,從而有效測試和評估大規(guī)模VLM模型的魯棒性。相關(guān)研究成果已被計算機(jī)視覺領(lǐng)域頂級會議 CVPR 2025 收錄。

論文標(biāo)題:《AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models》

論文地址: https://arxiv.org/abs/2410.05346

項目主頁:

https://jiamingzhang94.github.io/anyattack/

打開網(wǎng)易新聞 查看精彩圖片

圖1.上:現(xiàn)有攻擊方法依賴標(biāo)簽監(jiān)督信息;

下:AnyAttack框架不依賴標(biāo)簽完成大規(guī)模自監(jiān)督預(yù)訓(xùn)練。

1

實際意義

傳統(tǒng)的有目標(biāo)對抗攻擊方法通常依賴預(yù)定義標(biāo)簽,這在一定程度上限制了其可擴(kuò)展性和實際應(yīng)用范圍。相比之下,AnyAttack通過在LAION-400M數(shù)據(jù)集上進(jìn)行大規(guī)模預(yù)訓(xùn)練(圖1),擺脫了對標(biāo)簽監(jiān)督的依賴,從而顯著提升了攻擊的靈活性和適應(yīng)性。這一方法使任何一張圖像都能被轉(zhuǎn)化為對抗攻擊,并能誤導(dǎo)VLM生成特定目標(biāo)輸出,為VLM魯棒性研究提供了新的工具和方法。

打開網(wǎng)易新聞 查看精彩圖片

圖2. AnyAttack框架:自監(jiān)督對抗噪聲預(yù)訓(xùn)練階段(上)和自監(jiān)督對抗噪聲微調(diào)階段(下)。

  • 攻擊框架介紹

如圖2所示,AnyAttack是一個兩階段自監(jiān)督學(xué)習(xí)框架

自監(jiān)督對抗噪聲預(yù)訓(xùn)練:AnyAttack框架的核心創(chuàng)新在于其自監(jiān)督預(yù)訓(xùn)練機(jī)制。研究團(tuán)隊設(shè)計了一種全新的訓(xùn)練范式,將對抗攻擊轉(zhuǎn)化為自監(jiān)督學(xué)習(xí)問題。在預(yù)訓(xùn)練階段,框架使用凍結(jié)的圖像編碼器從輸入圖像中提取嵌入向量,這些標(biāo)準(zhǔn)化的嵌入向量隨后被送入解碼器網(wǎng)絡(luò),生成對應(yīng)的對抗噪聲。研究者期待所生成的對抗噪聲加在任意的圖像上所組成的對抗圖像都會被VLMs識別為輸入圖像,這形成了一種自監(jiān)督的訓(xùn)練模型,即以輸入圖像本身為監(jiān)督來引導(dǎo)生成對抗噪聲。具體來說,在一個batch中給定一個樣本作為輸入圖像,則該batch中其余的樣本皆為該樣本的負(fù)樣本,研究者根據(jù)這種正負(fù)樣本對的關(guān)系來構(gòu)建了對比損失。為了提升對抗噪聲的泛化能力,研究者還引入了創(chuàng)新的K-增強(qiáng)策略,該策略在每個batch內(nèi)創(chuàng)建了多個隨機(jī)打亂版本的干凈圖像。換言之,所得到的對抗噪聲被加在不同的干凈圖像上都應(yīng)當(dāng)被VLMs識別為輸入圖像,這增加了正樣本的構(gòu)建方式,這種設(shè)計使得對抗噪聲更加通用,實現(xiàn)了“任意圖像→任意目標(biāo)輸出”的靈活攻擊能力,而不依賴于特定的圖像內(nèi)容或標(biāo)簽信息,從而提升了任意性和遷移性。

2

實驗結(jié)果

  • 成功攻擊開源模型

研究團(tuán)隊對AnyAttack進(jìn)行了全面評估,在CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4五個開源模型上的評估證明了其在開源和商業(yè)視覺-語言模型上的可遷移性和有效性。圖3給出了具體的示例。在CLIP模型上,攻擊成功率(Retrieval)比表現(xiàn)最好的基線方法提升了17.33個百分點;在BLIP、BLIP2、InstructBLIP和MiniGPT-4模型上的Image Captioning任務(wù)分別提升了0.6, 3.8, 8.5和2.5(CIDEr)。

打開網(wǎng)易新聞 查看精彩圖片

圖3. AnyAttack成功攻擊開源視覺語言模型

CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4

  • 成功遷移攻擊商業(yè)模型

更令人擔(dān)憂的是,盡管商業(yè)系統(tǒng)通常具有更強(qiáng)大的安全措施,AnyAttack仍然表現(xiàn)出令人矚目的遷移能力,成功操縱了Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商業(yè)VLMs。圖4給出了具體的示例。通過調(diào)用Gemini 1.5 Flash和GPT-4o mini的API進(jìn)行了量化實驗,測試了100張圖像,攻擊成功率分別達(dá)到了31%和38%,分別超過基線方法26%和10%。

打開網(wǎng)易新聞 查看精彩圖片

圖4. AnyAttack成功遷移攻擊商業(yè)視覺語言模型

Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT

3

總結(jié)

本研究工作揭示了視覺語言大模型生態(tài)系統(tǒng)中存在的系統(tǒng)性安全風(fēng)險。實驗結(jié)果表明,即使模型基于不同的數(shù)據(jù)集和架構(gòu)進(jìn)行訓(xùn)練,其防御機(jī)制在面對自監(jiān)督攻擊方法時,仍表現(xiàn)出顯著的跨模型遷移脆弱性。研究團(tuán)隊開源了基于LAION-400M預(yù)訓(xùn)練的對抗噪聲生成器,該工具通過單次前向傳播即可生成有目標(biāo)對抗樣本,相比基于梯度的傳統(tǒng)攻擊方法,攻擊效率有明顯優(yōu)勢,可以用來評測視覺語言模型的魯棒性。

打開網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點擊下方關(guān)注:

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

打開網(wǎng)易新聞 查看精彩圖片