神經(jīng)網(wǎng)絡(luò)是一種以人腦連接為模型的人工智能,正在推動廣泛科學(xué)領(lǐng)域的關(guān)鍵突破。但這些模型面臨著來自對抗性攻擊的重大威脅,這些攻擊可能會破壞預(yù)測并產(chǎn)生不正確的信息。美國洛斯阿拉莫斯國家實(shí)驗(yàn)室的研究人員開創(chuàng)了一種新的凈化策略,可以抵消對抗性攻擊,并保持神經(jīng)網(wǎng)絡(luò)的強(qiáng)大性能。

打開網(wǎng)易新聞 查看精彩圖片

洛斯阿拉莫斯計算機(jī)科學(xué)家Manish Bhattarai說:“對人工智能系統(tǒng)的對抗性攻擊可以采取對輸入圖像進(jìn)行微小、幾乎不可見的調(diào)整的形式,這些細(xì)微的修改可以使模型朝著攻擊者想要的結(jié)果發(fā)展?!薄斑@些漏洞允許惡意行為者在真實(shí)輸出的幌子下,用欺騙性或有害內(nèi)容充斥數(shù)字渠道,對人工智能驅(qū)動技術(shù)的信任和可靠性構(gòu)成直接威脅?!?/p>

低秩迭代擴(kuò)散(LoRID)方法通過利用生成去噪擴(kuò)散過程的強(qiáng)大功能與先進(jìn)的張量分解技術(shù)相結(jié)合,從輸入數(shù)據(jù)中消除對抗性干預(yù)。在對基準(zhǔn)數(shù)據(jù)集的一系列測試中,LoRID在消除攻擊場景中的對抗噪聲方面取得了無與倫比的準(zhǔn)確性,有可能提高更安全、更可靠的人工智能能力。

打開網(wǎng)易新聞 查看精彩圖片

擴(kuò)散是一種通過向數(shù)據(jù)中添加噪聲,然后教模型去除噪聲來訓(xùn)練人工智能模型的技術(shù)。通過學(xué)習(xí)清理噪聲,人工智能模型有效地學(xué)習(xí)了數(shù)據(jù)的底層結(jié)構(gòu),使其能夠自行生成逼真的樣本。在基于擴(kuò)散的凈化中,該模型利用其對“干凈”數(shù)據(jù)的學(xué)習(xí)表示來識別和消除輸入中引入的任何對抗性干擾。

不幸的是,應(yīng)用太多的噪聲凈化步驟會從數(shù)據(jù)中剝離出重要的細(xì)節(jié)——類似用力擦洗照片會使其失去清晰度——而太少的步驟會為有害的干擾留下?lián)]之不去的空間。LoRID方法通過在擴(kuò)散過程的早期階段采用多輪去噪來導(dǎo)航這種權(quán)衡,幫助模型在不損害數(shù)據(jù)有意義內(nèi)容的情況下精確消除適量的噪聲,從而增強(qiáng)模型的抗攻擊性。

至關(guān)重要的是,對抗性輸入通常會揭示出微妙的“低級”特征——這些模式可能會繞過復(fù)雜的防御。通過引入一種稱為張量分解的技術(shù),LoRID精確地指出了這些低階方面,從而增強(qiáng)了模型在大型對抗攻擊中的防御能力。

該團(tuán)隊(duì)使用廣泛認(rèn)可的基準(zhǔn)數(shù)據(jù)集(如CIFAR-10、CIFAR-100、Celebr HQ和ImageNet)測試了LoRID,評估了其對抗最先進(jìn)的黑盒和白盒攻擊的性能。在白盒攻擊中,對手完全了解AI模型的架構(gòu)和參數(shù)。在黑盒攻擊中,他們只看到輸入和輸出,隱藏了模型的內(nèi)部工作。在每次測試中,LoRID的表現(xiàn)始終優(yōu)于其他方法,特別是在魯棒精度方面,魯棒精度是模型在對抗威脅下可靠性的關(guān)鍵指標(biāo)。

該團(tuán)隊(duì)在實(shí)驗(yàn)室最新的具有人工智能能力的超級計算機(jī)Venado上運(yùn)行了LoRID模型,以測試一系列最先進(jìn)的視覺模型對抗黑盒和白盒攻擊。

打開網(wǎng)易新聞 查看精彩圖片

通過利用多個Venado節(jié)點(diǎn)數(shù)周——考慮到巨大的計算需求,這是一項(xiàng)雄心勃勃的努力——他們成為第一個進(jìn)行如此全面分析的團(tuán)隊(duì)。Venado的強(qiáng)大功能將數(shù)月的模擬時間縮短到了幾個小時,將總開發(fā)時間從幾年縮短到了一個月,并顯著降低了計算成本。

無論在哪里應(yīng)用神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)應(yīng)用,強(qiáng)大的凈化方法都可以增強(qiáng)人工智能的安全性,包括在實(shí)驗(yàn)室的國家安全任務(wù)中。

洛斯阿拉莫斯人工智能研究員Minh Vu表示:“我們的方法在著名數(shù)據(jù)集的最先進(jìn)性能方面樹立了新的基準(zhǔn),在白盒和黑盒攻擊場景下都表現(xiàn)出色?!薄斑@一成就意味著我們現(xiàn)在可以在使用數(shù)據(jù)訓(xùn)練基礎(chǔ)模型之前凈化數(shù)據(jù),無論是私人還是公共來源,確保其安全性和完整性,同時始終如一地提供準(zhǔn)確的結(jié)果?!?/p>

該團(tuán)隊(duì)在人工智能促進(jìn)協(xié)會主辦的著名的AAAI人工智能會議(AAAI-2025)上展示了他們的工作和成果。