任何網(wǎng)絡(luò)都能山寨!新型黑盒對抗攻擊可模擬未知網(wǎng)絡(luò)進行攻擊 | CVPR 2021

來源:AI科技評論 本文約3500字,建議閱讀9分鐘
本文解讀對抗攻擊與元學習聯(lián)姻的兩篇典型的論文。
SimulatorAttack論文鏈接:
https://arxiv.org/abs/2009.00960
SimulatorAttack代碼鏈接:
https://github.com/machanic/SimulatorAttack


圖1 一個典型的元學習將數(shù)據(jù)切分成task訓練,而每個task包含的5個分類不同,1-shot是指每個分類只有一個樣本。
。而外部更新利用
作為網(wǎng)絡(luò)參數(shù),輸入query set的數(shù)據(jù),計算一個對
,而外部更新利用
作為網(wǎng)絡(luò)參數(shù)去計算loss,這個loss最后用來計算元梯度來外部更新。3.1 模擬器的訓練

。然后,損失函數(shù)值
通過輸入第i個task的meta-test set到網(wǎng)絡(luò)而得到。之后,元梯度(meta-gradient)
對
來更新模擬器(外部更新),由此模擬器可以學到泛化的模擬任意網(wǎng)絡(luò)的能力。
的兩個query
和
(由于Bandits攻擊使用有限差分法去估計梯度,因此每次迭代生成一個query pair)。模擬器和隨機選擇的分類網(wǎng)絡(luò)的logits輸出分別記為
和
。如下MSE損失函數(shù)將使得模擬器的輸出和偽標簽趨近于一致。
3.2 模擬器攻擊
收集這些輸入和輸出。在warm-up之后的迭代中,每隔m次迭代才使用一次目標模型,其余迭代一律輸入使用模擬器來輸出。因此目標模型和模擬器的使用是輪流交替進行的,這種方法一方面保證了大部分查詢壓力被轉(zhuǎn)移到模擬器中,另一方面保證了模擬器每隔m次迭代就得到機會fine-tune一次,這保證了后期的迭代中模擬器能“跟得上不斷演化的query的節(jié)奏,及時與目標模型保持一致”。




范數(shù)下的untargeted attack攻擊TinyImageNet的實驗結(jié)果
范數(shù)下的targeted attack攻擊TinyImageNet的實驗結(jié)果

范數(shù)攻擊防御模型的結(jié)果,所有防御模型皆選擇ResNet-50 backbone評論
圖片
表情
