Deepfake逆向工程的檢測與溯源方法
點擊下方卡片,關注“新機器視覺”公眾號
視覺/圖像重磅干貨,第一時間送達
來源:AI前線

近年來,Deepfake 圖像做得越來越逼真了。在某些情況下,人類甚至沒法輕易看出這些圖像與真實圖像之間的區(qū)別。盡管 Deepfake 圖像的檢測仍然是業(yè)界面對的一大挑戰(zhàn),但由于這項技術的水平越來越高,檢測它的動機也越來越充分,例如:如果 Deepfake 圖像不僅是為了娛樂和技術展示用途,而被用于大規(guī)模欺詐行為該怎么辦?
今天,我們與密歇根州立大學(MSU)合作,展示了一種檢測和歸因(attributing)Deepfake 圖像的研究方法,這種方法的基礎是對單張 AI 生成圖像的生成模型的逆向工程。我們的方法將推動真實世界環(huán)境中的 Deepfake 圖像檢測和跟蹤研究,現(xiàn)實中 Deepfake 圖像本身通常是檢測器唯一能用到的信息。

當前討論 Deepfake 圖像的方法側重于判斷圖像是真實的還是 Deepfake(檢測),或識別圖像是否由訓練期間看到的模型生成(基于“封閉集”分類的圖像歸因)。但是,要想應對 Deepfake 圖像激增的趨勢,需要更進一步的研究,并設法將圖像歸因(image attribution)擴展到訓練中存在的有限模型集之外。重點在于超越封閉的圖像歸因方法限制,因為 Deepfake 圖像可能是用在訓練中沒見過的生成模型來創(chuàng)建的。
逆向工程是解決 Deepfake 圖像問題的另一種方式,但它在機器學習中并不是一個新概念。之前關于逆向工程 ML 模型的研究是通過檢查其輸入 / 輸出對來獲得模型的,這種方法將模型本身視為一個黑匣子。另一種方法假設硬件信息(例如 CPU 和內存使用情況)在模型推理期間是可用的。這兩種方法都依賴關于模型本身的先驗知識,這限制了它們在現(xiàn)實世界中的實用性,因為這些信息通常是不可用的。
我們的逆向工程方法的基礎是找出用于生成單個 Deepfake 圖像的 AI 模型背后的獨特模式。 我們從圖像歸因開始,然后設法發(fā)現(xiàn)用于生成圖像的模型屬性。將圖像歸因泛化到開放集識別后,我們就可以推理出用于創(chuàng)建 Deepfake 圖像的生成模型的更多信息,而不只是判斷出某個模型是從未見過的。
通過追蹤一組 Deepfake 圖像模式之間的相似性,我們還可以判斷一系列圖像是否來自單一來源。這種檢測哪些 Deepfake 圖像是從同一 AI 模型生成的能力,可以用來發(fā)現(xiàn)使用大量 Deepfake 圖像發(fā)起的誤導宣傳或其他惡意攻擊的實例。
我們首先通過一個指紋估計網絡(FEN)運行一個 Deepfake 圖像,以估計生成模型留下的指紋細節(jié)。
設備指紋是由特定設備由于生成過程中的缺陷,在每個圖像上留下的微妙但獨特的圖案。在數(shù)碼攝影中,指紋是用來識別用于生成圖像的數(shù)碼相機的。與設備指紋類似,圖像指紋是由生成模型在生成的圖像上留下的獨特模式,同樣可用于識別圖像的生成模型。

在深度學習時代之前,研究人員一般使用一套小型的、手工制作的、眾所周知的工具來生成照片。這些生成模型的指紋是通過他們手工制作時留下的特征來估計的。深度學習讓可用于生成圖像的工具集變得無窮無盡,讓研究人員無法通過手工制作的特征來識別特定的“信號”或指紋屬性。
為了應對這種無限的可能性,我們使用指紋的屬性作為開發(fā)約束來執(zhí)行無監(jiān)督訓練。換句話說,我們根據指紋的常見屬性使用不同的約束來估計指紋,包括指紋大小、重復性、頻率范圍和對稱頻率響應等。然后我們使用不同的損失函數(shù)將這些約束應用于 FEN,強制它生成的指紋具有這些所需的屬性。一旦指紋生成完成,指紋就可以用作模型解析的輸入。
模型解析是一個新問題,它使用估計的生成模型指紋來預測模型的超參數(shù),即構成模型架構的屬性,包括網絡層數(shù)、塊數(shù)和每個塊中使用的操作類型。模型的超參數(shù)影響它生成的 Deepfake 圖像類型的一個例子是,它的訓練損失函數(shù)指導模型的訓練方式。
模型的網絡架構及其訓練損失函數(shù)類型都會影響其權重,從而影響其生成圖像的方式。為了更好地理解超參數(shù),我們可以將生成模型視為一種汽車,將其超參數(shù)視為各種特定的發(fā)動機組件。不同的汽車可能看起來很相似,但在引擎蓋下,它們可能有著非常不同的發(fā)動機和截然不同的組件。我們的逆向工程技術有點像根據汽車的聲音來識別汽車的組件,即使這是我們以前從未聽過聲音的新車。
通過我們的模型解析方法,我們同時估計用于創(chuàng)建 Deepfake 圖像的模型的網絡架構及其訓練損失函數(shù)。我們對網絡架構中的一些連續(xù)參數(shù)做了歸一化以便于訓練,并且還進行了分層學習以對損失函數(shù)類型進行分類。由于各個生成模型在網絡架構和訓練損失函數(shù)方面大都是不一樣的,因此從 Deepfake 或生成圖像到超參數(shù)空間的映射,使我們能夠獲得用于創(chuàng)建它的模型特征的關鍵信息。
為了測試這一方法,MSU 研究團隊用了一個偽造圖像數(shù)據集,其中包含從 100 個公開可用的生成模型生成的 100,000 張合成圖像。100 個生成模型各對應一個由整個科學界的研究人員開發(fā)和共享的開源項目。一些開源項目已經發(fā)布了偽造圖像,在這種情況下 MSU 研究團隊隨機選擇 1,000 張圖像。
在開源項目沒有任何可用的偽造圖像的情況下,研究團隊會運行他們發(fā)布的代碼來生成 1,000 張合成圖像。鑒于測試圖像可能來自現(xiàn)實世界中一個未曾見過的生成模型,研究團隊通過交叉驗證來模擬現(xiàn)實世界的應用程序,以在我們數(shù)據集的不同分割上訓練和評估我們的模型。
由于我們是第一個做模型解析的團隊,因此沒有現(xiàn)有的對比基線。我們隨機打亂了 ground-truth 集中的每個超參數(shù),形成了一個稱為隨機 gt 的基線。這些隨機 gt 向量保持原始分布。
結果表明,我們方法的性能明顯優(yōu)于隨機 gt 基線。這表明,與相同長度和分布的隨機向量相比,生成的圖像與有意義的架構超參數(shù)和損失函數(shù)類型的嵌入空間之間確實存在更強的廣義相關性。我們還進行了消融研究,以證明指紋估計和分層學習的有效性。

從 100 個 GM 中生成的圖像在左側生成估計的指紋,在右側生成對應的頻譜。許多頻譜顯示的高頻信號是不一樣的,而有些似乎比較相似。
除了模型解析之外,我們的 FEN 還可用于 Deepfake 圖像檢測和圖像歸因。對于這兩個任務,我們添加了一個淺層網絡,輸入估計的指紋并執(zhí)行二進制(Deepfake 圖像檢測)或多類分類(圖像歸因)。雖然我們的指紋估計不是為這些任務量身定制的,但我們仍然取得了有競爭力的一流成果,表明我們的指紋估計具有優(yōu)良的泛化能力。
發(fā)展對社會負責任的人工智能技術一直是我們的優(yōu)先戰(zhàn)略,所以我們會盡可能采用以人為中心的研究方法。來自 100 個生成模型的 Deepfake 圖像的多樣化集合,意味著我們的模型是用有代表性的選項構建的,并且有著更好的泛化人類和非人類表征的能力。
盡管用于生成 Deepfake 圖像的一些原始圖像是公開可用的面部數(shù)據集中真實個體的圖像,但 MSU 研究團隊使用的是 Deepfake 圖像(而不是用于創(chuàng)建它們的原始圖像)來做取證式分析。由于這種方法會將 Deepfake 圖像解構為指紋,因此 MSU 研究團隊分析了這種模型是否可以將指紋映射回原始圖像內容。結果表明沒有發(fā)生這種情況,這證實了指紋主要包含生成模型留下的痕跡,而不是原始 Deepfake 圖像的內容。
用于本研究的所有偽造人臉圖像均由 MSU 生成。逆向工程過程的相關實驗也都在 MSU 進行。MSU 將向更廣泛的研究社區(qū)開源數(shù)據集、代碼和訓練模型,以促進各個領域的研究,包括 Deepfake 圖像檢測、圖像歸因和生成模型的逆向工程。
我們的研究突破了 Deepfake 檢測的現(xiàn)有局限,引入了更適合現(xiàn)實環(huán)境部署的模型解析概念。這項工作將為研究人員和從業(yè)人員提供工具,幫助他們更好地調查使用 Deepfake 圖像發(fā)起的大規(guī)模信息誤導事件,并為未來的研究開辟新的方向。
MSU 的代碼、數(shù)據集和訓練模型(https://github.com/vishal3477/Reverse_Engineering_GMs?fbclid=IwAR1bZrM484AT-CDEKGiaKXbn4sLYC_Ydwt6CZWo0W8xfeFkvpWeEqzhjQxg)
模型解析是與密歇根州立大學的 Vishal Asnani 和 Xiaoming Liu 合作開發(fā)的。
原文鏈接:
https://ai.facebook.com/blog/reverse-engineering-generative-model-from-a-single-deepfake-image
—版權聲明—
僅用于學術分享,版權屬于原作者。
若有侵權,請聯(lián)系微信號:yiyang-sy 刪除或修改!
