ECCV2020 F3-Net 商湯Deepfake檢測模型
前言
這篇論文是商湯團隊在ECCV2020的一個工作:Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,通過引入兩種提取頻域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) ,并設(shè)計了一個 MixBlock 來融合雙路網(wǎng)絡(luò)的特征,從而在頻域內(nèi)實現(xiàn)對Deepfake的檢測
介紹
隨著Deepfake技術(shù)不斷迭代,檢測合成人臉的挑戰(zhàn)也越來越多。雖然已有的基于RGB色彩空間的檢測技術(shù)準確率不錯,但是實際中,這些視頻隨著流媒體傳播,視頻通常會被多次壓縮,而在較低質(zhì)量的視頻中,要想進行檢測就比較困難,這也一定程度上啟發(fā)我們?nèi)?strong style="font-weight: bold;color: black;">挖掘頻域內(nèi)的信息。
那么問題來了,我們?nèi)绾尾拍馨杨l域信息引入到CNN中?傳統(tǒng)的FFT和DCT不滿足平移不變性和局部一致性,因此直接放在CNN可能是不可行的。
我們提出了兩種頻率特征,從一個角度來看,我們可以根據(jù)分離的頻率分量重組回原來的圖片,因此第一種頻率特征也就可以被設(shè)計出來,我們可以對分離的頻率分量經(jīng)過一定處理,再重組回圖片,最終的結(jié)果也適合輸入進CNN當中。這個角度本質(zhì)上是在RGB空間上描述了頻率信息,而不是直接給CNN輸入頻率信息。這也啟發(fā)了我們的第二種頻率特征,在每個局部空間(patch)內(nèi),統(tǒng)計頻率信息,并計算其平均頻率響應。這些統(tǒng)計量可以重組成多通道特征圖,通道數(shù)目取決于頻帶數(shù)目

如上圖,在低質(zhì)量(Low Quality)圖片中,兩種圖片都很真實,但是在局部的頻率統(tǒng)計量(LFS)中,呈現(xiàn)出明顯的差異,這也就很自然能被檢測出來。
基于上述兩種特征,我們設(shè)計了 Frequency in Face Forgery Network(),第一個頻率特征為FAD(Frequency-aware Image Decomposition),第二個頻率特征為LFS(Local Frequency Statistics)。因為這兩個特征是相輔相成的,我們還設(shè)計了一種融合模塊MixBlock來融合其在雙路網(wǎng)絡(luò)中的特征。整體流程如下圖所示

FAD
以往的工作采用的是人工設(shè)計頻域濾波器,但這無法完全覆蓋所有的圖像模式,并且固定的濾波器很難自適應的捕捉到圖像中偽造的模式。因此我們提出了自適應的濾波方法,具體做法如下:
設(shè)計N個二分類濾波器(也就是所謂的掩碼mask),將圖像的頻率分為低,中,高三個頻帶。 為了讓其具備自適應能力,我們額外設(shè)計三個可學習的濾波器。然后分別將這兩種濾波器結(jié)合在一起,公式如下
其中 為 歸一化,目的是限制其值在 (-1, 1) 之間
我們將這兩個濾波器應用在DCT變換后 最后做反DCT,將圖像重組回來
總的公式如下
其中D代表DCT變換,代表反DCT變換
FAD的流程如下

其中b圖是將2維頻譜展開成1維的形式,我們可以看到第一個濾波器取的是整個頻段的1/16,而第二個濾波器取得是1/16~1/8,第三個濾波器則取得是剩下的7/8。
LFS
前面的FAD盡管提取到了頻域特征,但它最后是通過反DCT變換,轉(zhuǎn)化到RGB空間上,輸入進CNN。這些信息并不是直接的頻域信息,因此我們提出了局部頻域特征local frequency statistics(LFS),它能滿足RGB圖片的平移不變性以及局部一致性。

具體流程如下
對輸入的圖片采用滑窗DCT(Silde Window DCT),從而提取局部的頻率響應。 計算一系列可學習頻帶的頻率響應均值3.將頻率統(tǒng)計信息重新組合為與輸入圖像共享相同布局的多通道空間映射
其中l(wèi)og10是為了調(diào)整數(shù)值級別,D是滑窗DCT變換。
跟FAD一樣,我們這里也設(shè)計了二分類濾波器和可學習濾波器,操作流程跟FAD完全一樣,這里就不展開了。
對于每個滑窗w中的局部統(tǒng)計信息q**,經(jīng)過上述變換被轉(zhuǎn)換為 的向量**
在我們的實驗中,我們將每個滑窗大小設(shè)置為10x10,步長為2,頻帶數(shù)目為6。一張299 x 299 x 3的圖片輸入進來將被轉(zhuǎn)換為 149 x 149 x 6。
MixBlock
雖然這兩種頻率特征不同,但具有一致性,都是從DCT變換,并經(jīng)過濾波器進行不同頻率分離。因此我們設(shè)計了一種MixBlock來在雙路網(wǎng)絡(luò)中融合兩者的特征。

FAD和LFS共同輸入進卷積里,得到一個AttentionMap FAD和LFS分別與AttentionMap相乘得到和 與相加,與相加,完成特征融合。
論文里雙路網(wǎng)絡(luò)都采用的是Xception網(wǎng)絡(luò),該網(wǎng)絡(luò)一共有12個Block,我們將融合模塊分別放置在第7個和第12個XceptionBlock里,對中,高層特征進行融合操作
實驗

這張對比圖很好的表現(xiàn)了F3-Net在低質(zhì)量圖片中的表現(xiàn),可見在頻域內(nèi)做檢測確實有更好的抗壓縮性能。

在不同數(shù)據(jù)集上表現(xiàn)也比較穩(wěn)定,沒有因數(shù)據(jù)集的分布產(chǎn)生較大波動

最后作者也設(shè)計了一系列消融實驗,來表明各個模塊的有效性。
總結(jié)
這篇工作還是挺有意思的,不同于以往傳統(tǒng)頻域特征,它選擇將傳統(tǒng)和深度學習進行結(jié)合,為可學習的濾波器設(shè)定一定約束,從而根據(jù)不同圖像自適應分離出頻率信息。Deepfake的一大難點就是對低質(zhì)量,多次壓縮圖片的檢測,因為在RGB圖片上是很難發(fā)現(xiàn)的。最終的實驗也表明該方法的有效性,坐等商湯開源代碼
為了感謝讀者朋友們的長期支持,我們今天將送出3本由北京大學出版社提供的《深度學習筆記》書籍,對本書感興趣的可以在上方的留言區(qū)留言,我們將抽取其中三位讀者送出一本正版書籍。

歡迎關(guān)注GiantPandaCV, 在這里你將看到獨家的深度學習分享,堅持原創(chuàng),每天分享我們學習到的新鮮知識。( ? ?ω?? )?
有對文章相關(guān)的問題,或者想要加入交流群,歡迎添加BBuf微信:
為了方便讀者獲取資料以及我們公眾號的作者發(fā)布一些Github工程的更新,我們成立了一個QQ群,二維碼如下,感興趣可以加入。
