前言

這篇論文是商湯團隊在ECCV2020的一個工作：Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues，通過引入兩種提取頻域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) ，并設(shè)計了一個 MixBlock 來融合雙路網(wǎng)絡(luò)的特征，從而在頻域內(nèi)實現(xiàn)對Deepfake的檢測

介紹

隨著Deepfake技術(shù)不斷迭代，檢測合成人臉的挑戰(zhàn)也越來越多。雖然已有的基于RGB色彩空間的檢測技術(shù)準確率不錯，但是實際中，這些視頻隨著流媒體傳播，視頻通常會被多次壓縮，而在較低質(zhì)量的視頻中，要想進行檢測就比較困難，這也一定程度上啟發(fā)我們?nèi)?strong style="font-weight: bold;color: black;">挖掘頻域內(nèi)的信息。

那么問題來了，我們?nèi)绾尾拍馨杨l域信息引入到CNN中？傳統(tǒng)的FFT和DCT不滿足平移不變性和局部一致性，因此直接放在CNN可能是不可行的。

我們提出了兩種頻率特征，從一個角度來看，我們可以根據(jù)分離的頻率分量重組回原來的圖片，因此第一種頻率特征也就可以被設(shè)計出來，我們可以對分離的頻率分量經(jīng)過一定處理，再重組回圖片，最終的結(jié)果也適合輸入進CNN當中。這個角度本質(zhì)上是在RGB空間上描述了頻率信息，而不是直接給CNN輸入頻率信息。這也啟發(fā)了我們的第二種頻率特征，在每個局部空間（patch）內(nèi)，統(tǒng)計頻率信息，并計算其平均頻率響應。這些統(tǒng)計量可以重組成多通道特征圖，通道數(shù)目取決于頻帶數(shù)目

圖A是不同分辨率的真假人臉，圖B是該工作設(shè)計的兩種頻域方法，圖C是多個模型ROC曲線

如上圖，在低質(zhì)量(Low Quality)圖片中，兩種圖片都很真實，但是在局部的頻率統(tǒng)計量(LFS)中，呈現(xiàn)出明顯的差異，這也就很自然能被檢測出來。

基于上述兩種特征，我們設(shè)計了 Frequency in Face Forgery Network（)，第一個頻率特征為FAD（Frequency-aware Image Decomposition），第二個頻率特征為LFS（Local Frequency Statistics）。因為這兩個特征是相輔相成的，我們還設(shè)計了一種融合模塊MixBlock來融合其在雙路網(wǎng)絡(luò)中的特征。整體流程如下圖所示

FAD

以往的工作采用的是人工設(shè)計頻域濾波器，但這無法完全覆蓋所有的圖像模式，并且固定的濾波器很難自適應的捕捉到圖像中偽造的模式。因此我們提出了自適應的濾波方法，具體做法如下：

設(shè)計N個二分類濾波器（也就是所謂的掩碼mask），將圖像的頻率分為低，中，高三個頻帶。
為了讓其具備自適應能力，我們額外設(shè)計三個可學習的濾波器。然后分別將這兩種濾波器結(jié)合在一起，公式如下

其中為歸一化，目的是限制其值在 (-1, 1) 之間

我們將這兩個濾波器應用在DCT變換后
最后做反DCT，將圖像重組回來

總的公式如下

其中D代表DCT變換，代表反DCT變換

FAD的流程如下

其中b圖是將2維頻譜展開成1維的形式，我們可以看到第一個濾波器取的是整個頻段的1/16，而第二個濾波器取得是1/16~1/8，第三個濾波器則取得是剩下的7/8。

LFS

前面的FAD盡管提取到了頻域特征，但它最后是通過反DCT變換，轉(zhuǎn)化到RGB空間上，輸入進CNN。這些信息并不是直接的頻域信息，因此我們提出了局部頻域特征local frequency statistics（LFS)，它能滿足RGB圖片的平移不變性以及局部一致性。

具體流程如下

對輸入的圖片采用滑窗DCT（Silde Window DCT)，從而提取局部的頻率響應。
計算一系列可學習頻帶的頻率響應均值3.將頻率統(tǒng)計信息重新組合為與輸入圖像共享相同布局的多通道空間映射

其中l(wèi)og10是為了調(diào)整數(shù)值級別，D是滑窗DCT變換。

跟FAD一樣，我們這里也設(shè)計了二分類濾波器和可學習濾波器，操作流程跟FAD完全一樣，這里就不展開了。

對于每個滑窗w中的局部統(tǒng)計信息q**，經(jīng)過上述變換被轉(zhuǎn)換為的向量**

在我們的實驗中，我們將每個滑窗大小設(shè)置為10x10，步長為2，頻帶數(shù)目為6。一張299 x 299 x 3的圖片輸入進來將被轉(zhuǎn)換為 149 x 149 x 6。

MixBlock

雖然這兩種頻率特征不同，但具有一致性，都是從DCT變換，并經(jīng)過濾波器進行不同頻率分離。因此我們設(shè)計了一種MixBlock來在雙路網(wǎng)絡(luò)中融合兩者的特征。

FAD和LFS共同輸入進卷積里，得到一個AttentionMap
FAD和LFS分別與AttentionMap相乘得到和
與相加，與相加，完成特征融合。

論文里雙路網(wǎng)絡(luò)都采用的是Xception網(wǎng)絡(luò)，該網(wǎng)絡(luò)一共有12個Block，我們將融合模塊分別放置在第7個和第12個XceptionBlock里，對中，高層特征進行融合操作

實驗

這張對比圖很好的表現(xiàn)了F3-Net在低質(zhì)量圖片中的表現(xiàn)，可見在頻域內(nèi)做檢測確實有更好的抗壓縮性能。

在不同數(shù)據(jù)集上表現(xiàn)也比較穩(wěn)定，沒有因數(shù)據(jù)集的分布產(chǎn)生較大波動

最后作者也設(shè)計了一系列消融實驗，來表明各個模塊的有效性。

總結(jié)

這篇工作還是挺有意思的，不同于以往傳統(tǒng)頻域特征，它選擇將傳統(tǒng)和深度學習進行結(jié)合，為可學習的濾波器設(shè)定一定約束，從而根據(jù)不同圖像自適應分離出頻率信息。Deepfake的一大難點就是對低質(zhì)量，多次壓縮圖片的檢測，因為在RGB圖片上是很難發(fā)現(xiàn)的。最終的實驗也表明該方法的有效性，坐等商湯開源代碼

為了感謝讀者朋友們的長期支持，我們今天將送出3本由北京大學出版社提供的《深度學習筆記》書籍，對本書感興趣的可以在上方的留言區(qū)留言，我們將抽取其中三位讀者送出一本正版書籍。

歡迎關(guān)注GiantPandaCV, 在這里你將看到獨家的深度學習分享，堅持原創(chuàng)，每天分享我們學習到的新鮮知識。( ? ?ω?? )?

有對文章相關(guān)的問題，或者想要加入交流群，歡迎添加BBuf微信：

二維碼

為了方便讀者獲取資料以及我們公眾號的作者發(fā)布一些Github工程的更新，我們成立了一個QQ群，二維碼如下，感興趣可以加入。

公眾號QQ交流群

ECCV2020 F3-Net 商湯Deepfake檢測模型

前言

介紹

FAD

LFS

MixBlock

實驗

總結(jié)