點(diǎn)擊上方“AI算法與圖像處理”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時間送達(dá)

出品 | AI科技大本營（ID:rgznai100）

剛剛結(jié)束的CVPR大會，總共收到6424篇論文中，僅有26篇獲得最佳論文提名，占0.4%的比例。

其中，康奈爾大學(xué)大四學(xué)生林之秋，以第一作者身份提交的“Visual Chirality”（視覺手性）一文獲得最佳論文提名，成為唯一一個還在本科階段，年齡最小的第一作者獲獎?wù)摺?/span>

論文中，林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中圖片”翻轉(zhuǎn)不變性“（flip-invariant) 的這一假設(shè)。這篇文章在多種領(lǐng)域（人臉，互聯(lián)網(wǎng)圖片，數(shù)字處理圖像）上利用卷積神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了許多常人難以捕捉的”視覺手性“線索，并通過自監(jiān)督訓(xùn)練在多項(xiàng)數(shù)據(jù)集上達(dá)到了60%甚至到90%的精度。

這次取得最佳論文提名并非偶然，實(shí)際上，林之秋的學(xué)霸光環(huán)從進(jìn)入大學(xué)后一直很耀眼。

大一，他同時選修了計(jì)算機(jī)和數(shù)學(xué)兩個專業(yè)，因?yàn)槌煽儤O為優(yōu)異，他受計(jì)算機(jī)系的邀請以助教身份給高年級同學(xué)講課，還為康奈爾科技學(xué)院（Cornell Tech）的碩士生編寫預(yù)修課程。

大二開始，他選修了博士課程，開始從事科研工作。到了大三，林之秋當(dāng)上了機(jī)器學(xué)習(xí)高階課程的助教，給博士生的期末試卷打分。

大學(xué)畢業(yè)，他的成績在學(xué)院上千名學(xué)生中名列前三，被授予學(xué)院最高榮譽(yù)，并受院長邀請，代表學(xué)院在畢業(yè)典禮上舉旗。

不過，學(xué)霸此次獲得最佳論文提名并不像大學(xué)期末考試那樣相對容易。林之秋提到，這個新課題光是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和探索可解釋性，就花了一年時間。而且，由于新課題往往充滿了爭議性，新課題也曾在另一個會議上被一個審稿人以“不夠有新意”為理由拒稿。

當(dāng)然，拒稿也給了他們更多時間把論文做得更完美。

文章鏈接：https://arxiv.org/abs/2006.09512

文章網(wǎng)站：visual-chirality.io

代碼鏈接：https://github.com/linzhiqiu/digital_chirality

以下為“更完美的”論文內(nèi)容詳解：

神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量標(biāo)注數(shù)據(jù)，但數(shù)據(jù)又永遠(yuǎn)是有限的。為了用有限的標(biāo)注數(shù)據(jù)來擬合函數(shù)，人們使用數(shù)據(jù)增強(qiáng)（data augmentation）的方法來低成本地獲得更多的標(biāo)記數(shù)據(jù)。

而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強(qiáng)方法之一。只需要將所有圖片都進(jìn)行一次鏡像翻轉(zhuǎn)，我們就相當(dāng)于免費(fèi)得到了雙倍的數(shù)據(jù)。

但事情真的這么簡單么？當(dāng)我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時，神經(jīng)網(wǎng)絡(luò)所擬合的函數(shù)還能代表原先的圖像分布么？來自康奈爾大學(xué)研究員的「視覺手性（Visual Chirality）」這篇論文首次討論了這一話題。

為了理解這一鏡像翻轉(zhuǎn)話題，我們先從一個小測試開始：

你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)（水平翻轉(zhuǎn)）了嗎？

以下為答案：

圖一：鏡像翻轉(zhuǎn)（線索：文字）。我們可以很容易看出來文字被翻轉(zhuǎn)過了。

圖二：沒有翻轉(zhuǎn)（線索：紐扣）。男士襯衫的紐扣一般位于身體右側(cè)。

圖三：鏡像翻轉(zhuǎn)（線索：吉他）。吉他手的主手應(yīng)當(dāng)在吉他右側(cè)。

對于大部分的互聯(lián)網(wǎng)圖片來說（例如圖二圖三），鏡像翻轉(zhuǎn)對于人類而言并沒有多少區(qū)別，因而難以判斷。然而，神經(jīng)網(wǎng)絡(luò)卻可以通過自監(jiān)督訓(xùn)練的方法在這個任務(wù)上達(dá)到非常高的精度，并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)（以上三張圖片利用了類激活映射（CAM）方法進(jìn)行了高亮）。

康奈爾的研究人員將這一視覺現(xiàn)象定義為“視覺手性”（Visual Chirality）。

在化學(xué)等學(xué)科上，手性（Chirality）的定義為“一個物體無法與其鏡像相重合”。這種不對稱性在自然界大量存在，并在不同領(lǐng)域有著廣泛的應(yīng)用。

圖注：手具有手性（Chiral），因?yàn)殓R像翻轉(zhuǎn)后無法與原圖重合。而杯子是軸心對稱，所以不具備手性。

手性（Chirality）代表著單個圖片的翻轉(zhuǎn)不對稱性，而視覺手性（Visual Chirality）則是針對圖像分布（Image Distribution）所定義的翻轉(zhuǎn)不對稱性。

假設(shè)一個圖像分布中包含了右手和左手的照片（左右手的圖片出現(xiàn)概率一致），那么此時，盡管每張圖片都具有手性，這個圖像分布卻不具備視覺手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長的一樣了。反之，假設(shè)一個圖像分布中只存在右手不存在左手，那么這個分布就具備視覺手性（或稱翻轉(zhuǎn)不對稱性），因?yàn)槲覀冎酪粡堊笫值恼掌厝粸殓R像翻轉(zhuǎn)。

用統(tǒng)計(jì)學(xué)的術(shù)語來定義的話，假設(shè)有圖像分布D，而其中一個圖像是x，那么其在分布中出現(xiàn)概率是D(x)。我們將鏡像翻轉(zhuǎn)的操作稱為T，而翻轉(zhuǎn)圖片x我們可以得到T(x)。

那么圖像分布D具備視覺手性意味著：D中存在圖片x，滿足D(x)≠D(T(x))的條件。

如下圖所示，假設(shè)我們有一個一維的分布（橫軸上每個點(diǎn)都為一個元素），那么藍(lán)色實(shí)線所代表的分布則具備視覺手性，因?yàn)?/span>

和

分別與

和

的出現(xiàn)概率不一致：

當(dāng)一個圖像分布具備視覺手性時，使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)方法將不可避免的改變一個數(shù)據(jù)集所代表的分布。換句話說，只有當(dāng)一個圖像分布不具備視覺手性的時候，我們才能在不改變原先圖像分布的前提下，使用鏡像翻轉(zhuǎn)來增強(qiáng)數(shù)據(jù)集。

然而，視覺手性是大部分視覺領(lǐng)域都擁有的屬性。正如此篇文章作者，谷歌AI科學(xué)家Noah Snavely教授所說：

“在計(jì)算機(jī)視覺的研究中，我們常把這個世界視為”翻轉(zhuǎn)不變“的，鏡像翻轉(zhuǎn)因而是一個常規(guī)的數(shù)據(jù)增強(qiáng)方法。然而，當(dāng)你翻轉(zhuǎn)圖片后，文字將被顛倒，左手變?yōu)橛沂?，而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?！?/span>

為了挑戰(zhàn)人們先前在計(jì)算機(jī)視覺中對于“翻轉(zhuǎn)不變性”的假設(shè)，「視覺手性」這篇文章通過自監(jiān)督訓(xùn)練在幾個不同視覺領(lǐng)域驗(yàn)證了“視覺手性”的存在。

訓(xùn)練方法

「視覺手性」這篇文章利用了自監(jiān)督學(xué)習(xí)（self-supervised learning）方法來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。對于任何一個數(shù)據(jù)集，只需要將其原有的圖片標(biāo)記為“無翻轉(zhuǎn)”，并將鏡像翻轉(zhuǎn)過的圖片標(biāo)記為“有翻轉(zhuǎn)”，即可訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別鏡像翻轉(zhuǎn)這一二分類任務(wù)（binary classification）。同時我們可以根據(jù)神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集（validation set）的表現(xiàn)上來評估這一圖像分布是否具備視覺手性：如果驗(yàn)證集上的精度要顯著大于50%，我們便有充足的證據(jù)來證明視覺手性的存在。

作者在這篇文章中利用了ResNet-50作為基本的網(wǎng)絡(luò)結(jié)構(gòu)，并使用SGD方法來訓(xùn)練網(wǎng)絡(luò)?；谙惹白员O(jiān)督學(xué)習(xí)方法的啟發(fā)，作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里（shared-batch training），加速了網(wǎng)絡(luò)的訓(xùn)練。

為了了解神經(jīng)網(wǎng)絡(luò)學(xué)到了哪些視覺手性線索，作者利用了類激活映射（CAM：Class Activation Map）方法，在原有圖片上對于視覺手性敏感的區(qū)域進(jìn)行了高亮。同時因?yàn)槟茉斐梢曈X手性的現(xiàn)象有很多，作者推出了一個簡單的基于類激活映射的聚類方法：手性特征聚類（Chiral Feature Clustering）。

手性特征聚類方法

類激活映射方法本質(zhì)上是對于神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出的特征圖（feature map）的加權(quán)線性和（linear weighted sum）。當(dāng)我們假設(shè)神經(jīng)網(wǎng)絡(luò)是利用區(qū)域特征（local feature)來判斷圖像是否為鏡像翻轉(zhuǎn)時，我們可以將類激活映射（CAM）最強(qiáng)的區(qū)域視為神經(jīng)網(wǎng)絡(luò)最為關(guān)注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征，便可以利用傳統(tǒng)的聚類方法例如K-means clustering進(jìn)行自動分類。

ResNet-50最后一層卷積輸出的特征圖為一個（16x16x2048）的三維矢量f，而類激活映射所得到的熱圖（heatmap）為（16x16）的二維矢量A。假設(shè)熱圖上數(shù)值最大的點(diǎn)為（x*，y*），那么我們用來聚類的區(qū)域特征即為f(x*，y*）。

作者在多個不同圖像分布上利用手性特征聚類方法對視覺手性現(xiàn)象進(jìn)行了歸因和討論。

互聯(lián)網(wǎng)圖片集

在互聯(lián)網(wǎng)圖片集上，神經(jīng)網(wǎng)絡(luò)在鏡像翻轉(zhuǎn)識別上取得了高達(dá)60%-80%的精度。

作者著重分析了Instagram圖片上的視覺手性現(xiàn)象。在不用隨機(jī)剪裁（random cropping）時，神經(jīng)網(wǎng)絡(luò)在測試集上取得了高達(dá)92%的精度。然而因?yàn)橛蠮PEG壓縮失真的可能性存在（JPEG edge artifact一般出現(xiàn)于圖片的邊緣），作者同樣使用隨機(jī)剪裁進(jìn)行了訓(xùn)練，并仍舊取得了高達(dá)80%的精度?？紤]到大量Instagram圖片有配文字，而文字是最明顯的視覺手性現(xiàn)象，作者用文字識別器濾除了Instagram中含有文字的圖片重新進(jìn)行了訓(xùn)練，但仍舊在測試集上取得了74%的高精度。值得一提的是這些訓(xùn)練出來的模型具有一定程度的泛化能力，可以不經(jīng)訓(xùn)練，在其他的互聯(lián)網(wǎng)圖片集（Flickr F100M）上取得高于50%的精度。

作者在Instagram圖片集上進(jìn)行了手性特征聚類，并挑選了一系列與我們生活相關(guān)的典型視覺手性現(xiàn)象進(jìn)行討論。

1、手機(jī)

對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性，因?yàn)槭謾C(jī)的攝像頭一般固定在手機(jī)背面的一側(cè)（因品牌而異），同時由于多數(shù)人是右撇子，一般都以右手持手機(jī)進(jìn)行自拍。

2、吉他

幾乎大多數(shù)的吉他手都以右手撥弦，左手持把。

3、手表

手表一般都被帶在人們的左手側(cè)。

4、男士襯衫領(lǐng)子

男士襯衫的扣子一般處于右側(cè)。

5、上衣口袋

正裝上衣的口袋幾乎無一例外處于身體左側(cè)，為了更好地服務(wù)于占大多數(shù)的右撇子。

6、人臉

更令人吃驚的是，類激活映射方法在大量的人臉上出現(xiàn)了較強(qiáng)的反應(yīng)，說明人臉中視覺手性的存在。多數(shù)情況下人臉通常被認(rèn)為是對稱的：此屆CVPR 2020另一篇best student paper（Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild）更是將人臉視為了軸心對稱的物體，并以此為線索來進(jìn)行3D重建。

需要強(qiáng)調(diào)的一點(diǎn)是，這些視覺手性現(xiàn)象在每張圖片中看似孤立，但神經(jīng)網(wǎng)絡(luò)仍有可能會利用多種不同的線索來對圖片是否翻轉(zhuǎn)進(jìn)行判斷。

為了深入了解人臉的視覺手性現(xiàn)象，作者在人臉數(shù)據(jù)集上進(jìn)行了孤立訓(xùn)練。

作者在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進(jìn)行了訓(xùn)練，并在測試集上取得了高達(dá)81%的精度，并利用手性特征聚類對人臉中的視覺手性現(xiàn)象進(jìn)行了初步的探討：

1）劉海分界處

人們一般用右手來分理劉海，這會導(dǎo)致劉海的朝向向一側(cè)偏移，并出現(xiàn)視覺手性現(xiàn)象。

2）眼睛

人們在看向物體時傾向于用一只主視眼進(jìn)行瞄準(zhǔn)，這樣會導(dǎo)致人們的目光在進(jìn)行拍攝時出現(xiàn)偏移。多數(shù)人的主視眼為右眼，而這一現(xiàn)象可能是導(dǎo)致視覺手性現(xiàn)象的成因。

3）胡子

與頭發(fā)一樣，可能與人們習(xí)慣于用右手理胡子有關(guān)。

作者提到，文中對以上的視覺手性現(xiàn)象的討論均為初步的分析，而人臉中仍有大量的視覺手性線索值得被發(fā)掘。

數(shù)字圖像處理

作者對數(shù)字圖像處理過程，例如去馬賽克（最常見為Bayer Demosaicing）和圖片壓縮（最常見為JPEG Compression）過程中產(chǎn)生的視覺手性現(xiàn)象進(jìn)行了分析。舉個例子，當(dāng)作者首次利用神經(jīng)網(wǎng)絡(luò)在Instagram數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練時，發(fā)現(xiàn)沒有使用隨機(jī)剪裁（random cropping）的神經(jīng)網(wǎng)絡(luò)盡管精度更高（在測試集上高達(dá)92%），但在部分圖片上，類激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分，如左下圖所示：

而在使用隨機(jī)剪裁之后，我們得到的新的熱圖則更關(guān)注來自于圖片中物體本身的線索（例如右圖的襯衫領(lǐng)子）。作者推斷這是由于Instagram的圖片均為JPEG格式，經(jīng)過了JPEG圖像壓縮這一數(shù)字圖像處理方式。JPEG壓縮的算法是在圖片上對于每16乘16的像素格進(jìn)行分別處理的，而對于不能被16整除的圖片，其邊緣會用統(tǒng)一方式進(jìn)行處理（例如重復(fù)邊緣像素）。這會導(dǎo)致JPEG壓縮的圖片的邊緣失真（edge artifact），從而導(dǎo)致了視覺手性現(xiàn)象。

作者通過概率論與群論（group theory）對數(shù)字圖像處理過程產(chǎn)生的視覺手性現(xiàn)象進(jìn)行了數(shù)學(xué)論證，并通過神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。而此類的線索往往不能被肉眼可見，卻在圖片中存在固定的模式，因而為圖像識偽的應(yīng)用創(chuàng)造了可能性。

由于文中的證明和實(shí)驗(yàn)過程較為復(fù)雜，此處我們先給出數(shù)學(xué)定義和最重要的幾點(diǎn)結(jié)論。

定義

D為數(shù)據(jù)集所來源于的圖像分布。
T為一個圖像變換函數(shù)，例如鏡像翻轉(zhuǎn)。需要注意的是論文中的證明不僅限于鏡像翻轉(zhuǎn)，也可以被用于任何具備結(jié)合律（associativitive）和可逆性（invertible）的變換。
J為一個圖像處理函數(shù)。例如去馬賽克以及JPEG圖片壓縮。
為經(jīng)過J處理后所得到的的新圖像分布。

我們沿用之前對視覺手性的定義。

對于任意圖片x，如果D(x)= D(T(x))，那么D不具備視覺手性。

對于任何經(jīng)過數(shù)字圖像處理的圖片y，如果

，那么

同樣不具備視覺手性。

文中最重要的結(jié)論是：當(dāng)圖像變換函數(shù)T和圖像處理函數(shù)J具備交換律（commutative property）時，如果原先的圖像分布D沒有視覺手性，經(jīng)過數(shù)字圖像處理后的分布也不具備視覺手性。換句話說，我們可以通過檢查T和J的交換律，來判斷數(shù)字圖像處理能否造成視覺手性現(xiàn)象。

作者在論文中主要涉及了兩種最常見的圖像處理方式：

去馬賽克（Demosaicing）：數(shù)字相機(jī)的感光元件一般只能在每個像素格上捕捉RGB中的其中一種顏色，而其中最常用的為貝爾濾色鏡（Bayer Color Filter Array），如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過程。
JPEG壓縮算法（JPEG Compression）：JPEG是一種有損的圖像壓縮方式，被廣泛應(yīng)用在如今大量的互聯(lián)網(wǎng)圖片上。一般以每16乘16的像素格為單位通過色彩空間變換，縮減像素采樣，離散余弦變換等步驟來進(jìn)行圖片編碼壓縮。

結(jié)論

去馬賽克或JPEG壓縮算法單獨(dú)使用時，會在特定的圖片大小產(chǎn)生視覺手性現(xiàn)象。對于去馬賽克，由于貝爾濾色鏡為2乘2的像素格，且濾色鏡本身不對稱（參考上圖綠紅藍(lán)綠的排序），任何能被2整除的圖片寬度均會導(dǎo)致視覺手性。對于JPEG壓縮，任何不被16整除的圖片寬度均會導(dǎo)致視覺手性。這意味著，當(dāng)去馬賽克和JPEG壓縮被共同使用時，任意寬度的圖片都將產(chǎn)生視覺手性，因?yàn)橥瑫r滿足不被2整除和能被16整除的數(shù)字不存在。
當(dāng)使用隨機(jī)剪裁（random cropping）時，去馬賽克或JPEG壓縮單獨(dú)使用并不產(chǎn)生視覺手性現(xiàn)象。
當(dāng)使用隨機(jī)剪裁（random cropping）時，去馬賽克和JPEG壓縮同時使用將會產(chǎn)生視覺手性現(xiàn)象。這意味著互聯(lián)網(wǎng)圖片中可能存在大量有規(guī)律的，肉眼不可見的視覺手性線索，而人們將能夠利用這類線索來進(jìn)行圖片識偽。

證明

那下面我們進(jìn)入證明部分（讀者需要對群論（Group Theory）有一定基礎(chǔ)）：

文中最重要的證明為附加材料中的命題3：

命題3：當(dāng)原圖像分布D不具備視覺手性時，如果圖像處理函數(shù)J與圖像變換函數(shù)T具備交換律，則經(jīng)J處理后的圖像分布

也不具備視覺手性。

證明：

由于T具備可逆性和分配律，T可以將原分布中的圖片分為一個個不相交的循環(huán)群（disjoint cyclic groups）。

即為一個循環(huán)群，而這個循環(huán)群的單位元（identity element）可以選這個集合里面任意一個元素。這些循環(huán)群的群運(yùn)算（group operation）可以被定義如下：

每個循環(huán)群的階（order of group）由T以及其中的元素決定。舉個例子，如果T為鏡像翻轉(zhuǎn)，那么對于一張對稱的照片

，其所在群的階為1

。對于不對稱的一張照片

，其所在群的階為2

。

經(jīng)過圖像處理后，每個循環(huán)群

將變化為

：

命題3里，我們假設(shè)T和J具備交換律，那么我們可以將上面的公式改寫，并得到

：

原分布D不具備視覺手性意味著：每個循環(huán)群

中的元素都有相同的概率出現(xiàn)。因此，由于經(jīng)過J圖像處理后循環(huán)群變?yōu)榱?/span>

，我們只需要證明以下運(yùn)算為同態(tài)（homomorphism）：

因?yàn)閷τ谕瑧B(tài)來說，根據(jù)第一同構(gòu)基本定理（First Isomorphism Theorm）可以推理出每個輸出對應(yīng)著相同數(shù)量的輸入。而因?yàn)槊總€循環(huán)群中單個輸入

在原分布D上有著相同的概率，意味著每個輸出

也具備相同的概率，也意味著

不具備視覺手性。

證明同態(tài)的步驟如下：

以上為命題3的證明。

通過命題3，我們知道了J和T的交換律與處理后圖像分布的視覺手性的關(guān)系。那么，只需要通過檢查交換律，我們便可以判斷圖像處理是否可能產(chǎn)生新的視覺手性。檢查的方式也很簡單，對于任意圖片x，我們只需要計(jì)算其交換殘差（commutative residual）是否為0：

下圖形象的解釋了交換殘差的計(jì)算過程：

文中使用去馬賽克、JPEG壓縮、以及兩者結(jié)合這三種圖像處理方法，對于鏡像翻轉(zhuǎn)這一圖片變換方式分別計(jì)算了交換殘差。

當(dāng)去馬賽克處理的圖像寬度為奇數(shù)時，處理后的圖像分布可能具備視覺手性；反之如果為偶數(shù)，則不具備視覺手性。當(dāng)JPEG壓縮的圖片不為16整除時，處理后的圖像分布可能具備視覺手性，反之則不具備。當(dāng)兩者結(jié)合后，處理后的圖片一定具備視覺手性：

作者為了驗(yàn)證這些結(jié)論，在原本不具備視覺手性的人工數(shù)據(jù)集（高斯分布生成的隨機(jī)圖片）上，對不同寬度的圖片分別進(jìn)行了這三種處理，并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行了自監(jiān)督學(xué)習(xí)。實(shí)驗(yàn)結(jié)果符合這一測試的預(yù)期。因?yàn)榇罅炕ヂ?lián)網(wǎng)圖片都經(jīng)過了去馬賽克和JPEG壓縮，這一結(jié)論意味著數(shù)字圖像處理所帶來的視覺手性現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。

當(dāng)加入隨機(jī)剪裁（random cropping）后，我們還能得到這一結(jié)論么？作者的答復(fù)是肯定的。

為了理解隨機(jī)剪裁對于視覺手性的影響，作者提到了兩個關(guān)鍵點(diǎn)。

第一點(diǎn)：命題三中只討論了單種J的情況。而隨機(jī)剪裁可以被視為許多種J（例如

是向右平移一格并剪裁，

是向右平移兩個并剪裁）的結(jié)合，每一種有相同概率出現(xiàn)。

第二點(diǎn)：命題三中并沒有討論T和J不具備交換律的情況。例如當(dāng)J是向?qū)D片右平移十個像素并進(jìn)行一次中心剪裁時，T和J無法具備交換律。在這種情況下，新的圖像分布并不一定具備視覺手性。

對于第一點(diǎn)來說，假設(shè)我們有多種不同的J（例如

，

），而他們分別與T具備交換律時，我們可以用以下公式表達(dá)新的圖像分布：

我們可以很容易看出，當(dāng)每一個單獨(dú)的J都和T具備交換律時，我們可以分別應(yīng)用命題三，來證明每一個J產(chǎn)生的新圖像分布不具備視覺手性。而當(dāng)我們將這些不具備視覺手性的新圖像分布加權(quán)求和的時候（公式20），我們得到的新圖像分布仍舊不具備視覺手性。

對于第二點(diǎn)來說，即便每個單獨(dú)的J都不和T具備交換律時，我們?nèi)钥梢哉业叫碌膱D像分布不具備視覺手性的情況。為了理解這一點(diǎn)，作者引入了一個新的概念”排列交換律”（Permuted Commutativity），如下圖所示：

在這個例子中，作者假設(shè)

，

）單獨(dú)并不和T具備交換律，但在一種打亂的排列下具備交換性，如圖中不同顏色的箭頭所示。這種排列帶來的交換律的關(guān)系可以用以下公式表達(dá)（a和b為排列中的序號）。

在這個情況下，每一條箭頭都能滿足命題三中的條件，因此他們的加權(quán)和仍舊不具備視覺手性。

作者將這種具備”排列交換律“的情況形象得稱為”平移交換律“（Glide Commutativity），因?yàn)檫@類視覺現(xiàn)象在自然界廣泛存在。例如人類的足跡，經(jīng)過平移之后仍舊是對稱的：

那么如何檢驗(yàn)這種”平移交換律“的存在呢？作者針對隨機(jī)剪裁提出了一個簡單的平移交換律測試（Glide Commutativity Test）：

假設(shè)一種平移（例如左移五個像素）為Φ，測試步驟如下：

首先將任意圖片x進(jìn)行填充，并確保邊緣足夠大。
將填充后的圖片進(jìn)行Φ平移。
通過先后運(yùn)算T和J，得到兩種圖片：?和?
將這兩個圖片用T(-Φ）平移回原處。
將這兩個圖片多余的填充像素剪裁掉。

而平移交換律測試只需要對任意兩種平移方式（

和

）檢查以下殘差是否為0：

作者對去馬賽克，JPEG壓縮，以及兩者結(jié)合這三種圖像處理方式進(jìn)行了測試。測試結(jié)果為：當(dāng)去馬賽克和JPEG壓縮單獨(dú)使用時，經(jīng)過隨機(jī)剪裁后的分布具備平移交換律（如下圖1和2中的黑色格子），所以一定不具備視覺手性。而當(dāng)兩者結(jié)合時，平移交換律就消失了，同時可能產(chǎn)生視覺手性。

作者同樣利用人造數(shù)據(jù)集進(jìn)行了神經(jīng)網(wǎng)絡(luò)訓(xùn)練，并驗(yàn)證了這一測試的結(jié)果。這意味著對于大量的互聯(lián)網(wǎng)圖片，由于它們都經(jīng)過了去馬賽克和JPEG壓縮，即便我們使用了隨機(jī)剪裁，仍然有可能觀察到視覺手性。也就是說，數(shù)字圖像處理所導(dǎo)致的視覺手性現(xiàn)象可能大量存在于互聯(lián)網(wǎng)圖片之中，并且這類線索可能存在于任意圖片區(qū)域。這類線索在互聯(lián)網(wǎng)圖片中可能肉眼不可見，卻能被神經(jīng)網(wǎng)絡(luò)捕捉到。這也為圖片識偽（image forensic）提供了新的可能性。

結(jié)論

「視覺手性」這篇文章首次挑戰(zhàn)了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中對于圖片”翻轉(zhuǎn)不變性“的假設(shè)，并在多種不同的視覺分布上發(fā)現(xiàn)了”視覺手性“的線索。這篇文章對于未來的數(shù)據(jù)增強(qiáng)和圖片識偽方法將有很大的指導(dǎo)意義。

最后的最后求一波分享！

YOLOv4 trick相關(guān)論文已經(jīng)下載并放在公眾號后臺
關(guān)注“AI算法與圖像處理”，回復(fù) “200714”獲取

個人微信
請注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
如果沒有備注不拉群！

98年“后浪”科學(xué)家，首次挑戰(zhàn)圖片翻轉(zhuǎn)不變性假設(shè)，一作拿下CVPR最佳論文提名?

重磅干貨，第一時間送達(dá)

訓(xùn)練方法

手性特征聚類方法

互聯(lián)網(wǎng)圖片集

98年“后浪”科學(xué)家，首次挑戰(zhàn)圖片翻轉(zhuǎn)不變性假設(shè)，一作拿下CVPR最佳論文提名?

重磅干貨，第一時間送達(dá)