CVPR 2021 | 圖像轉換 今如何?幾篇GAN論文
點擊上方“機器學習與生成對抗網絡”,關注星標
獲取有趣、好玩的前沿干貨!
1,Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
提出一個通用的圖像轉換框架pixel2style2pixel(pSp)。pSp框架基于編碼器網絡,直接生成一系列風格向量,然后將它們輸入到預訓練的StyleGAN生成器中,從而擴展成“W+潛在空間”。
編碼器可以直接將真實圖像嵌入到W+,而無需其它優(yōu)化。利用編碼器直接解決圖像轉換任務,如此一來圖像轉換任務可定義為:從某些輸入域到潛在域的編碼問題。

此前的方法中,StyleGAN編碼器一般是“先反轉(圖像到潛碼),后編輯”。而pSp不要求輸入圖像在StyleGAN域中進行特征表示,也可以處理各種任務。由于不需要對抗,極大地簡化了訓練過程,在沒有“圖像對(源圖像,目標圖像)”的嚴格標簽數據下提供更好的支持,并且通過風格的重采樣可以支持多模式合成。
實驗表明,pSp在各種圖像轉換任務中也表現出不俗的潛力。即使與專為某種任務而設計的最新解決方案相比,例如人臉轉換任務,pSp也表現極佳。代碼:https://github.com/eladrich/pixel2style2pixel
2,Image-to-image Translation via Hierarchical Style Disentanglement
近來,圖像轉換任務在多標簽(不同標簽為條件)和多風格的生成任務上都取得了不錯進展。

但由于標簽不具備獨立性、排他性,圖像轉換結果b并不能完全精準可控。本文提出分層風格分離(HiSD)來解決此問題。具體來說,將標簽組織成分層的樹狀結構,其中獨立的標簽,排他的屬性和解耦的風格從上到下進行分配。相應地,設計一種新的轉換過程以適應上述結構,確定可控轉換的風格。在CelebA-HQ數據集上的定性和定量實驗都證明HiSD的能力。代碼:https://github.com/imlixinyang/HiSD
3,Memory-guided Unsupervised Image-to-image Translation
為實例級別的圖像轉換問題提供了一種新的無監(jiān)督框架。盡管近期一些方法通過融進額外的物體標簽可以取得進一步的效果,但通常無法處理多個不同對象的的情形。主要原因是,在推理過程中,這些算法將全局整體的風格應用于整幅圖像,而沒有考慮實例個體與背景之間或個體內部間的風格差異。
為此,提出一個類別感知的內存網絡,可以顯示地明確說明局部風格變化。引入一組具有讀/更新操作的鍵值存儲結構,以記錄類別的風格變化,且在測試階段無需目標檢測器就可以訪問它們。

“鍵”存儲的是與域無關的內容表征,用于分配內存,而“值”則編碼了域特定的風格表征。還提出一種特征對比損失,以增強內存的判別能力。實驗表明,通過合并內存,可以跨域遷移類別感知的、準確的風格表征。
4,ReMix: Towards Image-to-Image Translation with Limited Data
當可用的訓練數據是有限的時候,基于生成對抗網絡(GAN)的圖像到圖像(I2I)轉換方法通常有過擬合的現象發(fā)生。

這項工作提出一種數據增強方法(ReMix)來解決此問題:在特征級別上對訓練樣本進行插值,并根據樣本之間的感知關系提出一種新的內容損失。生成器學習轉換中間樣本,而不是記住訓練集,從而迫使判別器有更好的泛化能力。
只需稍作修改,即可輕松將ReMix方法合并到現有GAN模型中。在眾多任務上的實驗結果表明,配備ReMix方法的GAN模型效果更佳。
5,Spatially-Adaptive Pixelwise Networks for Fast Image Translation
介紹了一種新的生成器網絡結構,通過將其設計為全分辨率圖像的極輕量級網絡,以實現快速高效的高分辨率圖像轉換。
通過簡單的仿射變換和非線性組合的操作,將每個像素都獨立于其它像素去進行處理。主要采取三個關鍵步驟,使這種方法看似簡單但極具表現力。
首先,逐像素網絡的參數在空間上是變化的,因此與簡單的1×1卷積相比,它們可以表示更廣泛的函數類。其次,這些參數是由快速卷積網絡預測的,該網絡處理輸入的低分辨率表示。第三,通過拼接空間坐標的正弦編碼來增強輸入圖像,為生成高質量的圖像內容提供了有效的歸納偏置(inductive bias)。

實驗表明模型比此前的方法快達18倍,同時在不同的圖像分辨率和轉換中也有著極具競爭力的視覺質量。
附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》
