朱俊彥團隊GAN:視覺對齊的編輯,給左晃右晃的貓狗加表情,絲滑又貼合!
?戳我,查看GAN的系列專輯~!豐色 發(fā)自 凹非寺? 量子位 報道 | 公眾號 QbitAI
GAN又被開發(fā)出一項“不正經”用途。
給貓狗加表情:


給馬斯克加胡子:

不管視頻中的腦袋怎么左晃右晃,這些表情都能始終如一地貼合面部,且每一幀都表現得非常絲滑。
這就是朱俊彥等人的最新研究成果:
一種利用GAN監(jiān)督學習實現的密集視覺對齊(Visual alignment)方法。
該方法的性能顯著優(yōu)于目前的自監(jiān)督算法,在多個數據集上的性能都與SOTA算法相當,有的甚至還實現了兩倍超越。

用GAN監(jiān)督學習實現密集視覺對齊
視覺對齊是計算機視覺中光流、3D匹配、醫(yī)學成像、跟蹤和增強現實等應用的一個關鍵要素。
直白地說,比如在人臉識別中,就是不管一張臉是倒著立著還是歪著,任何角度都可以精確識別出哪塊是眼睛哪塊是鼻子。
而開創(chuàng)性的無監(jiān)督視覺對齊方法Congealing,在MNIST digits這種簡單的二值圖像(binary images)上表現得出奇好,在處理大多數具有顯著外觀和姿勢變化的數據集上就差了點。
為了解決這個問題,該團隊提出了這個叫做GANgealing的新視覺對齊方法。
它是一種GAN監(jiān)督算法,同時也受到Congealing的啟發(fā)。
Congealing模型的框架如下:

首先,在未對齊的數據上訓練生成器G。
然后在生成器G的潛空間中通過學習模式c,來創(chuàng)建一個合成數據集以進行后續(xù)對齊。
接著使用該數據集訓練空間變換網絡T(STN,Spatial Transformer Networks),最后在預測和目標圖像中使用感知損失將未對齊的圖像映射到相應的對齊圖像。
該算法的關鍵是利用GAN的潛空間(在未對齊的數據上訓練)為STN自動生成成對的訓練數據。
并且在這個GAN監(jiān)督學習框架中,STN和目標圖像實現聯(lián)合學習模式,STN專門使用GAN圖像進行訓練,并在測試時推廣到真實圖像。
實際效果如何?
實驗發(fā)現,GANgealing在八個數據集(自行車、狗、貓、汽車、馬、電視等)上都能準確找出圖片之間的密集對應關系。

其中,每個數據集的第一行表示未對齊的圖像和數據集的平均圖像(每行最右那張),第二行為轉換后的對齊效果,第三行則顯示圖像之間的密集對應關系。
在圖像編輯應用中,GANgealing可以只在平均圖像(下圖最左)進行示范,就能在數據集中的其他圖像上實現同樣的效果——不管這些圖像的角度和姿勢變換有多大。
比如第一行為給小貓加蝙蝠俠眼鏡,最后一行為給汽車車身貼上黑色圖案。

在視頻編輯中,GANgealing在每一幀上的效果都相當絲滑,尤其是和監(jiān)督光流算法(比如如RAFT)對比,差距非常明顯:

因此作者也表示,GANgealing可以用在混合現實應用中。
而在定量實驗中,GANgealing在非常精確的閾值(<2像素誤差容限)條件下優(yōu)于現有的監(jiān)督方法,在有的數據集上甚至表現出很大的優(yōu)勢。

再在具有挑戰(zhàn)的SPair-71K數據集上將GANgealing與幾種自監(jiān)督SOTA方法進行性能評估。
比的則是PCK-Transfer值(PCK,percentage of keypoints),它衡量的是關鍵點從源圖像轉換到目標圖像的百分比。
結果發(fā)現,GANgealing在3個類別上的表現都明顯優(yōu)于目前的方法,尤其是在自行車和貓圖集上實現了對自監(jiān)督方法CNNgeo和A2Net的兩倍超越。

當然,GANgealing在數據集圖片與示例差太多時表現得就不太好,比如面對下面這種側臉的貓以及張開翅膀的小鳥。

作者介紹
GANgealing的作者們分別來自UC伯克利、CMU、Adobe以及MIT。

一作為UC伯克利三年級的博士生Bill Peebles,研究方向為無監(jiān)督學習,重點是圖像和視頻的深度生成模型。
目前在CMU擔任助理教授的青年大牛朱俊彥也在其中。
通訊作者為Adobe Research的高級首席科學家Eli Shechtman,他發(fā)表了100多篇論文,曾獲得ECCV 2002最佳論文獎、WACV 2018最佳論文獎、FG 2020最佳論文亞軍以及ICCV 2017的時間檢驗獎等榮譽。
論文地址:
https://arxiv.org/abs/2112.05143
代碼:
https://github.com/wpeebles/gangealing
項目主頁:
https://www.wpeebles.com/gangealing
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創(chuàng)內容,未經賬號授權,禁止隨意轉載。
猜您喜歡:
附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》
