CVPR2022 無需人臉GAN先驗(yàn),字節(jié)團(tuán)隊(duì)提出細(xì)節(jié)可控的人臉超分方案GCFSR

https://arxiv.org/pdf/2203.07319.pdf
人臉超分通常依賴人臉先驗(yàn)信息進(jìn)行細(xì)節(jié)復(fù)原并保持身份信息。受益于GAN先驗(yàn)信息輔助,近來人臉超分取得了長(zhǎng)足發(fā)展:或者采用復(fù)雜的模塊對(duì)GAN先驗(yàn)進(jìn)行調(diào)制,或者采用復(fù)雜訓(xùn)練策略對(duì)生成器進(jìn)行微調(diào)。
本文提出一種生成細(xì)節(jié)可控的人臉超分方案GCFSR,它無需額外的人臉先驗(yàn)信息即可進(jìn)行高質(zhì)量人臉超分。GCFSR架構(gòu)為編碼器-生成器模式,同時(shí)針對(duì)多因子超分任務(wù)設(shè)計(jì)了風(fēng)格調(diào)制與特征調(diào)制兩個(gè)模塊:風(fēng)格調(diào)制模塊用于生成人臉細(xì)節(jié);特征調(diào)制模塊根據(jù)輸入的條件上采樣因子對(duì)源自編碼與生成器編碼特征進(jìn)行動(dòng)態(tài)融合。
對(duì)于小尺寸上采樣因子,所提方案僅需對(duì)抗損失即可取得令人驚訝的結(jié)果;再添加L1與感知損失后,GCFSR在大尺寸上采樣因子(比如16、32)方面超越了其他SOTA方案。在測(cè)試階段,我們可以通過連續(xù)改變輸入條件上采樣因子對(duì)生成強(qiáng)度進(jìn)行調(diào)制以獲得不同的生成效果。除此之外,GCFSR在復(fù)雜退化場(chǎng)景中也有穩(wěn)定出色的表現(xiàn)。

1出發(fā)點(diǎn)

上表對(duì)近期三個(gè)SOTA圖像復(fù)原方案從不同維度進(jìn)行了對(duì)比,可以看到:
GLEAN依賴額外的模塊進(jìn)行超分,它采用RRDBNet提取特征,然后采用額外的解碼器與GAN先驗(yàn)組合生成最終的結(jié)果; GFPGAN采用了額外的UNet用于退化移除,然后對(duì)所得特征進(jìn)行變換并用于對(duì)GAN先驗(yàn)進(jìn)行調(diào)制; GPEN則直接將編碼器特征與GAN先驗(yàn)concat融合。
總而言之,GAN先驗(yàn)要么設(shè)計(jì)復(fù)雜的模塊對(duì)其進(jìn)行修改,后者對(duì)其進(jìn)行微調(diào)適配。這就意味著:利用GAN先驗(yàn)進(jìn)行圖像復(fù)原并非一個(gè)微不足道的任務(wù)。那么,我們能否設(shè)計(jì)一個(gè)不依賴預(yù)訓(xùn)練GAN先驗(yàn)的生成模型呢?
2GCFSR

上圖為GCFSR整體架構(gòu)示意圖,它包含一個(gè)編碼器與一個(gè)生成器,編碼器以LR人臉圖像作為輸入,提取人臉結(jié)構(gòu)信息,同時(shí)估計(jì)隱特征(它將作為生成器的輸入);生成器以編碼器估計(jì)的隱特征、多級(jí)結(jié)構(gòu)特征作為輸入,通過一系列風(fēng)格調(diào)制卷積進(jìn)行處理后生成最終包含豐富人臉細(xì)節(jié)的人臉圖像。
為處理不同上采樣因子的超分任務(wù),我們?cè)诰幋a器與生成器提取的多尺度特征之間添加跳過連接。特征調(diào)制模塊會(huì)根據(jù)輸入條件上采樣因子來控制編碼特征和生成特征的強(qiáng)度。GCFSR的編碼器和生成器相互協(xié)作并生成具有高真實(shí)性的人臉圖像,還可以提供靈活的用戶調(diào)節(jié)機(jī)制。值得一提的是,所提方案可以從頭開始端到端訓(xùn)練,無需進(jìn)行GAN先驗(yàn)的預(yù)訓(xùn)練。
Encoder Network
編碼器由stride=2的卷積網(wǎng)絡(luò)構(gòu)成并生成一系列中間特征,其中的尺寸為。輸入LR圖像首先雙三次插值到尺寸,然后我們定義:
這里所得到編碼特征包含了輸入圖像的多級(jí)結(jié)構(gòu)信息。除此之外,我們?cè)诰幋a器后添加幾個(gè)卷積與全連接層生成隱碼特征。隱碼特征進(jìn)一步通過生成器生成真實(shí)人臉細(xì)節(jié):
Generator Network
生成器以編碼器的輸出作為輸入,通過風(fēng)格調(diào)制模塊與特征調(diào)制模塊處理后生成包含豐富紋理細(xì)節(jié)的人臉圖像。
Style Modulation 風(fēng)格調(diào)制卷積是由StyleGAN2所提出,它采用隱向量對(duì)卷積核沿輸入通道維度進(jìn)行調(diào)制。為近似保持輸入與輸出之間的方差,卷積核參數(shù)在進(jìn)行卷積之前先進(jìn)行歸一化(更多信息建議查看StyleGAN2一文),我們將整個(gè)模塊表示為。生成器以的特征圖c作為輸入起始點(diǎn),然后通過上采樣與處理得到最終的輸出。
針對(duì)超分任務(wù),我們進(jìn)行了如下幾個(gè)改進(jìn):
首先,我們并未從常數(shù)特征圖重生成特征。相反,我們直接采用編碼特征,即; 然后,所提特征調(diào)試模塊將對(duì)多級(jí)編碼特征與生成特征進(jìn)行處理得到融合結(jié)果; 因此,生成器可以同時(shí)從編碼特征與生成特征受益,而無需從頭開始生成。
Feature Modulation 為使得一個(gè)模型可以處理多尺度超分,輸入信息保持程度與輸出細(xì)節(jié)重建程度將依賴于條件上采樣因子,常規(guī)的Add/Concat跳過連接無法滿足上述需求。為此,我們提出了特征調(diào)制以靈活調(diào)整生成強(qiáng)度。條件上采樣因子s首先通過MLP生成尺度向量集。在每一級(jí),用于調(diào)整的貢獻(xiàn),定義如下:
Output 輸出圖像通過tRGB層由融合特征逐漸計(jì)算得到,描述如下:
Training Details
GCFSR以LR圖像x與條件上采樣因子s作為輸入,輸出人臉超分圖像。在我們上采樣+上采樣組合構(gòu)建LR圖像,在訓(xùn)練階段,上采樣因子從中隨機(jī)選擇并規(guī)范到尺度。
GCFSR僅需對(duì)抗損失即可很好進(jìn)行訓(xùn)練,我們采用非飽和邏輯損失:

如后續(xù)實(shí)驗(yàn)所表明,僅采用對(duì)抗損失訓(xùn)練的GCFSR已在x4和x8超分任務(wù)上超過了其他盲人臉復(fù)原方案。
為進(jìn)一步提升超分性能,我們采用了常規(guī)組合損失,即L1、感知損失以及對(duì)抗損失,定義如下:

盡管GCFSR是從頭開始訓(xùn)練,但其收斂速度更快(見上圖),同時(shí)在所有GAN先驗(yàn)方案中取得了最佳的性能。
3Experiments


上表與圖給出了不同方案的量化指標(biāo)與重建效果對(duì)比,從中可以看到:
GCFSR取得了最佳PSNR與LPIPSR指標(biāo),PULSE與mGANprior則具有比GAN先驗(yàn)方案更差的性能。 GCFSR具有最佳的重建質(zhì)量,更好的保持的身份信息。

上圖給出了不同尺度調(diào)制下的效果對(duì)比,可以看到:通過連續(xù)的調(diào)整上采樣因子,我們可以找到一個(gè)效果重建效果非常好的結(jié)果。值得一提的是,該調(diào)制過程可以生成平滑的過度且不會(huì)導(dǎo)致偽影問題。

除此之外,我們固定GCFSR的輸入條件上采樣因子s(比如:s=1),采用GFPGAN的退化方式,訓(xùn)練了一個(gè)盲人臉復(fù)原模型。實(shí)驗(yàn)結(jié)果表明,GCFSR的盲復(fù)原版本也能在量化指標(biāo)上取得sota效果
全文到此結(jié)束,更多消融實(shí)驗(yàn)與分析請(qǐng)移步原文。
本文的研究成果同時(shí)也在字節(jié)跳動(dòng)智能創(chuàng)作音視頻團(tuán)隊(duì)的“臻視綜合畫質(zhì)解決方案”中有落地,支持老照片修復(fù)、老電影修復(fù)等AI畫質(zhì)修復(fù)場(chǎng)景,更多效果可以訪問:火山引擎-高清人像修復(fù)體驗(yàn)(https://www.volcengine.com/product/visualedit)。
