TPAMI 2022|基于最優(yōu)傳輸理論的無監(jiān)督圖像重建學習

極市導讀
?本項研究基于最優(yōu)傳輸理論構(gòu)建無監(jiān)督重建學習的最優(yōu)框架,證明了Wasserstein-1空間中最優(yōu)傳輸準則的松弛求解不變性。在攝影圖像、熒光顯微鏡圖像、深度圖像等多種實際數(shù)據(jù)上,新方法實現(xiàn)了遠超現(xiàn)有無監(jiān)督/自監(jiān)督方法的性能,在重建感知質(zhì)量上甚至優(yōu)于SOTA有監(jiān)督方法。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

論文地址:https://ieeexplore.ieee.org/document/9763342
開源地址代碼:https://github.com/wangweiSJTU/OTUR
圖像重建是底層計算機視覺中的一個基本問題,對于后續(xù)的許多高層任務(wù)至關(guān)重要。在過去的幾年里,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和大量成對訓練數(shù)據(jù)集的構(gòu)建,圖像重建任務(wù)取得了長足的進展。然而,在許多實際應(yīng)用中,難以收集足夠的干凈圖像進行監(jiān)督學習,雖然可以使用合成數(shù)據(jù)進行代替,但真實數(shù)據(jù)與合成數(shù)據(jù)之間的差異將從根本上限制重建模型在真實場景上的性能。如圖1所示,ToF深度相機采集的原始深度圖像包含大量復雜噪聲,如圖中紅色部分為無效值,同時真實場景的高質(zhì)量3D成像難以獲得。在此類復雜噪聲的真實場景下,監(jiān)督學習方法無法適用。

近年來,自監(jiān)督和無監(jiān)督圖像重建學習取得了很大進展。然而,現(xiàn)有的方法或多或少地依賴于對圖像和退化模型的一些先驗假設(shè),這限制了它們在真實數(shù)據(jù)上的表現(xiàn)。如何在沒有任何退化模型先驗知識的情況下構(gòu)造無監(jiān)督重建學習的最優(yōu)準則仍然是一個懸而未決的問題。為了回答這個問題,上海交通大學類腦智能應(yīng)用技術(shù)研究中心團隊最近提出了一種基于最優(yōu)傳輸理論的無監(jiān)督重建學習框架。其將圖像重建視為從真實帶噪分布到干凈分布的一個傳輸問題,基于最優(yōu)傳輸理論,在實現(xiàn)高感知質(zhì)量重建的同時,可以最大限度地保留信號的信息。在多種仿真和真實場景下的實驗表明,該方法在取得接近有監(jiān)督學習方法的峰值信噪比的同時,可以獲得更好的感知質(zhì)量。
本項工作的主要貢獻有:
提出一種基于最優(yōu)傳輸理論的無監(jiān)督重建學習準則,在重建輸出與干凈自然樣本具有相同分布的約束下,最小化輸入和重建輸出之間的傳輸成本。 將該準則與理想有監(jiān)督準則進行了對比分析,表明該準則在實現(xiàn)高感知質(zhì)量重建的同時,能夠最大程度地保留原始圖像的信息。 在實際訓練實現(xiàn)中需要把該帶約束的最優(yōu)傳輸準則松弛為無約束的形式,以方便基于對抗訓練進行學習。本文在理論上證明了:對于Wasserstein-1距離,該松弛不影響最有傳輸?shù)淖顑?yōu)解,即松弛后與原始準則具有相同的最優(yōu)解。 將新方法應(yīng)用于多種去噪應(yīng)用,包括不同仿真噪聲下的合成圖像,以及真實世界的手機攝影、顯微鏡、深度圖像。結(jié)果表明,新方法在取得逼近有監(jiān)督學習方法的失真度量(PSNR,SSIM)的同時,具有更好的重建感知質(zhì)量。特別地,在去除帶有復雜噪聲的原始深度圖像實驗中,新方法表現(xiàn)出了非常大的優(yōu)越性。
理論和方法介紹
理想的有監(jiān)督學習準則
圖像的退化和重建過程如圖 3 所示,其中 為干凈圖像, 為退化后的圖像, 為網(wǎng)絡(luò)重 建后的圖像, 為重建的網(wǎng)絡(luò)模型。

對于去噪任務(wù)而言,退化模型可以表示為

其中 為噪聲。該加性噪聲模型會在之后的信息論相關(guān)分析中會用到,但本文所提方法并不假設(shè)噪聲為加性模型。
一般來說,圖像重建的理想目標有以下三個:
噪聲抑制:盡可能抑制 中的噪聲; 最大信息保留: 盡可能保留 中包含的原始信號的信息; 高感知質(zhì)量重建:在重建中實現(xiàn)高感知質(zhì)量,圖像感知質(zhì)量是指從人的主觀視覺判斷重建圖像看起來像干凈自然圖像的程度,根據(jù)現(xiàn)有研究,失真度量(如PSNR、SSIM)與感知質(zhì)量之間存在一個權(quán)衡取舍,即提升感知質(zhì)量會導致重建失真的上升。
因此有監(jiān)督學習下圖像重建的理想準則可以表示為:

其中 表示分布間的散度。該準則在約束重建圖像 與干凈圖像 間分布相同的條件 下,最大化保留重建圖像 和 之間的互信息。
基于最優(yōu)傳輸理論的無監(jiān)督圖像去噪最優(yōu)準則
最優(yōu)傳輸問題旨在找到將一種質(zhì)量分布轉(zhuǎn)換為另一種質(zhì)量分布的最有效傳輸映射,同時最小化傳輸成本,其在信號處理、圖像處理和機器學習中有著廣泛的應(yīng)用。
假設(shè) 和 是 和 上的兩組概率測度,設(shè) 是一個代價函數(shù),衡量將 傳輸?shù)? 的代價。最優(yōu)傳輸問題的目標就是尋找將 傳輸?shù)? 代價最小的傳輸映射。
其中傳輸映射(transport map)的定義如下:

Monge在1781年提出的最優(yōu)傳輸問題定義如下:

本質(zhì)上,圖像重建問題可以視為一個最優(yōu)傳輸問題,即尋找?guī)г雸D像分布到干凈圖像分布的最優(yōu)傳輸函數(shù)。因此,提出無監(jiān)督下的重建學習準則:

其中,可以發(fā)現(xiàn)問題(7)是上述最優(yōu)傳輸問題的一種實現(xiàn)。
看似準則(7)違背直覺,因為它將重建目標推向了帶噪輸入,但是深入分析后會發(fā)現(xiàn),該問題旨在尋找一個滿足以下條件的重建映射 :
高感知質(zhì)量重建: 約束 ,確保重建圖像 與干凈樣本 有相同的分布,因此可以保證生成圖像具有良好的感知質(zhì)量。 最小傳輸成本:問題(7)中使用觀測值 來確保重建的保真度,具有最小傳輸特性,之后會證明該特性使重建映射實現(xiàn)了對 中包含的 的信息的最大保留。
為了便于實現(xiàn),我們將帶約束問題(7)松弛為無約束的形式:

雖然進行了松弛,本文證明了:當 為 Wasserstein-1 距離,且 時,問題 和 有相同的最優(yōu)解,具體定理如下:

該定理的具體證明過程可以在原論文中找到。
從信息論角度看所提出準則
這一部分,將從信息論角度出發(fā),來證明所提出的準則(7)找到的重構(gòu)映射 可以近似地最大限度保留 中包含的 的信息。
首先,(2)給出了理想的有監(jiān)督學習準則,該準則在最大化 和 之間互信息的同時實現(xiàn)了感知重建。在實際應(yīng)用中,除了某些簡單的特定數(shù)據(jù)分布,互信息難以顯式計算,因此 MSE 被廣泛用作重建損失,其中有監(jiān)督準則(2)的實現(xiàn)可以寫成:

當 和 為高斯分布時, 等價于最大化 和 的互信息,因此當 時,所提出的無監(jiān)督學習準則(7)可以視為高斯分布下無監(jiān)督學習的信息論準則的特例。

同時我們證明了,當 和 與噪聲無關(guān), 和 均為高斯分布時,(16)則等價于(2), 時(7)等價于(15),即所提出無監(jiān)督學習準則在特定條件下等價于監(jiān)督學習準則。

具體證明過程請參考原論文。
需要注意的是,從馬爾科夫鏈 可以得到不等式: ,此時 是 的上界。如果重建映射 能夠完美地抑制噪聲 (即 與 無關(guān)),則可以通過最大化互信息 來最大限度地保留 中包含的 的信息。在大多數(shù)應(yīng)用中,干凈數(shù)據(jù) 與噪聲 無關(guān)的假設(shè)是合理的。然而,重建 和噪聲 之間獨立的假設(shè)是不切實際的,因為不能保證觀測 中的噪聲分量被完全抑制。實際上,當去噪過程 能夠在很大程度上抑制 中的噪聲分量時, 和 之間的相關(guān)性將很弱。在這種情況下,無監(jiān)督準則(16)可以被視為理想的有監(jiān)督準則(2)的近似。
實驗
本節(jié)中使用WGAN-gp對所提出準則進行實現(xiàn),其中生成器結(jié)構(gòu)如圖3所示,鑒別器結(jié)構(gòu)如圖4所示。其中生成器主體結(jié)構(gòu)為U-Net架構(gòu),它由編碼器中的兩個下采樣CNN層和解碼器中的兩個上采樣CNN層組成。殘差通道注意力模塊(RCAB)被用于每個下采樣和上采樣層來增強網(wǎng)絡(luò)的生成能力。我們在仿真RGB圖像、仿真深度圖像、真實顯微鏡圖像、真實手機攝影圖像、真實深度圖像和真實原始深度圖像上均進行了實驗測試,并與當前最佳的一些監(jiān)督學習、自監(jiān)督和無監(jiān)督學習方法進行了對比,此處因篇幅限制僅挑選部分進行展示,具體內(nèi)容可參考原論文。
測試中使用了PSNR和SSIM作為失真度量指標,Perception Index (PI)和Learned Perceptual Image Patch Similarity (LPIPS)作為感知質(zhì)量指標。


1.仿真噪聲下RGB圖像降噪
首先是仿真噪聲去除實驗,所測試的合成噪聲類型包括加性高斯噪聲、泊松噪聲和布朗高斯噪聲,其中布朗高斯噪聲是使用一個核大小為5*5的高斯濾波器過濾標準差為50的高斯噪聲得到的。使用了BSDS500作為訓練數(shù)據(jù)集,KODAK24作為測試數(shù)據(jù)集,表1和表2分別為失真度量和感知質(zhì)量測試結(jié)果,對于空間獨立的高斯噪聲和泊松噪聲,所提出方法比監(jiān)督學習方法PSNR低1dB左右,而在空間相關(guān)的布朗高斯噪聲中,所提出方法取得了最佳的PSNR,此外在所有噪聲中,所提出方法均獲得了最佳的PI/LPIPS分數(shù),這表明其可以得到最佳的感知質(zhì)量。如圖5所示,所提出方法比DnCNN、N2C、N2N、N2V和BM3D具有更好的感知質(zhì)量,因為它保留了更多的細節(jié)信息。



2.真實顯微鏡圖像
顯微鏡圖像是生物學和醫(yī)學研究的重要數(shù)據(jù)來源,然而,由于采集過程中的照明和設(shè)備等因素,顯微鏡圖像不可避免地會受到噪聲的破壞,從而影響后續(xù)的高精度分析。此外,由于沒有干凈的參考圖像,因此需要無監(jiān)督或自監(jiān)督的方法。該測試中使用了真實熒光鏡圖像數(shù)據(jù)集FMD進行訓練和測試。其中使用平均的方法獲取近似的Ground Truth。表3展示了真實顯微鏡圖像上的定量比較,所提出方法獲得了最高的PSNR、最佳PI和LPIPS分數(shù),如圖6所示,所提出方法可以獲得比其他方法更清晰的重建結(jié)果,這表明了其更好的感知質(zhì)量。


3.真實深度圖像
最近,深度相機變得越來越流行,而由于成像機理的不同,深度圖像的噪聲比RGB圖像大得多。此外,由于場景中對象的反射率和透明度較低,深度圖像中通常存在空洞(無效像素)。該實驗中使用了一臺ToF深度相機采集了1430張原始深度圖像作為訓練和測試集,并使用仿真的SUNCG數(shù)據(jù)集作為參考的干凈圖像。圖7展示了重建結(jié)果的視覺比較,所提出方法可以取得最佳的去噪結(jié)果。


結(jié)論
本項工作在不對退化模型做任何先驗假設(shè)的條件下,提出了一種基于最優(yōu)傳輸理論的無監(jiān)督圖像重建學習準則。該準則可在實現(xiàn)高感知質(zhì)量重建的同時,最大程度保留原始圖像信息。此外,我們在理論上證明了,實際應(yīng)用中使用的該準則的松弛形式與原始準則具有相同的最優(yōu)解。大量仿真和真實數(shù)據(jù)上的實驗結(jié)果表明,該方法甚至可以與有監(jiān)督方法相媲美。該方法在具有復雜噪聲的深度圖像重建上具有非常顯著的優(yōu)越性。此外,雖然本文主要測試了所提框架在降噪任務(wù)上的表現(xiàn),但該框架理論上適用于更廣泛的圖像重建任務(wù),如超分辨、去雨、去霧等。
公眾號后臺回復“CVPR 2022”獲取論文合集打包下載~


