1. 視頻壓縮:谷歌基于GAN實(shí)現(xiàn)

        共 3601字,需瀏覽 8分鐘

         ·

        2021-08-24 12:06

        機(jī)器之心編譯  編輯:陳萍

        來自谷歌的研究者提出了一種基于生成對抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。

        通常,視頻壓縮的目標(biāo)是通過利用時間和空間冗余來降低存儲視頻所需的比特率,同時保留視覺內(nèi)容,目前廣泛使用的方法是非神經(jīng)標(biāo)準(zhǔn)編解碼器(例如 H.264/AVC 、H.265/HEVC)。一些研究表明,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)視頻壓縮方面取得了更好的進(jìn)展,最新的方法在峰值信噪比(PSNR)方面可以與 HEVC 相媲美,或者在 MS-SSIM 方面優(yōu)于 HEVC。然而,因?yàn)楹苌儆醒芯空甙l(fā)布重制后的視頻,這些方法尚未在主觀視覺質(zhì)量方面進(jìn)行評估。

        來自谷歌的研究者提出了一種基于生成對抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。研究者提出了減少時間累積誤差的方法,該累積誤差由遞歸幀壓縮引起,該方法使用隨機(jī)移位和非移位,由頻譜分析驅(qū)動。論文詳細(xì)介紹了網(wǎng)絡(luò)設(shè)計(jì)的選擇以及重要性,并闡述了在用戶研究中評估視頻壓縮方法的挑戰(zhàn)。


        論文地址:https://arxiv.org/pdf/2107.12038.pdf

        本文主要貢獻(xiàn)包括:

        • 該研究提出了首個在視覺質(zhì)量方面與 HEVC 具有競爭性的神經(jīng)壓縮方法,這是在用戶研究中衡量的。研究表明,在 PSNR 方面具有競爭力的方法在視覺質(zhì)量方面的表現(xiàn)要差得多;

        • 該研究提出了一種減少展開時時間誤差累積的技術(shù),該技術(shù)通過隨機(jī)移動殘差輸入,然后保持輸出不變,激勵頻譜分析,研究表明該技術(shù)在系統(tǒng)和 toy 線性 CNN 模型中具備有效性;

        • 該研究探索了由用戶研究測量的視覺質(zhì)量與可用視頻質(zhì)量指標(biāo)之間的相關(guān)性。為了促進(jìn)未來的研究,研究者發(fā)布了對 MCL-JCV 視頻數(shù)據(jù)集的重建以及從用戶研究中獲得的所有數(shù)據(jù)(附錄 B 中的鏈接)。


        研究方法

        下圖為該研究使用的網(wǎng)絡(luò)架構(gòu),其中 x = {x_1, x_2, . . . } 為幀序列,x_1 為初始幀 (I)。該研究在低延遲模式下操作,因此可以從先前的幀中預(yù)測后續(xù) (P) 幀,設(shè)是重建視頻。

        灰色框是中間張量的可視化結(jié)果?;揖€左側(cè)是 I-frame 分支(藍(lán)色代表用 CNN 學(xué)習(xí)),右側(cè)是 P-frame 分支(綠色代表用 CNN 學(xué)習(xí))。虛線在解碼期間沒有被激活,判別器 D_I、D_P 僅在訓(xùn)練期間激活。CNN 的大小粗略地表明了它們的容量。SG 是停止梯度操作,Blur 是尺度空間模糊,Warp 是雙三次扭曲, UFlow 是凍結(jié)光流模型。

        研究者采用以下策略來獲得高保真重建視頻:

        • 在 I-frame 中合成可信的細(xì)節(jié);

        • 盡可能清晰地傳遞這些可信細(xì)節(jié);

        • 對于出現(xiàn)在 P-frame 中的新內(nèi)容,研究者希望能夠合成可信細(xì)節(jié)。


        論文中的公式是基于 HiFiC 的。使用條件 GAN,其中生成器和判別器都可以訪問額外的標(biāo)簽:公式假設(shè)數(shù)據(jù)點(diǎn) x 和標(biāo)簽 s 遵循聯(lián)合分布 p(x, s)。生成器將樣本 y ~ p(y) 映射到分布 p(x|y),而判別器用來預(yù)測給定對 (x, s) 是否來自 p(x|s) 而不是來自生成器。

        在設(shè)置中需要處理幀序列和重建。在 HiFiC 之后,研究者在潛在 y 上調(diào)節(jié)生成器和判別器,對于 I-frame,y = yI,對于 P-frame,y = y_t,r。為了簡化問題,該研究的目標(biāo)是對每幀分布進(jìn)行匹配,即對于 T 長度的視頻序列,目標(biāo)是獲得一個模型 s.t.:


        通過隨機(jī)移位展開時防止錯誤累積

        正如文中所提到的,「低延遲」設(shè)置的循環(huán)性質(zhì)在時域中的泛化具有挑戰(zhàn)性,這可能會發(fā)生錯誤傳播。理想情況下,只要研究評估的內(nèi)容至少 T = 60 幀,就可以使用序列進(jìn)行訓(xùn)練,但實(shí)際上由于內(nèi)存限制,這在當(dāng)前硬件上是不可行的。雖然我們最多可以將 T = 12 放入加速器中,但這樣會使訓(xùn)練模型會變得非常慢。

        為了加速原型設(shè)計(jì)和訓(xùn)練新模型,以及防止展開(unrolling)問題,該研究采用以下訓(xùn)練方案。 

        1) 僅在隨機(jī)選擇的幀上訓(xùn)練 E_I 、 G_I 、 D_I ,1 000000 step。

        2) 凍結(jié) E_I、G_I、D_I ,并從 E_I 、G_I 初始化 E_res、G_res 權(quán)重。使用分階段展開( staged unrolling )訓(xùn)練 E_flow、G_flow、E_res、G_res、D_P 450000step,即使用 T = 2 直到 80k step,T = 3 直到 300step,T = 4 直到 350step,T = 6 直到 400k,T = 9 直到 450k。 


        該研究將其分為步驟 1) 和 2),因?yàn)榻?jīng)過訓(xùn)練的 E_I、 G_I 可以重新用于 P-frame 分支的許多變體,并且跨運(yùn)行共享 E_I、 G_I 使其更具可比性。

        使用比例控制器在訓(xùn)練期間控制速率:超參數(shù) λ_R 用來控制比特率和其他損失項(xiàng)(例如 GAN 損失等)之間的權(quán)衡。 


        實(shí)驗(yàn)結(jié)果

        數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)包括大約 992000 個時間 - 空間裁剪視頻集,每個視頻集長度 T 為 12 幀,每幀畫面大小為 256×256,從 YouTube 的公開視頻中獲取。這些視頻的分辨率至少為 1080p,長寬比至少為 16:9,幀率至少為 30 fps。

        模型和基準(zhǔn):基線稱為「MSE-only」,并且該基準(zhǔn)使用了與研究所用一樣的架構(gòu)和訓(xùn)練過程,但沒有使用 GAN 損失。實(shí)驗(yàn)還與尺度空間流(Scale-Space Flow,SSF)進(jìn)行了比較,這是最近的神經(jīng)壓縮方法,在 PSNR 方面與 HEVC 相當(dāng)。最后,該研究與無學(xué)習(xí)的 HEVC 進(jìn)行了比較。

        研究者在圖 1 中總結(jié)了評分者偏好,并在圖 7 中展示了性能指標(biāo)。該研究與三種比特率下的 HEVC 進(jìn)行了比較,結(jié)果證明該研究所用方法與 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下效果更佳(18vs9),在 0.22bpp 下性能也不錯(16vs9)。


        為了評估 GAN 損失對視覺質(zhì)量的影響,研究者在低速率 (≈ 0.064 bpp) 下將 GAN 損失與 MSE-only 和 SSF 進(jìn)行了比較。如圖 1 所示,在 MSE-only 下,在 30 次結(jié)果中只有 4 次結(jié)果較好,4 次平局,結(jié)果表明了 GAN 損失的重要性,并且 SSF 沒有一次是首選、沒有平局。研究者強(qiáng)調(diào) MSE-only 僅在 PSNR 方面與 HEVC 相當(dāng)(圖 7),但在視覺質(zhì)量方面明顯更差。


        研究發(fā)現(xiàn),下列組件對性能的提升至關(guān)重要:不使用「free latent」會引起模糊的重建效果,這類似于 MSE-only 基線產(chǎn)生的效果,如圖 3 頂部所示。研究發(fā)現(xiàn),使用「free latent」而不使用條件判別器也會導(dǎo)致模糊的重建效果。當(dāng)信息不傳遞給 UFlow 時,實(shí)驗(yàn)結(jié)果會得到前后不一致的流,當(dāng)信息傳遞給 UFlow 時,但沒有使用流損失正則化(即公式 6),實(shí)驗(yàn)結(jié)果也不理想。因此,刪除任何一個組件都會損害時間一致性,參見圖 3 底部。


        總體來說,沒有一個指標(biāo)能夠預(yù)測圖 1 中的結(jié)果,但是 PIM 和 LPIPS 對一些比較進(jìn)行了正確的排序。在神經(jīng)圖像壓縮領(lǐng)域已經(jīng)觀察到了這種結(jié)果,其中最好的方法是由人類來排序的,因?yàn)槟壳斑€沒有一種度量標(biāo)準(zhǔn)能夠根據(jù)主觀質(zhì)量來準(zhǔn)確地對這些方法進(jìn)行排序。


        猜您喜歡:


        等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!  

        CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總

        CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

        【CVPR 2021】通過GAN提升人臉識別的遺留難題

        CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總

        經(jīng)典GAN不得不讀:StyleGAN

        最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

        超100篇!CVPR 2020最全GAN論文梳理匯總!

        附下載 | 《Python進(jìn)階》中文版

        附下載 | 經(jīng)典《Think Python》中文版

        附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

        附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》

        附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

        附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

        附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

        附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

        瀏覽 64
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 一级片a 麻豆精品在线 | 日本亚洲精品色婷婷在线影院 | 国产婷婷五月综合亚洲 | 色人干| 夜夜操夜夜爽 |