1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        改善圖像處理效果的五大生成對抗網(wǎng)絡(luò)

        共 6077字,需瀏覽 13分鐘

         ·

        2021-03-31 10:42

        點(diǎn)擊上方AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”

        重磅干貨,第一時間送達(dá)

         

        作者 | Martin Isaksson
        譯者 | Sambodhi
        策劃 | 劉燕
        在圖像處理方面,機(jī)器學(xué)習(xí)實(shí)踐者們正在逐漸轉(zhuǎn)向借助生成對抗網(wǎng)絡(luò)的力量,本文帶你了解其中五種生成對抗網(wǎng)絡(luò),可根據(jù)自己的實(shí)際需求進(jìn)行選型。

        本文最初發(fā)表于 Towards Data Science 博客,經(jīng)原作者公司 PerceptiLabs 授權(quán),InfoQ 中文站翻譯并分享。

        在圖像處理方面,機(jī)器學(xué)習(xí)實(shí)踐者們正在逐漸轉(zhuǎn)向借助生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的力量。

        實(shí)際受益于使用生成對抗網(wǎng)絡(luò)的應(yīng)用包括:從基于文本的描述生成藝術(shù)品和照片、放大圖像、跨域翻譯圖像 (例如,將白天的場景改為夜間)及許多其他應(yīng)用。為實(shí)現(xiàn)這一效果,人們設(shè)計(jì)了許多增強(qiáng)的生成對抗網(wǎng)絡(luò)架構(gòu),它們具有獨(dú)特的功能,可用于解決特定的圖像處理問題。

        在本文中,我們選擇五種生成對抗網(wǎng)絡(luò)進(jìn)行深入討論,因?yàn)樗鼈兲峁┝藦V泛的功能,從放大圖像到創(chuàng)建基于文本的全新圖像。

        • Conditional GAN

        • Stacked GAN

        • Information Maximizing GAN

        • Super Resolution GAN

        • Pix2Pix

        如果你需要快速回顧生成對抗網(wǎng)絡(luò),請查閱博文《探索生成對抗網(wǎng)絡(luò)》(Exploring Generative Adversarial Networks,https://blog.perceptilabs.com/exploring-generative-adversarial-networks-gans),這篇文章介紹了 生成對抗網(wǎng)絡(luò) 如何訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò):生成器和判別器,它們可以學(xué)習(xí)生成越來越逼真的圖像,同時提高其將圖像分類為真或假的能力。

        Conditional GAN

        Conditional GAN 面臨的挑戰(zhàn)之一是無法控制圖像生成類型。生成器只是簡單地從隨機(jī)噪聲開始,并反復(fù)創(chuàng)建圖像,希望這些圖像能隨著時間的推移趨向于表示訓(xùn)練圖像。

        Conditional GAN(cGAN),通過利用額外信息,例如標(biāo)簽數(shù)據(jù)(也就是類標(biāo)簽)解決了這個問題。這樣還能使訓(xùn)練更加穩(wěn)定和快速,同時提高生成圖像的質(zhì)量。舉例來說,cGAN 呈現(xiàn)的不同類型的蘑菇圖片及標(biāo)簽,可以通過訓(xùn)練來產(chǎn)生和識別那些準(zhǔn)備采摘的蘑菇。該模型可作為工業(yè)機(jī)器人計(jì)算機(jī)視覺的基礎(chǔ),通過編程實(shí)現(xiàn)蘑菇的搜尋與采摘。當(dāng)不具備這些條件時,標(biāo)準(zhǔn)的生成對抗網(wǎng)絡(luò)(有時也稱為無條件生成對抗網(wǎng)絡(luò))僅僅依賴于將來自潛在空間的數(shù)據(jù)映射到產(chǎn)生的圖像上。

        cGAN 的實(shí)現(xiàn)方法有很多,有一種方法是將類標(biāo)簽輸入判別器和生成器,從而對這兩者進(jìn)行調(diào)節(jié)。下圖示例展示了一種標(biāo)準(zhǔn)的生成對抗網(wǎng)絡(luò)生成手寫數(shù)字圖像,該網(wǎng)絡(luò)通過增強(qiáng)標(biāo)簽數(shù)據(jù),只生成數(shù)字 8 和 0 的圖像。

        圖 1:一種 cGAN,類標(biāo)簽同時輸入到生成器和判別器,以控制輸出。

        其中,可以對標(biāo)簽進(jìn)行 獨(dú)熱 編碼以去除序類型(ordinality),將標(biāo)簽作為附加層輸入到判別器和生成器中,再將它們與各自的圖像輸入進(jìn)行連接(即對生成器來說,與噪聲連接起來,對生成器來說,與訓(xùn)練集連接起來)。因此,這兩個神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中都是以圖像類標(biāo)簽為條件。

        總結(jié):當(dāng)你需要控制生成的內(nèi)容時(例如,生成訓(xùn)練數(shù)據(jù)的子集),使用 cGAN。

        Stacked GAN

        要是我們能夠直接讓電腦畫幅圖,是不是很酷?這正是 Stacked GAN(StackGAN)背后的靈感所在,在論文《StackGAN:基于堆疊式生成對抗網(wǎng)絡(luò)的文本到逼真圖像合成》(StackGAN:Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks) 中,作者對此進(jìn)行了描述。

        StackGAN 主要是一個兩階段的草圖細(xì)化過程,與畫家作畫的方法相似,即先畫出一般元素,然后再進(jìn)行細(xì)化:

        階段一,生成對抗網(wǎng)絡(luò):它以給定的文字描述為條件,勾畫出對象的原始形狀和基本顏色,并根據(jù)隨機(jī)噪聲矢量繪制出背景布局,得到低分辨率圖像。階段二,生成對抗網(wǎng)絡(luò):糾正階段一低分辨率圖像中的缺陷,通過再次閱讀文字說明來完善對象的細(xì)節(jié),從而生成高分辨率的逼真圖像。

        作者對其模型的架構(gòu)作了如下概述:

        圖 2:StackGAN 模型架構(gòu)概述。

        盡管使用普通的生成對抗網(wǎng)絡(luò)也可以解決這一問題,但輸出的圖像可能缺少細(xì)節(jié),且可能限制在較低的分辨率。StackGAN 的兩階段架構(gòu)基于 cGAN 的思想來解決這一問題,就像作者在論文中說的那樣:通過對階段一結(jié)果和文本的再次調(diào)節(jié),階段二生成對抗網(wǎng)絡(luò)學(xué)習(xí)捕捉階段一生成對抗網(wǎng)絡(luò)遺漏的文本信息,并為對象繪制更多細(xì)節(jié)。模型分布支持通過粗對齊得到的低分辨率圖像與圖像分布支持得到了較好的交叉概率。而這正是階段二生成對抗網(wǎng)絡(luò)能夠產(chǎn)生更好高分辨率圖像的根本原因。

        要了解更多關(guān)于 StackGAN 的信息,請查看作者的 GitHub 倉庫(https://github.com/hanzhanggit/StackGAN),他提供了一些模型,以及鳥類和花卉的圖片。

        總結(jié):當(dāng)你需要從完全不同的表示方式(例如,基于文本的描述)來生成圖像時,請使用 StackGAN。

        Information Maximizing GAN

        類似于 cGAN,Information Maximizing GAN(InfoGAN)利用額外的信息對生成的內(nèi)容進(jìn)行更多的控制。通過這樣做,它可以學(xué)習(xí)分解圖像的各個方面,比如人的發(fā)型、物體或者情感,所有這些都是通過無監(jiān)督訓(xùn)練。然后,這些信息可以用于控制生成圖像的某些方面。舉例來說,給定的人臉圖像中,有些人戴著眼鏡,InfoGAN 就可以被訓(xùn)練成對眼鏡的像素進(jìn)行拆分,然后用它來生成戴眼鏡的新人臉。

        在 InfoGAN 中,一個或多個控制變量與噪聲一起被輸入到生成器中。生成器的訓(xùn)練使用了一種稱為輔助模型的附加模型中包含的 互信息(mutual information)進(jìn)行的,該模型與判別器擁有相同的權(quán)重,但預(yù)測用于生成圖像的控制變量的值。這種互信息是通過對生成器生成的圖像的觀察獲得的。與判別器一起,輔助模型對生成器進(jìn)行訓(xùn)練,使 InfoGAN 既能學(xué)會生成 / 識別假圖像與真圖像,又能捕捉生成圖像的顯著屬性,從而學(xué)會改進(jìn)圖像生成。

        這個架構(gòu)總結(jié)如下圖所示:

        圖 3:InfoGAN 架構(gòu)概要

        要了解關(guān)于 InfoGAN 的更多信息,請查看博文:《InfoGAN:生成對抗網(wǎng)絡(luò)第三部分》(InfoGAN — Generative Adversarial Networks Part III ,https://towardsdatascience.com/infogan-generative-adversarial-networks-part-iii-380c0c6712cd)

        總結(jié):當(dāng)你需要將圖像的某些特征分離出來,以便合成到新生成的圖像中時,請使用 InfoGAN。

        Super Resolution GAN

        圖像增強(qiáng)領(lǐng)域正在不斷發(fā)展,與雙三次插值等傳統(tǒng)統(tǒng)計(jì)方法相比,它更依賴于機(jī)器學(xué)習(xí)算法。Super Resolution GAN(SRGAN)就是這樣一種機(jī)器學(xué)習(xí)方法,它可以將圖像提升到超高分辨率。

        SRGAN 利用生成對抗網(wǎng)絡(luò)的對抗性,與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,學(xué)習(xí)如何生成放大的圖像(最高可達(dá)到原始分辨率的四倍)。這些生成的超分辨率圖像準(zhǔn)確性更好,且通常會獲得較高的 平均意見分(mean opinion scores,MOS)。

        在對 SRGAN 進(jìn)行訓(xùn)練時,首先將高分辨率的圖像下采樣到低分辨率的圖像,然后輸入到生成器中。然后,生成器嘗試將該圖像上采樣到超分辨率圖像。判別器用來比較生成的超分辨率圖像和原始高分辨率圖像。判別器的生成對抗網(wǎng)絡(luò)損耗隨后反向傳播到判別器和生成器,如圖所示:

        圖 4:SRGAN 架構(gòu)。LR= 低分辨率圖像,HR= 高分辨率圖像,SR= 超分辨率圖像,X= 判別器的輸入,D(X)= 判別器對 HR 和 SR 的分類。

        生成器使用了許多 卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNN)和 ResNet,以及批歸一化層和激活函數(shù) ParametricReLU。這些首先對圖像進(jìn)行下采樣,然后再進(jìn)行上采樣,生成超分辨率圖像。同樣,判別器使用一系列卷積神經(jīng)網(wǎng)絡(luò),以及密集層、Leaky ReLU 和 sigmoid 激活,以確定圖像是原始的高分辨率圖像,還是由生成器輸出的超分辨率圖像。

        要了解更多關(guān)于 SRGAN 的信息,請參閱這篇博文《生成對抗網(wǎng)絡(luò):超分辨率生成對抗網(wǎng)絡(luò)(SRGAN)》(GAN — Super Resolution GAN (SRGAN))。

        總結(jié):當(dāng)你需要在恢復(fù)或保留細(xì)粒度、高保真細(xì)節(jié)的同時放大圖片,請使用 SRGAN。

        Pix2Pix

        正如我們在博客中討論的《機(jī)器學(xué)習(xí)用于圖像處理和計(jì)算機(jī)視覺的五大方法》(Top Five Ways That Machine Learning is Being Used for Image Processing and Computer Vision,https://blog.perceptilabs.com/top-five-ways-that-machine-learning-is-being-used-for-image-processing-and-computer-vision#Object_Instance),對象分割是一種方法,將數(shù)字圖像中的像素組分割成片段,然后可以在一個或多個圖像中作為對象進(jìn)行標(biāo)記、定位,甚至跟蹤。

        分割也可以用來將輸入圖像轉(zhuǎn)化為輸出圖像,以達(dá)到各種目的,如從標(biāo)簽圖合成照片,從邊緣圖重建物體,及對黑白圖像進(jìn)行著色。

        分割可以使用 Pix2Pix 來完成,Pix2Pix 是一種 cGAN,用于圖像到圖像的翻譯,首先訓(xùn)練一個 PatchGAN 判別器來對翻譯的圖像進(jìn)行分類,判斷這些圖像的真假,然后用來訓(xùn)練一個基于 U-Net 的生成器來產(chǎn)生越來越可信的翻譯。使用 cGAN 意味著該模型可以用于多種翻譯,而無條件生成對抗網(wǎng)絡(luò)則需要額外的元素,如 L2 回歸,以調(diào)節(jié)不同類型翻譯的輸出。

        圖 5:使用 Pix2Pix 進(jìn)行著色的示例。此處顯示了鞋子的黑白圖畫(輸入)及其訓(xùn)練數(shù)據(jù)(基準(zhǔn)真相),以及 Pix2Pix 生成的圖像(輸出)。

        下圖顯示了 Pix2Pix 中的判別器如何在對黑白圖像進(jìn)行著色的情況下首先進(jìn)行訓(xùn)練。

        圖 6:首先在 Pix2Pix 架構(gòu)中對判別器進(jìn)行訓(xùn)練。

        在此,將黑白圖像作為輸入提供給生成器,生成器會生成一個彩色版本(輸出)。判別器隨后進(jìn)行兩次比較:第一次將輸入與目標(biāo)圖像(即,代表基準(zhǔn)真相的訓(xùn)練數(shù)據(jù))進(jìn)行比較,第二次將輸入與輸出(即,生成的圖像)進(jìn)行比較。然后,優(yōu)化器根據(jù)兩次比較的分類誤差調(diào)整判別器的權(quán)重。

        現(xiàn)在已經(jīng)訓(xùn)練好了判別器,就可以用來訓(xùn)練生成器了。

        圖 7:使用訓(xùn)練好的判別器在 Pix2Pix GAN 中訓(xùn)練生成器。

        在這里,輸入的圖像被同時饋送到生成器和判別器中。(訓(xùn)練好的)判別器將輸入圖像與生成器的輸出進(jìn)行比較,并將輸出與目標(biāo)圖像相比較。隨后,優(yōu)化器調(diào)整生成器的權(quán)重,直到訓(xùn)練到生成器可以在大多數(shù)時間對判別器進(jìn)行欺騙。

        要了解更多關(guān)于 Pix2Pix 的信息,請參閱這篇文章《Pix2Pix:圖像到圖像的翻譯神經(jīng)網(wǎng)絡(luò)》(Pix2Pix – Image-to-Image Translation Neural Network)。此外,請務(wù)必查看這個 GitHub 倉庫。

        總結(jié):當(dāng)你需要將源圖像的某些方面翻譯成生成的圖像時,請使用 Pix2Pix GAN。

        結(jié)語

        生成對抗網(wǎng)絡(luò),更具體地說,是它們的判別器和生成器,可以用各種方式來構(gòu)建,以解決廣泛的圖像處理問題。以下總結(jié)可以幫助你選擇適合你的應(yīng)用的生成對抗網(wǎng)絡(luò)。

        • cGAN:控制(如限制)生成對抗網(wǎng)絡(luò)的分類應(yīng)進(jìn)行訓(xùn)練。

        • StackGAN:將基于文本的描述用作創(chuàng)建圖像的命令。

        • Infogan:解析你想要生成的圖像的特定方面。

        • SRGAN:在保持細(xì)粒度的細(xì)節(jié)的同時,放大圖片。

        • pix2pix:對圖像進(jìn)行分割和翻譯(例如,對圖像進(jìn)行著色)。

         作者介紹:

        Martin Isaksson,PerceptiLabs 的聯(lián)合創(chuàng)始人兼 CEO,這是一家專注于讓機(jī)器學(xué)習(xí)變得簡單的創(chuàng)業(yè)公司。

        原文鏈接:

        https://towardsdatascience.com/five-gans-for-better-image-processing-fabab88b370b


        推薦一波我好朋友的公眾號:

             
        個人微信(如果沒有備注不拉群!
        請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



        下載1:何愷明頂會分享


        AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


        下載2:終身受益的編程指南:Google編程風(fēng)格指南


        AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



           
        下載3 CVPR2021

        AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

        點(diǎn)亮 ,告訴大家你也在看

        瀏覽 30
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产第3页 | 日韩乱欲| 中国美女日逼 | 中文字幕免费视频观看 | 亚洲精彩视频 | 久久婷婷五月综合伊人 | 海量av资源 | 女人脱精光直播app免费观看 | 中文字幕五月天 | 黄色短视频网站 |