1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        用GANs來做數(shù)據(jù)增強

        共 2350字,需瀏覽 5分鐘

         ·

        2021-03-02 10:19


        作者:Sam Nolen

        編譯:ronghuaiyang

        來源:AI公園

        導讀

        適用于只有很少樣本的情況。

        即使是不完美的合成數(shù)據(jù)也可以提高分類器的性能。

        生成對抗網(wǎng)絡(Generative adversarial networks,簡稱GANs)由Ian Goodfellow于2014年推出,近年來成為機器學習研究中非?;钴S的話題。GAN是一種無監(jiān)督生成模型,它隱含地學習底層分布。在GAN框架中,學習過程是兩個網(wǎng)絡之間的極大極小博弈,一個生成器,生成給定隨機噪聲向量的合成數(shù)據(jù),一個鑒別器,區(qū)分真實數(shù)據(jù)和生成器的合成數(shù)據(jù)。

        生成對抗網(wǎng)絡

        逼真的生成圖像(BigGAN, 2018)

        GANs在許多領域的應用都取得了令人矚目的成果,尤其是在計算機視覺領域。在這篇文章中,我們將探索GANs的一個不那么華麗但很有影響力的用例,即在監(jiān)督學習中提高分類器性能的數(shù)據(jù)增強。

        數(shù)據(jù)增強

        獲得更大的數(shù)據(jù)集是提高機器學習算法性能最可靠的方法之一 —— 用Andrew Ng的一句話來說,“數(shù)據(jù)量驅動機器學習過程”。在某些情況下,添加生成的或合成的數(shù)據(jù)(稱為數(shù)據(jù)增強的過程)也可以提高性能。

        最常見的方法是對現(xiàn)有數(shù)據(jù)應用一些轉換。在圖像分類的例子中,我們知道,例如,在移動或翻轉一個貓的圖像后,它仍然是一只貓的圖像。因此,圖像分類數(shù)據(jù)集通常會增加移位、翻轉、旋轉或顏色變化,以獲得可能的最佳結果。

        傳統(tǒng)的圖像數(shù)據(jù)增強

        這里有一個問題:我們可以使用GAN來生成合成數(shù)據(jù)來改進分類器嗎?在2019年4月的一篇論文:https://arxiv.org/pdf/1904.09135.pdf中,作者為一個二分類問題(癌癥檢測)生成了完全合成的數(shù)據(jù)。引人注目的是,他們展示了決策樹分類器在這個完全合成的數(shù)據(jù)集上比在原始小數(shù)據(jù)集上訓練時表現(xiàn)得更好。

        然而,這似乎是一個例外情況,這種直接的數(shù)據(jù)增強方法在非常小的數(shù)據(jù)集上有更好的工作機會。在2017年的一篇論文中,使用深度學習的圖像分類中的數(shù)據(jù)增強的有效性,作者發(fā)現(xiàn)使用GANs直接的數(shù)據(jù)增強不如其他增強策略有效。

        少樣本背景下的數(shù)據(jù)增強

        因此,讓我們修改一下我們的問題:如果我們有一個非常小的類作為一個更大數(shù)據(jù)集的子集,比如圖像數(shù)據(jù)集中的一個罕見的狗品種,會怎么樣?或者,如果我們正在訓練一個欺詐分類器,但我們只有幾個已知的欺詐例子,和許多非欺詐的例子,那該怎么辦?這種情況被稱為少樣本學習,這被證明是使用GANs進行數(shù)據(jù)增強的一個更有前途的用例。但要解決這個問題,我們需要在GAN模型中包含類信息。

        我們可以使用conditional GAN來實現(xiàn)這一點,在這個GAN中,類信息被提供給生成器?,F(xiàn)在我們來討論過去兩年里的三種conditional GANs變體。

        ACGAN: Cooperate on classification

        conditional GAN的一個變體,稱為ACGAN(輔助分類器GAN),除了區(qū)分真實數(shù)據(jù)和合成數(shù)據(jù)之外,還讓鑒別器執(zhí)行分類,損失函數(shù)包括用于分類的二元交叉熵項。除了學習生成總體真實的樣本,這樣還鼓勵生成器學習不同類別樣本的表示。這本質上是多任務學習:雖然生成器和鑒別器在生成的圖像是真還是假上“競爭”,但他們在正確分類上“合作”。

        DAGAN: learn a shared family of transformations for data augmentation

        另一種變體叫做DAGAN (Data augmented GAN),它學習如何使用真實圖像的低維表示來生成合成圖像。在DAGAN框架中,生成器不是將一個類和噪聲向量作為輸入,而是本質上是一個自動編碼器:它將現(xiàn)有的圖像進行編碼,添加噪聲,然后解碼。因此,解碼器學習了大量的數(shù)據(jù)增強轉換。

        DAGAN生成器

        DAGAN鑒別器一方面區(qū)分圖像和變換后的版本,另一方面區(qū)分來自同一類的一對圖像。因此,鑒別器激勵解碼器學習變換,這些變換不會改變類,但在變換后的圖像需要與原始圖像不太相似這一點上是不容易做到的。然而,DAGAN的一個關鍵假設是,相同的變換適用于所有類別 —— 這在計算機視覺環(huán)境中是合理的,但在欺詐或異常檢測中就不那么合理了。

        DAGAN的判別器

        BAGAN: learning to balance imbalanced data

        在另一個conditional  GAN的變體,稱為BAGAN,自動編碼器也用于生成器。自動編碼器被預訓練來學習整個數(shù)據(jù)集的分布。然后,對編碼后的圖像進行多元正態(tài)分布擬合?,F(xiàn)在你可以從這些多元正態(tài)分布中采樣,并將conditional 隱向量傳遞給生成器。與DAGAN不同,BAGAN為你提供了一個成熟的條件生成器,而不是對現(xiàn)有數(shù)據(jù)進行轉換。它也可能比ACGAN在少量的背景下更好,因為VAE在擬合每個類的正態(tài)分布之前有學習整體分布的能力。

        BAGAN框架

        思考

        盡管使用GANs進行簡單的數(shù)據(jù)增強有時可以提高分類器的性能,特別是在非常小或有限的數(shù)據(jù)集的情況下,但使用GANs進行增強的最有希望的情況似乎包括遷移學習或少量學習。隨著研究不斷提高GAN訓練的穩(wěn)定性和可靠性,將GAN用于數(shù)據(jù)增強的快速進展將不足為奇。


        END

        英文原文:https://medium.com/abacus-ai/gans-for-data-augmentation-21a69de6c60b

        請長按或掃描二維碼關注本公眾號


        喜歡的話,請給我個在看吧!


        瀏覽 48
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            chinagay男性吹潮教程 | 日韩精品久久久久影视的特点 | 国产综合激情 | 免费成年人 | 西欧一级婬片A片AAA毛片炙热 | 激情野战男女做爰 | 90分钟床上色大片免费看 | 色色色色色色影院 | 久久免费国产视频 | 无码在线看|