1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Label Smoothing分析

        共 2362字,需瀏覽 5分鐘

         ·

        2020-12-08 13:52

        點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        作者丨王峰@知乎
        來源丨h(huán)ttps://zhuanlan.zhihu.com/p/302843504
        編輯丨極市平臺

        導(dǎo)讀

        ?

        Label Smoothing在圖像識別中能穩(wěn)定漲點,但在人臉的loss里加上Label Smoothing卻是掉點的,本文作者詳細分析了該方法的問題,Label Smoothing起到的作用實際上是抑制了feature norm,此時只能控制角度,起到反向優(yōu)化的作用,因此在人臉loss上加Label Smoothing效果會變差。

        有挺多人問過我一個問題:Label Smoothing在圖像識別中能穩(wěn)定漲點,在人臉的loss里加上Label Smoothing是否有用呢?


        我挺早之前就注意到了這件事,當(dāng)時也做了實驗,發(fā)現(xiàn)直接應(yīng)用在人臉相關(guān)的loss上,是掉點的。其實DL發(fā)展到現(xiàn)在,可以說如果你想到了一個非常簡單的排列組合式idea,而經(jīng)過survey沒見過別人這么做,那大概率這個方法是不work的...


        但這事到這當(dāng)然不算完,我們得分析一下它為啥不work。


        要引出Label Smoothing,首先我們要知道,Softmax Cross Entropy不僅可以做分類任務(wù)(目標為one-hot label),還可以做回歸任務(wù)(目標為soft label)。設(shè)網(wǎng)絡(luò)輸出的softmax prob為p,soft label為q,那Softmax Cross Entropy定義為:


        而Label Smoothing雖然仍是做分類任務(wù),但其目標q從one-hot label變?yōu)閟oft label了,原來是1的位置變?yōu)??,其他的原來是0的位置變?yōu)??,??通常取0.1。


        假設(shè)一個6分類任務(wù),之前的??就變成了??,直觀上看,這個目標還是很奇怪的,如果一個樣本網(wǎng)絡(luò)非常確認其類別,給了個0.99的置信度,難道經(jīng)過Label Smoothing,還要反向優(yōu)化不成?


        這個問題其實在概率層面上是沒法解釋的,從概率上看,確實會有發(fā)生反向優(yōu)化的情況,但為什么這樣可以漲點呢?


        看看Hinton組對Label Smoothing的分析文章[1],里面有一張圖比較有意思:



        熟悉人臉識別loss的人會發(fā)現(xiàn),這個Label Smoothing得到的特征分布,怎么跟人臉loss的效果這么像?竟然都可以起到讓每個類別的樣本聚攏的效果。


        而少數(shù)細心的朋友可能會發(fā)現(xiàn)這里的玄機:不做Label Smoothing(標注為w/o LS)的feature norm,普遍比做了LS(標注為w/ LS)的要大很多!w/o LS時最大可以達到1.6,而w/ LS時只有0.4。


        回顧之前的文章,減小feature norm實際上等效于降低s,較低的s會使softmax prob的最大值降低,如下圖所示(來自于zhuanlan.zhihu.com/p/52?):

        可以看到,在較低的s的作用下,任何一個點,都不可能達到0.9以上的概率。也就是說,我們之前所擔(dān)心的反向優(yōu)化問題,實際上根本不會發(fā)生!即使優(yōu)化到最好,也只能接近0.9,而到不了1。

        但同時要注意到,Label Smoothing也并不要求p優(yōu)化到1,而是優(yōu)化到0.9即可。Softmax Cross Entropy 的loss曲線其實跟sigmoid類似,越靠近1的時候,loss曲線會越平緩:

        sigmoid曲線

        而在設(shè)置了??后,我們只會用到sigmoid曲線上中間的一段,平緩的區(qū)域基本上不存在了,樣本的移動幾乎永不終止,因此特征會比不加LS更加聚攏。

        但是在人臉識別的loss里,s通常是固定住的,而且會固定在一個比較大的值上(例如32、64),這樣Label Smoothing就無法讓s降低來使最大概率降低,于是反向優(yōu)化在人臉的loss上就成了真的會發(fā)生的事情:p>0.9后,loss會把特征往回拉,直至落在p=0.9附近震蕩。理論上特征會在類中心周圍形成一個環(huán)形的分布(我懶得做實驗了,有興趣的朋友可以做一個看看)。

        總結(jié)一下,Label Smoothing起到的作用實際上是抑制了feature norm,此時softmax prob永遠無法達到設(shè)定的??,loss曲面上不再存在平緩區(qū)域,處處都有較大的梯度指向各個類中心,所以特征會更加聚攏。而之所以人臉上不work,是因為我們通常會使用固定的s,此時Label Smoothing無法控制feature norm,只能控制角度,就會起到反向優(yōu)化的作用,因此在人臉loss上加Label Smoothing效果會變差。

        參考

        When Does Label Smoothing Help??https://arxiv.org/pdf/1906.02629.pdf


        下載1:何愷明頂會分享


        AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


        下載2:leetcode?開源


        AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!



        下載3 CVPR2020

        AI算法與圖像處公眾號后臺回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文
        個人微信(如果沒有備注不拉群!
        請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱


        覺得不錯就點亮在看吧


        瀏覽 33
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            男女视频免费观看 | 涩涩视频在线观看 | 免费视频一区二区 | 免费下载高清毛片 | japan8xxxxhd老师 | 亚洲午夜精品久久久久久久久久久久 | 骚逼自拍 | 亚洲色无码A片一区二小说 | 99久久这里只有精品 | 精品欧美一区二区在线观看 |