午夜影院一级片,免费成人性爱视频,国产一级婬片A片A毛片18禁,亚洲第一天堂久久,在线免费性爱视频,日韩大鸡吧,伊东千奈美一区二区在线观看,亚洲AV无码成人精品区久

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

作者丨王峰@知乎

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/302843504

編輯丨極市平臺

導(dǎo)讀

Label Smoothing在圖像識別中能穩(wěn)定漲點，但在人臉的loss里加上Label Smoothing卻是掉點的，本文作者詳細分析了該方法的問題，Label Smoothing起到的作用實際上是抑制了feature norm，此時只能控制角度，起到反向優(yōu)化的作用，因此在人臉loss上加Label Smoothing效果會變差。

有挺多人問過我一個問題：Label Smoothing在圖像識別中能穩(wěn)定漲點，在人臉的loss里加上Label Smoothing是否有用呢？

我挺早之前就注意到了這件事，當(dāng)時也做了實驗，發(fā)現(xiàn)直接應(yīng)用在人臉相關(guān)的loss上，是掉點的。其實DL發(fā)展到現(xiàn)在，可以說如果你想到了一個非常簡單的排列組合式idea，而經(jīng)過survey沒見過別人這么做，那大概率這個方法是不work的...

但這事到這當(dāng)然不算完，我們得分析一下它為啥不work。

要引出Label Smoothing，首先我們要知道，Softmax Cross Entropy不僅可以做分類任務(wù)（目標為one-hot label），還可以做回歸任務(wù)（目標為soft label）。設(shè)網(wǎng)絡(luò)輸出的softmax prob為p，soft label為q，那Softmax Cross Entropy定義為：

而Label Smoothing雖然仍是做分類任務(wù)，但其目標q從one-hot label變?yōu)閟oft label了，原來是1的位置變?yōu)??，其他的原來是0的位置變?yōu)??,??通常取0.1。

假設(shè)一個6分類任務(wù)，之前的??就變成了??,直觀上看，這個目標還是很奇怪的，如果一個樣本網(wǎng)絡(luò)非常確認其類別，給了個0.99的置信度，難道經(jīng)過Label Smoothing，還要反向優(yōu)化不成？

這個問題其實在概率層面上是沒法解釋的，從概率上看，確實會有發(fā)生反向優(yōu)化的情況，但為什么這樣可以漲點呢？

看看Hinton組對Label Smoothing的分析文章^[1]，里面有一張圖比較有意思：

熟悉人臉識別loss的人會發(fā)現(xiàn)，這個Label Smoothing得到的特征分布，怎么跟人臉loss的效果這么像？竟然都可以起到讓每個類別的樣本聚攏的效果。

而少數(shù)細心的朋友可能會發(fā)現(xiàn)這里的玄機：不做Label Smoothing（標注為w/o LS)的feature norm，普遍比做了LS（標注為w/ LS）的要大很多！w/o LS時最大可以達到1.6，而w/ LS時只有0.4。

回顧之前的文章，減小feature norm實際上等效于降低s，較低的s會使softmax prob的最大值降低，如下圖所示（來自于zhuanlan.zhihu.com/p/52?）：

可以看到，在較低的s的作用下，任何一個點，都不可能達到0.9以上的概率。也就是說，我們之前所擔(dān)心的反向優(yōu)化問題，實際上根本不會發(fā)生！即使優(yōu)化到最好，也只能接近0.9，而到不了1。

但同時要注意到，Label Smoothing也并不要求p優(yōu)化到1，而是優(yōu)化到0.9即可。Softmax Cross Entropy 的loss曲線其實跟sigmoid類似，越靠近1的時候，loss曲線會越平緩：

sigmoid曲線

而在設(shè)置了?

?后，我們只會用到sigmoid曲線上中間的一段，平緩的區(qū)域基本上不存在了，樣本的移動幾乎永不終止，因此特征會比不加LS更加聚攏。

但是在人臉識別的loss里，s通常是固定住的，而且會固定在一個比較大的值上（例如32、64），這樣Label Smoothing就無法讓s降低來使最大概率降低，于是反向優(yōu)化在人臉的loss上就成了真的會發(fā)生的事情：p>0.9后，loss會把特征往回拉，直至落在p=0.9附近震蕩。理論上特征會在類中心周圍形成一個環(huán)形的分布（我懶得做實驗了，有興趣的朋友可以做一個看看）。

總結(jié)一下，Label Smoothing起到的作用實際上是抑制了feature norm，此時softmax prob永遠無法達到設(shè)定的?

?，loss曲面上不再存在平緩區(qū)域，處處都有較大的梯度指向各個類中心，所以特征會更加聚攏。而之所以人臉上不work，是因為我們通常會使用固定的s，此時Label Smoothing無法控制feature norm，只能控制角度，就會起到反向優(yōu)化的作用，因此在人臉loss上加Label Smoothing效果會變差。

參考

When Does Label Smoothing Help??https://arxiv.org/pdf/1906.02629.pdf

下載1：何愷明頂會分享

在「AI算法與圖像處理」公眾號后臺回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：leetcode?開源書

在「AI算法與圖像處理」公眾號后臺回復(fù)：leetcode，即可下載。每題都 runtime beats 100% 的開源好書，你值得擁有！


下載3 CVPR2020

在「AI算法與圖像處理」公眾號后臺回復(fù)：CVPR2020，即可下載1467篇CVPR?2020論文
個人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

覺得不錯就點亮在看吧

Label Smoothing分析

參考