從標(biāo)簽平滑和知識(shí)蒸餾理解Soft Label

極市導(dǎo)讀
本文首先探討一下hard label和soft label之間的關(guān)系,然后介紹一下如何用可靠的方法得到蘊(yùn)含更多信息的soft label,其中主要包含標(biāo)簽平滑和知識(shí)蒸餾兩種經(jīng)典方法。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
深度學(xué)習(xí)領(lǐng)域中,通常將數(shù)據(jù)標(biāo)注為hard label,但事實(shí)上同一個(gè)數(shù)據(jù)包含不同類別的信息,直接標(biāo)注為hard label會(huì)導(dǎo)致大量信息的損失,進(jìn)而影響最終模型取得的效果。本文首先探討一下hard label和soft label之間的關(guān)系,然后介紹一下如何用可靠的方法得到蘊(yùn)含更多信息的soft label,其中主要包含Label Smoothing和Knowledge Distillation兩種經(jīng)典方法。
Hard Label vs Soft Label

hard label更容易標(biāo)注,但是會(huì)丟失類內(nèi)、類間的關(guān)聯(lián),并且引入噪聲。
soft label給模型帶來更強(qiáng)的泛化能力,攜帶更多的信息,對(duì)噪聲更加魯棒,但是獲取難度大。
Label Smoothing

Softmax Cross Entropy不僅可以做分類任務(wù)(目標(biāo)為one-hot label),還可以做回歸任務(wù)(目標(biāo)為soft label)。設(shè)網(wǎng)絡(luò)輸出的softmax prob為p,soft label為q,那Softmax Cross Entropy定義為:
而Label Smoothing雖然仍是做分類任務(wù),但其目標(biāo)q從one-hot label變?yōu)閟oft label了,原來 是1的位置變?yōu)?, 其他的原來是0的位置變?yōu)? 通常取0.1。InfoNCE的損失函數(shù)
InfoNCE可以拆分成兩個(gè)部分,alignment和uniformity。

如上圖所示,alignment部分只跟positive pair相關(guān),希望positive pair的feature拉近,uniformity部分只跟negative pair相關(guān),希望所有點(diǎn)的feature盡可能均勻分布在unit hypersphere上。
從softmax和InfoNCE損失函數(shù)上理解,把InoNCE公式的分母想象成soft label的所有位置相加,也就是最大值的那個(gè)位置可以看成是positive pair,其他位置都可以看成是negative pair,softmax的損失函數(shù)不是跟InfoNCE損失函數(shù)一模一樣了嗎,異曲同工!也就是說hard label可以認(rèn)為只有positive pair,而soft label仍然保留negative pair。因此,soft label更容易避免退化解問題。

上圖是sigmoid曲線。Softmax Cross Entropy 的loss曲線其實(shí)跟sigmoid類似,越靠近1的時(shí)候,loss曲線會(huì)越平緩,這里以sigmoid曲線圖為例。
從softmax的損失函數(shù)曲線上理解,hard label監(jiān)督下,由于softmax的作用,one-hot的最大值位置無限往1進(jìn)行優(yōu)化,但是永遠(yuǎn)不可能等于1,從上圖可知優(yōu)化到達(dá)一定程度時(shí),優(yōu)化效率就會(huì)很低,到達(dá)飽和區(qū)。而soft label可以保證優(yōu)化過程始終處于優(yōu)化效率最高的中間區(qū)域,避免進(jìn)入飽和區(qū)。
Knowledge Distillation

knowledge distillation相比于label smoothing,最主要的差別在于,知識(shí)蒸餾的soft label是通過網(wǎng)絡(luò)推理得到的,而label smoothing的soft label是人為設(shè)置的。
原始訓(xùn)練模型的做法是讓模型的softmax分布與真實(shí)標(biāo)簽進(jìn)行匹配,而知識(shí)蒸餾方法是讓student模型與teacher模型的softmax分布進(jìn)行匹配。直觀來看,后者比前者具有這樣一個(gè)優(yōu)勢(shì):經(jīng)過訓(xùn)練后的原模型,其softmax分布包含有一定的知識(shí)——真實(shí)標(biāo)簽只能告訴我們,某個(gè)圖像樣本是一輛寶馬,不是一輛垃圾車,也不是一顆蘿卜;而經(jīng)過訓(xùn)練的softmax可能會(huì)告訴我們,它最可能是一輛寶馬,不大可能是一輛垃圾車,但絕不可能是一顆蘿卜。
知識(shí)蒸餾得到的soft label相當(dāng)于對(duì)數(shù)據(jù)集的有效信息進(jìn)行了統(tǒng)計(jì),保留了類間的關(guān)聯(lián)信息,剔除部分無效的冗余信息。 相比于label smoothing,模型在數(shù)據(jù)集上訓(xùn)練得到的soft label更加可靠。
Reference
https://zhuanlan.zhihu.com/p/302843504
https://zhuanlan.zhihu.com/p/90049906
When Does Label Smoothing Help?
Distilling the Knowledge in a Neural Network
如果覺得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

