長尾問題太嚴(yán)重?半監(jiān)督和自監(jiān)督就可以有效緩解!

??新智元報道??
??新智元報道??
來源:夕小瑤的賣萌屋
作者:Yuzhe Yang
【新智元導(dǎo)讀】論文研究了一個經(jīng)典而又非常實際的問題:數(shù)據(jù)類別不平衡下的分類問題。通過理論推導(dǎo)和大量實驗發(fā)現(xiàn),半監(jiān)督和自監(jiān)督均能顯著提升不平衡數(shù)據(jù)下的學(xué)習(xí)表現(xiàn)。目前論文已被NeurIPS2020接收,代碼已開源。
半監(jiān)督學(xué)習(xí) --- 也即利用更多的無標(biāo)簽數(shù)據(jù);
自監(jiān)督學(xué)習(xí) --- 不利用任何其他數(shù)據(jù),僅通過在現(xiàn)有的不平衡數(shù)據(jù)上先做一步不帶標(biāo)簽信息的自監(jiān)督預(yù)訓(xùn)練(self-supervised pre-training)
研究背景

重采樣(re-sampling):更具體可分為對少樣本的過采樣[3],或是對多樣本的欠采樣[8]。但因過采樣容易o(hù)verfit到minor class,無法學(xué)到更魯棒易泛化的特征,往往在非常不平衡數(shù)據(jù)上表現(xiàn)會更差;而欠采樣則會造成major class嚴(yán)重的信息損失,導(dǎo)致欠擬合發(fā)生。
數(shù)據(jù)合成(synthetic samples):即生成和少樣本相似的“新”數(shù)據(jù)。經(jīng)典方法SMOTE[9],思路簡單來講是對任意選取的少類樣本,用K近鄰選取其相似樣本,通過對樣本線性插值得到新樣本。這里會想到和mixup[10]很相似,于是也有imbalance的mixup版本出現(xiàn)[11]。
重加權(quán)(re-weighting):對不同類別(甚至不同樣本)分配不同權(quán)重。注意這里的權(quán)重可以是自適應(yīng)的。此類方法的變種有很多,有最簡單的按照類別數(shù)目的倒數(shù)來做加權(quán)[12],按照“有效”樣本數(shù)加權(quán)[1],根據(jù)樣本數(shù)優(yōu)化分類間距的loss加權(quán)[4],等等。
遷移學(xué)習(xí)(transfer learning):這類方法的基本思路是對多類樣本和少類樣本分別建模,將學(xué)到的多類樣本的信息/表示/知識遷移給少類別使用。代表性文章有[13][14]。
度量學(xué)習(xí)(metric learning):本質(zhì)上是希望能夠?qū)W到更好的embedding,對少類附近的boundary/margin更好的建模。有興趣的同學(xué)可以看看[15][16]。
元學(xué)習(xí)/域自適應(yīng)(meta learning/domain adaptation):分別對頭部和尾部的數(shù)據(jù)進(jìn)行不同處理,可以去自適應(yīng)的學(xué)習(xí)如何重加權(quán)[17],或是formulate成域自適應(yīng)問題[18]。
解耦特征和分類器(decoupling representation & classifier):最近的研究發(fā)現(xiàn)將特征學(xué)習(xí)和分類器學(xué)習(xí)解耦,把不平衡學(xué)習(xí)分為兩個階段,在特征學(xué)習(xí)階段正常采樣,在分類器學(xué)習(xí)階段平衡采樣,可以帶來更好的長尾學(xué)習(xí)結(jié)果[5][6]。這也是目前的最優(yōu)長尾分類算法。
我們的研究動機(jī)和思路
從正面價值的角度,我們發(fā)現(xiàn)當(dāng)有更多的無標(biāo)簽數(shù)據(jù)時,這些不平衡的標(biāo)簽提供了稀缺的監(jiān)督信息。通過利用這些信息,我們可以結(jié)合半監(jiān)督學(xué)習(xí)去顯著的提高最后的分類結(jié)果,即使無標(biāo)簽數(shù)據(jù)也存在長尾分布。
從負(fù)面價值的角度,我們證明了不平衡標(biāo)簽并非在所有情況下都是有用的。標(biāo)簽的不平衡大概率會產(chǎn)生label bias。因此在訓(xùn)練中,我們首先想到“拋棄”標(biāo)簽的信息,通過自監(jiān)督的學(xué)習(xí)方式先去學(xué)到好的起始表示形式。我們的結(jié)果表面通過這樣的自監(jiān)督預(yù)訓(xùn)練方式得到的模型也能夠有效的提高分類的準(zhǔn)確性。
?半監(jiān)督框架下的不均衡學(xué)習(xí)
?和?
?,但是相同方差的Guassian mixture模型,我們可以很容易驗證其貝葉斯最優(yōu)分類器為:
?
?
?以及一定量的無標(biāo)簽的數(shù)據(jù),我們可以通過這個基礎(chǔ)分類器給這些數(shù)據(jù)做pseudo-label。令?
?和?
?代表pseudo-label為正和為負(fù)的數(shù)據(jù)的數(shù)量。
?,最簡單的方法我們可以通過pseudo-label給這些對應(yīng)的沒有標(biāo)簽的數(shù)據(jù)取平均得到?
?。假設(shè)?
?代表基礎(chǔ)分類器對于兩個類的準(zhǔn)確度的gap。這樣的話我們推出以下定理:
原始數(shù)據(jù)集的不平衡性會影響我們最后estimator的準(zhǔn)確性。越不平衡的數(shù)據(jù)集我們expect 基礎(chǔ)分類器有一個更大的?
?。越大的?
?影響我們的estimator?
?到理想的均值之間的距離。
無標(biāo)簽數(shù)據(jù)集的不平衡性影響我們能夠得到一個好的estimator的概率。對于還不錯的基礎(chǔ)分類器,?
?可以看做是對于無標(biāo)簽數(shù)據(jù)集的不平衡性的近似。我們可以看到,當(dāng):
?,如果無標(biāo)簽數(shù)據(jù)很不平衡,那么數(shù)據(jù)少的一項會主導(dǎo)另外一項,從而影響最后的概率。
?上正常訓(xùn)練獲得一個中間步驟分類器?
?,并將其應(yīng)用于生成未標(biāo)記數(shù)據(jù)?
?的偽標(biāo)簽?
?;通過結(jié)合兩部分?jǐn)?shù)據(jù),我們最小化損失函數(shù)?
?以學(xué)習(xí)最終模型?
?。
?和?
?的學(xué)習(xí)策略,因此半監(jiān)督框架也能很輕易的和現(xiàn)有類別不平衡的算法相結(jié)合。
?和?
?的典型分布如下):
典型的原始數(shù)據(jù)分布,以及可能的無標(biāo)記數(shù)據(jù)分布


關(guān)于半監(jiān)督不均衡學(xué)習(xí)的進(jìn)一步思考

自監(jiān)督框架下的不均衡學(xué)習(xí)
?維Guassian mixture的toy example。這次我們考慮兩個類有相同的均值(都為0)但是不同的方差,?
?和?
?。其中,我們假設(shè)負(fù)類是主要的類(mix 概率?
?)。我們考慮線性的分類器?
?,?
?,并且用標(biāo)準(zhǔn)的error probability,
?,作為分類器的衡量標(biāo)準(zhǔn)。
?。在這種情況下,我們可以首先證明上述的線性分類器一定會有至少?
?的error probability。
?,
?。我們考慮用?
?作為線性分類器的輸入。
?,
?,滿足下面的定理:
有很高的概率,我們能得到一個更好的分類器。這個分類器的error probability隨數(shù)據(jù)維度?
?的增加而指數(shù)型減小。對于如今常見的高維數(shù)據(jù)(如圖像)這種性質(zhì)是我們希望得到的。
訓(xùn)練數(shù)據(jù)的不平衡性會影響我們能夠得到這樣一個好的分類器的概率。上文中,
?和?
?代表訓(xùn)練數(shù)據(jù)里不同類的數(shù)量。從?
?和?
?這兩項中我們可以發(fā)現(xiàn),當(dāng)數(shù)據(jù)越多且越平衡,我們就有更高的概率得到一個好的分類器。



結(jié)語
參考文獻(xiàn):
[1]Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9268–9277, 2019.
[2]Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. In ICCV, pages 2980–2988, 2017.
[3]Samira Pouyanfar, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification.
[4]Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss. NeurIPS, 2019.
[5]BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR, 2020.
[6]Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.
[7]iNatrualist 2018 competition dataset. https://github.com/visipedia/inat_comp/tree/master/2018
[8]He, H. and Garcia, E. A. Learning from imbalanced data. TKDE, 2008.
[9]Chawla, N. V., et al. SMOTE: synthetic minority oversampling technique. JAIR, 2002.
[10]mixup: Beyond Empirical Risk Minimization. ICLR 2018.
[11]H. Chou et al. Remix: Rebalanced Mixup. 2020.
[12]Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.
[13]Large-scale long-tailed recognition in an open world. CVPR, 2019.
[14]Feature transfer learning for face recognition with under-represented data. CVPR, 2019.
[15]Range Loss for Deep Face Recognition with Long-Tail. CVPR, 2017.
[16]Learning Deep Representation for Imbalanced Classification. CVPR, 2016.
[17]Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.
[18]Rethinking Class-Balanced Methods for Long-Tailed Recognition from a Domain Adaptation Perspective. CVPR, 2020.
[19]Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. arXiv preprint arXiv:1803.07728, 2018.
[20]Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722, 2019.


