對(duì)"樣本不均衡"一頓操作
重采樣
這個(gè)是目前使用頻率最高的方式,可以對(duì)“多數(shù)”樣本降采樣,也可以對(duì)“少數(shù)”樣本過(guò)采樣,如下圖所示:

重采樣的缺點(diǎn)也比較明顯,過(guò)采樣對(duì)少數(shù)樣本"過(guò)度捕撈",降采樣會(huì)丟失大量信息。
重采樣的方案也有很多,最簡(jiǎn)單的就是隨機(jī)過(guò)采樣/降采樣,使得各個(gè)類別的數(shù)量大致相同。還有一些復(fù)雜的采樣方式,比如先對(duì)樣本聚類,在需要降采樣的樣本上,按類別進(jìn)行降采樣,這樣能丟失較少的信息。過(guò)采樣的話,可以不用簡(jiǎn)單的copy,可以加一點(diǎn)點(diǎn)"噪聲",生成更多的樣本。
Tomek links
Tomek連接指的是在空間上"最近"的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數(shù)類別的樣本。通過(guò)這種降采樣方式,有利于分類模型的學(xué)習(xí),如下圖所示:

SMOTE
這個(gè)方法可以給少數(shù)樣本做擴(kuò)充,SMOTE在樣本空間中少數(shù)樣本隨機(jī)挑選一個(gè)樣本,計(jì)算k個(gè)鄰近的樣本,在這些樣本之間插入一些樣本做擴(kuò)充,反復(fù)這個(gè)過(guò)程,知道樣本均衡,如下圖所示:

NearMiss
這是個(gè)降采樣的方法,通過(guò)距離計(jì)算,刪除掉一些無(wú)用的點(diǎn)。
NearMiss-1:在多數(shù)類樣本中選擇與最近的3個(gè)少數(shù)類樣本的平均距離最小的樣本。
NearMiss-2:在多數(shù)類樣本中選擇與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離最小的樣本。
NearMiss-3:對(duì)于每個(gè)少數(shù)類樣本,選擇離它最近的給定數(shù)量的多數(shù)類樣本。
NearMiss-1考慮的是與最近的3個(gè)少數(shù)類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠(yuǎn)的3個(gè)少數(shù)類樣本的平均距離,是全局的。NearMiss-1方法得到的多數(shù)類樣本分布也是“不均衡”的,它傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本,而在孤立的(或者說(shuō)是離群的)少數(shù)類附近找到更少的多數(shù)類樣本,原因是NearMiss-1方法考慮的局部性質(zhì)和平均距離。NearMiss-3方法則會(huì)使得每一個(gè)少數(shù)類樣本附近都有足夠多的多數(shù)類樣本,顯然這會(huì)使得模型的精確度高、召回率低。
評(píng)估指標(biāo)
為了避免對(duì)模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。
懲罰項(xiàng)
對(duì)少數(shù)樣本預(yù)測(cè)錯(cuò)誤增大懲罰,是一個(gè)比較直接的方式。
使用多種算法
模型融合不止能提升效果,也能解決樣本不均的問(wèn)題,經(jīng)驗(yàn)上,樹(shù)模型對(duì)樣本不均的解決幫助很大,特別是隨機(jī)森林,Random Forest,XGB,LGB等。因?yàn)闃?shù)模型作用方式類似于if/else,所以迫使模型對(duì)少數(shù)樣本也非常重視。
正確的使用K-fold
當(dāng)我們對(duì)樣本過(guò)采樣時(shí),對(duì)過(guò)采樣的樣本使用k-fold,那么模型會(huì)過(guò)擬合我們過(guò)采樣的樣本,所以交叉驗(yàn)證要在過(guò)采樣前做。在過(guò)采樣過(guò)程中,應(yīng)當(dāng)增加些隨機(jī)性,避免過(guò)擬合。
使用多種重采樣的訓(xùn)練集
這種方法可以使用更多的數(shù)據(jù)獲得一個(gè)泛化性較強(qiáng)的模型。用所有的少數(shù)樣本,和多種采樣的多數(shù)樣本,構(gòu)建多個(gè)模型得到多個(gè)模型做融合,可以取得不錯(cuò)的效果。

重采樣使用不同rate
這個(gè)方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓(xùn)練不同的模型。

沒(méi)有什么解決樣本不均最好的方法,以上內(nèi)容也沒(méi)有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。
?------------------------------------------------
雙一流高校研究生團(tuán)隊(duì)創(chuàng)建 ?
專注于計(jì)算機(jī)視覺(jué)原創(chuàng)并分享相關(guān)知識(shí)
聞道有先后,術(shù)業(yè)有專攻,如是而已 ╮(╯_╰)╭
