你了解如何評估模型嗎?
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉自:機器學習算法工程師
在不同的任務進行評估時,都需要不同的指標進行評估,本文主要給大家簡單介紹評估方法。
準確率是指分類正確的樣本占總樣本數(shù)的比例,即

準確率是分類問題中直觀的評價指標。但是當負樣本占比比較高時,這時候分類器要是把所有樣本都預測為負樣本,他就更容易獲得更高的分數(shù),這也說明了當樣本占比不均勻時,此時準確率作為評估指標會對結果有影響。那么怎么解決呢,可以通過平均準確率,即計算每個類別下的樣本的準確率的算術平均。
精確率是指分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例。
排序問題中,通常采用TopN的結果作為模型預測的正樣本, 然后在計算其Precision和Recall。而Precision和Recall是矛盾又統(tǒng)一的指標,為了提高Precision,這時候,分類器要更有把握時才把樣本預測為正樣本,就會導致會過濾掉一些分數(shù)低一點的正樣本,從而導致Recall值降低。
所以為了更好的評估一個模型的好壞,可以通過P-R曲線。
P-R曲線橫軸是召回率(Recall),縱軸是精確率(Precision),對一個排序模型來說,曲線上的一個點代表某閾值下將大于閾值的結果判定為正樣本,小于閾值的判定為負樣本,此時返回結果對應的召回率和精確率,整個曲線通過將閾值從高到低移動生成,如下圖:

由圖可見,隨著召回率的升高,模型A精確率下降并沒有B那么快,只用曲線某個點不能全面衡量模型的性能,需要通過曲線的整體表現(xiàn)。
ROC曲線經常被用作為二值分類器最重要的指標之一。其橫坐標為假陽性率(FPR),縱坐標為真陽性率(TPR),他們的計算公式如下


其中,P是真實的正樣本的數(shù)量,N是真實的負樣本的數(shù)量,TP是P個正樣本中被分類器預測為正樣本的個數(shù),F(xiàn)P是N個負樣本中被分類器預測為正樣本的個數(shù)。
通過動態(tài)調整閾值(區(qū)分正負預測結果的閾值),每個閾值都對應一個FPR和TPR,在ROC曲線上對應一個點,連接所有點就得到ROC曲線,如下圖:

那么ROC曲線和P-R曲線有什么區(qū)別呢?
當正負樣本分布發(fā)生變化時,ROC曲線的形狀基本保持不變,而P-R曲線的形狀一般發(fā)生較劇烈的變化,如下圖,c和d是將測試集中負樣本數(shù)量增加10倍后的曲線圖,可以看出ROC曲線形狀基本不變,這讓ROC曲線能夠降低不同測試集帶來的干擾,客觀衡量模型本身性能,不受正負樣本不均勻的影響。

交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~

