1. 機器學習:模型評價指標總結(jié)

        共 2127字,需瀏覽 5分鐘

         ·

        2021-03-25 17:10

        ↑↑↑點擊上方藍字,回復資料,10個G的驚喜

        • 子曰:“溫故而知新,可以為師矣。

        混淆矩陣

        混淆矩陣是一種特定的矩陣用來呈現(xiàn)算法性能的可視化效果,通常用于二分類模型。其每一列代表預測值,每一行代表的是實際的類別。

        其實就是把所有類別的預測結(jié)果與真實結(jié)果按類別放置到了同一個表里,在這個表格中我們可以清楚看到每個類別正確識別的數(shù)量和錯誤識別的數(shù)量。

            Name     預測值   真實值
            TP          Y      Y
            TN          N      N
            FP          Y      N
            FN          N      Y

        TP :預測為正樣本,實際也是正樣本。

        FP :預測為正樣本,實際是負樣本。

        FN :預測為負樣本,實際是正樣本。

        TN :預測為負樣本,實際也是負樣本。

        準確率

        準確率是指我們的模型預測正確的結(jié)果所占的比例。


        精確率

        所有預測為正樣本的集合中預測正確的比例,精確度告訴我們,實際上有多少正確預測的案例是肯定的。


        召回率

        召回率告訴我們可以使用模型正確預測多少實際陽性病例。


        F1 值

        實際上,當我們嘗試提高模型的精度時,召回率會下降,反之亦然。F1分數(shù)以單個值捕獲了兩種趨勢。F1得分是Precision和Recall的諧波平均值,因此它給出了關于這兩個指標的組合思想。當Precision等于Recall時,最大值。

        ROC & AUC

        ROC曲線,它的橫縱坐標分別是

        對于預測出的概率值和它們的真實label,當取不同閾值時,會得到很多的坐標 (x,y),把這些點都連接起來就是ROC曲線。

        auc值是roc曲線下的面積,從定義就能看出,對于同一個 x,我們希望 y 越大越好,也就是說,在 FP 固定的時候,模型中 TP 越高 AUC 值就越高,所以 AUC 值很在乎正樣本的準確率,當數(shù)據(jù)比例不平衡時,我們的模型很可能偏向預測樣本數(shù)更多的負樣本,雖然這時準確率和 log損失 看著都不錯,可是 AUC 值卻不理想。

        log損失

        log損失反映了樣本的平均偏差,經(jīng)常作為模型的損失函數(shù)來做優(yōu)化,可是,當訓練數(shù)據(jù)正負樣本不平衡時,比如我們經(jīng)常會遇到正樣本很少,負樣本很多的情況,我們更希望在控制 FP 的情況下檢出更多的正樣本,若不做任何處理,則降低LogLoss會傾向于偏向負樣本一方,此時LogLoss很低,可正樣本的檢出效果卻并不理想。

        MAE

        平均絕對誤差(Mean Absolute Error),觀測值與真實值的誤差絕對值的平均值。

        MSE

        均方誤差(MSE)是最常用的回歸損失函數(shù),計算方法是求預測值與真實值之間距離的平方和。

        MAE對于異常值比MSE更穩(wěn)定,相對于使用MAE計算損失,使用MSE的模型會賦予異常點更大的權重。如果異常點代表在商業(yè)中很重要的異常情況,并且需要被檢測出來,則應選用MSE損失函數(shù)。相反,如果只把異常值當作受損數(shù)據(jù),則應選用MAE損失函數(shù)。

        R方

        RMSE和MAE有局限性:同一個算法模型,解決不同的問題,不能體現(xiàn)此模型針對不同問題所表現(xiàn)的優(yōu)劣。因為不同實際應用中,數(shù)據(jù)的量綱不同,無法直接比較預測值,因此無法判斷模型更適合預測哪個問題。方案:將預測結(jié)果轉(zhuǎn)換為準確度,結(jié)果都在[0, 1]之間,針對不同問題的預測準確度,可以比較并來判斷此模型更適合預測哪個問題;




        也可以加一下老胡的微信
        圍觀朋友圈~~~


        推薦閱讀

        (點擊標題可跳轉(zhuǎn)閱讀)

        我愛線代,線代使我快樂

        麻省理工學院計算機課程【中文版】

        【清華大學王東老師】現(xiàn)代機器學習技術導論.pdf

        機器學習中令你事半功倍的pipeline處理機制

        機器學習避坑指南:訓練集/測試集分布一致性檢查

        機器學習深度研究:特征選擇中幾個重要的統(tǒng)計學概念

        老鐵,三連支持一下,好嗎?↓↓↓

        瀏覽 71
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 亚洲精品偷拍 | 《制服肉奴隷》在线 | 日本做爰高潮又黄又爽 | 少妇搡bbbb搡bbb搡一 | 波多野结衣三级在线 |