1. 小孩都看得懂的 ROC

        共 3706字,需瀏覽 8分鐘

         ·

        2021-03-16 17:13

        點(diǎn)擊下面卡片關(guān)注AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”

        重磅干貨,第一時(shí)間送達(dá)



        0


        數(shù)據(jù)


        一切要從分類問題開始,先看數(shù)據(jù)。


        數(shù)據(jù)有兩類,藍(lán)點(diǎn)表示正類 (positive class),紅點(diǎn)表示負(fù)類 (negative class)。



        兩個(gè)具體例子:


        1. 腫瘤診斷:惡性腫瘤 (正類)、良性腫瘤 (負(fù)類)

        2. 郵件分類:垃圾郵件 (正類)、正常郵件 (負(fù)類)


        慣例:通常想預(yù)測出來的類別定義為正類。



        1


        模型


        下圖的線段當(dāng)成模型,作用是將藍(lán)點(diǎn)紅點(diǎn)分開。



        仔細(xì)看,這條線段被設(shè)計(jì)成藍(lán)相配,含義就是說面向線段紅色部分的點(diǎn)被劃分為紅點(diǎn),而面向線段藍(lán)色部分的點(diǎn)被劃分為藍(lán)點(diǎn)。



        2


        模型會犯錯誤哦


        從下圖看有兩個(gè)點(diǎn)分類錯誤,而它們是兩種類型的錯誤。



        1. 先看線段上面:紅點(diǎn) (真實(shí)負(fù)類) 被當(dāng)作藍(lán)點(diǎn) (預(yù)測正類),該錯誤叫做假正類 (false positive)


        2. 再看線段下面藍(lán)點(diǎn) (真實(shí)正類) 被當(dāng)作紅點(diǎn) (預(yù)測負(fù)類),該錯誤叫做假負(fù)類 (false negative)



        3


        兩個(gè)模型


        讓我們給相同的數(shù)據(jù)賦予兩個(gè)故事。



        故事一講述一個(gè)醫(yī)用分類模型,它負(fù)責(zé)區(qū)分生病的人 (正類) 和健康的人 (負(fù)類)。


        故事二講述一個(gè)郵件分類模型,它負(fù)責(zé)區(qū)分垃圾郵件 (正類) 和正常郵件 (負(fù)類)。


        讓我們一一來研究它們。



        5


        醫(yī)用分類模型


        在此模型下,生病的人是正類,健康的人是負(fù)類,那么


        1. 健康的人 (真實(shí)負(fù)類) 預(yù)測為生病的人 (預(yù)測正類),該錯誤叫做假正類 (false positive)。


        2. 生病的人 (真實(shí)正類) 被當(dāng)作健康的人 (預(yù)測負(fù)類),該錯誤叫做假負(fù)類 (false negative)



        哪種錯誤更嚴(yán)重?


        假負(fù)類是吧,人病了卻預(yù)測沒病不去治療,萬一是絕癥后果不堪設(shè)想。


        假正類還行,人沒病卻預(yù)測病了去測試,頂多花點(diǎn)時(shí)間花點(diǎn)錢嘛。


        結(jié)論:醫(yī)用分類模型應(yīng)該減少假負(fù)類



        上圖這個(gè)線段 (模型) 可還行,沒有假負(fù)類,即便有增大假正類的代價(jià)。



        6


        郵件分類模型


        在此模型下,垃圾郵件是正類,正常郵件是負(fù)類,那么


        1. 正常郵件 (真實(shí)負(fù)類) 預(yù)測為垃圾郵件 (預(yù)測正類),該錯誤叫做假正類 (false positive)。


        2. 垃圾郵件 (真實(shí)正類) 被當(dāng)作正常郵件 (預(yù)測負(fù)類),該錯誤叫做假負(fù)類 (false negative)



        哪種錯誤更嚴(yán)重?


        假正類是吧,正常郵件 (可能是很重要的郵件) 預(yù)測為垃圾郵件,放到垃圾站中,多耽誤事兒啊。


        假負(fù)類還行,垃圾郵件預(yù)測為正常郵件,呈現(xiàn)在你眼前,你刪了不就完了么,多大點(diǎn)事兒啊。


        結(jié)論:郵件分類模型應(yīng)該減少假正類



        上圖這個(gè)線段 (模型) 可還行,沒有假正類,即便有增大假負(fù)類的代價(jià)。



        7


        記錄錯誤


        醫(yī)用分類模型 (希望假負(fù)類最少) 和郵件分類模型 (希望假正類最少) 屬于兩個(gè)極端,絕大部分的分類模型在“中間”,即犯一點(diǎn)假負(fù)類,犯一點(diǎn)假正類


        那么如何記錄假負(fù)類假正類呢?


        先從下圖的最簡單模型開始,請思考多個(gè)點(diǎn)分類錯誤?



        還記得線段被設(shè)計(jì)成藍(lán)相配的用意嗎?面向線段藍(lán)色部分的都被歸類為藍(lán)點(diǎn),那么 5 個(gè)真實(shí)藍(lán)點(diǎn)都預(yù)測對了,5 個(gè)真實(shí)紅點(diǎn)都預(yù)測錯了。



        第 0 步將上述結(jié)果用表格和網(wǎng)格圖表示如下:



        表格記錄的正確紅點(diǎn)個(gè)數(shù)為 0,正確藍(lán)點(diǎn)個(gè)數(shù)為 5,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (0, 5) 上面“放”一個(gè)點(diǎn)。



        第 1 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)變成 1,正確藍(lán)點(diǎn)個(gè)數(shù)還是為 5,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (15) 上面“放”一個(gè)點(diǎn)。





        第 2 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)變成 2,正確藍(lán)點(diǎn)個(gè)數(shù)還是為 5,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (25) 上面“放”一個(gè)點(diǎn)。





        第 3 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)還是為 2,正確藍(lán)點(diǎn)個(gè)數(shù)變成 4,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (24) 上面“放”一個(gè)點(diǎn)。





        第 4 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)變成 3,正確藍(lán)點(diǎn)個(gè)數(shù)還是為 4,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (34) 上面“放”一個(gè)點(diǎn)。





        第 5 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)變成 4,正確藍(lán)點(diǎn)個(gè)數(shù)還是為 4,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (44) 上面“放”一個(gè)點(diǎn)。





        第 6 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)還是為 4,正確藍(lán)點(diǎn)個(gè)數(shù)變成 3,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (43) 上面“放”一個(gè)點(diǎn)。





        第 7 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)變成 5,正確藍(lán)點(diǎn)個(gè)數(shù)還是為 3,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (53) 上面“放”一個(gè)點(diǎn)。





        第 8 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)還是為 5,正確藍(lán)點(diǎn)個(gè)數(shù)變成 2,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (52) 上面“放”一個(gè)點(diǎn)。





        第 9 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)還是為 5,正確藍(lán)點(diǎn)個(gè)數(shù)變成 1,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (51) 上面“放”一個(gè)點(diǎn)。





        第 10 步:接著將線段延斜上方平移一下,現(xiàn)在正確紅點(diǎn)個(gè)數(shù)還是為 5,正確藍(lán)點(diǎn)個(gè)數(shù)變成 0,在對應(yīng)的網(wǎng)格圖中,在坐標(biāo) (50) 上面“放”一個(gè)點(diǎn)。



        流程結(jié)束,前戲做完,下面介紹 ROC 和 AUC。



        8


        ROC 和 AUC


        ROC 全稱是 receiver operating characteristic,ROC 曲線中文叫做接收者操作特征曲線。為什么叫這個(gè)名字其實(shí)我也不知道,也不想知道,又繞口又惡心。


        我們只需要知道網(wǎng)格圖那些點(diǎn)連成的線就是 ROC 曲線。




        ROC 曲線以下和橫軸豎軸包圍起來的面積叫做 AUC,全稱是 Area Under the Curve,這倒是怪形象的。陰影包含 21 個(gè)小正方形,不難看出其面積為 21。



        通常為了比較不同模型好壞,AUC 會做一個(gè)標(biāo)準(zhǔn)化,即用陰影面積除以整個(gè)網(wǎng)格面積,則得到 21/25 = 0.84。



        一般來說,AUC 越高,模型越好。



        9


        模型背景


        在絕大多數(shù)背景下選擇分類模型,下圖框出的點(diǎn) (44) 的對應(yīng)模型“最優(yōu)”,只有一個(gè)假負(fù)類假正類的錯誤。



        如果賦予醫(yī)用背景,那么 (25) 點(diǎn)對應(yīng)的模型最優(yōu),沒有假負(fù)類在同等條件下最少。


        如果賦予郵件背景,那么 (53) 點(diǎn)對應(yīng)的模型最優(yōu),沒有假正類假負(fù)類在同等條件下最少。




        10


        模型選擇


        為了解釋本節(jié)內(nèi)容,注意數(shù)據(jù)稍微有些改變。

        模型一:隨機(jī)模型

        仔細(xì)觀看紅點(diǎn)藍(lán)點(diǎn)的位置,然后想想將線段往斜上方平移,總是有大概一半情況分類錯誤。



        用上述方法繪制 ROC 曲線并計(jì)算 AUC 得到 0.52



        結(jié)論:隨機(jī)模型的 AUC 在 0.5 左右。


        模型二:OK 模型

        模型二比隨機(jī)模型稍微好些。




        將線段往斜下方平移,用上述方法繪制 ROC 曲線并計(jì)算 AUC 得到 0.8



        模型三:完美模型

        模型三是完美模型。



        將線段往斜下方平移,用上述方法繪制 ROC 曲線并計(jì)算 AUC 得到 1,下圖點(diǎn) (5, 5) 對應(yīng)的模型是完美的,沒有任何分類錯誤。



        模型四:超爛模型?

        下圖的模型是超爛模型么?



        將線段往斜上方平移,用上述方法繪制 ROC 曲線并計(jì)算 AUC 得到 0。



        比較上述四個(gè)模型的 AUC。



        超爛模型真的比隨機(jī)模型爛嗎?其實(shí)不然,其實(shí)將爛模型,哦不對,爛線段,轉(zhuǎn)個(gè) 180 度,是不是變成完美模型了?AUC 是不是為 1 了?



        就好比一個(gè)天天預(yù)測股價(jià)漲跌的人,正確率為 0,你根據(jù)他的預(yù)測反向操作,你就是股神。


        所以最爛模型是隨機(jī)模型!


        個(gè)人微信(如果沒有備注不拉群!
        請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



        下載1:何愷明頂會分享


        AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


        下載2:終身受益的編程指南:Google編程風(fēng)格指南


        AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



        下載3 CVPR2021

        AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

        點(diǎn)亮 ,告訴大家你也在看




        瀏覽 25
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 亚洲春色奇米影视 | 一级伦奷片高潮无码看了5 | 肏屄视频| 一区二区三区四区在线看 | 公车上强行被灌满脓液h视频 |