1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如何量化樣本偏差對信貸風(fēng)控模型的影響?

        共 5518字,需瀏覽 12分鐘

         ·

        2021-03-14 20:10

        風(fēng)控是信貸業(yè)務(wù)的核心,業(yè)務(wù)實(shí)踐中經(jīng)常會出現(xiàn)樣本選擇性偏差(sample bias),從而影響模型效果,影響信貸業(yè)務(wù)。而很多風(fēng)控模型也都只能基于有偏樣本建立。對于樣本偏差對風(fēng)控模型的影響,很多模型同學(xué)一般只是定性分析,為此,本文將嘗試從量化的角度探討這一點(diǎn),希望能給大家一些方法論上的啟發(fā)。
        目錄

        1. 信貸業(yè)務(wù)中的樣本偏差來源

        2. 信貸業(yè)務(wù)中的風(fēng)控模型術(shù)語
        3. 拒絕推斷方法概述
        4. 仿真實(shí)驗(yàn)設(shè)計(jì)評價
        5. 總結(jié)


        信貸業(yè)務(wù)中的樣本偏差來源

        01

        信貸業(yè)務(wù)大致分為營銷獲客、貸前授信、貸中動支等幾個環(huán)節(jié)。如圖1所示,每一個環(huán)節(jié)都有一定的風(fēng)控措施,用以篩選客群。在互金行業(yè)信貸業(yè)務(wù)中,目前授信通過率大致在10%~30%,其中10%+又是較為普遍的數(shù)字。因此,大約90%的客戶便失去了授信資格,也就沒有借款機(jī)會。

        圖 1 - 信貸業(yè)務(wù)中獲客-授信-動支-放款流程

        在風(fēng)控模型迭代時,我們只能基于還款表現(xiàn)來定義樣本的好壞,并組成建模樣本。一些無法獲知其還款表現(xiàn)的樣本,造成了樣本偏差。失去還款表現(xiàn)的樣本主要來源自以下幾類:

        1. 授信拒絕客戶

        2. 授信通過但從未動支的睡眠戶

        3. 動支拒絕客戶

        4. 放款失敗客戶

        我們補(bǔ)充介紹圖1中的二次風(fēng)控業(yè)務(wù)概念。其誕生背景是,在聯(lián)合貸業(yè)務(wù)中,銀監(jiān)會要求資金方(銀行、消費(fèi)金融等機(jī)構(gòu))必須承擔(dān)自主風(fēng)控能力,不可將核心風(fēng)控交付上游資產(chǎn)方等第三方機(jī)構(gòu)完成。上游資產(chǎn)方一般要求資金方的通過率不低于某個值(如80%)。

        如圖2所示,對于第一家資金方拒絕的借款申請訂單,仍會路由給下一家,直至放款通過。因此,對于在金融平臺端便擁有借款申請訂單的所有貸后表現(xiàn)數(shù)據(jù)。

        圖 2 - 一次與二次風(fēng)控業(yè)務(wù)場景

        信貸業(yè)務(wù)中的風(fēng)控模型術(shù)語

        02

        為提高自動化審批效率,我們在業(yè)務(wù)實(shí)踐中大量借助模型來對客戶排序、篩選、分群,并對不同人群制定不同的策略。大數(shù)據(jù)風(fēng)控的套路都大同小異,貴在精細(xì)化運(yùn)營。

        模型并不神秘,其本質(zhì)是從歷史樣本中擬合輸入和輸出之間的關(guān)系,并將該規(guī)律應(yīng)用于新輸入的預(yù)測。模型的優(yōu)勢在于變量含義清晰(目標(biāo)變量決定了模型分?jǐn)?shù)的含義),區(qū)分能力強(qiáng)(融合了大量弱變量的信息),能讓決策更為科學(xué)。

        為便于理解,我們約定特征向量 ,目標(biāo)變量  。同時,定義一些模型術(shù)語概念:

        • AR(Accept Reject)模型:以是否通過定義Y (1 = accept,0 = reject),以全量申請樣本構(gòu)建,用以預(yù)測 。

        • KGB(Known Good Bad)模型:以是否違約定義Y (1 = bad,0 = good),以已知好壞的通過樣本構(gòu)建,用以預(yù)測  。

        • AGB(All Good Bad)模型:以是否違約定義Y (1 = bad,0 = good),以已知好壞的通過樣本和(假設(shè)真實(shí)已知好壞)拒絕樣本聯(lián)合構(gòu)建,用以預(yù)測 。

        • IAGB(Inferred All Good Bad)模型:以是否違約定義Y(1 = bad,0 = good),以已知好壞的通過樣本和推斷好壞的拒絕樣本聯(lián)合構(gòu)建,用以預(yù)測 

        注意,"通過"的概念包括貸前授信申請通過、貸中借款申請通過、放款申請通過等任意一種,并不局限于授信通過。

        圖 3 - AR、AGB、IAGB、KGB模型的關(guān)系

        該如何理解AR模型和KGB模型呢?

        (1)AR模型刻畫了金融機(jī)構(gòu)對客戶資質(zhì)的認(rèn)可度。認(rèn)可度這個詞比較抽象,你也可以理解為是否是目標(biāo)客群。雖然當(dāng)前授信策略可基于風(fēng)險(xiǎn)、收入(償債能力)、利潤等多種角度,但主流依據(jù)仍然是風(fēng)險(xiǎn)維度。因此,AR模型將線上復(fù)雜的一套風(fēng)控系統(tǒng)進(jìn)行了抽象,對風(fēng)險(xiǎn)也具有較好的排序性。在實(shí)踐中,AR模型的KS基本都能達(dá)到50%以上。

        (2)KGB模型則是對AR模型在風(fēng)險(xiǎn)識別上的補(bǔ)充。打個比方,如果AR分在0~100分,分?jǐn)?shù)越高,代表通過的概率越高。如果按歷史通過的標(biāo)準(zhǔn)制定閾值,通過的標(biāo)準(zhǔn)為80分。但是,由于這個AR模型并非十全十美,在通過的客群上,我們發(fā)現(xiàn)仍存在一些風(fēng)險(xiǎn)較高的客戶。因此,我們基于通過樣本構(gòu)建KGB模型,對客群再次篩選,從而不斷降低通過客群的風(fēng)險(xiǎn)水平。

        (3)AR模型和KGB模型在各自建模樣本上是無偏的。AR模型在全量樣本上是無偏的,KGB模型在通過樣本上是無偏的。但是,KGB相對于全量樣本是有偏的。

        拒絕推斷方法概述

        03

        如圖3所示,下限是KGB模型,上限是AGB模型,經(jīng)過拒絕推斷改良后的模型稱為IAGB模型。于是,問題的核心在于如何引入正向信息,讓IAGB模型逼近上限。我們很難評估信息是正向,還是負(fù)向的。因此,IAGB模型的性能可能會反而比不上KGB模型,這就是推斷好壞標(biāo)簽所帶來的風(fēng)險(xiǎn)。

        若能準(zhǔn)確推斷每個拒絕樣本的真實(shí)標(biāo)簽,那么IAGB模型就等于AGB模型。很可惜,現(xiàn)實(shí)中不可能做到這點(diǎn),我們只能在KGB模型的基礎(chǔ)上通過某些方法將其修正為IAGB模型。

        為更直觀理解這一點(diǎn),我們假設(shè)只采用一個多頭借貸變量來建立模型。理由是,多頭變量是相對客觀,且具有明確業(yè)務(wù)含義的變量。一般情況下,多頭變量取值越大,違約風(fēng)險(xiǎn)越高。這能幫助我們清晰看到差異性。

        我們對放款樣本和全量樣本設(shè)置相同的分箱邊界,統(tǒng)計(jì)各分箱內(nèi)的WOE值,并通過線性模型擬合。如圖4所示,全量樣本上的WOE曲線(橙色)更為陡峭,而放款樣本上的WOE曲線(藍(lán)色)則相對平緩。這兩根曲線之間的差異性,就是KGB模型與AGB模型之間差異的體現(xiàn)。

        而如何將Accept WOE曲線修正為All WOE曲線,就是我們所要探索的核心問題。

        圖 4 - 通過和全量樣本上的WOE趨勢對比

        回顧在《風(fēng)控建模中的樣本偏差與拒絕推斷》中,我們介紹了很多拒絕推斷(reject inference)方法的操作步驟。在本文中,筆者選擇了3個有代表性的方法,希望從更高的視角分析背后的思想。

        方案一: Re-weighting(重新加權(quán)法)

        重新加權(quán)法只是調(diào)整了通過的好壞樣本的權(quán)重,并沒有把拒絕樣本加入建模樣本?;舅枷氚ǎ?/span>

        1. 為更精細(xì)賦值推斷的調(diào)整因子,可將樣本經(jīng)過一定風(fēng)險(xiǎn)排序后,劃分多個區(qū)間后,對每個區(qū)間分別賦予一個調(diào)整因子。

        2. 拒絕樣本的風(fēng)險(xiǎn)高于通過樣本,這意味著調(diào)整因子都大于1。在當(dāng)前風(fēng)控系統(tǒng)有效的前提下,該假設(shè)成立。

        其操作步驟為:

        1. 在通過樣本上構(gòu)建KGB模型,并對全量樣本打分  。

        2. 將全量樣本按 降序排列,等頻分箱,統(tǒng)計(jì)每個箱中通過和拒絕樣本數(shù)。

        3. 計(jì)算每個分箱中通過的好壞樣本的權(quán)重 

        4. 引入樣本權(quán)重,利用通過好壞樣本重新構(gòu)建KGB模型。

        符號含義可參考下表。

        利用該方法,我們對WOE值進(jìn)行調(diào)整,得到圖5。對比圖4和圖5,可以發(fā)現(xiàn)相對于Accept WOE曲線,Cal WOE曲線與All WOE曲線更為接近。說明拒絕推斷后的模型效果確實(shí)帶來一定的改善。

        圖 5 - 通過和全量樣本上的WOE趨勢對比

        方案二: 模糊展開法

        由于KGB模型在通過樣本上是無偏的,我們只需要對拒絕樣本進(jìn)行一定的修正。如果說直接賦予0或1的標(biāo)簽,推斷失誤的風(fēng)險(xiǎn)較大。那么,我們就引入權(quán)重項(xiàng)來模糊表達(dá)?;谝陨纤枷?,其操作步驟為:

        1. 在通過樣本上構(gòu)建KGB模型,得到 ,并對拒絕樣本打分。

        2. 將每條拒絕樣本復(fù)制為不同類別,不同權(quán)重的兩條:一條標(biāo)記為1,權(quán)重為 。另一條標(biāo)記為0,權(quán)重為  ;

        3. 利用變換后的拒絕樣本和放貸已知好壞樣本(類別不變,權(quán)重設(shè)為1)建立AGB模型。

        圖 6 - 模糊展開法(Fuzzy Augmentation)

        方案三: 兩階段法(雙評分卡)

        根據(jù)全概率公式,我們可以將  表達(dá)為:

        其中:

        •  ,這是AR模型的預(yù)測結(jié)果。

        •  ,這是KGB模型的預(yù)測結(jié)果。

        因此,如果能獲知  ,也就是根據(jù)拒絕樣本也構(gòu)建一個"KGB"模型,問題便可迎刃而解。

        根據(jù)式(1)可知,IAGB模型相對于KGB模型而言,唯一可以帶來增量信息的便是AR模型分。AR分是唯一連接通過樣本和拒絕樣本之間的橋梁。我們需要思考該如何利用這部分信息。

        如圖7所示,AR分和KGB分在通過樣本上都是無偏的,因此可在通過樣本上回歸擬合兩者的關(guān)系,得到  。我們將得到的回歸函數(shù) 應(yīng)用在拒絕樣本上。

        但這個函數(shù)仍然是有偏的,因?yàn)槠淙匀恢挥玫搅送ㄟ^樣本上的信息。因此,接下來我們再利用模糊展開法建立AGB模型。

        圖 7 - 兩階段評分卡模型

        仿真實(shí)驗(yàn)設(shè)計(jì)評價

        04

        這些拒絕推斷方法可能大家都已經(jīng)熟悉,最大的疑惑在于——既然拒絕樣本都失去表現(xiàn),那如何實(shí)踐驗(yàn)證效果呢?打開思維的束縛,樣本偏差是相對的,任何樣本集經(jīng)過排序后總能創(chuàng)造出偏差條件。

        借鑒二次風(fēng)控的做法,我們可以在放款通過的樣本上構(gòu)建實(shí)驗(yàn)。對于滿足足夠長的還款表現(xiàn)期的放款樣本,都擁有已知的貸后表現(xiàn)。我們一共設(shè)計(jì)了3個實(shí)驗(yàn)。

        實(shí)驗(yàn)一:驗(yàn)證樣本偏差對KGB模型的影響。

        1. 將100%的放款樣本作為全量總體,只考慮歷史訓(xùn)練的風(fēng)險(xiǎn)分(online score)當(dāng)作線上風(fēng)控系統(tǒng)唯一的決策變量,對樣本進(jìn)行排序,并設(shè)置通過率為30%(或其他比例),人為制造樣本偏差。事實(shí)上風(fēng)控系統(tǒng)是一個特別復(fù)雜的系統(tǒng),包括客群細(xì)分策略、資信數(shù)據(jù)查詢策略等。這里抽象為一個模塊以簡化流程。

        2. 利用2020年5~6月通過的30%樣本(訓(xùn)練集)建立KGB模型,并在2020年7~8月(測試集)上進(jìn)行評估,作為模型上線應(yīng)用的模擬。

        3. 在2020年7~8月(測試集)上,根據(jù)online_score排序后,設(shè)置不同的通過率(30% ~ 100%),并用KGB模型在通過樣本上測算KS,觀察KS的效果變化。

        事實(shí)上,前文中所說的通過樣本和全量樣本也都是如此設(shè)計(jì)而來。

        圖 8 - 驗(yàn)證驗(yàn)證樣本偏差對KGB模型的影響

        如圖8所示,以上操作步驟真實(shí)反映了我們?nèi)粘5鶮GB模型的過程,即每次都只能在通過樣本上構(gòu)建模型,并在通過樣本上驗(yàn)證模型效果。實(shí)驗(yàn)結(jié)果如圖9所示。為了量化樣本偏差的影響,我們采用KS和PSI兩項(xiàng)指標(biāo)。

        1. KS指標(biāo):衡量模型對好壞的區(qū)分度。由于測試集上全量樣本都有已知的好壞標(biāo)簽,對于通過客群計(jì)算KS。KS越大,代表模型區(qū)分度越好。

        2. PSI指標(biāo):衡量模型應(yīng)用樣本相對于建模樣本的分?jǐn)?shù)偏差。PSI越大,說明樣本群體分?jǐn)?shù)分布差異性越大。

        圖 9 - 設(shè)置不同通過率下KGB模型KS和PSI的變化

        我們發(fā)現(xiàn),在對標(biāo)30%的通過樣本上,模型的KS達(dá)到最高(19%~20%),而隨著樣本偏差增大,KS開始下降,直至16%。這個現(xiàn)象說明:

        如果只是利用KGB模型的排序性,拒絕推斷并不是必需環(huán)節(jié),因?yàn)樽饔玫饺繕颖旧?,雖然KS會下降,即便我們不知道衰減程度有多大,但可能仍然具有一定區(qū)分度。

        將上述結(jié)論進(jìn)一步推廣:在頭部優(yōu)質(zhì)客群上所建立的模型,在全量客群上效果自然會衰減。這解釋了用單一機(jī)構(gòu)的Y所建立的KGB模型,在其他機(jī)構(gòu)上可能完全失效的現(xiàn)象。如果你測試過三方數(shù)據(jù)商提供的評分產(chǎn)品,你就會有更深的體會。

        實(shí)驗(yàn)二:探索AR與KGB模型混合使用方法。

        模型設(shè)計(jì)時一定要預(yù)先考慮使用場景。在模型應(yīng)用環(huán)節(jié),我們提出了3種方案:

        (1)AR模型和KGB模型交叉使用,組成聯(lián)合分布,篩選出目標(biāo)客群。這是因?yàn)锳R模型學(xué)到了歷史風(fēng)控系統(tǒng)的經(jīng)驗(yàn),拒絕樣本一般比通過樣本風(fēng)險(xiǎn)更高,因此AR模型對好壞仍然具有一定的排序性。事實(shí)上,這是目前風(fēng)控策略同學(xué)使用最多的方法。

        (2)AR模型預(yù)篩出最好的部分客群,KGB模型在這部分客群上作用。我們假設(shè)AR模型可以預(yù)先幫助KGB模型減少樣本偏差。該方案的合理性在于,如果授信通過率為10%,那么根據(jù)AR分?jǐn)?shù)便可攔截70%的人群,對于剩余的30%人群,我們再利用KGB模型進(jìn)行排序。

        (3)利用拒絕推斷技術(shù),將AR模型和KGB模型融合為一個IAGB模型分。接下來再利用IAGB模型分進(jìn)行決策。

        圖 10 - 利用AR分?jǐn)?shù)幫助降低樣本偏差

        實(shí)驗(yàn)三:探索利用拒絕推斷技術(shù)構(gòu)建IAGB模型。

        在實(shí)踐中,我們嘗試使用各類方法,但是由于樣本、特征等差異性,實(shí)驗(yàn)結(jié)果可能并不可靠,這里并不展示實(shí)驗(yàn)結(jié)果。但是,筆者更為推薦大家利用兩階段雙評分卡來進(jìn)行拒絕推斷探索。

        在真實(shí)業(yè)務(wù)中,除了二次風(fēng)控外,在貸前授信環(huán)節(jié)我們確實(shí)沒有Y數(shù)據(jù)。此時可以通過閾值外的間諜樣本(spy)進(jìn)行評估效果。

        圖 11 - 申請訂單的3種狀態(tài)

        總結(jié)

        05

        針對真實(shí)信貸業(yè)務(wù)中存在的樣本偏差問題,本文對以下幾個問題提出了一些參考解決方案。

        1. 如何根據(jù)真實(shí)業(yè)務(wù)場景,創(chuàng)造樣本偏差條件?

        2. 如何驗(yàn)證樣本偏差對KGB模型的影響?

        3. 如何驗(yàn)證拒絕推斷方法的有效性?

        4. AR模型和KGB模型如何協(xié)同決策?

        任何科學(xué)決策都離不開數(shù)據(jù)支持,拒絕推斷的難點(diǎn)存在于多個方面:

        1. 在某些場景下,拒絕樣本的真實(shí)標(biāo)簽缺失,造成效果好壞評估上的不可能。

        2. 很多方法都有潛在的假設(shè),需要試湊法來多次實(shí)驗(yàn),很難總結(jié)出固定的方法論。

        但是,我們總是希望獲取更多的正向信息,措施包括:利用AR分、拒絕標(biāo)注等。需要指出的是,本文也只是提出了一些方法論上的指導(dǎo),所給出的數(shù)據(jù)結(jié)論可能并不具有普世價值。歡迎大家探索嘗試!


        作者:求是汪在路上(知乎ID)  上海新金融風(fēng)險(xiǎn)實(shí)驗(yàn)室 風(fēng)控算法專家

        作者知乎:https://www.zhihu.com/people/zayn-m/posts



        瀏覽 108
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            性爱网在线播放 | 娇喘虐囚禁调教h | 在线中文字幕一区 | 操操操操操操操逼 | 夜夜嗨视频 | 人人操人人av | 国产成人片无码视频在线观看 | free×性护士vidos中国 | 青娱乐国产视频 | 中文字幕成人在线 |