風(fēng)控ML[19] | 風(fēng)控建模中的LR模型為什么出場(chǎng)率這么高?

00 Index
01 LR是什么?
02 LR在金融領(lǐng)域有哪些優(yōu)勢(shì)
03 LR的算法推導(dǎo)過(guò)程
04 LR的重要參數(shù)
05 LR與評(píng)分卡
06 總結(jié)一下
?? 01 LR是什么?
LR全稱(chēng)是 Logistic Regression,中文名為邏輯回歸模型。雖然名字里帶有“回歸”二字,但其實(shí)是屬于分類(lèi)模型,屬于線(xiàn)性分類(lèi)器。既然LR里有“回歸”,那就說(shuō)明了它和回歸多少有些淵源了。我們知道線(xiàn)性回歸模型的一般表達(dá)形式如下:
θθθθ我們還可以用矩陣來(lái)表示上面這個(gè)方程:
其中,θ_0被我們稱(chēng)為截距(intercept),其余的θ被稱(chēng)為系數(shù)(coefficient)。而我們知道,線(xiàn)性回歸模型的輸出值是連續(xù)型,如果要將其映射成0和1的二分類(lèi)值的話(huà),就需要引入 Link Function,也就是我們常說(shuō)的 Sigmoid函數(shù):
它是一個(gè)S型的曲線(xiàn)函數(shù),當(dāng)z趨向于正無(wú)窮,它趨向于1,而z趨向于負(fù)無(wú)窮,它趨向于0,所以它可以讓預(yù)測(cè)結(jié)果都映射到0-1之間,有點(diǎn)像歸一化。
我們把線(xiàn)性回歸的θ代入到Sigmoid函數(shù)中,可以得到邏輯回歸的一般表現(xiàn)形式:
如果我們對(duì)二元邏輯回歸取odds(形似幾率,),其實(shí)是可以得到線(xiàn)性回歸的,不信?請(qǐng)看:
θ θ θ所以其實(shí)我們的核心工作就是求解z中的θ,讓其可以擬合數(shù)據(jù)得到相對(duì)準(zhǔn)確的預(yù)測(cè)結(jié)果。
?? 02 LR在金融領(lǐng)域有哪些優(yōu)勢(shì)
這個(gè)問(wèn)題其實(shí)一個(gè)很重要的優(yōu)勢(shì)就是可解釋性,當(dāng)然,還有好幾點(diǎn):
-
可以解釋性好:LR模型概率輸出可以轉(zhuǎn)化為對(duì)應(yīng)的二分類(lèi)概率,具備良好的可解釋性,這對(duì)于金融行業(yè)而言非常重要,可以幫助業(yè)務(wù)人員更好理解模型以及模型內(nèi)部的邏輯。
-
算法簡(jiǎn)單快速:LR算法是一種簡(jiǎn)單快速的模型,數(shù)據(jù)量大的情況下可以一定程度上減輕計(jì)算壓力,大大提高了模型計(jì)算效率。
-
適用范圍廣:LR模型可以應(yīng)用于多種金融風(fēng)險(xiǎn)預(yù)測(cè),如信用風(fēng)險(xiǎn)、違約風(fēng)險(xiǎn)、欺詐風(fēng)險(xiǎn)等等,具有良好的適用性。
-
模型穩(wěn)定性好:LR模型在面對(duì)缺失值、異常值、過(guò)擬合等常見(jiàn)問(wèn)題時(shí)表現(xiàn)得比較穩(wěn)定,可以有效應(yīng)對(duì)金融領(lǐng)域多種異常情況。
綜上所述,LR算法在金融領(lǐng)域中得到廣泛應(yīng)用,依托于其解釋性好、算法簡(jiǎn)單快速、適用范圍廣和模型穩(wěn)定性好等優(yōu)點(diǎn)。但是,LR模型也存在一些缺點(diǎn):
-
不能處理非線(xiàn)性關(guān)系:LR模型只能處理線(xiàn)性關(guān)系,對(duì)于非線(xiàn)性關(guān)系無(wú)法很好地進(jìn)行建模。
-
劣化快:當(dāng)自變量與因變量之間的關(guān)系非常復(fù)雜時(shí),LR模型的表現(xiàn)可能會(huì)迅速劣化。
-
非常依賴(lài)數(shù)據(jù)質(zhì)量:LR模型對(duì)數(shù)據(jù)質(zhì)量要求比較高,如果數(shù)據(jù)存在較多噪聲或缺失值等問(wèn)題,模型的表現(xiàn)可能會(huì)受到嚴(yán)重影響。
因此,需要根據(jù)具體情況綜合考慮LR模型的優(yōu)劣,并在合適的場(chǎng)景下進(jìn)行應(yīng)用。
?? 03 LR的算法推導(dǎo)過(guò)程
我會(huì)簡(jiǎn)單易懂地介紹一下邏輯回歸的推導(dǎo)過(guò)程。邏輯回歸是一種二分類(lèi)算法,它的目標(biāo)是學(xué)習(xí)一個(gè)適當(dāng)?shù)哪P?,能夠預(yù)測(cè)一個(gè)特定的輸入屬于哪一類(lèi)。
首先,我們需要用線(xiàn)性回歸模型來(lái)表示預(yù)測(cè)結(jié)果:
其中,代表預(yù)測(cè)結(jié)果,是權(quán)重系數(shù),是輸入特征,是偏移量(也稱(chēng)為截距)。
但是,線(xiàn)性回歸模型的輸出值是一個(gè)連續(xù)變量,不能直接用于二分類(lèi)問(wèn)題的輸出。這時(shí),我們需要引入一個(gè)sigmoid函數(shù)將線(xiàn)性回歸模型的輸出值映射到[0,1]之間。
sigmoid函數(shù)的定義如下:
其中,z表示線(xiàn)性回歸模型的輸出值(即 )。
sigmoid函數(shù)經(jīng)過(guò)變換,可得到輸出值的概率表示:
這里,表示對(duì)于給定的輸入特征,預(yù)測(cè)結(jié)果為1的概率,表示預(yù)測(cè)結(jié)果為0的概率。
接著,我們需要定義一個(gè)目標(biāo)函數(shù)來(lái)評(píng)估模型的預(yù)測(cè)能力。通常,我們采用最大似然估計(jì)來(lái)求解權(quán)重系數(shù)和偏移量(即和)。
具體而言,我們可以構(gòu)建一個(gè)似然函數(shù)L來(lái)表示給定樣本集合下模型產(chǎn)生預(yù)測(cè)結(jié)果的概率:
其中,表示每個(gè)樣本真實(shí)的標(biāo)簽。
為了簡(jiǎn)化目標(biāo)函數(shù)的計(jì)算,我們可以對(duì)似然函數(shù)L取對(duì)數(shù),得到對(duì)數(shù)似然函數(shù):
最終,我們的目標(biāo)是求解使對(duì)數(shù)似然函數(shù)ln(L)最大的權(quán)重系數(shù)w和偏移量b,一般采用梯度下降法來(lái)求解。
?? 04 LR的重要參數(shù)
邏輯回歸(LR)模型的重要參數(shù)包括以下幾點(diǎn):
-
正則化參數(shù)(Regularization Parameter):用于控制模型的復(fù)雜度,并防止過(guò)擬合。常見(jiàn)的正則化方法有 L1 正則化和 L2 正則化。 -
學(xué)習(xí)率(Learning Rate):梯度下降算法中每次迭代更新參數(shù)時(shí)的步長(zhǎng)大小。如果學(xué)習(xí)率過(guò)大,可能導(dǎo)致無(wú)法收斂;如果學(xué)習(xí)率過(guò)小,則會(huì)使得算法收斂速度緩慢。 -
最大迭代次數(shù)(Maximum Iterations):指定最大的迭代次數(shù),如果達(dá)到了最大迭代次數(shù)仍未收斂,則停止訓(xùn)練。 -
收斂閾值(Tolerance):用于判斷算法是否已經(jīng)收斂,當(dāng)兩次迭代之間的代價(jià)函數(shù)改變量小于收斂閾值時(shí),認(rèn)為算法已經(jīng)收斂。 -
求解器(Solver):LR 模型在求解參數(shù)時(shí)可以使用不同的求解器,例如梯度下降、牛頓法等。不同的求解器對(duì)于不同的數(shù)據(jù)集和問(wèn)題有著不同的表現(xiàn)。 -
類(lèi)別權(quán)重(Class Weight):如果分類(lèi)問(wèn)題中正負(fù)樣本的比例非常失衡,我們可以通過(guò)類(lèi)別權(quán)重來(lái)平衡樣本,以便更好地學(xué)習(xí)到少數(shù)類(lèi)別的特征。通常情況下,將少數(shù)類(lèi)別的樣本賦予更高的權(quán)重。
對(duì)于這些重要參數(shù),可以通過(guò)以下方式進(jìn)行調(diào)參:
-
交叉驗(yàn)證:使用交叉驗(yàn)證技術(shù)對(duì)模型參數(shù)進(jìn)行調(diào)整,可以得到更可靠的模型效果。 -
網(wǎng)格搜索:使用網(wǎng)格搜索技術(shù)對(duì)模型參數(shù)進(jìn)行調(diào)整,選取不同的參數(shù)組合進(jìn)行模型訓(xùn)練和評(píng)估,以找到最優(yōu)解。 -
隨機(jī)搜索:使用隨機(jī)搜索技術(shù)對(duì)模型參數(shù)進(jìn)行調(diào)整,隨機(jī)選取一些參數(shù)組合進(jìn)行訓(xùn)練和評(píng)估,以找到最優(yōu)解。 -
經(jīng)驗(yàn)法則:根據(jù)經(jīng)驗(yàn)法則對(duì)模型參數(shù)進(jìn)行調(diào)整,如對(duì)學(xué)習(xí)率進(jìn)行指數(shù)級(jí)別的遞減。
通過(guò)以上方法,可以對(duì)LR模型的重要參數(shù)進(jìn)行調(diào)參,以達(dá)到最優(yōu)的模型效果。
?? 05 LR與評(píng)分卡
評(píng)分卡(Scorecard)是一種廣泛應(yīng)用于信用風(fēng)險(xiǎn)評(píng)估、反欺詐等領(lǐng)域的規(guī)則集合,用于對(duì)個(gè)人或企業(yè)進(jìn)行風(fēng)險(xiǎn)評(píng)估,并根據(jù)評(píng)分結(jié)果進(jìn)行決策。
在使用 LR 模型構(gòu)建評(píng)分卡時(shí),通常需要進(jìn)行如下步驟:
-
數(shù)據(jù)預(yù)處理:包括數(shù)據(jù)清洗、缺失值處理、異常值處理等。
-
特征工程:選擇和構(gòu)造能夠區(qū)分好壞客戶(hù)的特征變量,例如借款人的年齡、收入、負(fù)債情況等。
-
模型訓(xùn)練:將選定的特征變量輸入到 LR 模型中進(jìn)行訓(xùn)練,得到模型參數(shù)。
-
計(jì)算分?jǐn)?shù):使用模型參數(shù)和特征變量計(jì)算評(píng)分卡上的得分,通常可以采用
WOE(Weight of Evidence)編碼的方式將連續(xù)變量離散化,并使用IV(Information Value)來(lái)評(píng)估特征的重要性。 -
設(shè)計(jì)評(píng)分卡:將得分映射到對(duì)應(yīng)的評(píng)分類(lèi)別上,例如將得分劃分為 A \B\C\D\E\F 等級(jí)別。
-
模型驗(yàn)證與維護(hù):對(duì)模型進(jìn)行驗(yàn)證和監(jiān)控,確保模型的準(zhǔn)確性和穩(wěn)定性,并及時(shí)更新評(píng)分卡以適應(yīng)新的業(yè)務(wù)需求和環(huán)境變化。
??假如已經(jīng)完成了LR的建模工作,那么要怎么輸出評(píng)分卡,給到業(yè)務(wù)部門(mén)使用?
具體可以按下面步驟來(lái)走:將模型參數(shù)導(dǎo)出:將訓(xùn)練得到的 LR 模型參數(shù)導(dǎo)出為 Excel 或 CSV 格式,以便業(yè)務(wù)部門(mén)方便查看。
-
計(jì)算基礎(chǔ)分值:在評(píng)分卡中,通常會(huì)設(shè)定一個(gè)基礎(chǔ)分值,用來(lái)表示最優(yōu)客戶(hù)的得分?;A(chǔ)分值可以根據(jù)歷史數(shù)據(jù)或領(lǐng)域?qū)<业呐袛噙M(jìn)行設(shè)定,一般情況下在 400 到 600 分之間。
-
計(jì)算評(píng)分卡得分:將 LR 模型參數(shù)和特征變量的 WOE 編碼對(duì)應(yīng)起來(lái),并根據(jù) IV 值來(lái)選擇重要的特征變量,然后結(jié)合基礎(chǔ)分值計(jì)算每個(gè)客戶(hù)的評(píng)分卡得分。具體計(jì)算方法為:將所有特征的 WOE 值乘以其對(duì)應(yīng)的回歸系數(shù),再將結(jié)果相加,最后加上基礎(chǔ)分值即可。關(guān)于WOE和IV的原理和計(jì)算公式,可以參考之前寫(xiě)的一篇文章:
《風(fēng)控ML[3] | 風(fēng)控建模的WOE與IV》 -
制作評(píng)分卡表格:將計(jì)算得到的評(píng)分卡得分制作成表格,并說(shuō)明不同得分區(qū)間所對(duì)應(yīng)的等級(jí)、風(fēng)險(xiǎn)等級(jí)等信息??梢允褂?Excel 或 PPT 等工具進(jìn)行制作。
-
發(fā)布評(píng)分卡:將評(píng)分卡表格以郵件、文檔等形式發(fā)送給業(yè)務(wù)部門(mén),并提供必要的說(shuō)明和培訓(xùn),確保他們能夠正確理解和使用評(píng)分卡。
??下面舉一個(gè)案例:
假設(shè)你正在為一家銀行建立貸款違約風(fēng)險(xiǎn)評(píng)估模型,數(shù)據(jù)集包含了客戶(hù)的個(gè)人信息、信用歷史等多個(gè)變量。經(jīng)過(guò)數(shù)據(jù)預(yù)處理和特征工程后,你使用邏輯回歸(Logistic Regression,LR)算法進(jìn)行建模,并得到了如下的模型參數(shù):
| 變量名稱(chēng) | 回歸系數(shù) |
|---|---|
| 年齡 | -0.12 |
| 收入 | 0.08 |
| 負(fù)債比例 | 0.15 |
| 歷史違約 | 0.85 |
為了將 LR 模型轉(zhuǎn)換為評(píng)分卡,你需要進(jìn)行如下步驟:
-
計(jì)算基礎(chǔ)分值:在這個(gè)例子中,我們假設(shè)最優(yōu)客戶(hù)的得分為 500 分。因此,基礎(chǔ)分值可以設(shè)置為 500 分。
-
計(jì)算評(píng)分卡得分:根據(jù) WOE 編碼將連續(xù)變量離散化,并計(jì)算每個(gè)變量在不同分組下的 WOE 值。例如,對(duì)于年齡變量,可以將其分為四個(gè)區(qū)間,然后根據(jù)歷史數(shù)據(jù)計(jì)算出每個(gè)區(qū)間的違約率和非違約率,進(jìn)而計(jì)算出 WOE 值,如下表所示:
| 年齡區(qū)間 | 違約率 | 非違約率 | WOE |
|---|---|---|---|
| <30 | 0.20 | 0.80 | -0.60 |
| 30-40 | 0.10 | 0.90 | -1.20 |
| 40-50 | 0.05 | 0.95 | -1.70 |
| >50 | 0.03 | 0.97 | -2.10 |
然后將每個(gè)變量的 WOE 值乘以其對(duì)應(yīng)的回歸系數(shù),并相加,再加上基礎(chǔ)分值即可得到每個(gè)客戶(hù)的評(píng)分卡得分。
- 制作評(píng)分卡表格:將計(jì)算得到的評(píng)分卡得分制作成表格,并說(shuō)明不同得分區(qū)間所對(duì)應(yīng)的等級(jí)、風(fēng)險(xiǎn)等級(jí)等信息。例如,可以將得分劃分為 A\B\C\D等級(jí)別,如下表所示:
| 評(píng)分區(qū)間 | 得分范圍 | 等級(jí) | 風(fēng)險(xiǎn)等級(jí) |
|---|---|---|---|
| 700-850 | >= 700 | A | 低 |
| 650-699 | 650-699 | B | 中 |
| 600-649 | 600-649 | C | 高 |
| <600 | < 600 | D | 極高 |
- 發(fā)布評(píng)分卡:將評(píng)分卡表格以郵件、文檔等形式發(fā)送給業(yè)務(wù)部門(mén),并提供必要的說(shuō)明和培訓(xùn),確保他們能夠正確理解和使用評(píng)分卡。
以上是一個(gè)簡(jiǎn)單的評(píng)分卡制作示例,實(shí)際情況可能更加復(fù)雜。需要注意的是,在實(shí)際應(yīng)用中需要根據(jù)具體業(yè)務(wù)場(chǎng)景和實(shí)踐經(jīng)驗(yàn)進(jìn)行調(diào)整和優(yōu)化,同時(shí)進(jìn)行模型的驗(yàn)證和更新以保持模型的準(zhǔn)確性和穩(wěn)定性。
?? 06 總結(jié)一下
邏輯回歸(Logistic Regression,LR)在金融領(lǐng)域有廣泛應(yīng)用,可以用來(lái)進(jìn)行信用評(píng)級(jí)、欺詐檢測(cè)、客戶(hù)流失預(yù)測(cè)等任務(wù)。以下是LR在金融領(lǐng)域的應(yīng)用總結(jié):
首先,LR被廣泛應(yīng)用于信用評(píng)級(jí)領(lǐng)域。通過(guò)建立一個(gè)邏輯回歸模型,可以將不同客戶(hù)的信用風(fēng)險(xiǎn)進(jìn)行分類(lèi),為銀行或其他金融機(jī)構(gòu)提供決策依據(jù)。同時(shí),LR還可以作為其他分類(lèi)算法的基礎(chǔ)模型,如決策樹(shù)、支持向量機(jī)等。
其次,LR還可以用于欺詐檢測(cè)任務(wù)。金融欺詐通常伴隨著異常行為,如交易金額異常、地點(diǎn)異常等。通過(guò)建立一個(gè)LR模型,可以對(duì)這些異常行為進(jìn)行分類(lèi),從而及時(shí)發(fā)現(xiàn)并防止金融欺詐事件的發(fā)生。
此外,LR還可以用于客戶(hù)流失預(yù)測(cè)任務(wù)。在金融領(lǐng)域中,客戶(hù)流失是一個(gè)重要的問(wèn)題,因?yàn)槲驴蛻?hù)比留住老客戶(hù)更加困難。通過(guò)建立一個(gè)LR模型,可以預(yù)測(cè)某個(gè)客戶(hù)是否會(huì)流失,從而針對(duì)性地采取措施,留住該客戶(hù)并提高整體業(yè)績(jī)。
總之,邏輯回歸在金融領(lǐng)域具有廣泛應(yīng)用,可以幫助金融機(jī)構(gòu)進(jìn)行信用評(píng)級(jí)、欺詐檢測(cè)、客戶(hù)流失預(yù)測(cè)等任務(wù)。

廣而
告之

PICK ME
朋友們,阿Sam這邊也開(kāi)通了小紅書(shū)賬號(hào),也會(huì)定期發(fā)布一些機(jī)器學(xué)習(xí)、風(fēng)控挖掘、特征工程等相關(guān)工程(幾乎日更哦),歡迎大家也關(guān)注關(guān)注,哈哈~
