1. 2020第二屆廈門國際銀行數(shù)創(chuàng)金融杯建模大賽冠軍方案

        共 3338字,需瀏覽 7分鐘

         ·

        2021-12-18 23:09

        遙想當(dāng)年,由于工作繁忙沒來得及參加第一屆廈門國際銀行賽,心中存有些許遺憾,作為多年的風(fēng)控行業(yè)從業(yè)者,我們希望把自己工作積累的經(jīng)驗成功應(yīng)用在數(shù)據(jù)挖掘比賽中,在這一屆的比賽中,我們做到了,也拿到了冠軍。希望業(yè)內(nèi)人士也可以利用空閑時間多多參與比賽,提升自己的同時也是檢驗自己的業(yè)務(wù)能力不是嗎?雖然本次賽事的周期持續(xù)較長,但在這里還是要感謝主辦方,話不多說,下面我們將分享我們的建模冠軍方案。


        數(shù)據(jù)解析

        本次數(shù)創(chuàng)金融杯建模大賽算法部分主要預(yù)測的是銀行客戶的賬戶資金變動情況。具體為,通過充分挖掘客戶過去幾個季度的賬戶狀態(tài)、資金余額、賬戶行為與人口屬性,預(yù)測下一季度賬戶資金較本季度的變動情況,變動分為1:提升、0:維穩(wěn)、-1:下降。

        1. 數(shù)據(jù)初步探索
        首先,我們對整體客戶的關(guān)鍵屬性進行了分析,具體如下所示。

        關(guān)鍵發(fā)現(xiàn):
        • 1.客群中主要以41-60的中年人為主,高等級的白金與鉆石客戶占了總體的約15%,3個需預(yù)存的標(biāo)簽類別中,提升人群高達64%,最少的是下降人群,占15%;

        • 擁有活期存款的客戶占比最大,為總體的97.5%,其次為結(jié)構(gòu)性存款,占40.5%;占比最少的是資管與定期類產(chǎn)品,分別占總客戶數(shù)的2.4%與1.9%。

        • 季度末存款產(chǎn)品個數(shù)主要以1-2個為主,約占70%。


        2. 關(guān)鍵問題拆分
        根據(jù)以上題目設(shè)定,可以將該賽題主要拆分為以下幾個關(guān)鍵問題:
        (1) 訓(xùn)練集如何選???
        (2) 線下驗證方式該如何設(shè)置?
        (3) 由于數(shù)據(jù)量較小,哪些維度特征能夠最有效、最泛化地預(yù)測下季度客戶資金的變化情況?
        (4) 特征的提取方式:是否需要進行時間劃窗?如何避免特征穿越的信息泄露?
        (5) 模型采用多分類還是回歸?
        (6) 對于kappa 評價指標(biāo),是否存在后處理優(yōu)化的空間?

        針對以上問題,我們進行了一些簡單的數(shù)據(jù)探索與分析,得到了以下初步結(jié)論:

        (1) 訓(xùn)練集如何選取
        主辦方提供了3、4 季度的客戶作為訓(xùn)練集,后一年的1 季度客戶作為測試集。
        • 若線下訓(xùn)練時將3 季度的樣本包含在內(nèi),3 季度樣本會有相當(dāng)大一部分特征無法構(gòu)造,如客戶上季度的資金、特征情況、上季度與當(dāng)前季度差異等。

        • 若線下訓(xùn)練不包含3 季度樣本,則會損失一些訓(xùn)練樣本,而優(yōu)勢是4、1季度樣本特征可以都包含客戶上季度的特征情況。

        通過分析客戶的留存率,我們發(fā)現(xiàn),3、4 季度的重疊客戶數(shù)占到了3 季度客戶數(shù)的90%,占4 季度的82%。這說明4 季度樣本客戶大部分都能提取到其上季度對應(yīng)特征情況,且加入3 季度樣本并不會給整體樣本帶來許多新客戶。

        同時,通過一版簡單的baseline 比較,我們發(fā)現(xiàn),如我們所設(shè)想的,只包含4 季度樣本,且包含當(dāng)前季度與上季度客戶資金差異的模型,即上述提到的方法2),效果更好。
        (2) 線下驗證方式
        對4 季度訓(xùn)練集使用5 折交叉驗證的方式進行線下驗證,通過觀察分析,該驗證方式與線上提交的分?jǐn)?shù)結(jié)果差異非常小,且始終保持一致。

        (3) 由于數(shù)據(jù)量較小,如何找到最有效、最泛化的特征維度?
        這次賽題的數(shù)據(jù)量較小,4 季度訓(xùn)練樣本約為7.6 萬,在這種情況下,若一味地堆砌特征,一定會給模型帶來非常多的噪聲。因此,我們使用特征組的概念,一組組10 幾個地添加特征,觀察線下交叉驗證與線上分?jǐn)?shù)的情況,同時進行充分地特征篩選,保證每組特征是有效,而不是冗余的。

        (4) 特征的提取方式:如何提取特征?如何避免特征穿越帶來的信息泄露?
        特征的提取一直是算法競賽最重要的部分之一。在此次競賽中,我們秉持著特征值必須在不同樣本間公平可比這一思想,構(gòu)造了所有特征組。舉例來說,我們想統(tǒng)計客戶的動賬總次數(shù),當(dāng)有的客戶只有4 季度的行為數(shù)據(jù),而有的客戶3、4 季度數(shù)據(jù)都有,那么簡單的對客戶歷史動賬次數(shù)進行加和,就不能充分地表達這個維度的特征信息。為了公平可比,可以對該特征進行滑窗,分別構(gòu)造一組上季度動賬次數(shù)加和,與另一組過去兩個季度動賬次數(shù)加和,從而充分表達客戶行為。

        同時,為了避免特征信息泄露,構(gòu)造的特征不能用到下一季度的任何信息。另外,每構(gòu)造一組新特征,我們就會計算該組特征內(nèi)每個特征訓(xùn)練集與測試集的PSI,若線下交叉驗證提升非常多,但存在PSI 非常大的特征,那么我們并不會提交,會先分析、解決這個可能存在泄露的特征。

        (5) 模型采用多分類還是回歸?
        由于標(biāo)簽-1,0 ,1 存在著類似順序關(guān)系,回歸模型可能也是一種方式,但據(jù)線下交叉驗證Kappa 的情況,我們發(fā)現(xiàn)多分類模型還是優(yōu)于回歸模型。

        (6) kappa 評價指標(biāo)的后處理優(yōu)化空間
        根據(jù)Kappa 的計算方法,我們分析發(fā)現(xiàn),例如若將某樣本真實標(biāo)簽1 錯誤地預(yù)測成-1,其損失會比錯誤預(yù)測成0 大的多。因此,這里理論上是存在著后處理優(yōu)化空間的,后續(xù)方案介紹中會有部分著重介紹我們的后處理方法。

        特征工程

        1. 標(biāo)簽定義分析
        首先來看我們基于數(shù)據(jù)的理解,對于標(biāo)簽中資金狀態(tài)里的資金一詞最貼近的計算方式嘗試。


        關(guān)鍵發(fā)現(xiàn)與后續(xù)特征思路
        • 計算嘗試的結(jié)果非常符合業(yè)務(wù)邏輯:定義中的“資金”一詞,最接近的是客戶X1-X8的資產(chǎn)加和(且去除X7),即客戶賬戶中所有正向資金的加和;

        • 另一方面,經(jīng)分析,貸款金額初步可以認(rèn)定對于客戶趨向于提升客群是起反作用的;

        • 基于以上發(fā)現(xiàn),后續(xù)構(gòu)造特征時,優(yōu)先構(gòu)造最接近標(biāo)簽定義的特征,即優(yōu)先構(gòu)造正向總金額類的特征,且需與貸款金額作區(qū)分,從而避免構(gòu)造冗余特征,使模型波動太大。


        2.特征構(gòu)造基本思想與特征組概覽
        基本思想:
        • 特征值必須在不同樣本間公平可比這一思想,在構(gòu)造客戶各類統(tǒng)計特征時需要使用滑動窗口的方法

        • 所構(gòu)造特征不能引入未來信息,造成信息泄露;可以輔助PSI等特征穩(wěn)定性指標(biāo)評估所構(gòu)造的特征組

        • 構(gòu)造特征時,盡可能以總金額代替各類子金額,使特征的信息更全面、泛化


        詳細(xì)特征組如下:



        建模與后處理

        我們使用5 折交叉驗證的方式訓(xùn)練5 個不同的lgb 模型,對測試集分別做出概率預(yù)測,并取平均。

        在kappa 評估算法中,若將某樣本真實標(biāo)簽1錯誤地預(yù)測成-1,其損失會比錯誤預(yù)測成0 大的多。這也使得針對于kappa 的后處理優(yōu)化成為了本道賽題最為重要的環(huán)節(jié)之一。

        對本次賽題的后處理,我們有如下思考與原則:
        • 多分類模型對于每一個樣本,都會給出各個類別的概率,在預(yù)測時,通常直接選取概率最大的那個類別作為模型對樣本的預(yù)測類別;而對于kappa 評估指標(biāo),后處理的優(yōu)化空間是,給3 個類別的概率不同權(quán)重,找到加權(quán)后的最大概率值,作為樣本的預(yù)測類別,從而使得Out of fold 整體樣本的kappa 結(jié)果最優(yōu)。那么如何尋找3 個類別各自的概率權(quán)重,成為了后處理的關(guān)鍵。

        • 我們認(rèn)為,后處理必須以線下Out of fold 為依據(jù);

        • 后處理存在著一定不穩(wěn)定性,必須在構(gòu)造特征完后,再進行該部操作,不能以后處理結(jié)果作為新特征組的好壞判斷依據(jù);

        • 單次對Out of fold 整體樣本的權(quán)重搜索,可能存在過擬合的問題,為了更為泛化,嘗試使用在每折中各自搜索權(quán)重,并將5 次權(quán)重取平均,作為泛化后的3 個類別的權(quán)重。


        我們的最優(yōu)單模型使用了135 個特征,后處理優(yōu)化后線上可以達到約0.497的分?jǐn)?shù),該模型一直保持著最后2 周A 榜第一。在最后幾天中,后續(xù)的隊伍開始了組隊與融合嘗試,但我們的單模型仍能保持在Top3 的水平,最后我們將該模型與另一個線上0.495的模型進行融合,根據(jù)線下找到最優(yōu)融合比例,進行提交。最終A 榜成績0.49877,B 榜成績0.49899,非常穩(wěn)定,獲得初賽第一。

        最后分享些打比賽的想法,數(shù)據(jù)挖掘比賽其實也是競技的一種,既然是競技,所以就需要在參與比賽前積累些基礎(chǔ),邊做邊學(xué)也未嘗不可。不要一個比賽結(jié)束了都沒有形成自己的一套解決問題的思路,雖然一套思路也不能適用于所有場景,但這對培養(yǎng)個人的獨立思考能力還是很重要的。另也請謹(jǐn)記競技的前提是公平、公正、公開,用自己的知識水平和業(yè)務(wù)理解去打敗對手才會獲取最大的成就感,謝謝各位的閱讀。

        ——END——

        瀏覽 215
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 国內精品久久久久久久久久变脸 | 日本亚洲精品秘 入口A片 | 国产后进白嫩翘臀在线欧美 | 亚洲网站免费 | 欧美成人大片 |