金融科技:數(shù)據(jù)建模框架
金融科技行業(yè)如何開展數(shù)據(jù)建模工作呢?
我給大家介紹三種數(shù)據(jù)建??蚣?,分別是IBM公司的CRISP-DM,SAS公司的SEMMA和我總結(jié)的PDFMV。
01
CRISP-DM
IBM公司的CRISP-DM,全稱是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。如下圖所示:

這個(gè)流程包括這些環(huán)節(jié):
1 業(yè)務(wù)理解:定義業(yè)務(wù)問題,確定業(yè)務(wù)目標(biāo),制定項(xiàng)目計(jì)劃。
2 數(shù)據(jù)理解:梳理需要哪些數(shù)據(jù),如何收集,數(shù)據(jù)探索性分析,數(shù)據(jù)質(zhì)量報(bào)告。
3 數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)整理、數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)再格式化。
4 建模:數(shù)據(jù)劃分,模型選擇和構(gòu)建。
5 評估:從技術(shù)和業(yè)務(wù)角度,評估模型的有效性和穩(wěn)定性。
6 部署:最終模型上線、部署、監(jiān)控。
這個(gè)流程是一個(gè)閉環(huán)系統(tǒng),給我們建模的啟示。1 正確定義好業(yè)務(wù)問題。
2 垃圾進(jìn)、垃圾出,需要重視數(shù)據(jù)的質(zhì)量。
3 模型的迭代和優(yōu)化過程,模型構(gòu)建好后,不是一勞永逸的,而是需要監(jiān)控和持續(xù)優(yōu)化的。通過分析模型效果偏差后,確定模型優(yōu)化路徑。
02
SEMMA
SAS公司的SEMMA,分別代碼Sample(數(shù)據(jù)采樣),Explore(數(shù)據(jù)探索),Modify(數(shù)據(jù)調(diào)整),Model(建模),Assess(評估)這5個(gè)核心環(huán)節(jié)。如下圖所示:

每個(gè)環(huán)節(jié)關(guān)注的核心內(nèi)容。
1 數(shù)據(jù)采樣:一要正確反映業(yè)務(wù)分析需求,二要考慮數(shù)據(jù)的規(guī)模和維度。
2 數(shù)據(jù)探索:深入理解數(shù)據(jù)的過程,利用統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化技術(shù)。
3 數(shù)據(jù)調(diào)整:數(shù)據(jù)轉(zhuǎn)換和再格式化。
4 建模:模型設(shè)計(jì)和構(gòu)建。
5 評估:模型評估和調(diào)優(yōu)
03
PDFMV
我總結(jié)的PDFMV,它是Problem-Data-Feature-Model-Value五個(gè)英文單詞的首字母組合而成,是以問題為導(dǎo)向,數(shù)據(jù)為驅(qū)動(dòng),利用特征和模型學(xué)習(xí)知識和模式以創(chuàng)造價(jià)值的系統(tǒng)化過程。
這個(gè)框架,包括這些環(huán)節(jié):
1 Problem(問題):任何一個(gè)數(shù)據(jù)類型相關(guān)的項(xiàng)目都要從有價(jià)值的問題出發(fā)。因此,我們一定要定義好問題,定義清楚問題,需要我們使用“底層思維”,也就是那“萬變不離其宗”的原則。在定義問題的時(shí)候,我們可以從問題的為什么、是什么、怎么樣三個(gè)層次來深入剖析所面臨的問題和要解決的問題。
2 Data(數(shù)據(jù)):不管是分析,還是建模,我們的原料是數(shù)據(jù)。原料好不好,決定了我們最終結(jié)果的上限。因此,在數(shù)據(jù)階段,我們需要重視數(shù)據(jù)的源頭、數(shù)據(jù)的聚集、數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的探索、數(shù)據(jù)的理解、數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換等一系列與數(shù)據(jù)相關(guān)的工作。若是以做菜打比方,我們要知道如何去找菜,選菜,評菜、洗菜、切菜、配菜等基本而重要的操作,這也是一般廚師和高級廚師差異。
3 Feature(特征):所謂特征,就是從各個(gè)維度或者角度來描述一個(gè)問題或者一個(gè)對象。關(guān)于特征這塊,我們可以利用領(lǐng)域知識、先驗(yàn)知識、數(shù)據(jù)探索的知識,先全方位地做好特征升維。換句話說,就是讓自己做到能夠更全面地看待問題。在開展分析和挖掘的過程中,通過一些方法去選擇對目標(biāo)有作用,并且避免特征之間的冗余,以實(shí)現(xiàn)特征的降維??傊?,特征這塊,一要學(xué)會(huì)多角度看問題,二要做好特征升維和降維工作。
4 Model(模型):模型階段,就是要去找到一個(gè)適配當(dāng)下業(yè)務(wù)問題的模型,一來能夠從訓(xùn)練集中學(xué)習(xí)到模式,并且較好地泛化到測試集或者時(shí)間外樣本驗(yàn)證集,二來讓模型盡量簡潔,并且具有可解釋性。在做數(shù)據(jù)建模的時(shí)候,需要妥善地處理一些與模型相關(guān)的關(guān)鍵問題,羅列如下:1)數(shù)據(jù)集如何劃分;2)模型如何選擇;3)超參數(shù)如何調(diào)整;4)模型如何集成和融合;5)模型的解釋性和準(zhǔn)確性如何平衡;6)模型的穩(wěn)健性和魯棒性如何衡量等。
5 Value(價(jià)值):在問題側(cè)的時(shí)候,我就說了問題要始于價(jià)值。同樣,在終點(diǎn)的時(shí)候,我們的結(jié)果還是要回歸于價(jià)值。以“底層思維”——如何盈利?回答價(jià)值,我們需要客觀地分析和量化所做數(shù)據(jù)項(xiàng)目是否發(fā)揮了這些積極作用。1)是否有降低成本的功效;2)是否有增加收入的功效;3)是否有提升效率的功效;4)是否有控制風(fēng)險(xiǎn)的功效。而3)和4)最終還是回歸于與1)或者2)。因此,我們需要重視每個(gè)數(shù)據(jù)項(xiàng)目的價(jià)值,有沒有價(jià)值,有多大價(jià)值,價(jià)值是否具有持續(xù)性。
PDFMV框架是我做數(shù)據(jù)工作和數(shù)據(jù)項(xiàng)目的方法論,它可以讓我全面而系統(tǒng)地認(rèn)識和落實(shí)一個(gè)項(xiàng)目。好比中醫(yī)看病的“望聞問切”,給我做數(shù)據(jù)項(xiàng)目指明了方向,并且有始有終。
把一個(gè)數(shù)據(jù)項(xiàng)目做好,并非易事。但是,掌握正確的思維和方法,可以讓我們成事的概率更高。
關(guān)于這三種建??蚣埽阌惺裁聪敫艺f的,請?zhí)砑游椅⑿牛黄鸾涣鳌?/p>
伙伴們所在公司若有金融科技行業(yè)數(shù)據(jù)科學(xué)崗位的招聘,請引薦給我,謝謝。
我是陸勤,在金融科技行業(yè)從事數(shù)據(jù)科學(xué)工作,也是一名終身學(xué)習(xí)者。我工作過的內(nèi)容主要包括數(shù)據(jù)清洗和準(zhǔn)備、風(fēng)控評分模型、數(shù)字營銷模型、風(fēng)控策略分析、數(shù)據(jù)建模環(huán)境構(gòu)建和維護(hù)等。我可以提供智能風(fēng)控和數(shù)字營銷的咨詢與服務(wù)。歡迎你添加我微信,一起討論金融科技的數(shù)據(jù)科學(xué)和數(shù)據(jù)人才。
