大數(shù)據(jù)平臺的3個核心功能
導(dǎo)讀:大數(shù)據(jù)平臺可以分為操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(DW)和數(shù)據(jù)集市(DM)三層,分別對應(yīng)著數(shù)據(jù)清洗、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用這三個核心功能。

▲數(shù)據(jù)架構(gòu)示意圖
01 原始數(shù)據(jù)清洗
操作數(shù)據(jù)存儲(Operational Data Store,ODS),又被稱為貼源層,是原始數(shù)據(jù)經(jīng)過ETL(Extract-Transform-Load)清洗后存儲的位置。ODS通常有如下幾個作用。
在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間做了隔離,將業(yè)務(wù)系統(tǒng)產(chǎn)生的原始數(shù)據(jù)備份的同時,保證了兩個系統(tǒng)之間數(shù)據(jù)的一致性。
存儲了業(yè)務(wù)側(cè)的明細數(shù)據(jù),方便后續(xù)的查詢和加工以及報表的產(chǎn)出。
完成數(shù)據(jù)倉庫中不能實現(xiàn)的一些功能,相比于DW和DM層通常使用Hive查詢,ODS一般利用更底層的編程語言加工而成,可以實現(xiàn)一些更復(fù)雜和更高效的ETL操作。
此外,ODS層保留了大量的歷史明細數(shù)據(jù),通常約定只能增加不能修改,利用時間分區(qū)的方式進行區(qū)分。
02 數(shù)據(jù)倉庫管理
數(shù)據(jù)倉庫(Data Warehouse,DW)是企業(yè)級數(shù)據(jù)集中匯總的位置。DW層最大的特點是面向主題,根據(jù)不同的主題設(shè)計表的結(jié)構(gòu)和內(nèi)容,這樣做的好處是排除了與主題無關(guān)的冗余數(shù)據(jù),提高了特定主題下的查詢和加工效率。
另一方面,數(shù)據(jù)倉庫作為連接原始數(shù)據(jù)和標簽之間的中間層,必須保證數(shù)據(jù)質(zhì)量,包括唯一性、權(quán)威性、準確性等。
以風(fēng)控主題為例,DW層中通常會包括授信、支用、還款、催收等一系列數(shù)據(jù),方便后期相關(guān)標簽的計算。另外,還會有一些公用的維度表被存在與DW層平行的DIM層中,這些表通常是一些城市、日期類的字典數(shù)據(jù),貫穿多個主題數(shù)據(jù)。
03 數(shù)據(jù)標簽應(yīng)用
整個數(shù)據(jù)平臺的最上層是數(shù)據(jù)集市(Data Market,DM),也是與風(fēng)控人員聯(lián)系最緊密的一層。顧名思義,數(shù)據(jù)集市就是將數(shù)據(jù)倉庫中的主題數(shù)據(jù)根據(jù)不同的業(yè)務(wù)需要挑選出來,構(gòu)成特定的業(yè)務(wù)場景標簽。
例如想構(gòu)建與客戶逾期表現(xiàn)相關(guān)的標簽,只需要將DW層中與還款相關(guān)的表抽取出來加工即可,這樣不僅結(jié)構(gòu)清晰,還保證了標簽計算的效率。
由于DM層的數(shù)據(jù)標簽與業(yè)務(wù)聯(lián)系較為緊密,建議在DM層邏輯設(shè)計的初期,讓更多的業(yè)務(wù)人員參與進來,這樣才能避免后期技術(shù)與業(yè)務(wù)在標簽計算口徑上不統(tǒng)一的問題。
最后想補充說明的是,由于大數(shù)據(jù)平臺的計算鏈條較長,且充斥著大量的數(shù)據(jù)處理步驟,在實際生產(chǎn)中平臺的監(jiān)控和預(yù)警機制至關(guān)重要,例如對于上下游依賴關(guān)系的判斷、每個時間分區(qū)數(shù)據(jù)量的監(jiān)控、郵件和短信報警等,都是把控數(shù)據(jù)準確性和時效性的必要手段。

推薦閱讀
(點擊標題可跳轉(zhuǎn)閱讀)
論機器學(xué)習(xí)領(lǐng)域的內(nèi)卷
老鐵,三連支持一下,好嗎?↓↓↓
