大數(shù)據(jù)平臺(tái)的3個(gè)核心功能
導(dǎo)讀:大數(shù)據(jù)平臺(tái)可以分為操作數(shù)據(jù)存儲(chǔ)(ODS)、數(shù)據(jù)倉(cāng)庫(kù)(DW)和數(shù)據(jù)集市(DM)三層,分別對(duì)應(yīng)著數(shù)據(jù)清洗、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用這三個(gè)核心功能。

▲數(shù)據(jù)架構(gòu)示意圖
01 原始數(shù)據(jù)清洗
操作數(shù)據(jù)存儲(chǔ)(Operational Data Store,ODS),又被稱為貼源層,是原始數(shù)據(jù)經(jīng)過(guò)ETL(Extract-Transform-Load)清洗后存儲(chǔ)的位置。ODS通常有如下幾個(gè)作用。
在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間做了隔離,將業(yè)務(wù)系統(tǒng)產(chǎn)生的原始數(shù)據(jù)備份的同時(shí),保證了兩個(gè)系統(tǒng)之間數(shù)據(jù)的一致性。
存儲(chǔ)了業(yè)務(wù)側(cè)的明細(xì)數(shù)據(jù),方便后續(xù)的查詢和加工以及報(bào)表的產(chǎn)出。
完成數(shù)據(jù)倉(cāng)庫(kù)中不能實(shí)現(xiàn)的一些功能,相比于DW和DM層通常使用Hive查詢,ODS一般利用更底層的編程語(yǔ)言加工而成,可以實(shí)現(xiàn)一些更復(fù)雜和更高效的ETL操作。
此外,ODS層保留了大量的歷史明細(xì)數(shù)據(jù),通常約定只能增加不能修改,利用時(shí)間分區(qū)的方式進(jìn)行區(qū)分。
02 數(shù)據(jù)倉(cāng)庫(kù)管理
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)是企業(yè)級(jí)數(shù)據(jù)集中匯總的位置。DW層最大的特點(diǎn)是面向主題,根據(jù)不同的主題設(shè)計(jì)表的結(jié)構(gòu)和內(nèi)容,這樣做的好處是排除了與主題無(wú)關(guān)的冗余數(shù)據(jù),提高了特定主題下的查詢和加工效率。
另一方面,數(shù)據(jù)倉(cāng)庫(kù)作為連接原始數(shù)據(jù)和標(biāo)簽之間的中間層,必須保證數(shù)據(jù)質(zhì)量,包括唯一性、權(quán)威性、準(zhǔn)確性等。
以風(fēng)控主題為例,DW層中通常會(huì)包括授信、支用、還款、催收等一系列數(shù)據(jù),方便后期相關(guān)標(biāo)簽的計(jì)算。另外,還會(huì)有一些公用的維度表被存在與DW層平行的DIM層中,這些表通常是一些城市、日期類的字典數(shù)據(jù),貫穿多個(gè)主題數(shù)據(jù)。

03 數(shù)據(jù)標(biāo)簽應(yīng)用
整個(gè)數(shù)據(jù)平臺(tái)的最上層是數(shù)據(jù)集市(Data Market,DM),也是與風(fēng)控人員聯(lián)系最緊密的一層。顧名思義,數(shù)據(jù)集市就是將數(shù)據(jù)倉(cāng)庫(kù)中的主題數(shù)據(jù)根據(jù)不同的業(yè)務(wù)需要挑選出來(lái),構(gòu)成特定的業(yè)務(wù)場(chǎng)景標(biāo)簽。
例如想構(gòu)建與客戶逾期表現(xiàn)相關(guān)的標(biāo)簽,只需要將DW層中與還款相關(guān)的表抽取出來(lái)加工即可,這樣不僅結(jié)構(gòu)清晰,還保證了標(biāo)簽計(jì)算的效率。
由于DM層的數(shù)據(jù)標(biāo)簽與業(yè)務(wù)聯(lián)系較為緊密,建議在DM層邏輯設(shè)計(jì)的初期,讓更多的業(yè)務(wù)人員參與進(jìn)來(lái),這樣才能避免后期技術(shù)與業(yè)務(wù)在標(biāo)簽計(jì)算口徑上不統(tǒng)一的問(wèn)題。
最后想補(bǔ)充說(shuō)明的是,由于大數(shù)據(jù)平臺(tái)的計(jì)算鏈條較長(zhǎng),且充斥著大量的數(shù)據(jù)處理步驟,在實(shí)際生產(chǎn)中平臺(tái)的監(jiān)控和預(yù)警機(jī)制至關(guān)重要,例如對(duì)于上下游依賴關(guān)系的判斷、每個(gè)時(shí)間分區(qū)數(shù)據(jù)量的監(jiān)控、郵件和短信報(bào)警等,都是把控?cái)?shù)據(jù)準(zhǔn)確性和時(shí)效性的必要手段。
(歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。
我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂(lè)部
微信號(hào):zgsjgjjlb
專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。
