金融行業(yè)大數(shù)據(jù)治理之路——數(shù)據(jù)模型篇

本文以證券期貨行業(yè)數(shù)據(jù)模型(Securities Data ObjectModel,簡(jiǎn)稱SDOM)為指導(dǎo)依據(jù),介紹如何通過(guò)網(wǎng)易模型設(shè)計(jì)中心(EasyDesign)進(jìn)行行業(yè)模型的規(guī)范性建設(shè)。本文為第一篇,后續(xù)系列文章將會(huì)結(jié)合金融行業(yè)的相關(guān)規(guī)范,網(wǎng)易在數(shù)據(jù)治理方面的方法論,以及網(wǎng)易有數(shù)提供的相應(yīng)工具詳細(xì)介紹如何開展金融行業(yè)數(shù)據(jù)治理工作。
后續(xù)文章簡(jiǎn)介:
a.數(shù)據(jù)模型篇
b.數(shù)據(jù)質(zhì)量篇
c.數(shù)據(jù)安全篇
d.數(shù)據(jù)資產(chǎn)篇
e.數(shù)據(jù)標(biāo)準(zhǔn)篇
f.數(shù)據(jù)開發(fā)篇
g.數(shù)據(jù)服務(wù)篇
h.數(shù)據(jù)應(yīng)用篇
前言
金融行業(yè)作為信息化程度最高的行業(yè)之一,IT系統(tǒng)產(chǎn)生的數(shù)據(jù)已經(jīng)成為行業(yè)最核心的資產(chǎn)。但由于金融機(jī)構(gòu)的數(shù)流轉(zhuǎn)復(fù)雜,每一條數(shù)據(jù)的形成和運(yùn)用都需要在多個(gè)企業(yè)或機(jī)構(gòu)間進(jìn)行數(shù)據(jù)的交換,一筆交易需要至少3-6家主體機(jī)構(gòu)才能完成運(yùn)行流轉(zhuǎn)。同時(shí),IT系統(tǒng)間數(shù)據(jù)交換和數(shù)據(jù)處理的頻率非常高,大多數(shù)金融交易品種日均交易量在3.5億筆左右。

(各機(jī)構(gòu)間數(shù)據(jù)流圖)
隨著金融改革提速,利率市場(chǎng)化和人民幣國(guó)際化進(jìn)程加速,同業(yè)競(jìng)爭(zhēng)日趨激烈,跨界競(jìng)爭(zhēng)此起彼伏;客戶金融需求快速變化,監(jiān)管機(jī)構(gòu)更趨嚴(yán)格,這都給金融行業(yè)經(jīng)營(yíng)機(jī)構(gòu)帶來(lái)嚴(yán)峻挑戰(zhàn)。在數(shù)據(jù)層面,大量機(jī)構(gòu)缺乏清洗的數(shù)據(jù)架構(gòu)、數(shù)據(jù)流圖以及數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系;普遍存在數(shù)據(jù)模型混亂,數(shù)據(jù)整體質(zhì)量不高,開發(fā)團(tuán)隊(duì)迫于現(xiàn)實(shí)壓力往往以實(shí)現(xiàn)功能為主,對(duì)非功能需求不太在意,導(dǎo)致數(shù)據(jù)模型質(zhì)量不高,普遍存在先污染后治理現(xiàn)象。
因此本系列文章將以金融行業(yè)數(shù)據(jù)治理相關(guān)標(biāo)準(zhǔn)為指導(dǎo)依據(jù), 結(jié)合網(wǎng)易大數(shù)據(jù)團(tuán)隊(duì)在數(shù)據(jù)治理方面的經(jīng)驗(yàn),將通過(guò)系列文章的方式來(lái)詳細(xì)介紹如何通過(guò)網(wǎng)易有數(shù)大數(shù)據(jù)平臺(tái)開展數(shù)據(jù)治理工作。
背景介紹
在數(shù)據(jù)治理領(lǐng)域,國(guó)際上從2004年起就開始大量研究,2016年由國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA)在《DAMA數(shù)據(jù)管理知識(shí)體系指南中》將數(shù)據(jù)治理進(jìn)行了10大管理職能的定義。同時(shí),國(guó)際標(biāo)準(zhǔn)化組織(ISO)在數(shù)據(jù)治理方面制定了相關(guān)標(biāo)準(zhǔn):《信息技術(shù)-IT治理-數(shù)據(jù)治理》(ISO/IED 38505-1);2018年,由我國(guó)專家主導(dǎo)研制的數(shù)據(jù)治理領(lǐng)域第二個(gè)重要的國(guó)際標(biāo)準(zhǔn)ISO/IEC TR3505-2正式發(fā)布。近年來(lái)隨著越來(lái)越多的國(guó)際和國(guó)內(nèi)通用標(biāo)準(zhǔn)的完善,以此為理論指導(dǎo)的大批行業(yè)數(shù)據(jù)治理相關(guān)標(biāo)準(zhǔn)逐漸發(fā)布,并開始在行業(yè)內(nèi)進(jìn)行推廣。
對(duì)于數(shù)據(jù)模型來(lái)講,在金融行業(yè)長(zhǎng)期以來(lái)缺乏相關(guān)行業(yè)通用模型標(biāo)準(zhǔn);多年來(lái),數(shù)據(jù)模型相關(guān)標(biāo)準(zhǔn)主要由IT廠家各自主導(dǎo)。如IBM的FSDM模型(Financial Services Data Model),在FSDM中IBM對(duì)金融數(shù)據(jù)域劃分為九大主題域:關(guān)系人、合約、條件、產(chǎn)品、地點(diǎn)、分類、業(yè)務(wù)方向、事件、資源項(xiàng)目;以及由Teradata主導(dǎo)的FS-LDM(Financal Services LogicalData Model),FS-LDM對(duì)金融行業(yè)劃分為十大主題域:當(dāng)事人、產(chǎn)品、協(xié)議、事件、資產(chǎn)、財(cái)務(wù)、機(jī)構(gòu)、地域、營(yíng)銷、渠道。
2019年底,中國(guó)證券監(jiān)督管理委員會(huì)發(fā)布《證券期貨業(yè)數(shù)據(jù)模型 第1部分:抽象模型設(shè)計(jì)方法》,標(biāo)準(zhǔn)中除了對(duì)抽象模型進(jìn)行定義外,還針對(duì)7個(gè)子行業(yè)的邏輯模型有個(gè)詳細(xì)定義,如《基金公司邏輯模型》、《證券公司邏輯模型》、《證券交易所邏輯模型》、《監(jiān)管機(jī)構(gòu)邏輯模型》等,自此數(shù)據(jù)模型有了行業(yè)標(biāo)準(zhǔn)。
模型建設(shè)-理論篇
模型建設(shè)分以下四個(gè)步驟:

Step 1:提取行業(yè)規(guī)則,輸出行業(yè)頂層流圖
根據(jù)SDOM的規(guī)范,以證券期貨行業(yè)為例,各機(jī)構(gòu)間的頂層數(shù)據(jù)流轉(zhuǎn)如下圖所示:

Step 2:梳理抽象模型
抽象模型是按照自頂向下的方法進(jìn)行梳理,以“交易”,“監(jiān)管”,“披露”為主線,通過(guò)對(duì)資本市場(chǎng)各類業(yè)務(wù)活動(dòng)進(jìn)行遍歷,對(duì)關(guān)鍵業(yè)務(wù)流程和數(shù)據(jù)要素進(jìn)行識(shí)別而形成如下“1+3+N”的總體架構(gòu)。

Step3:設(shè)計(jì)邏輯模型
根據(jù)SDOM的規(guī)范,各主題之間的關(guān)系如下:

Step 4:模型評(píng)估
模型的穩(wěn)定性,可擴(kuò)展性,標(biāo)準(zhǔn)性等是一個(gè)長(zhǎng)期驗(yàn)證和優(yōu)化的過(guò)程,需要在實(shí)際業(yè)務(wù)處理過(guò)程中不斷反復(fù)迭代,不斷優(yōu)化。但模型本身是可以通過(guò)量化的方式進(jìn)行評(píng)估,以指導(dǎo)模型設(shè)計(jì)人員不斷對(duì)模型進(jìn)行完善。
模型建設(shè)-實(shí)踐篇
根據(jù)上一章節(jié)介紹的模型建設(shè)步驟,整個(gè)模型建設(shè)分為4個(gè)步驟:

步驟1、2在SDOM中已經(jīng)有詳細(xì)規(guī)范,接下來(lái)我們站在巨人的肩膀上,介紹如何使用網(wǎng)易模型設(shè)計(jì)工具進(jìn)行步驟3、4中涉及到的模型設(shè)計(jì)和模型評(píng)估。以下將從4個(gè)過(guò)程8個(gè)步驟詳細(xì)介紹:

(Ⅰ) 主題域的規(guī)范設(shè)計(jì)
主題域的設(shè)計(jì)除了需要遵循SDOM中的規(guī)范外,還需要考慮以下幾點(diǎn):
主題域的劃分
主題域的命名規(guī)范
主題域的負(fù)責(zé)人,審批人設(shè)置
主題域下的子主題域的設(shè)計(jì)及命名規(guī)范
如下圖所示,在網(wǎng)易模型設(shè)計(jì)中心(EasyDesign)中:
主題域設(shè)計(jì):根據(jù)SDOM規(guī)范定義8個(gè)主題域;
主題域命名規(guī)范設(shè)計(jì):根據(jù)行業(yè)英文名稱及詞根規(guī)范,定義各主題域的英文命名規(guī)范;
主題域?qū)徟鞒淘O(shè)計(jì):設(shè)置各主題域的負(fù)責(zé)人,審批人,方便后續(xù)流程審批;

業(yè)務(wù)過(guò)程設(shè)計(jì):以融資融券業(yè)務(wù)投資者買入為例,我們需要根據(jù)業(yè)務(wù)流程進(jìn)行梳理,并根據(jù)梳理的業(yè)務(wù)過(guò)程在網(wǎng)易模型設(shè)計(jì)中心中進(jìn)行統(tǒng)一管理,如下圖所示:

(Ⅱ) 標(biāo)準(zhǔn)字典集的配置
標(biāo)準(zhǔn)字典集配置:以SDOM已經(jīng)梳理的行業(yè)標(biāo)準(zhǔn)詞根為依據(jù),在網(wǎng)易模型設(shè)計(jì)中心字典集中進(jìn)行統(tǒng)一配置管理。
(Ⅲ)邏輯分層及表規(guī)范設(shè)計(jì)
數(shù)據(jù)分層便于我們清晰的了解數(shù)據(jù)組織結(jié)構(gòu),方便對(duì)數(shù)據(jù)的定位和理解;同時(shí)規(guī)范化的數(shù)據(jù)分層可以大大減少重復(fù)開發(fā),可以利用數(shù)據(jù)分層將一個(gè)復(fù)雜任務(wù)分解成多個(gè)步驟來(lái)完成,每一層解決特定的問(wèn)題,使復(fù)雜問(wèn)題簡(jiǎn)單化。
邏輯分層規(guī)范設(shè)計(jì):借助網(wǎng)易模型設(shè)計(jì)中心的分層配置可以幫助我們實(shí)現(xiàn)清晰的數(shù)倉(cāng)分層架構(gòu),如下圖:

表命名規(guī)范設(shè)計(jì):良好的表命名規(guī)范有助于清楚的了解表的含義,同時(shí)也方便其他開發(fā)人員能夠快速定位到需要的表。如下圖所示,通過(guò)網(wǎng)易表設(shè)計(jì)規(guī)則管理,可以靈活的定義表的命名規(guī)范進(jìn)行統(tǒng)一定義管理。

(Ⅳ) 模型評(píng)估
模型的好壞直接影響到數(shù)據(jù)的準(zhǔn)確性,全面性和完整性。通過(guò)數(shù)據(jù)有效對(duì)模型的合理性進(jìn)行監(jiān)控是模型評(píng)估的有效手段之一,網(wǎng)易結(jié)合自身多年的模型建設(shè)經(jīng)驗(yàn)從模型復(fù)用度,跨層依賴率等多重指標(biāo)對(duì)模型的質(zhì)量進(jìn)行監(jiān)控和有效評(píng)估。

模型評(píng)估:如下圖所示,通過(guò)上述指標(biāo)的有效監(jiān)控可以很好幫助數(shù)據(jù)團(tuán)隊(duì)去客戶評(píng)估數(shù)據(jù)模型的好壞,以便不斷對(duì)模型進(jìn)行迭代、優(yōu)化。

結(jié)束語(yǔ)
根據(jù)國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA International)對(duì)數(shù)據(jù)治理的定義,“數(shù)據(jù)治理被視為一個(gè)過(guò)程而非一項(xiàng)事務(wù)”。近年來(lái),隨著行業(yè)數(shù)據(jù)治理需求的增加,越來(lái)越多的IT廠家,互聯(lián)網(wǎng)廠家以及一批以數(shù)據(jù)治理為核心業(yè)務(wù)的新型廠家開始參與到市場(chǎng)中來(lái),這對(duì)整個(gè)金融來(lái)說(shuō)是極大利好.
