1. 中通數(shù)據(jù)架構(gòu)治理實踐!

        共 6179字,需瀏覽 13分鐘

         ·

        2024-05-16 18:00

        來源:科技中通,作者:新茗


        一、背景


        為什么要做數(shù)據(jù)架構(gòu)治理?數(shù)字轉(zhuǎn)型,治理先行。


        數(shù)字化的應(yīng)用是整個行業(yè)高速發(fā)展的源動力之一,快遞行業(yè)日新月異,規(guī)模龐大,數(shù)字化能夠使管理升級,提高整個內(nèi)部的運營效率,降低相關(guān)的運營成本。在打破數(shù)據(jù)孤島,鏈接用戶跟快遞員、網(wǎng)點、商家等角色的過程中,數(shù)字化都發(fā)揮著很大的作用。簡單來說,數(shù)字化就是一道門,你被關(guān)在門外面,那未來很可能就會被淘汰。而數(shù)據(jù)架構(gòu)治理,就是為中通數(shù)字化轉(zhuǎn)型打下了基礎(chǔ)。


        二、現(xiàn)狀


        1、數(shù)據(jù)標(biāo)準(zhǔn)


        中通目前有500+的產(chǎn)品,這些持久化在存儲上就是有100W+的數(shù)據(jù)庫表。并且業(yè)務(wù)量以每年20%-30%的速度高速增長。各業(yè)務(wù)部門、開發(fā)團(tuán)隊的數(shù)據(jù)標(biāo)準(zhǔn)不一致,在數(shù)據(jù)打通和整合過程中會出現(xiàn)很多問題。所以就必須建立數(shù)據(jù)標(biāo)準(zhǔn)和推動數(shù)據(jù)模型的落地來對數(shù)據(jù)未來狀態(tài)的規(guī)范,包括對數(shù)據(jù)的名稱、含義、結(jié)構(gòu)、取值及數(shù)據(jù)間關(guān)系的規(guī)范,以此對數(shù)據(jù)庫表結(jié)構(gòu)、字段定義進(jìn)行指導(dǎo)約束。


        2、數(shù)據(jù)安全


        公司目前沒有平臺來做數(shù)據(jù)分類、敏感數(shù)據(jù)的標(biāo)記,數(shù)據(jù)以什么形式對外提供出去不明確 ,什么數(shù)據(jù)可以對外暴露不明確 。一旦隱私數(shù)據(jù)泄露,對業(yè)務(wù)的影響非常大,甚至能影響整個業(yè)務(wù)的生死。同時對數(shù)據(jù)文件、圖片、文件、音視頻等類型數(shù)據(jù)的定期的備份恢復(fù)策略也沒有制定,一旦誤刪除可能會導(dǎo)致數(shù)據(jù)的永久丟失。


        3、數(shù)據(jù)模型


        由于前期的快速發(fā)展,難免會遺留一下歷史的原因,比如數(shù)據(jù)的上下游依賴公司就很難去識別到,隨著業(yè)務(wù)的變動很容易出現(xiàn)上游發(fā)生變更,但下游卻不知道的問題。開發(fā)的數(shù)據(jù)對象,都是通過口口相傳。模型梳理難以完成,導(dǎo)致在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會遇到一些效率低的問題,開發(fā)不清楚數(shù)據(jù)的上下游是如何使用的。


        4、數(shù)據(jù)質(zhì)量


        缺乏跨團(tuán)隊的數(shù)據(jù)工程流程,經(jīng)常會導(dǎo)致“掛羊頭賣狗肉”的情況,比如字段明明是網(wǎng)點名稱,數(shù)據(jù)庫里卻是網(wǎng)點名稱和網(wǎng)點編號都有存儲在這一列,導(dǎo)致各個團(tuán)隊的成熟度不同,團(tuán)隊間沒有一致的數(shù)據(jù)質(zhì)量定義或指標(biāo)。


        三、怎么做數(shù)據(jù)架構(gòu)治理


        1、傳統(tǒng)的數(shù)據(jù)治理是怎么做的


        頂層規(guī)劃設(shè)計的方法在五到十年前比較盛行,多源于國外咨詢公司基于國際理論(如DAMA-DMBOK)結(jié)合自身實踐積累形成的方法論,用這些理論框架為企業(yè)進(jìn)行全面的現(xiàn)狀調(diào)研,基于此再進(jìn)行數(shù)據(jù)治理組織、數(shù)據(jù)治理工作內(nèi)容/流程/制度、數(shù)據(jù)治理平臺及未來建設(shè)路徑的規(guī)劃。其交付物通常是厚厚的調(diào)研報告、設(shè)計報告和PPT,項目周期在半年甚至更長。頂層規(guī)劃設(shè)計的方法好處在于有理論依據(jù),體系完整,能夠幫助客戶達(dá)成對數(shù)據(jù)治理全貌的理解和共識,有利于推動后續(xù)工作開展。但其也有許多不足,如過于理論化與企業(yè)實際情況結(jié)合不緊,導(dǎo)致管理組織和流程都無法落地;漫長的項目周期中,只部分解決了數(shù)據(jù)治理管理能力建設(shè)的問題,但并未解決實際數(shù)據(jù)問題、沒有提升數(shù)據(jù)質(zhì)量甚至業(yè)務(wù)質(zhì)量、數(shù)據(jù)價值也沒有顯著發(fā)揮出來。因此,成果也看起來很厚重,但實效并不大。



        2、我們是怎么做的


        從一開始我們也想過自上而下的這樣推動數(shù)據(jù)治理,但是就如上面所述,項目周期太長,同時實際效果也不一定很好。因此我們結(jié)合我們公司的實際情況,先治理關(guān)鍵流程:數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)模型管理、數(shù)據(jù)上下游鏈路管理、敏感數(shù)據(jù)管理以及數(shù)據(jù)的全生命周期管理。同時連同業(yè)務(wù)部門,按照產(chǎn)品線進(jìn)行劃分,小范圍內(nèi)快速驗證和迭代數(shù)據(jù)治理相關(guān)的方法、流程、規(guī)范,然后再復(fù)制推廣。總體的思路就是:定規(guī)范,建平臺,建體系。



        四、規(guī)范


        結(jié)合公司的現(xiàn)狀,我們對數(shù)據(jù)的全生命流程進(jìn)行梳理,針對關(guān)鍵節(jié)點我們梳理出了:數(shù)據(jù)存儲選型規(guī)范、數(shù)據(jù)建模管理規(guī)范、數(shù)據(jù)分發(fā)管理規(guī)范、數(shù)據(jù)生命周期管理規(guī)范。



        1、數(shù)據(jù)存儲選型規(guī)范


        架構(gòu)師在工作中經(jīng)常會遇到數(shù)據(jù)庫存儲選型的問題,而市面上數(shù)據(jù)庫產(chǎn)品眾多,往往會無從下手,甚至有時候從業(yè)務(wù)開發(fā)到上線運維過程中會多次更換底層數(shù)據(jù)庫,給整個研發(fā)中心帶來不必要的額外工作,數(shù)據(jù)存儲選型對于一個給定的應(yīng)用環(huán)境,針對公司現(xiàn)有業(yè)務(wù)背景和整個DBA團(tuán)隊技術(shù)儲備,選取最優(yōu)的數(shù)據(jù)庫類型,建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng),使之能夠有效地存儲數(shù)據(jù),滿足各種用戶的應(yīng)用需求。



        2、數(shù)據(jù)建模管理規(guī)范


        針對數(shù)據(jù)的開發(fā)設(shè)計階段,我們將數(shù)據(jù)對象抽象成邏輯模型和物理模型,同時針對表、字段、數(shù)據(jù)庫的命名和設(shè)計制定了一系列的規(guī)范并前置到邏輯模型設(shè)計階段,同時針對持久化到數(shù)據(jù)庫上進(jìn)行流程管控。



        數(shù)據(jù)建??傮w流程:



        3、數(shù)據(jù)分發(fā)管理規(guī)范


        對于現(xiàn)在公司的數(shù)據(jù)實際情況,數(shù)據(jù)分發(fā)應(yīng)該嚴(yán)格按照分發(fā)數(shù)據(jù)量進(jìn)行分發(fā)類型選擇,并且除了SQL查詢方式之外,都應(yīng)使用中通數(shù)據(jù)分發(fā)平臺ZDTP進(jìn)行數(shù)據(jù)分發(fā),并且通過訂閱方式對數(shù)據(jù)下發(fā)至各個合規(guī)終端,同時通過可配置的軟件或工具對源數(shù)據(jù)進(jìn)行收集、處理以達(dá)到符合中通內(nèi)部或合規(guī)的外部第三方生產(chǎn)需求的操作,以上所有的操作均有流程進(jìn)行管控。



        4、數(shù)據(jù)生命周期管理規(guī)范


        結(jié)合公司實際,針對科技中心所管轄的所有數(shù)據(jù),文件,圖片,視頻,錄音等存儲。將數(shù)據(jù)進(jìn)行分級分類,按照對應(yīng)的級別的不同制定不同的生命周期管理策略。



        數(shù)據(jù)敏感級別屬于數(shù)據(jù)安全領(lǐng)域,敏感等級不同的數(shù)據(jù)對內(nèi)使用時受到的保護(hù)策略不同,對外共享開放的程度也不同。數(shù)據(jù)管理者負(fù)責(zé)制定其領(lǐng)域內(nèi)數(shù)據(jù)敏感等級的劃分規(guī)則,并制定和發(fā)布本部門的數(shù)據(jù)敏感等級目錄。



        數(shù)據(jù)分類治理是實現(xiàn)不同部門之間數(shù)據(jù)共享互認(rèn)的目的。我們通過分類標(biāo)識,將分散的、存儲在不同系統(tǒng)的數(shù)據(jù)內(nèi)容,打破數(shù)據(jù)的孤島,進(jìn)行有效匹配,指定不同的數(shù)據(jù)敏感級別,理清各方的數(shù)據(jù)權(quán)限,達(dá)到數(shù)據(jù)安全治理的目的。



        根據(jù)數(shù)據(jù)級別的不一樣,我們將制定不一樣的數(shù)據(jù)保留策略:



        五、平臺


        為了保障上述規(guī)范的落地,我們連同技術(shù)平臺團(tuán)隊,建設(shè)了數(shù)據(jù)建模平臺,將建模平臺放入統(tǒng)一的運管平臺,為用戶提供一站式的開發(fā)服務(wù)。


        中通數(shù)據(jù)建模平臺是由中通科技完全自主開發(fā)的擁有知識產(chǎn)權(quán)的跨平臺數(shù)據(jù)庫建模工具,相較于傳統(tǒng)的PowerDesigner之類的C/S架構(gòu)的建模工具,我們采用更加輕便的B/S的架構(gòu)設(shè)計,更符合公司的產(chǎn)品規(guī)劃。數(shù)據(jù)建模平臺不僅能夠按照公司產(chǎn)品粒度進(jìn)行mysql等傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對接,還可以提供國產(chǎn)數(shù)據(jù)庫如TIDB的對接,并且我們將將應(yīng)用對應(yīng)的物理庫抽象成一個邏輯庫,用戶可以制定環(huán)境生成物理模型。并且按照產(chǎn)品線進(jìn)行劃分,我們提供私有詞典和標(biāo)準(zhǔn)詞典供用戶進(jìn)行標(biāo)準(zhǔn)字段的引用。私有詞典是在本產(chǎn)品線引用的標(biāo)準(zhǔn)字段,標(biāo)準(zhǔn)詞典是中心藏經(jīng)閣維護(hù)的一系列標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)供給所有產(chǎn)品線進(jìn)行引用。在模型設(shè)計階段我們提供可視化的模型設(shè)計能力,可以可視化的新增、編輯、刪除模型,并針對字段順序可進(jìn)行拖拽排序,為方便模型的管理,我們還提供了模型的自定義分組。并且在設(shè)計階段我們就將數(shù)據(jù)的分類和敏感數(shù)據(jù)的標(biāo)記要求在模型中體現(xiàn)。



        針對于分庫分表的模型,我們將按照分片的規(guī)則將物理存儲上的多個分表在建模平臺上抽象成一個模型。并且內(nèi)置了mod和hash算法,可以按照用戶配置的分表設(shè)置,快速的生成分庫分表/分表的模型。



        同時針對模型的變更,我們提供了版本管控的功能,平臺會記錄模型的各個版本的元數(shù)據(jù)信息,并提供不同環(huán)境的模型快速部署和回滾的服務(wù)。并且模型的所有的變更我們都和IDB進(jìn)行了打通,每次應(yīng)用都會生成IDB的工單進(jìn)行快速部署。



        相較于傳統(tǒng)的C/S建模工具,我們也提供了web端的數(shù)據(jù)模型關(guān)系操作工作臺,用戶進(jìn)行全局的數(shù)據(jù)模型的瀏覽,并支持放大縮小以及導(dǎo)出??梢匀我馔献P偷奈恢眠M(jìn)行保存,并且可以任意的進(jìn)行模型之間的關(guān)系的維護(hù)。針對于初始化模型較多的產(chǎn)品我們還有搜索聚焦以及自適應(yīng)布局功能。



        同時針對大家呼聲較高的數(shù)據(jù)庫資源使用情況展示,我們本次將物理庫的一些資源使用情況進(jìn)行了展示,目前將數(shù)據(jù)庫的配置、狀態(tài)、QPS、TPS、連接數(shù)、最大連接數(shù)。物理表的表大小、表大小的變化趨勢、寫入、更新、刪除的操作統(tǒng)計。



        六、未來的計劃


        數(shù)據(jù)治理不是一蹴而就的,它是一個漫長而持續(xù)的過程,我們將在平臺完善、治理服務(wù)、體系化運營這三塊持續(xù)努力,對數(shù)據(jù)安全、資源利用、數(shù)據(jù)質(zhì)量等各方面進(jìn)行治理。

        推薦閱讀:

        被 GPT-4 Plus 賬號價格勸退了!

        長沙再現(xiàn)逆天技術(shù)團(tuán)隊,完美復(fù)現(xiàn)SORA技術(shù),一夜之間擁有李廠長的能力

        世界的真實格局分析,地球人類社會底層運行原理

        不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)

        長沙最大(中國領(lǐng)先)的創(chuàng)業(yè)俱樂部成立

        59頁PPT|2024中國AI Agent行業(yè)研究報告(附下載)

        論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

        53頁PPT|華為制造業(yè)智能制造解決方案(附下載)

        《2024行業(yè)大模型調(diào)研報告》發(fā)布(附下載)

        瀏覽 31
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
          
          

            1. 青楼18春一级毛片 | 快穿之高h真紧粗大 | 少妇操BBBB操BBB操毛片 | 无遮挡黄片 | 啊啊啊好大好爽在线观看 |