1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        所謂的數(shù)據(jù)質(zhì)量

        共 3508字,需瀏覽 8分鐘

         ·

        2021-05-15 19:15

        點擊上方藍色字體,選擇“設(shè)為星標(biāo)

        回復(fù)”資源“獲取更多資源

        導(dǎo)讀:隨著大數(shù)據(jù)行業(yè)的深入發(fā)展,數(shù)據(jù)質(zhì)量越來越成為一個繞不開的話題,那當(dāng)大家在聊數(shù)據(jù)質(zhì)量的時候,通常會聊什么呢?從什么是數(shù)據(jù)質(zhì)量開始。

        數(shù)據(jù)質(zhì)量:一個評估規(guī)則維度提供一種測量與管理信息和數(shù)據(jù)的方式。
        區(qū)分規(guī)則維度有助于:
        • 將維度與業(yè)務(wù)需求相匹配,并且劃分評估的先后順序;

        • 了解從每一維度的評估中能夠/不能夠得到什么;

        • 在時間和資源有限的情況下,更好地定義和管理項目計劃中的行動順序。

        數(shù)據(jù)質(zhì)量檢核主要分為以下規(guī)則維度:
        完整性(Completeness):用來描述信息的完整程度。
        唯一性(Uniqueness):用來描述數(shù)據(jù)是否存在重復(fù)記錄,沒有實體多余出現(xiàn)一次。
        有效性(Validity):用來描述模型或數(shù)據(jù)是否滿足用戶定義的條件。通常從命名、數(shù)據(jù)類型、長度、值域、取值范圍、內(nèi)容規(guī)范等方面進行約束。
        一致性(Consistency):用來描述同一信息主體在不同的數(shù)據(jù)集中信息屬性是否相同,各實體、屬性是否符合一致性約束關(guān)系。
        準(zhǔn)確性(Accuracy):用來描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致(需要一個確定的和可訪問的權(quán)威參考源)。
        及時性(Timeless):用來描述從業(yè)務(wù)發(fā)生到對應(yīng)數(shù)據(jù)正確存儲并可正常查看的時間間隔程度,也叫數(shù)據(jù)的延時時長,數(shù)據(jù)在及時性上應(yīng)能盡可能貼合業(yè)務(wù)實際發(fā)生時點。
        可信性(credibility):用來描述數(shù)據(jù)發(fā)生是否符合客觀規(guī)律。
        每一規(guī)則維度可能需要不同的度量方法、時機和流程。這就導(dǎo)致了完成檢核評估所需要的時間、金錢和人力資源會呈現(xiàn)出差異。數(shù)據(jù)數(shù)據(jù)質(zhì)量的提升不是一蹴而就的,在清楚了解評估每一維度所需工作的情況下,選擇那些當(dāng)前較為迫切的檢核維度和規(guī)則,從易到難、由淺入深的逐步推動數(shù)據(jù)質(zhì)量的全面管理與提升。規(guī)則維度的初步評估結(jié)果是確定基線,其余評估則作為繼續(xù)檢測和信息改進的一部分,作為業(yè)務(wù)操作流程的一部分。

        數(shù)據(jù)完整性維度大類下可細分為以下維度小類:
        非空約束:描述檢核對象是否存在數(shù)據(jù)值為空的情況。如客戶開戶時,客戶名稱是必填項,不能出現(xiàn)為空的情況。
        非空約束 非空約束比較容易理解,簡單的講就是字段不能為空,檢查方式也比較容易,只需要設(shè)定需要檢查的字段,通過 sql 查詢列值不能為空即可。將為空的數(shù)據(jù)查詢出來進行整改。
        當(dāng)然非空約束可以通過設(shè)置非空約束的方式限制數(shù)據(jù)無法寫入數(shù)據(jù)庫,如果支持這種方式可以避免事后的數(shù)據(jù)非空檢查。

        數(shù)據(jù)唯一性維度大類下可細分為以下維度小類:
        唯一性約束:描述同一客觀實體在不同業(yè)務(wù)數(shù)據(jù)集中的信息,經(jīng)整合后是唯一的,針對目標(biāo)通常是單一主鍵或聯(lián)合主鍵,如證件類型+證件號碼+姓名相同,則其客戶編號應(yīng)唯一。
        唯一性約束 舉個簡單的例子,唯一性約束在技術(shù)上一般具備唯一的標(biāo)識字段可以判斷其唯一性,在業(yè)務(wù)上可以通過幾個關(guān)聯(lián)的業(yè)務(wù)屬性對確定唯一業(yè)務(wù)實體。若在這種情況出現(xiàn)數(shù)據(jù)重復(fù)的問題,即違反了唯一性約束。這種情況的如果是單一的業(yè)務(wù)主鍵,可以通過對主鍵分組去重的方式檢查,如果是業(yè)務(wù)聯(lián)合屬性判斷唯一實體的情況只能業(yè)務(wù)人員進行手動檢查。

        數(shù)據(jù)有效性維度大類下可細分為以下維度小類:
        代碼值域約束:描述檢核對象的代碼值是否在對應(yīng)的代碼表內(nèi)。如業(yè)務(wù)規(guī)則定義“性別”的取值應(yīng)該是“1-未知的性別”、“2-男性”、“3-女性”、“4-未說明的性別”,如果出現(xiàn)“A”、“B”這樣的取值,則認為“性別”的代碼值域存在問題;
        長度約束:描述檢核對象的長度是否滿足長度約束。如“金融機構(gòu)編碼”在《人民銀行金融機構(gòu)編碼規(guī)范》中規(guī)定長度為14位,如果出現(xiàn)非14位的值,則判定為不滿足長度約束,不是一個有效的“金融機構(gòu)編碼”;
        內(nèi)容規(guī)范約束:描述檢核對象的值是否按照一定的要求和規(guī)范進行數(shù)據(jù)的錄入與存儲。如“存款賬號”應(yīng)僅含數(shù)字,如果出現(xiàn)字母或其他非法字符,則不是一個有效的“存款賬號”,不滿足內(nèi)容規(guī)范約束;
        取值范圍約束:描述檢核對象的取值是否在預(yù)定義的范圍內(nèi)。如“授信額度”取值范圍應(yīng)大于等于 0,如果出現(xiàn)小于 0 的情況,則超出了取值范圍的約束,不是一個有效的“授信額度”;
        代碼值域約束
        描述檢核對象的值是否按照一定的要求和規(guī)范進行數(shù)據(jù)的錄入與存儲。
        例 1 : 依業(yè)務(wù)規(guī)則性別只有 “0:男” ,”1:女”,則性別字段只應(yīng)出現(xiàn)0或1。
        例 2 : 貨幣代碼 (CURCODE) 只應(yīng)有RMB或是USD值。
        數(shù)據(jù)質(zhì)量中代碼值域首先要指定企業(yè)級的統(tǒng)一編碼表,然后按照對照關(guān)系進行 etl 轉(zhuǎn)換,至于出報告只需要通過 sql 查詢不再范圍內(nèi)的數(shù)值就可以了。
        長度約束
        描述檢核對象的長度是否滿足長度約束。
        例如身份證號是 18 位。
        長度約束可以通過建表時指定字符長度去限制,如果業(yè)務(wù)系統(tǒng)最初沒有做限制,只能通過 sql 判斷長度的方式獲取異常值再進行處理。
        內(nèi)容規(guī)范約束
        描述檢核對象的值是否按照一定的要求和規(guī)范進行數(shù)據(jù)的錄入與存儲。
        例如:余額或者日期等一般都會按照固定類型存儲,如果最初設(shè)計為字符型后續(xù)應(yīng)按照對應(yīng)類型調(diào)整。
        首先這種情況最好一開始就建立好統(tǒng)一規(guī)范,按照業(yè)務(wù)含義去指定技術(shù)類型。如果最初做的不好,可以通過類型進行數(shù)據(jù)探查,對數(shù)據(jù)統(tǒng)一格式化。
        取值范圍約束
        描述檢核對象的取值是否在預(yù)定義的范圍內(nèi)。
        例如:余額不能為負數(shù),日期不能為負數(shù)等等。
        如果業(yè)務(wù)初始沒有做限制,只能通過 sql 去對數(shù)據(jù)過濾查詢,對有問題數(shù)據(jù)集中 etl 處理。

        數(shù)據(jù)一致性維度大類下可細分為以下維度小類:
        等值一致性依賴約束:描述檢核對象之間數(shù)據(jù)取值的約束規(guī)則。一個檢核對象數(shù)據(jù)取值必須與另一個或多個檢核對象在一定規(guī)則下相等。
        存在一致性依賴約束:描述檢核對象之間數(shù)據(jù)值存在關(guān)系的約束規(guī)則。一個檢核對象的數(shù)據(jù)值必須在另一個檢核對象滿足某一條件時存在。
        邏輯一致性依賴約束:描述檢核對象之間數(shù)據(jù)值邏輯關(guān)系的約束規(guī)則。一個檢核對象上的數(shù)據(jù)值必須與另一個檢核對象的數(shù)據(jù)值滿足某種邏輯關(guān)系(如大于、小于等)。
        等值一致性依賴約束 一般指外鍵關(guān)聯(lián)的場景。例如:保單表,理賠表的保單號存在保單主表,同一張表,兩個字段之間的關(guān)聯(lián)關(guān)系。
        存在一致性依賴約束 主要是強調(diào)業(yè)務(wù)的關(guān)聯(lián)性,一個狀態(tài)發(fā)生了則某個值一定會如何。
        例如:投保狀態(tài)為已投保,則投保日期不應(yīng)為空;
        邏輯一致性依賴約束 主要強調(diào)的是字段間的互相約束關(guān)系。
        例如:投保開始時間小于等于投保結(jié)束時間。

        數(shù)據(jù)準(zhǔn)確性主要是指取值的準(zhǔn)確性,描述該檢核對象是否與其對應(yīng)的客觀實體的特征相一致。
        例如:投保人的性別代碼為 0-女性,雖然滿足代碼值域約束,但卻不滿足取值準(zhǔn)確性約束,因為該人為男性,其性別代碼應(yīng)為 1-男性;
        再如:國際保函業(yè)務(wù)的手續(xù)費應(yīng)錄入為國際擔(dān)保手續(xù)費收入,卻錄入成國內(nèi)擔(dān)保手續(xù)費收入。
        準(zhǔn)確性要求不僅數(shù)據(jù)的取值范圍和內(nèi)容規(guī)范滿足有效性的要求,其值也是客觀真實世界的數(shù)據(jù)。由此可見,有效的數(shù)據(jù)未必是準(zhǔn)確的,反之成立。
        準(zhǔn)確性通常需要業(yè)務(wù)人員或其他當(dāng)事人手工核查。
        對待這種情況,數(shù)據(jù)質(zhì)量規(guī)則沒辦法直接統(tǒng)一處理,只能通過即使查詢的方式對數(shù)據(jù)結(jié)果進行詳細核查。

        及時性約束:描述檢核數(shù)據(jù)能否及時反映其對應(yīng)的實際業(yè)務(wù)的時點狀態(tài)。
        例如:系統(tǒng)中貸款五級分類的分類比實際中的延遲幾天變化;再如理財業(yè)務(wù)在理財系統(tǒng)中是成功狀態(tài),但在核心系統(tǒng)中卻因通信的原因而沒有入賬。
        及時性由于多個系統(tǒng)、通信等原因而造成,通常需要業(yè)務(wù)人員或系統(tǒng)人員手工核查。
        一般來說數(shù)據(jù)同步都是基于業(yè)務(wù)系統(tǒng)的落表技術(shù)字段(比如:CREATE_DT),而真是業(yè)務(wù)發(fā)生的時間可能與該字段存在時間間隔??梢酝ㄟ^簡單的sql對兩個時間比較,判斷數(shù)據(jù)的及時性是否符合需求。

        數(shù)據(jù)可信性約束:描述再數(shù)據(jù)同步中每日/月增量數(shù)據(jù)是否符合理論的經(jīng)驗值。
        例如:保單數(shù)據(jù)的每日分區(qū)數(shù)據(jù)較前日一般有 10% 增長,突然數(shù)據(jù)增長變?yōu)?00%,這種情況有可能時數(shù)據(jù)同步出現(xiàn)問題。
        再如:每月的營收總額一般都按一定規(guī)律上漲,突然數(shù)據(jù)波動較大則一般都可能出現(xiàn)問題。
        可信性要求數(shù)據(jù)的總量波動符合基本客觀規(guī)律,一般通過對 7,15,30 日數(shù)據(jù)進行比較,如果出現(xiàn)差距較大則進行詳細的問題探查。


        Flink on YARN模式下TaskManager的內(nèi)存分配探究

        業(yè)務(wù)和管理決定上限,技術(shù)決定下限

        脫離ZooKeeper依賴的Kafka Controller Quorum(KRaft)機制淺析

        背景調(diào)查時在調(diào)查些什么?
        瀏覽 79
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            夜夜摸夜夜爽 | 麻豆91麻豆国产传媒的特点 | 欧美性交XXXX | 我与娇妻第一次玩3p竟上瘾 | 超碰97在线播放 | 欧美人妇做爰免费视频 | 我被老头给添的直叫过程最新章节 | 日本人体视频 | 国产久久精品视频 | 久久精品福利视频 |