1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量的度量維度!

        共 2756字,需瀏覽 6分鐘

         ·

        2022-09-17 21:21

        數(shù)據(jù)質(zhì)量的度量維度,業(yè)內(nèi)還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),以下分享重要&核心的數(shù)據(jù)質(zhì)量度量維度。建議收藏!

        1、記錄數(shù)完整
        記錄數(shù):正在評(píng)估數(shù)據(jù)集的記錄數(shù)值。
        檢查記錄數(shù)量是否與預(yù)期數(shù)量相負(fù)。如果不符,調(diào)查卻是記錄的根本原因并再次剖析數(shù)據(jù)集。
        2、完整性&填充率
        完整性或填充率:包含值的字段的數(shù)量和百分比的測(cè)量標(biāo)準(zhǔn)。
        完整性或填充率只基于數(shù)值的存在性。需要另外的分析以確定這些值是否有效。
        要詮釋結(jié)果,需要知道那些字段是必須的(強(qiáng)制性的)、可選擇的或有條件的。如果字段是必填的(應(yīng)用必填、業(yè)務(wù)必填或者該字段是主鍵),其填充率應(yīng)是100%。
        如果必填字段的填充率小于100%,請(qǐng)調(diào)查以下原因:
        如果是業(yè)務(wù)必填字段,查看應(yīng)用軟件是否需要登錄;
        如果應(yīng)用軟件不需登錄,查看其是否可針對(duì)需要的數(shù)據(jù)進(jìn)行修改;
        如果應(yīng)用軟件不能修改,對(duì)那些錄入數(shù)據(jù)的人的資料進(jìn)行歸檔,并對(duì)他們進(jìn)行培訓(xùn)。這種情況下,應(yīng)密切監(jiān)視數(shù)據(jù);
        檢查在數(shù)據(jù)庫(kù)中實(shí)施“非空”的可行性;
        在兩個(gè)不同層面上檢查完整性/填充率:
        單個(gè)列或字段:確定字段中是否存在數(shù)據(jù);
        一組數(shù)據(jù):確定完成特定基本流程所需一系列字段的填充率。
        3、空值/空字段
        空:空字段(空是因?yàn)樽侄沃惺裁匆矝](méi)有)的數(shù)量和百分比的測(cè)量標(biāo)準(zhǔn)。
        空是與完整性和填充率相反的。完整性或填充率的分析同樣適用于此,只需用相反的觀點(diǎn)來(lái)進(jìn)行評(píng)判。
        4、唯一值列表
        唯一值列表:字段中不同或唯一值的列表。
        確定數(shù)值是允許的或有效的。不同的字段的有效值集也不同。有效值集也被看成數(shù)據(jù)域或值域集。
        檢查該字段中不同值的數(shù)目與有效值的數(shù)目。
        可能的話(huà),比較實(shí)際的不同值列表與預(yù)期有效值列表。預(yù)期有效值可來(lái)自諸如參考表格或編碼列表的數(shù)值列表,也可來(lái)自主題專(zhuān)家,或來(lái)自公司遵循的外部標(biāo)準(zhǔn)。
        如果業(yè)務(wù)沒(méi)有有效值列表,請(qǐng)使用來(lái)自剖析的列表作為起點(diǎn)來(lái)開(kāi)發(fā)一個(gè)有效值列表。
        尋找默認(rèn)值,將默認(rèn)值歸檔;
        尋找有重復(fù)含義的值;
        如果對(duì)數(shù)值列表進(jìn)行變更,將所有數(shù)值映射歸檔,并用需要變更的值更新記錄。
        5、數(shù)據(jù)有效性
        有效性:對(duì)字段中的值是否在允許的或有效的數(shù)值集中的測(cè)試。
        對(duì)每個(gè)字段的“有效的”含義進(jìn)行定義和歸檔;不同字段的有效性構(gòu)成不同。
        合法性測(cè)試可包括格式或樣式、域、有效編碼、類(lèi)型(字母的/數(shù)字的)、依賴(lài)關(guān)系、業(yè)務(wù)規(guī)則、數(shù)據(jù)錄入標(biāo)準(zhǔn)、最大和最小范圍,等等。
        例如,記錄中的所有編碼是否被系統(tǒng)編碼表中的業(yè)務(wù)定義為有效編碼;如果是數(shù)字字段,字段中是否有字幕;日期字段中的日期是否在必需的范圍內(nèi)。
        有效性測(cè)試結(jié)果可以完整性/填充率的百分比來(lái)報(bào)告。
        6、頻率分布
        頻率分布:字段中唯一值的分布,通過(guò)數(shù)量和百分比來(lái)度量。
        頻率分布給出了一個(gè)使用思路,評(píng)判最高和最低數(shù)量值。
        可考慮放棄那些使用頻率低的數(shù)值,并改用一個(gè)常用的可比價(jià)的數(shù)值。
        研究所發(fā)現(xiàn)的常量。常量是指每個(gè)記錄有相同數(shù)值的任一列,這可以是從未使用或不再使用的數(shù)據(jù)元素的標(biāo)志。
        確定數(shù)值分布是否是所期望的分布。
        如果對(duì)數(shù)值列表已做變更,請(qǐng)將數(shù)值映射歸檔,并用需要變更的數(shù)值更新記錄。
        尋找在分析信息環(huán)境時(shí)可能已發(fā)現(xiàn)的且正被業(yè)務(wù)廣泛使用的那些異常數(shù)值的發(fā)生頻率。
        觀察默認(rèn)值或假值的頻率分布,使用頻率分布來(lái)確定待選主鍵。
        如果不同值的比重較低,等值字段可能是相關(guān)的,許多空值或零值可能就有問(wèn)題了。通常50%的不同值將由其他列確定是否為純業(yè)務(wù)數(shù)據(jù)。
        有特定值的字段(例如,所有記錄在該字段的值均相等)是潛在無(wú)用的或具有常數(shù)屬性,確定是否應(yīng)為此在數(shù)據(jù)庫(kù)中占用一定空間??紤]輸入到一個(gè)常數(shù)表中。
        7、最大數(shù)值和最小數(shù)值范圍
        最大數(shù)值和最小數(shù)值范圍:由最大數(shù)值和最小數(shù)值表示的數(shù)值范圍。
        數(shù)值范圍上界和下界的任何數(shù)值可快速顯示數(shù)據(jù)質(zhì)量問(wèn)題;
        觀察重要日期字段的最大值和最小值;
        尋找期望之外的或歸檔范圍以外的數(shù)值。
        8、數(shù)據(jù)新鮮度
        新鮮度:關(guān)鍵日期字段或日期范圍的頻率分布。
        與日期字段或數(shù)據(jù)范圍相關(guān)的一類(lèi)頻率分布;
        還被用于向兩個(gè)其他數(shù)據(jù)質(zhì)量維度模擬或提供輸入數(shù)據(jù):及時(shí)性(數(shù)據(jù)的及時(shí)程度)和數(shù)據(jù)衰變(數(shù)據(jù)的負(fù)面變化率)。
        9、內(nèi)容
        內(nèi)容:數(shù)據(jù)內(nèi)容與列或字段名稱(chēng)的匹配。
        比較列或字段名與數(shù)據(jù)內(nèi)容;
        字段包含的是否是預(yù)期數(shù)據(jù)。
        10、重復(fù)
        重復(fù):確定是否存在意外重復(fù)。
        通過(guò)評(píng)判重復(fù)含義數(shù)值列表來(lái)獲取重復(fù)數(shù)據(jù)的高層視圖;
        有些工具提供不同列間的數(shù)據(jù)值比較,以及通常基于不同數(shù)值精確字符串匹配的重疊百分比;
        有些數(shù)據(jù)剖析工具強(qiáng)調(diào)僅基于精確字符串匹配的重復(fù)數(shù)據(jù),但其他工具使用經(jīng)常被稱(chēng)為“模糊匹配”的工具。
        11、數(shù)據(jù)類(lèi)型
        尋找通過(guò)剖析工具推斷的、預(yù)期數(shù)據(jù)類(lèi)型和實(shí)際數(shù)據(jù)類(lèi)型之間的差異。
        工具可顯示歸檔的數(shù)據(jù)類(lèi)型(或每個(gè)元數(shù)據(jù)的預(yù)期數(shù)據(jù)類(lèi)型),并與從實(shí)際數(shù)據(jù)內(nèi)容中推斷出的數(shù)據(jù)類(lèi)型進(jìn)行比較;該工具也標(biāo)記源數(shù)據(jù)類(lèi)型和目標(biāo)數(shù)據(jù)類(lèi)型之間的不相容性,該問(wèn)題需在遷移數(shù)據(jù)時(shí)予以解決。
        對(duì)數(shù)據(jù)模型而言,該工具也呈現(xiàn)數(shù)據(jù)類(lèi)型以及可用于該模型中的替代數(shù)據(jù)類(lèi)型實(shí)例。
        12、大小或長(zhǎng)度
        大小或長(zhǎng)度:字段中數(shù)據(jù)的長(zhǎng)度。
        尋找實(shí)際數(shù)據(jù)大小與預(yù)期數(shù)據(jù)大小之間的差異;
        尋找大量具有完全相同大小的記錄,這可顯示出在該字段中已被縮減了的數(shù)據(jù);
        如果源和目標(biāo)系統(tǒng)之間的大小存在差異,確定超出目標(biāo)大小的源記錄的數(shù)目和百分比:如果數(shù)目小,需人工更新記錄;如果數(shù)目大,需了解如果數(shù)據(jù)在遷移時(shí)被刪減將會(huì)對(duì)業(yè)務(wù)產(chǎn)生什么影響。
        13、樣式
        樣式:數(shù)據(jù)中發(fā)現(xiàn)的唯一式樣的數(shù)量和百分比。
        尋找意外的樣式;
        預(yù)期的或有效的樣式將根據(jù)字段的不同而不同;
        尋找ID字段的同一樣式。
        14、精度
        對(duì)數(shù)字?jǐn)?shù)據(jù),要確定小數(shù)點(diǎn)的位置是否在所需精度的位置。
        15、一致性
        一致性:同一記錄中相關(guān)字段的合理性測(cè)試。引用完整性。
        評(píng)判記錄中數(shù)據(jù)的一致性;
        評(píng)判記錄之間數(shù)據(jù)的一致性;
        評(píng)判高層業(yè)務(wù)規(guī)則以了解其關(guān)聯(lián)關(guān)系,并尋找符合性;
        尋找其他依賴(lài)關(guān)系。一個(gè)字段中具有正確格式的值與另一個(gè)字段中的值相關(guān)聯(lián);
        尋找計(jì)算:作為每一個(gè)源元素的存儲(chǔ)計(jì)算值是正確的。
        16、并發(fā)性和及時(shí)性
        并發(fā)性和及時(shí)性:各種數(shù)據(jù)庫(kù)、應(yīng)用軟件和流程之間的數(shù)據(jù)同步和數(shù)據(jù)時(shí)延,剖析多個(gè)數(shù)據(jù)庫(kù),并比較其結(jié)果的差異。
        17、業(yè)務(wù)規(guī)則
        確定是否沒(méi)被植入進(jìn)數(shù)據(jù)結(jié)構(gòu)中的業(yè)務(wù)/數(shù)據(jù)規(guī)則正在由應(yīng)用程序邏輯實(shí)施。
        這通常都是針對(duì)有自身規(guī)則的數(shù)據(jù)子集。例如,可能有具有特定規(guī)則的不同當(dāng)事者類(lèi)型(組織、合同等),這些規(guī)則需要某些列為空,而其他列要輸入。

        推薦閱讀:

        世界的真實(shí)格局分析,地球人類(lèi)社會(huì)底層運(yùn)行原理

        不是你需要中臺(tái),而是一名合格的架構(gòu)師(附各大廠中臺(tái)建設(shè)PPT)

        企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案

        論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

        華為干部與人才發(fā)展手冊(cè)(附PPT)

        企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

        【中臺(tái)實(shí)踐】華為大數(shù)據(jù)中臺(tái)架構(gòu)分享.pdf

        華為的數(shù)字化轉(zhuǎn)型方法論

        華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)

        超詳細(xì)280頁(yè)Docker實(shí)戰(zhàn)文檔!開(kāi)放下載

        華為大數(shù)據(jù)解決方案(PPT)

        瀏覽 60
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            和漂亮老师做爰2 | 色人妻在线 | 影音先锋在线视频资源 | 国产精品自拍一 | 亚洲一区二区国产精品 | 9.1精品人妻无码入口A片动漫 | 亚洲AV成人无码精品直播在线 | 吊逼视频| 女人18片毛片120分钟免费观看 | 丁香花电影高清在线小说阅读 |