1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        關(guān)于數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的概念和區(qū)別

        共 3281字,需瀏覽 7分鐘

         ·

        2021-05-02 00:02

        我們談?wù)?code style="font-size: 14px;overflow-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;background-color: rgba(27, 31, 35, 0.05);font-family: 'Operator Mono', Consolas, Monaco, Menlo, monospace;word-break: break-all;color: rgb(255, 93, 108);">數(shù)據(jù)中臺(tái)之前,我們也聽到過數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫、數(shù)據(jù)湖的相關(guān)概念,它們都與數(shù)據(jù)有關(guān)系,但他們和數(shù)據(jù)中臺(tái)有什么樣的區(qū)別,下面我們將分別介紹數(shù)據(jù)平臺(tái)數(shù)據(jù)倉庫數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)。

        相關(guān)概念

        數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫,它是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合存儲(chǔ)系統(tǒng),它將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲(chǔ)庫,并且是高度建模的。

        數(shù)據(jù)倉庫邏輯架構(gòu)

        數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或知識(shí)),并且在恰當(dāng)?shù)臅r(shí)間通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜?/span>。

        數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析、計(jì)劃和響應(yīng)4個(gè)方面:

        數(shù)據(jù)倉庫針對(duì)實(shí)時(shí)數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)預(yù)警預(yù)測等方面應(yīng)用有一定的限制。

        數(shù)據(jù)湖

        數(shù)據(jù)湖(Data Lake)是Pentaho公司CTO James Dixon提出來的一種數(shù)據(jù)存儲(chǔ)理念—即在系統(tǒng)或存儲(chǔ)庫中以自然格式存儲(chǔ)數(shù)據(jù)的方法。數(shù)據(jù)湖作為一個(gè)集中的存儲(chǔ)庫,可以在其中存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖中,可以存儲(chǔ)不需要對(duì)其進(jìn)行結(jié)構(gòu)化的數(shù)據(jù),這樣就可以運(yùn)行不同類型的分析。下面的定義是維基百科所給出的“數(shù)據(jù)湖”定義。

        數(shù)據(jù)湖(Data Lake)是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖是以其自然格式存儲(chǔ)的數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫,通常是對(duì)象Blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。[來源:維基百科]

        以下是關(guān)于數(shù)據(jù)湖的示意圖(圖片來源于網(wǎng)絡(luò)):

        數(shù)據(jù)湖能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的集中式管理等多種能力;數(shù)據(jù)湖融合了先進(jìn)的數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能技術(shù),幫助企業(yè)構(gòu)建更加優(yōu)化的數(shù)據(jù)運(yùn)營模型,為企業(yè)提供預(yù)測分析、推薦模型等能力,這些模型能夠刺激企業(yè)能力的持續(xù)增長,不斷賦能于企業(yè)增長。數(shù)據(jù)湖能從以下方面幫助到企業(yè):

        • 實(shí)現(xiàn)數(shù)據(jù)治理;
        • 通過應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實(shí)現(xiàn)商業(yè)智能;
        • 預(yù)測分析和模型推薦,例如:領(lǐng)域特定的推薦引擎 ;
        • 信息追蹤與一致性保障;
        • 基于歷史數(shù)據(jù)分析生成新的數(shù)據(jù)維度,挖掘數(shù)據(jù)深度價(jià)值;
        • 提供集中式存儲(chǔ)的企業(yè)數(shù)據(jù)中心,并提供基于數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù);
        • 協(xié)助企業(yè)實(shí)現(xiàn)靈活的增長決策。

        數(shù)據(jù)平臺(tái)

        數(shù)據(jù)平臺(tái)是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺(tái),為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集。

        數(shù)據(jù)平臺(tái)的出現(xiàn)是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)報(bào)表開發(fā)周期長的問題,所以先撇開業(yè)務(wù)需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個(gè)大的數(shù)據(jù)集,其中有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。當(dāng)業(yè)務(wù)方有需求的時(shí)候,再把他們需要的若干個(gè)小數(shù)據(jù)集單獨(dú)提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應(yīng)用。

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)平臺(tái)一般被稱之為大數(shù)據(jù)平臺(tái)。狹義上的大數(shù)據(jù)平臺(tái)和傳統(tǒng)數(shù)據(jù)平臺(tái)的功能一致,只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同,但廣義的大數(shù)據(jù)平臺(tái)通常被賦予更多的使命,它不僅存儲(chǔ)多樣化的數(shù)據(jù)類型,還具有報(bào)表分析等數(shù)據(jù)倉庫的功能,以及其他數(shù)據(jù)分析挖掘方面的高級(jí)功能。

        數(shù)據(jù)中臺(tái)

        網(wǎng)易數(shù)據(jù)中臺(tái)架構(gòu)圖

        里數(shù)據(jù)中臺(tái)邏輯架構(gòu)圖

        數(shù)據(jù)中臺(tái)通過對(duì)企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析和應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù)價(jià)值,對(duì)外進(jìn)行數(shù)據(jù)合作讓業(yè)務(wù)價(jià)值得到釋放,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API服務(wù),為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)

        數(shù)據(jù)中臺(tái)對(duì)一個(gè)企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺(tái)為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺(tái)的最大意義就是應(yīng)用與數(shù)據(jù)之間的解藕,這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用。

        • 構(gòu)建了開放、靈活、可擴(kuò)展的企業(yè)級(jí)統(tǒng)一數(shù)據(jù)管理和分析平臺(tái),將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。
        • 利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享、日常報(bào)表自動(dòng)生成、快速和智能分析,滿足企業(yè)各級(jí)部門之間的數(shù)據(jù)分析應(yīng)用需求。
        • 深度挖掘數(shù)據(jù)價(jià)值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實(shí)現(xiàn)報(bào)表生成自動(dòng)化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評(píng)估、落地管理流程。

        數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖

        相較而言,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲(chǔ)任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會(huì)接受數(shù)據(jù)治理,但專家們一致認(rèn)為良好的數(shù)據(jù)管理對(duì)預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。

        數(shù)據(jù)倉庫 VS 數(shù)據(jù)平臺(tái)

        由于數(shù)據(jù)倉庫具有歷史性的特性,其中存儲(chǔ)的數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù);而數(shù)據(jù)平臺(tái)的出現(xiàn)解決了數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題。
        通過以上的論述,我們發(fā)現(xiàn)數(shù)據(jù)平臺(tái)和數(shù)據(jù)湖好像存在諸多相似性,這二者之間的區(qū)別,從個(gè)人角度理解上分析應(yīng)該是數(shù)據(jù)加工的角度不同,數(shù)據(jù)湖更著重于對(duì)原始數(shù)據(jù)的存儲(chǔ),而數(shù)據(jù)平臺(tái)則同數(shù)據(jù)倉庫一樣,需對(duì)原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等數(shù)據(jù)處理后按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行存儲(chǔ)。

        數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺(tái)

        數(shù)據(jù)倉庫和傳統(tǒng)的數(shù)據(jù)平臺(tái),其出發(fā)點(diǎn)為一個(gè)支撐性的技術(shù)系統(tǒng),即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么,因此特別強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺(tái)的第一出發(fā)點(diǎn)不是數(shù)據(jù)而是業(yè)務(wù),一開始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務(wù)問題需要什么樣的數(shù)據(jù)服務(wù)。

        在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺(tái)中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。

        總結(jié)

        根據(jù)以上數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)中臺(tái)的概念論述和對(duì)比,我們進(jìn)行如下總結(jié):

        • 數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;
        • 數(shù)據(jù)中臺(tái)、數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個(gè)維度上為業(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重;
        • 數(shù)據(jù)中臺(tái)是企業(yè)級(jí)的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;
        • 數(shù)據(jù)倉庫是一個(gè)相對(duì)具體的功能概念,是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表;
        • 數(shù)據(jù)平臺(tái)是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺(tái),為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集;
          數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);
          數(shù)據(jù)倉庫是為了支持管理決策分析,而數(shù)據(jù)中臺(tái)則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場景,也適用于交易型場景;
          數(shù)據(jù)中臺(tái)可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺(tái)之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過程的中間層。
          原文地址:https://www.jianshu.com/p/a3a62402edaa

        瀏覽 42
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            天堂网在线观看 | 国精产品人妻一区二区视频动漫 | 欧美jizz18欧美 | 在线看黄的网站 | 国产午夜禁区精品视频 | 草草草网站| 色狠狠综合 | 高跟鞋毛片 | 丁香婷婷深深爱 | 国产乱码精品一区二三赶尸艳谈 |