1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)庫、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖對比分析

        共 6890字,需瀏覽 14分鐘

         ·

        2021-08-05 17:45

        寫在前面

        層出不窮的新技術(shù)、新概念、新應(yīng)用往往會對初學(xué)者造成很大的困擾,有時候很難理清楚它們之間的區(qū)別與聯(lián)系。本文將以數(shù)據(jù)研發(fā)相關(guān)領(lǐng)域為例,對比分析我們工作中高頻出現(xiàn)的幾個名詞,主要包括以下幾個方面:

        • 數(shù)據(jù)
          • 什么是大數(shù)據(jù)
          • 數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么
        • 數(shù)據(jù)庫
          • 什么是數(shù)據(jù)庫
          • 數(shù)據(jù)庫中的分布式事務(wù)理論
        • 數(shù)據(jù)倉庫
          • 什么是數(shù)據(jù)倉庫
          • 什么是數(shù)據(jù)集市
          • 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別是什么
        • 大數(shù)據(jù)平臺
          • 什么是大數(shù)據(jù)平臺
          • 什么是大數(shù)據(jù)開發(fā)平臺
        • 數(shù)據(jù)中臺
          • 什么是數(shù)據(jù)中臺
          • 數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系
        • 數(shù)據(jù)湖
          • 什么是數(shù)據(jù)湖
          • 數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系

        希望本文對你有所幫助,煩請讀者諸君分享、點贊、轉(zhuǎn)發(fā)。

        數(shù)據(jù)

        什么是大數(shù)據(jù)

        麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

        我們再往深處思考一下,為什么會有大數(shù)據(jù)(大數(shù)據(jù)技術(shù))?其實大數(shù)據(jù)就是在這個數(shù)據(jù)爆炸增長的時代,業(yè)務(wù)需求增長促進技術(shù)迭代,技術(shù)滿足需求后又形成閉環(huán)促進業(yè)務(wù)持續(xù)增長,從而形成一個閉環(huán)。

        數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么

        數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析數(shù)據(jù)挖掘。我們在工作中經(jīng)常常說的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。


        數(shù)據(jù)分析(狹義)
        Data Analysis
        數(shù)據(jù)挖掘  Data Mining
        定義根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法及工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法,挖掘出未知的、且有價值的信息和知識的過程。
        作用主要實現(xiàn)三大作用:現(xiàn)狀分析、原因分析、預(yù)測分析(定量)。數(shù)據(jù)分析的目標明確,先做假設(shè),然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論。數(shù)據(jù)挖掘主要側(cè)重解決四類問題:分類、聚類、關(guān)聯(lián)和預(yù)測(定量、定性),數(shù)據(jù)挖掘的重點在尋找未知的模式與規(guī)律;如我們常說的數(shù)據(jù)挖掘案例:啤酒與尿布等,這就是事先未知的,但又是非常有價值的信息。
        方法主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析等統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法進行挖掘。
        結(jié)果數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結(jié)果,如總和、平均值等,這些指標數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進行解讀,才能發(fā)揮出數(shù)據(jù)的價值與作用。輸出模型或規(guī)則,并且可相應(yīng)得到模型得分或標簽,模型得分如流失概率值、總和得分、相似度、預(yù)測值等,標簽如高中低價值用戶、流失與非流失、信用優(yōu)良中差等。

        數(shù)據(jù)庫

        什么是數(shù)據(jù)庫

        數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。是一個長期存儲在計算機內(nèi)的、有組織的、可共享的、統(tǒng)一管理的大量數(shù)據(jù)的集合。

        一般而言,我們所說的數(shù)據(jù)庫指的是數(shù)據(jù)庫管理系統(tǒng),并不單指一個數(shù)據(jù)庫實例。

        根據(jù)數(shù)據(jù)存儲的方式不同,可以將數(shù)據(jù)庫分為三類:分別為行存儲、列存儲、行列混合存儲,其中行存儲的數(shù)據(jù)庫代表產(chǎn)品有Oracle、MySQL、PostgresSQL等;列存儲的數(shù)據(jù)代表產(chǎn)品有Greenplum、HBASE、Teradata等;行列混合存儲的數(shù)據(jù)庫代表產(chǎn)品有TiDB,ADB for Mysql等。

        數(shù)據(jù)庫中的分布式事務(wù)理論

        ACID

        傳統(tǒng)關(guān)系型數(shù)據(jù)庫事務(wù)設(shè)計原則,以下四點必須全部滿足:

        • 原子性Atomicity:事務(wù)中操作要么都發(fā)生,要么都不發(fā)生;
        • 一致性Consistency:事務(wù)前后數(shù)據(jù)完整性保持一致;
        • 隔離性Isolation:多個用戶并發(fā)事務(wù)相互隔離;
        • 持久性Durability:事務(wù)被提交后數(shù)據(jù)的改變就是永久性的。

        舉例說明:A賬號有200元,B賬號有100元,現(xiàn)在A給B賬戶進行轉(zhuǎn)賬操作:

        • A減少100元,同時B增加100元,兩個操作要么都成功要么都失敗,滿足原子性;

        • A減少的金額,和B增加的金額要一致,按照一致性;

        • 假如A給B轉(zhuǎn)賬的同一時刻,B又給C轉(zhuǎn)賬,這兩筆交易是相互隔離,滿足隔離性;

        • A給B轉(zhuǎn)賬100元,事務(wù)提交之后,在查詢賬號,A減少100元,B增加100元,滿足持久性;

        CAP理論

        2000年,Berkerly大學(xué)有位Eric Brewer教授提出了一個CAP理論,在2002年,麻省理工學(xué)院的Seth Gilbert(賽斯·吉爾伯特)Nancy Lynch(南?!ち制?發(fā)表了布魯爾猜想的證明,證明了CAP理論的正確性。所謂CAP理論,是指對于一個分布式計算系統(tǒng)來說,不可能同時滿足以下三點:

        • 一致性(Consistency) 等同于所有節(jié)點訪問同一份最新的數(shù)據(jù)副本。即任何一個讀操作總是能夠讀到之前完成的寫操作的結(jié)果,也就是說,在分布式環(huán)境中,不同節(jié)點訪問的數(shù)據(jù)是一致的。
        • 可用性(Availability) 每次請求都能獲取到非錯的響應(yīng)——但是不保證獲取的數(shù)據(jù)為最新數(shù)據(jù)。即快速獲取數(shù)據(jù),可以在確定的時間內(nèi)返回操作結(jié)果。
        • 分區(qū)容錯性(Partition tolerance) 以實際效果而言,分區(qū)相當于對通信的時限要求。系統(tǒng)如果不能在時限內(nèi)達成數(shù)據(jù)一致性,就意味著發(fā)生了分區(qū)的情況,必須就當前操作在C和A之間做出選擇。即指當出現(xiàn)網(wǎng)絡(luò)分區(qū)時(系統(tǒng)中的一部分節(jié)點無法與其他的節(jié)點進行通信),分離的系統(tǒng)也能夠正常運行,即可靠性。

        一個分布式的系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容錯性,最多同時滿足兩個。當處理CAP的問題時,可以有一下幾個選擇:

        • 滿足CA,不滿足P。將所有與事務(wù)相關(guān)的內(nèi)容都放在同一個機器上,這樣會影響系統(tǒng)的可擴展性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。如MySQL、SQL Server 、PostgresSQL等都采用了此種設(shè)計原則。
        • 滿足AP,不滿足C。不滿足一致性(C),即允許系統(tǒng)返回不一致的數(shù)據(jù)。其實,對于WEB2.0的網(wǎng)站而言,更加關(guān)注的是服務(wù)是否可用,而不是一致性。比如你發(fā)了一篇博客或者寫一篇微博,你的一部分朋友立馬看到了這篇文章或者微博,另一部分朋友卻要等一段時間之后才能刷出這篇文章或者微博。雖然有延時,但是對于一個娛樂性質(zhì)的Web 2.0網(wǎng)站而言,這幾分鐘的延時并不重要,不會影響用戶體驗。相反,當發(fā)布一篇文章或微博時,不能夠立即發(fā)布(不滿足可用性),用戶對此肯定不爽。所以呢,對于WEB2.0的網(wǎng)站而言,可用性和分區(qū)容錯性的優(yōu)先級要高于數(shù)據(jù)一致性,當然,并沒有完全放棄一致性,而是最終的一致性(有延時)。如Dynamo、Cassandra、CouchDB等NoSQL數(shù)據(jù)庫采用了此原則。
        • 滿足CP,不滿足A。強調(diào)一致性性(C)和分區(qū)容錯性(P),放棄可用性性(A)。當出現(xiàn)網(wǎng)絡(luò)分區(qū)時,受影響的服務(wù)需要等待數(shù)據(jù)一致,在等待期間無法對外提供服務(wù)。如Neo4J、HBase 、MongoDB、Redis等采用了此種設(shè)計原則。

        數(shù)據(jù)倉庫

        什么是數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。

        • 面向主題的:根據(jù)使用者的需求,將來自不同數(shù)據(jù)源的數(shù)據(jù)圍繞著各種主題進行分類整合。

        • 集成的:來自各種數(shù)據(jù)源的數(shù)據(jù)按照統(tǒng)一的標準集成于數(shù)據(jù)倉庫中。

        • 相對穩(wěn)定的:數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列的歷史快照,不允許修改或刪除,只涉及數(shù)據(jù)查詢。

        • 反映歷史變化的 :數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù),從而反映出最新的數(shù)據(jù)變化。

        數(shù)據(jù)庫與數(shù)據(jù)倉庫有什么區(qū)別

        嚴格來講數(shù)據(jù)倉庫不是一門技術(shù),也不是一個產(chǎn)品。像前文提到的關(guān)系型數(shù)據(jù)庫MySQL和Oracle都屬于一種產(chǎn)品。那么是什么數(shù)據(jù)倉庫的,見名知意,其實就是存儲數(shù)據(jù)的倉庫,數(shù)據(jù)的來源有很多種,可以統(tǒng)一在數(shù)據(jù)倉庫中進行匯合,然后通過統(tǒng)一的建模,加工成服務(wù)與數(shù)據(jù)分析的數(shù)據(jù)模型,輔助企業(yè)分析決策。

        那么,數(shù)據(jù)倉庫該怎么構(gòu)建呢,目前使用Hive構(gòu)建數(shù)據(jù)倉庫的比較多,本文不會過多分析這些大數(shù)據(jù)技術(shù)??傊痪湓?,數(shù)據(jù)倉庫涉及數(shù)據(jù)建模,數(shù)據(jù)抽取ETL,數(shù)據(jù)可視化等一系列的流程,是一種數(shù)據(jù)解決方案,通常需要多種技術(shù)進行組合使用。

        數(shù)據(jù)倉庫的本質(zhì)是OLAP,即是做在線分析處理,這是與數(shù)據(jù)庫的本質(zhì)區(qū)別。還有一點既然是數(shù)據(jù)倉庫,肯定是要加工數(shù)據(jù),那么加工數(shù)據(jù)肯定耗時間,所以加工數(shù)據(jù)在實際的應(yīng)用中又分為批處理和實時處理。

        數(shù)據(jù)庫是為了解決OLTP而存在的,而數(shù)據(jù)倉庫是為了分析數(shù)據(jù)而存在的。數(shù)據(jù)庫的數(shù)據(jù)是數(shù)據(jù)倉庫的數(shù)據(jù)源,即將數(shù)據(jù)庫的數(shù)據(jù)加載至數(shù)據(jù)倉庫,所以說,數(shù)據(jù)倉庫不生產(chǎn)數(shù)據(jù),只做數(shù)據(jù)的搬運工。

        還有一點就是,數(shù)據(jù)倉庫并不是必須的,但是對于一個業(yè)務(wù)系統(tǒng)而言,數(shù)據(jù)庫是必須的。只有在業(yè)務(wù)穩(wěn)定運轉(zhuǎn)的情況下,才會去構(gòu)建企業(yè)級數(shù)據(jù)倉庫,通過數(shù)據(jù)分析,數(shù)據(jù)挖掘來輔助業(yè)務(wù)決策,實現(xiàn)錦上添花。


        數(shù)據(jù)庫數(shù)據(jù)倉庫
        數(shù)據(jù)處理類型OLTPOLAP
        使用人員業(yè)務(wù)開發(fā)人員分析決策人員
        核心功能日常事務(wù)處理面向分析決策
        數(shù)據(jù)模型關(guān)系模型(ER)多維模型(雪花、星型)
        數(shù)據(jù)量相對較小相對較大
        存儲內(nèi)容存儲當前數(shù)據(jù)存儲歷史數(shù)據(jù)
        操作類型查詢、插入、更新、刪除查詢?yōu)橹鳎褐蛔x操作、復(fù)雜查詢

        什么是數(shù)據(jù)集市

        數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場,就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。

        從范圍上來說,數(shù)據(jù)集市的數(shù)據(jù)是從數(shù)據(jù)庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)集市分為從屬的數(shù)據(jù)集市與獨立的數(shù)據(jù)集市:

        • 獨立型數(shù)據(jù)集市的數(shù)據(jù)來自于操作型數(shù)據(jù)庫,是為了滿足特殊用戶而建立的一種分析型環(huán)境。這種數(shù)據(jù)集市的開發(fā)周期一般較短,具有靈活性,但是因為脫離了數(shù)據(jù)倉庫,獨立建立的數(shù)據(jù)集市可能會導(dǎo)致信息孤島的存在,不能以全局的視角去分析數(shù)據(jù)。

        • 從屬型數(shù)據(jù)集市的數(shù)據(jù)來自于企業(yè)的數(shù)據(jù)倉庫,這樣會導(dǎo)致開發(fā)周期的延長,但是從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)定,可以提高數(shù)據(jù)分析的質(zhì)量,保證數(shù)據(jù)的一致性。

        指標數(shù)據(jù)倉庫數(shù)據(jù)集市
        數(shù)據(jù)來源OLTP系統(tǒng)、外部數(shù)據(jù)數(shù)據(jù)倉庫
        范圍企業(yè)級部門級或工作組級
        主題企業(yè)主題部門或特殊的分析主題
        數(shù)據(jù)粒度最細的粒度較粗的粒度
        歷史數(shù)據(jù)大量的歷史數(shù)據(jù)適度的歷史數(shù)據(jù)
        目的處理海量數(shù)據(jù),數(shù)據(jù)探索便于某個維度數(shù)據(jù)訪問和分析,快速查詢

        大數(shù)據(jù)平臺

        什么是大數(shù)據(jù)平臺

        大數(shù)據(jù)平臺是一個集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、查詢檢索、分析挖掘等、應(yīng)用接口等功能為一體的平臺。通俗的理解包括Hadoop生態(tài)的相關(guān)產(chǎn)品,比如Spark、Flink、Flume、Kafka、Hive、HBase等等等經(jīng)典開源產(chǎn)品。

        提到Hadoop生態(tài)技術(shù),不得不提的是Apache和Cloudera。國內(nèi)絕大部分公司的大數(shù)據(jù)平臺都是基于這兩個分支的產(chǎn)品進行商業(yè)化包裝和改進。例如:阿里云EMR、騰訊TBDS、華為FusionInsight、新華三DataEngine、浪潮Insight HD、中興DAP等產(chǎn)品。

        其實,對于大數(shù)據(jù)平臺,業(yè)內(nèi)并無一個固定的能力范圍。當前比較權(quán)威的是全國信標委今年發(fā)布了大數(shù)據(jù)平臺的國標 《GB/T 38673-2020 信息技術(shù) 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng)基本要求》,將大數(shù)據(jù)系統(tǒng)劃分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)訪問、資源管理、系統(tǒng)管理8個部分,分別對各部分提出技術(shù)要求。所以會發(fā)現(xiàn)每個廠家推出的大數(shù)據(jù)平臺都包含很多功能、甚至組合的產(chǎn)品,屬于大數(shù)據(jù)的產(chǎn)品種類非常多。

        什么是大數(shù)據(jù)開發(fā)平臺

        由于大數(shù)據(jù)技術(shù)很多,單獨使用的學(xué)習(xí)成本很高,為了提升數(shù)據(jù)開發(fā)的效率,也就出現(xiàn)了大數(shù)據(jù)開發(fā)平臺。簡單講,數(shù)據(jù)開發(fā)平臺就是集成了大數(shù)據(jù)平臺的一個開發(fā)套件,比如阿里云的DataWorks就是一個代表,DataWorks(數(shù)據(jù)工場,原大數(shù)據(jù)開發(fā)套件)是阿里云重要的PaaS(Platform-as-a-Service)平臺產(chǎn)品,提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。

        數(shù)據(jù)中臺

        什么是數(shù)據(jù)中臺

        阿里巴巴于2017年云棲大會正式對外提出數(shù)據(jù)中臺概念,數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應(yīng)力跟不上的問題。中臺不是一個產(chǎn)品!與業(yè)務(wù)強相關(guān)

        數(shù)據(jù)中臺的一些定義:

        序號定義定義出處
        1中臺就是“企業(yè)級能力復(fù)用平臺”。《白話中臺戰(zhàn)略-3:中臺的定義》
        2中臺通過集合整個集團的運營數(shù)據(jù)能力、產(chǎn)品技術(shù)能力,來對各前臺業(yè)務(wù)形成強力支撐。《大型集團性企業(yè)的中臺戰(zhàn)略—阿里的中臺戰(zhàn)略其實是個偽命題》
        3中臺是一種需求分析的方法論,一套能力接入標準,一套運作機制,集中配置、分布執(zhí)行的控制臺。《中臺如何助力標準化業(yè)務(wù)?中臺關(guān)鍵要快!》
        4“中臺”是強調(diào)資源整合、能力沉淀的平臺體系,為“前臺”的業(yè)務(wù)開展提供底層的技術(shù)、數(shù)據(jù)等資源和能力的支持。《大中臺 小前臺》
        5中臺是居于前臺和后臺之間、位于基礎(chǔ)架構(gòu)和各產(chǎn)品線間的業(yè)務(wù)架構(gòu)。《關(guān)于架構(gòu)的思考-評《阿里巴巴中臺戰(zhàn)略思想與架構(gòu)實踐》》
        6數(shù)據(jù)中臺是將各個業(yè)務(wù)板塊多年來積累的數(shù)據(jù),按業(yè)務(wù)特征進行橫向關(guān)聯(lián)和統(tǒng)一,按數(shù)據(jù)用途進行縱向分層,最終沉淀為公共的數(shù)據(jù)服務(wù)能力。《傳統(tǒng)企業(yè)數(shù)據(jù)中臺的建設(shè)與思考》
        7數(shù)據(jù)中臺的實質(zhì)還是組件化,模塊化,是設(shè)計模式與業(yè)務(wù)端的應(yīng)用。袋鼠云數(shù)據(jù)中臺專欄(一):淺析數(shù)據(jù)中臺策略與建設(shè)實踐
        8中臺是一個用技術(shù)鏈接大數(shù)據(jù)技術(shù)能力,用業(yè)務(wù)鏈接數(shù)據(jù)應(yīng)用場景的能力平臺。《阿里中臺建設(shè)全解密:包含哪些內(nèi)容?如何發(fā)揮作用?》

        數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系

        序號數(shù)據(jù)倉庫數(shù)據(jù)中臺
        計算存儲基于OLAP類型的數(shù)據(jù)庫構(gòu)建一套數(shù)據(jù)存儲體系混合架構(gòu),隨需搭配,滿足各類數(shù)據(jù) 的計算要求
        技術(shù)體系傳統(tǒng)的ETL開發(fā)和報表開發(fā)為主數(shù)倉建設(shè)、數(shù)據(jù)開發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)集成、數(shù)據(jù)治理、統(tǒng)一數(shù)據(jù)服務(wù)、數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、流批計算、敏捷BI報表開發(fā)等多個功能
        應(yīng)用場景報表為主多元化場景:除了傳統(tǒng)報表,還支持商品推薦、精準推送、客滿評價等非確定場景的業(yè)務(wù),數(shù)據(jù)服務(wù)業(yè)務(wù)、業(yè)務(wù)與數(shù)據(jù)互補,形成閉環(huán)
        價值體現(xiàn)面向管理層和業(yè)務(wù)人員的輔助決策除了完成傳統(tǒng)的業(yè)務(wù)人員輔助決策,還能面向業(yè)務(wù)系統(tǒng)推動優(yōu)化升級、數(shù)據(jù)變現(xiàn)等,把數(shù)據(jù)資產(chǎn)變成數(shù)據(jù)服務(wù)能力。

        數(shù)據(jù)湖

        什么是數(shù)據(jù)湖

        Pentaho的CTO James Dixon 在2011年提出了“Data Lake”的概念。在面對大數(shù)據(jù)挑戰(zhàn)時,他聲稱:不要想著數(shù)據(jù)的“倉庫”概念,想想數(shù)據(jù) 的“湖”概念。數(shù)據(jù)“倉庫”概念和數(shù)據(jù)湖概念的重大區(qū)別是:數(shù)據(jù)倉庫中數(shù)據(jù)在進入倉庫之前需要是事先歸類,以便于未來的分析。這在OLAP時代很常見,但是對于離線分析卻沒有任何意義,不如把大量的原始數(shù)據(jù)保存下來,而現(xiàn)在廉價的存儲提供了這個可能。

        • 數(shù)據(jù)倉庫是高度結(jié)構(gòu)化的架構(gòu),數(shù)據(jù)在轉(zhuǎn)換之前是無法加載到數(shù)據(jù)倉庫的,用戶可以直接獲得分析數(shù)據(jù)。

        • 數(shù)據(jù)湖中,數(shù)據(jù)直接加載到數(shù)據(jù)湖中,然后根據(jù)分析的需要再轉(zhuǎn)換數(shù)據(jù)

        數(shù)據(jù)湖產(chǎn)品是一套產(chǎn)品組合的解決方案

        數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系

        特性數(shù)據(jù)倉庫數(shù)據(jù)湖
        數(shù)據(jù)來自事務(wù)系統(tǒng)、運營數(shù)據(jù)庫和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)來自 IoT  設(shè)備、網(wǎng)站、移動應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系和關(guān)系數(shù)據(jù)
        Schema寫入型 Schema, 數(shù)據(jù)存儲之前需要定義Schema, 數(shù)據(jù)集成之前需要完成大量清洗工作 ,數(shù)據(jù)的價值需要提前明確讀取型 Schema, 數(shù)據(jù)存儲之后才需要定義Schema  提供敏捷、簡單的數(shù)據(jù)集成 ,數(shù)據(jù)的價值尚未明確
        擴展性中等開銷獲得較大的容量擴展低成本開銷獲得極大容量擴展
        性價比更快查詢結(jié)果會帶來較高存儲成本更快查詢結(jié)果只需較低存儲成本
        連接方式標準的SQL接口或者BI接口、ANSI SQL應(yīng)用程序、類SQL程序、其它方法
        數(shù)據(jù)質(zhì)量可作為重要事實依據(jù)的高度監(jiān)管數(shù)據(jù)任何可以或無法進行監(jiān)管的數(shù)據(jù)(例如原始數(shù)據(jù))
        復(fù)雜性復(fù)雜的SQL鏈接復(fù)雜的大數(shù)據(jù)處理
        用戶業(yè)務(wù)分析師數(shù)據(jù)科學(xué)家、數(shù)據(jù)開發(fā)人員和業(yè)務(wù)分析師(使用監(jiān)管數(shù)據(jù))
        分析批處理報告、BI 和可視化機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)發(fā)現(xiàn)和分析
        優(yōu)勢高并發(fā)、快速響應(yīng)、干凈安全的數(shù)據(jù)、數(shù)據(jù)一次轉(zhuǎn)換多次使用無限擴展性、支持編程框架、數(shù)據(jù)存儲成本低

        ·················END·················

        推薦閱讀

        1. 我在字節(jié)做了哪些事

        2. 寫給所有數(shù)據(jù)人。

        3. 從留存率業(yè)務(wù)案例談0-1的數(shù)據(jù)指標體系

        4. 數(shù)據(jù)分析師的一周

        5. 超級菜鳥如何入門數(shù)據(jù)分析?


        歡迎長按掃碼關(guān)注「數(shù)據(jù)管道」

        瀏覽 55
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产黄网在线 | 少妇性视频 | 国产视频一区二区在线观看 | 女人被男人强扒内裤内衣 | 日韩三级网| 蜜臀久久99精品久久久久久酒店 | 91精品国产综合久久蜜芽的特点 | 天天看天天摸天天操 | 家庭乱伦小说图片视频 | 黄色毛片一级片 |