數(shù)據(jù)庫、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖對比分析
寫在前面
層出不窮的新技術(shù)、新概念、新應(yīng)用往往會對初學(xué)者造成很大的困擾,有時候很難理清楚它們之間的區(qū)別與聯(lián)系。本文將以數(shù)據(jù)研發(fā)相關(guān)領(lǐng)域為例,對比分析我們工作中高頻出現(xiàn)的幾個名詞,主要包括以下幾個方面:
數(shù)據(jù) 什么是大數(shù)據(jù) 數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么 數(shù)據(jù)庫 什么是數(shù)據(jù)庫 數(shù)據(jù)庫中的分布式事務(wù)理論 數(shù)據(jù)倉庫 什么是數(shù)據(jù)倉庫 什么是數(shù)據(jù)集市 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別是什么 大數(shù)據(jù)平臺 什么是大數(shù)據(jù)平臺 什么是大數(shù)據(jù)開發(fā)平臺 數(shù)據(jù)中臺 什么是數(shù)據(jù)中臺 數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系 數(shù)據(jù)湖 什么是數(shù)據(jù)湖 數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系
希望本文對你有所幫助,煩請讀者諸君分享、點贊、轉(zhuǎn)發(fā)。
數(shù)據(jù)
什么是大數(shù)據(jù)
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
我們再往深處思考一下,為什么會有大數(shù)據(jù)(大數(shù)據(jù)技術(shù))?其實大數(shù)據(jù)就是在這個數(shù)據(jù)爆炸增長的時代,業(yè)務(wù)需求增長促進技術(shù)迭代,技術(shù)滿足需求后又形成閉環(huán)促進業(yè)務(wù)持續(xù)增長,從而形成一個閉環(huán)。
數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么
數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。我們在工作中經(jīng)常常說的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。
| 數(shù)據(jù)分析(狹義) Data Analysis | 數(shù)據(jù)挖掘 Data Mining | |
|---|---|---|
| 定義 | 根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法及工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。 | 數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法,挖掘出未知的、且有價值的信息和知識的過程。 |
| 作用 | 主要實現(xiàn)三大作用:現(xiàn)狀分析、原因分析、預(yù)測分析(定量)。數(shù)據(jù)分析的目標明確,先做假設(shè),然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論。 | 數(shù)據(jù)挖掘主要側(cè)重解決四類問題:分類、聚類、關(guān)聯(lián)和預(yù)測(定量、定性),數(shù)據(jù)挖掘的重點在尋找未知的模式與規(guī)律;如我們常說的數(shù)據(jù)挖掘案例:啤酒與尿布等,這就是事先未知的,但又是非常有價值的信息。 |
| 方法 | 主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。 | 主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析等統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法進行挖掘。 |
| 結(jié)果 | 數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結(jié)果,如總和、平均值等,這些指標數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進行解讀,才能發(fā)揮出數(shù)據(jù)的價值與作用。 | 輸出模型或規(guī)則,并且可相應(yīng)得到模型得分或標簽,模型得分如流失概率值、總和得分、相似度、預(yù)測值等,標簽如高中低價值用戶、流失與非流失、信用優(yōu)良中差等。 |
數(shù)據(jù)庫
什么是數(shù)據(jù)庫
數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。是一個長期存儲在計算機內(nèi)的、有組織的、可共享的、統(tǒng)一管理的大量數(shù)據(jù)的集合。
一般而言,我們所說的數(shù)據(jù)庫指的是數(shù)據(jù)庫管理系統(tǒng),并不單指一個數(shù)據(jù)庫實例。
根據(jù)數(shù)據(jù)存儲的方式不同,可以將數(shù)據(jù)庫分為三類:分別為行存儲、列存儲、行列混合存儲,其中行存儲的數(shù)據(jù)庫代表產(chǎn)品有Oracle、MySQL、PostgresSQL等;列存儲的數(shù)據(jù)代表產(chǎn)品有Greenplum、HBASE、Teradata等;行列混合存儲的數(shù)據(jù)庫代表產(chǎn)品有TiDB,ADB for Mysql等。
數(shù)據(jù)庫中的分布式事務(wù)理論
ACID
傳統(tǒng)關(guān)系型數(shù)據(jù)庫事務(wù)設(shè)計原則,以下四點必須全部滿足:
原子性Atomicity:事務(wù)中操作要么都發(fā)生,要么都不發(fā)生; 一致性Consistency:事務(wù)前后數(shù)據(jù)完整性保持一致; 隔離性Isolation:多個用戶并發(fā)事務(wù)相互隔離; 持久性Durability:事務(wù)被提交后數(shù)據(jù)的改變就是永久性的。
舉例說明:A賬號有200元,B賬號有100元,現(xiàn)在A給B賬戶進行轉(zhuǎn)賬操作:
A減少100元,同時B增加100元,兩個操作要么都成功要么都失敗,滿足原子性;
A減少的金額,和B增加的金額要一致,按照一致性;
假如A給B轉(zhuǎn)賬的同一時刻,B又給C轉(zhuǎn)賬,這兩筆交易是相互隔離,滿足隔離性;
A給B轉(zhuǎn)賬100元,事務(wù)提交之后,在查詢賬號,A減少100元,B增加100元,滿足持久性;
CAP理論
2000年,Berkerly大學(xué)有位Eric Brewer教授提出了一個CAP理論,在2002年,麻省理工學(xué)院的Seth Gilbert(賽斯·吉爾伯特)和Nancy Lynch(南?!ち制?發(fā)表了布魯爾猜想的證明,證明了CAP理論的正確性。所謂CAP理論,是指對于一個分布式計算系統(tǒng)來說,不可能同時滿足以下三點:
一致性(Consistency) 等同于所有節(jié)點訪問同一份最新的數(shù)據(jù)副本。即任何一個讀操作總是能夠讀到之前完成的寫操作的結(jié)果,也就是說,在分布式環(huán)境中,不同節(jié)點訪問的數(shù)據(jù)是一致的。 可用性(Availability) 每次請求都能獲取到非錯的響應(yīng)——但是不保證獲取的數(shù)據(jù)為最新數(shù)據(jù)。即快速獲取數(shù)據(jù),可以在確定的時間內(nèi)返回操作結(jié)果。 分區(qū)容錯性(Partition tolerance) 以實際效果而言,分區(qū)相當于對通信的時限要求。系統(tǒng)如果不能在時限內(nèi)達成數(shù)據(jù)一致性,就意味著發(fā)生了分區(qū)的情況,必須就當前操作在C和A之間做出選擇。即指當出現(xiàn)網(wǎng)絡(luò)分區(qū)時(系統(tǒng)中的一部分節(jié)點無法與其他的節(jié)點進行通信),分離的系統(tǒng)也能夠正常運行,即可靠性。
一個分布式的系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容錯性,最多同時滿足兩個。當處理CAP的問題時,可以有一下幾個選擇:
滿足CA,不滿足P。將所有與事務(wù)相關(guān)的內(nèi)容都放在同一個機器上,這樣會影響系統(tǒng)的可擴展性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。如MySQL、SQL Server 、PostgresSQL等都采用了此種設(shè)計原則。 滿足AP,不滿足C。不滿足一致性(C),即允許系統(tǒng)返回不一致的數(shù)據(jù)。其實,對于WEB2.0的網(wǎng)站而言,更加關(guān)注的是服務(wù)是否可用,而不是一致性。比如你發(fā)了一篇博客或者寫一篇微博,你的一部分朋友立馬看到了這篇文章或者微博,另一部分朋友卻要等一段時間之后才能刷出這篇文章或者微博。雖然有延時,但是對于一個娛樂性質(zhì)的Web 2.0網(wǎng)站而言,這幾分鐘的延時并不重要,不會影響用戶體驗。相反,當發(fā)布一篇文章或微博時,不能夠立即發(fā)布(不滿足可用性),用戶對此肯定不爽。所以呢,對于WEB2.0的網(wǎng)站而言,可用性和分區(qū)容錯性的優(yōu)先級要高于數(shù)據(jù)一致性,當然,并沒有完全放棄一致性,而是最終的一致性(有延時)。如Dynamo、Cassandra、CouchDB等NoSQL數(shù)據(jù)庫采用了此原則。 滿足CP,不滿足A。強調(diào)一致性性(C)和分區(qū)容錯性(P),放棄可用性性(A)。當出現(xiàn)網(wǎng)絡(luò)分區(qū)時,受影響的服務(wù)需要等待數(shù)據(jù)一致,在等待期間無法對外提供服務(wù)。如Neo4J、HBase 、MongoDB、Redis等采用了此種設(shè)計原則。
數(shù)據(jù)倉庫
什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
面向主題的:根據(jù)使用者的需求,將來自不同數(shù)據(jù)源的數(shù)據(jù)圍繞著各種主題進行分類整合。
集成的:來自各種數(shù)據(jù)源的數(shù)據(jù)按照統(tǒng)一的標準集成于數(shù)據(jù)倉庫中。
相對穩(wěn)定的:數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列的歷史快照,不允許修改或刪除,只涉及數(shù)據(jù)查詢。
反映歷史變化的 :數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù),從而反映出最新的數(shù)據(jù)變化。
數(shù)據(jù)庫與數(shù)據(jù)倉庫有什么區(qū)別
嚴格來講數(shù)據(jù)倉庫不是一門技術(shù),也不是一個產(chǎn)品。像前文提到的關(guān)系型數(shù)據(jù)庫MySQL和Oracle都屬于一種產(chǎn)品。那么是什么數(shù)據(jù)倉庫的,見名知意,其實就是存儲數(shù)據(jù)的倉庫,數(shù)據(jù)的來源有很多種,可以統(tǒng)一在數(shù)據(jù)倉庫中進行匯合,然后通過統(tǒng)一的建模,加工成服務(wù)與數(shù)據(jù)分析的數(shù)據(jù)模型,輔助企業(yè)分析決策。
那么,數(shù)據(jù)倉庫該怎么構(gòu)建呢,目前使用Hive構(gòu)建數(shù)據(jù)倉庫的比較多,本文不會過多分析這些大數(shù)據(jù)技術(shù)??傊痪湓?,數(shù)據(jù)倉庫涉及數(shù)據(jù)建模,數(shù)據(jù)抽取ETL,數(shù)據(jù)可視化等一系列的流程,是一種數(shù)據(jù)解決方案,通常需要多種技術(shù)進行組合使用。
數(shù)據(jù)倉庫的本質(zhì)是OLAP,即是做在線分析處理,這是與數(shù)據(jù)庫的本質(zhì)區(qū)別。還有一點既然是數(shù)據(jù)倉庫,肯定是要加工數(shù)據(jù),那么加工數(shù)據(jù)肯定耗時間,所以加工數(shù)據(jù)在實際的應(yīng)用中又分為批處理和實時處理。
數(shù)據(jù)庫是為了解決OLTP而存在的,而數(shù)據(jù)倉庫是為了分析數(shù)據(jù)而存在的。數(shù)據(jù)庫的數(shù)據(jù)是數(shù)據(jù)倉庫的數(shù)據(jù)源,即將數(shù)據(jù)庫的數(shù)據(jù)加載至數(shù)據(jù)倉庫,所以說,數(shù)據(jù)倉庫不生產(chǎn)數(shù)據(jù),只做數(shù)據(jù)的搬運工。
還有一點就是,數(shù)據(jù)倉庫并不是必須的,但是對于一個業(yè)務(wù)系統(tǒng)而言,數(shù)據(jù)庫是必須的。只有在業(yè)務(wù)穩(wěn)定運轉(zhuǎn)的情況下,才會去構(gòu)建企業(yè)級數(shù)據(jù)倉庫,通過數(shù)據(jù)分析,數(shù)據(jù)挖掘來輔助業(yè)務(wù)決策,實現(xiàn)錦上添花。
| 數(shù)據(jù)庫 | 數(shù)據(jù)倉庫 | |
|---|---|---|
| 數(shù)據(jù)處理類型 | OLTP | OLAP |
| 使用人員 | 業(yè)務(wù)開發(fā)人員 | 分析決策人員 |
| 核心功能 | 日常事務(wù)處理 | 面向分析決策 |
| 數(shù)據(jù)模型 | 關(guān)系模型(ER) | 多維模型(雪花、星型) |
| 數(shù)據(jù)量 | 相對較小 | 相對較大 |
| 存儲內(nèi)容 | 存儲當前數(shù)據(jù) | 存儲歷史數(shù)據(jù) |
| 操作類型 | 查詢、插入、更新、刪除 | 查詢?yōu)橹鳎褐蛔x操作、復(fù)雜查詢 |
什么是數(shù)據(jù)集市
數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場,就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。
從范圍上來說,數(shù)據(jù)集市的數(shù)據(jù)是從數(shù)據(jù)庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)集市分為從屬的數(shù)據(jù)集市與獨立的數(shù)據(jù)集市:
獨立型數(shù)據(jù)集市的數(shù)據(jù)來自于操作型數(shù)據(jù)庫,是為了滿足特殊用戶而建立的一種分析型環(huán)境。這種數(shù)據(jù)集市的開發(fā)周期一般較短,具有靈活性,但是因為脫離了數(shù)據(jù)倉庫,獨立建立的數(shù)據(jù)集市可能會導(dǎo)致信息孤島的存在,不能以全局的視角去分析數(shù)據(jù)。
從屬型數(shù)據(jù)集市的數(shù)據(jù)來自于企業(yè)的數(shù)據(jù)倉庫,這樣會導(dǎo)致開發(fā)周期的延長,但是從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)定,可以提高數(shù)據(jù)分析的質(zhì)量,保證數(shù)據(jù)的一致性。
| 指標 | 數(shù)據(jù)倉庫 | 數(shù)據(jù)集市 |
|---|---|---|
| 數(shù)據(jù)來源 | OLTP系統(tǒng)、外部數(shù)據(jù) | 數(shù)據(jù)倉庫 |
| 范圍 | 企業(yè)級 | 部門級或工作組級 |
| 主題 | 企業(yè)主題 | 部門或特殊的分析主題 |
| 數(shù)據(jù)粒度 | 最細的粒度 | 較粗的粒度 |
| 歷史數(shù)據(jù) | 大量的歷史數(shù)據(jù) | 適度的歷史數(shù)據(jù) |
| 目的 | 處理海量數(shù)據(jù),數(shù)據(jù)探索 | 便于某個維度數(shù)據(jù)訪問和分析,快速查詢 |
大數(shù)據(jù)平臺
什么是大數(shù)據(jù)平臺
大數(shù)據(jù)平臺是一個集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、查詢檢索、分析挖掘等、應(yīng)用接口等功能為一體的平臺。通俗的理解包括Hadoop生態(tài)的相關(guān)產(chǎn)品,比如Spark、Flink、Flume、Kafka、Hive、HBase等等等經(jīng)典開源產(chǎn)品。
提到Hadoop生態(tài)技術(shù),不得不提的是Apache和Cloudera。國內(nèi)絕大部分公司的大數(shù)據(jù)平臺都是基于這兩個分支的產(chǎn)品進行商業(yè)化包裝和改進。例如:阿里云EMR、騰訊TBDS、華為FusionInsight、新華三DataEngine、浪潮Insight HD、中興DAP等產(chǎn)品。
其實,對于大數(shù)據(jù)平臺,業(yè)內(nèi)并無一個固定的能力范圍。當前比較權(quán)威的是全國信標委今年發(fā)布了大數(shù)據(jù)平臺的國標 《GB/T 38673-2020 信息技術(shù) 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng)基本要求》,將大數(shù)據(jù)系統(tǒng)劃分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)訪問、資源管理、系統(tǒng)管理8個部分,分別對各部分提出技術(shù)要求。所以會發(fā)現(xiàn)每個廠家推出的大數(shù)據(jù)平臺都包含很多功能、甚至組合的產(chǎn)品,屬于大數(shù)據(jù)的產(chǎn)品種類非常多。
什么是大數(shù)據(jù)開發(fā)平臺
由于大數(shù)據(jù)技術(shù)很多,單獨使用的學(xué)習(xí)成本很高,為了提升數(shù)據(jù)開發(fā)的效率,也就出現(xiàn)了大數(shù)據(jù)開發(fā)平臺。簡單講,數(shù)據(jù)開發(fā)平臺就是集成了大數(shù)據(jù)平臺的一個開發(fā)套件,比如阿里云的DataWorks就是一個代表,DataWorks(數(shù)據(jù)工場,原大數(shù)據(jù)開發(fā)套件)是阿里云重要的PaaS(Platform-as-a-Service)平臺產(chǎn)品,提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。
數(shù)據(jù)中臺
什么是數(shù)據(jù)中臺
阿里巴巴于2017年云棲大會正式對外提出數(shù)據(jù)中臺概念,數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應(yīng)力跟不上的問題。中臺不是一個產(chǎn)品!與業(yè)務(wù)強相關(guān)。

數(shù)據(jù)中臺的一些定義:
| 序號 | 定義 | 定義出處 |
|---|---|---|
| 1 | 中臺就是“企業(yè)級能力復(fù)用平臺”。 | 《白話中臺戰(zhàn)略-3:中臺的定義》 |
| 2 | 中臺通過集合整個集團的運營數(shù)據(jù)能力、產(chǎn)品技術(shù)能力,來對各前臺業(yè)務(wù)形成強力支撐。 | 《大型集團性企業(yè)的中臺戰(zhàn)略—阿里的中臺戰(zhàn)略其實是個偽命題》 |
| 3 | 中臺是一種需求分析的方法論,一套能力接入標準,一套運作機制,集中配置、分布執(zhí)行的控制臺。 | 《中臺如何助力標準化業(yè)務(wù)?中臺關(guān)鍵要快!》 |
| 4 | “中臺”是強調(diào)資源整合、能力沉淀的平臺體系,為“前臺”的業(yè)務(wù)開展提供底層的技術(shù)、數(shù)據(jù)等資源和能力的支持。 | 《大中臺 小前臺》 |
| 5 | 中臺是居于前臺和后臺之間、位于基礎(chǔ)架構(gòu)和各產(chǎn)品線間的業(yè)務(wù)架構(gòu)。 | 《關(guān)于架構(gòu)的思考-評《阿里巴巴中臺戰(zhàn)略思想與架構(gòu)實踐》》 |
| 6 | 數(shù)據(jù)中臺是將各個業(yè)務(wù)板塊多年來積累的數(shù)據(jù),按業(yè)務(wù)特征進行橫向關(guān)聯(lián)和統(tǒng)一,按數(shù)據(jù)用途進行縱向分層,最終沉淀為公共的數(shù)據(jù)服務(wù)能力。 | 《傳統(tǒng)企業(yè)數(shù)據(jù)中臺的建設(shè)與思考》 |
| 7 | 數(shù)據(jù)中臺的實質(zhì)還是組件化,模塊化,是設(shè)計模式與業(yè)務(wù)端的應(yīng)用。 | 袋鼠云數(shù)據(jù)中臺專欄(一):淺析數(shù)據(jù)中臺策略與建設(shè)實踐 |
| 8 | 中臺是一個用技術(shù)鏈接大數(shù)據(jù)技術(shù)能力,用業(yè)務(wù)鏈接數(shù)據(jù)應(yīng)用場景的能力平臺。 | 《阿里中臺建設(shè)全解密:包含哪些內(nèi)容?如何發(fā)揮作用?》 |
數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系
| 序號 | 數(shù)據(jù)倉庫 | 數(shù)據(jù)中臺 |
|---|---|---|
| 計算存儲 | 基于OLAP類型的數(shù)據(jù)庫構(gòu)建一套數(shù)據(jù)存儲體系 | 混合架構(gòu),隨需搭配,滿足各類數(shù)據(jù) 的計算要求 |
| 技術(shù)體系 | 傳統(tǒng)的ETL開發(fā)和報表開發(fā)為主 | 數(shù)倉建設(shè)、數(shù)據(jù)開發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)集成、數(shù)據(jù)治理、統(tǒng)一數(shù)據(jù)服務(wù)、數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、流批計算、敏捷BI報表開發(fā)等多個功能 |
| 應(yīng)用場景 | 報表為主 | 多元化場景:除了傳統(tǒng)報表,還支持商品推薦、精準推送、客滿評價等非確定場景的業(yè)務(wù),數(shù)據(jù)服務(wù)業(yè)務(wù)、業(yè)務(wù)與數(shù)據(jù)互補,形成閉環(huán) |
| 價值體現(xiàn) | 面向管理層和業(yè)務(wù)人員的輔助決策 | 除了完成傳統(tǒng)的業(yè)務(wù)人員輔助決策,還能面向業(yè)務(wù)系統(tǒng)推動優(yōu)化升級、數(shù)據(jù)變現(xiàn)等,把數(shù)據(jù)資產(chǎn)變成數(shù)據(jù)服務(wù)能力。 |
數(shù)據(jù)湖
什么是數(shù)據(jù)湖
Pentaho的CTO James Dixon 在2011年提出了“Data Lake”的概念。在面對大數(shù)據(jù)挑戰(zhàn)時,他聲稱:不要想著數(shù)據(jù)的“倉庫”概念,想想數(shù)據(jù) 的“湖”概念。數(shù)據(jù)“倉庫”概念和數(shù)據(jù)湖概念的重大區(qū)別是:數(shù)據(jù)倉庫中數(shù)據(jù)在進入倉庫之前需要是事先歸類,以便于未來的分析。這在OLAP時代很常見,但是對于離線分析卻沒有任何意義,不如把大量的原始數(shù)據(jù)保存下來,而現(xiàn)在廉價的存儲提供了這個可能。

數(shù)據(jù)倉庫是高度結(jié)構(gòu)化的架構(gòu),數(shù)據(jù)在轉(zhuǎn)換之前是無法加載到數(shù)據(jù)倉庫的,用戶可以直接獲得分析數(shù)據(jù)。
數(shù)據(jù)湖中,數(shù)據(jù)直接加載到數(shù)據(jù)湖中,然后根據(jù)分析的需要再轉(zhuǎn)換數(shù)據(jù)
數(shù)據(jù)湖產(chǎn)品—是一套產(chǎn)品組合的解決方案

數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系
| 特性 | 數(shù)據(jù)倉庫 | 數(shù)據(jù)湖 |
|---|---|---|
| 數(shù)據(jù) | 來自事務(wù)系統(tǒng)、運營數(shù)據(jù)庫和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù) | 來自 IoT 設(shè)備、網(wǎng)站、移動應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系和關(guān)系數(shù)據(jù) |
| Schema | 寫入型 Schema, 數(shù)據(jù)存儲之前需要定義Schema, 數(shù)據(jù)集成之前需要完成大量清洗工作 ,數(shù)據(jù)的價值需要提前明確 | 讀取型 Schema, 數(shù)據(jù)存儲之后才需要定義Schema 提供敏捷、簡單的數(shù)據(jù)集成 ,數(shù)據(jù)的價值尚未明確 |
| 擴展性 | 中等開銷獲得較大的容量擴展 | 低成本開銷獲得極大容量擴展 |
| 性價比 | 更快查詢結(jié)果會帶來較高存儲成本 | 更快查詢結(jié)果只需較低存儲成本 |
| 連接方式 | 標準的SQL接口或者BI接口、ANSI SQL | 應(yīng)用程序、類SQL程序、其它方法 |
| 數(shù)據(jù)質(zhì)量 | 可作為重要事實依據(jù)的高度監(jiān)管數(shù)據(jù) | 任何可以或無法進行監(jiān)管的數(shù)據(jù)(例如原始數(shù)據(jù)) |
| 復(fù)雜性 | 復(fù)雜的SQL鏈接 | 復(fù)雜的大數(shù)據(jù)處理 |
| 用戶 | 業(yè)務(wù)分析師 | 數(shù)據(jù)科學(xué)家、數(shù)據(jù)開發(fā)人員和業(yè)務(wù)分析師(使用監(jiān)管數(shù)據(jù)) |
| 分析 | 批處理報告、BI 和可視化 | 機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)發(fā)現(xiàn)和分析 |
| 優(yōu)勢 | 高并發(fā)、快速響應(yīng)、干凈安全的數(shù)據(jù)、數(shù)據(jù)一次轉(zhuǎn)換多次使用 | 無限擴展性、支持編程框架、數(shù)據(jù)存儲成本低 |

推薦閱讀
歡迎長按掃碼關(guān)注「數(shù)據(jù)管道」
