gogo久久,毛产一级婬片A片AAA片A国,天天天天操,狠狠色伊人,蜜桃乱伦视频,免费看男男gay啪啪的软件,淫欲网,啊灬啊灬啊灬快灬喷水视频

寫在前面

層出不窮的新技術(shù)、新概念、新應(yīng)用往往會對初學(xué)者造成很大的困擾，有時候很難理清楚它們之間的區(qū)別與聯(lián)系。本文將以數(shù)據(jù)研發(fā)相關(guān)領(lǐng)域為例，對比分析我們工作中高頻出現(xiàn)的幾個名詞，主要包括以下幾個方面：

數(shù)據(jù)

什么是大數(shù)據(jù)
數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么

數(shù)據(jù)庫

什么是數(shù)據(jù)庫
數(shù)據(jù)庫中的分布式事務(wù)理論

數(shù)據(jù)倉庫

什么是數(shù)據(jù)倉庫
什么是數(shù)據(jù)集市
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別是什么

大數(shù)據(jù)平臺

什么是大數(shù)據(jù)平臺
什么是大數(shù)據(jù)開發(fā)平臺

數(shù)據(jù)中臺

什么是數(shù)據(jù)中臺
數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系

數(shù)據(jù)湖

什么是數(shù)據(jù)湖
數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系

希望本文對你有所幫助，煩請讀者諸君分享、點贊、轉(zhuǎn)發(fā)。

數(shù)據(jù)

什么是大數(shù)據(jù)

麥肯錫全球研究所給出的定義是：一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

我們再往深處思考一下，為什么會有大數(shù)據(jù)(大數(shù)據(jù)技術(shù))？其實大數(shù)據(jù)就是在這個數(shù)據(jù)爆炸增長的時代，業(yè)務(wù)需求增長促進技術(shù)迭代，技術(shù)滿足需求后又形成閉環(huán)促進業(yè)務(wù)持續(xù)增長，從而形成一個閉環(huán)。

數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別是什么

數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。我們在工作中經(jīng)常常說的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。

	數(shù)據(jù)分析（狹義） Data Analysis	數(shù)據(jù)挖掘 Data Mining
定義	根據(jù)分析目的，用適當?shù)慕y(tǒng)計分析方法及工具，對收集來的數(shù)據(jù)進行處理與分析，提取有價值的信息，發(fā)揮數(shù)據(jù)的作用。	數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中，通過統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法，挖掘出未知的、且有價值的信息和知識的過程。
作用	主要實現(xiàn)三大作用：現(xiàn)狀分析、原因分析、預(yù)測分析（定量）。數(shù)據(jù)分析的目標明確，先做假設(shè)，然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確，從而得到相應(yīng)的結(jié)論。	數(shù)據(jù)挖掘主要側(cè)重解決四類問題：分類、聚類、關(guān)聯(lián)和預(yù)測（定量、定性），數(shù)據(jù)挖掘的重點在尋找未知的模式與規(guī)律；如我們常說的數(shù)據(jù)挖掘案例：啤酒與尿布等，這就是事先未知的，但又是非常有價值的信息。
方法	主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。	主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析等統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法進行挖掘。
結(jié)果	數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結(jié)果，如總和、平均值等，這些指標數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進行解讀，才能發(fā)揮出數(shù)據(jù)的價值與作用。	輸出模型或規(guī)則，并且可相應(yīng)得到模型得分或標簽，模型得分如流失概率值、總和得分、相似度、預(yù)測值等，標簽如高中低價值用戶、流失與非流失、信用優(yōu)良中差等。

數(shù)據(jù)庫

什么是數(shù)據(jù)庫

數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。是一個長期存儲在計算機內(nèi)的、有組織的、可共享的、統(tǒng)一管理的大量數(shù)據(jù)的集合。

一般而言，我們所說的數(shù)據(jù)庫指的是數(shù)據(jù)庫管理系統(tǒng)，并不單指一個數(shù)據(jù)庫實例。

根據(jù)數(shù)據(jù)存儲的方式不同，可以將數(shù)據(jù)庫分為三類：分別為行存儲、列存儲、行列混合存儲，其中行存儲的數(shù)據(jù)庫代表產(chǎn)品有Oracle、MySQL、PostgresSQL等；列存儲的數(shù)據(jù)代表產(chǎn)品有Greenplum、HBASE、Teradata等；行列混合存儲的數(shù)據(jù)庫代表產(chǎn)品有TiDB，ADB for Mysql等。

數(shù)據(jù)庫中的分布式事務(wù)理論

ACID

傳統(tǒng)關(guān)系型數(shù)據(jù)庫事務(wù)設(shè)計原則，以下四點必須全部滿足：

原子性Atomicity：事務(wù)中操作要么都發(fā)生，要么都不發(fā)生；
一致性Consistency：事務(wù)前后數(shù)據(jù)完整性保持一致；
隔離性Isolation：多個用戶并發(fā)事務(wù)相互隔離；
持久性Durability：事務(wù)被提交后數(shù)據(jù)的改變就是永久性的。

舉例說明：A賬號有200元，B賬號有100元，現(xiàn)在A給B賬戶進行轉(zhuǎn)賬操作：

A減少100元，同時B增加100元，兩個操作要么都成功要么都失敗,滿足原子性；
A減少的金額，和B增加的金額要一致，按照一致性；
假如A給B轉(zhuǎn)賬的同一時刻，B又給C轉(zhuǎn)賬，這兩筆交易是相互隔離，滿足隔離性；
A給B轉(zhuǎn)賬100元，事務(wù)提交之后，在查詢賬號，A減少100元，B增加100元，滿足持久性；

CAP理論

2000年，Berkerly大學(xué)有位Eric Brewer教授提出了一個CAP理論，在2002年，麻省理工學(xué)院的Seth Gilbert(賽斯·吉爾伯特)和Nancy Lynch(南?！ち制?發(fā)表了布魯爾猜想的證明，證明了CAP理論的正確性。所謂CAP理論，是指對于一個分布式計算系統(tǒng)來說，不可能同時滿足以下三點：

一致性（Consistency）等同于所有節(jié)點訪問同一份最新的數(shù)據(jù)副本。即任何一個讀操作總是能夠讀到之前完成的寫操作的結(jié)果，也就是說，在分布式環(huán)境中，不同節(jié)點訪問的數(shù)據(jù)是一致的。
可用性（Availability）每次請求都能獲取到非錯的響應(yīng)——但是不保證獲取的數(shù)據(jù)為最新數(shù)據(jù)。即快速獲取數(shù)據(jù)，可以在確定的時間內(nèi)返回操作結(jié)果。
分區(qū)容錯性（Partition tolerance）以實際效果而言，分區(qū)相當于對通信的時限要求。系統(tǒng)如果不能在時限內(nèi)達成數(shù)據(jù)一致性，就意味著發(fā)生了分區(qū)的情況，必須就當前操作在C和A之間做出選擇。即指當出現(xiàn)網(wǎng)絡(luò)分區(qū)時(系統(tǒng)中的一部分節(jié)點無法與其他的節(jié)點進行通信)，分離的系統(tǒng)也能夠正常運行，即可靠性。

一個分布式的系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容錯性，最多同時滿足兩個。當處理CAP的問題時，可以有一下幾個選擇：

滿足CA，不滿足P。將所有與事務(wù)相關(guān)的內(nèi)容都放在同一個機器上，這樣會影響系統(tǒng)的可擴展性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。如MySQL、SQL Server 、PostgresSQL等都采用了此種設(shè)計原則。
滿足AP，不滿足C。不滿足一致性(C)，即允許系統(tǒng)返回不一致的數(shù)據(jù)。其實，對于WEB2.0的網(wǎng)站而言，更加關(guān)注的是服務(wù)是否可用，而不是一致性。比如你發(fā)了一篇博客或者寫一篇微博，你的一部分朋友立馬看到了這篇文章或者微博，另一部分朋友卻要等一段時間之后才能刷出這篇文章或者微博。雖然有延時，但是對于一個娛樂性質(zhì)的Web 2.0網(wǎng)站而言，這幾分鐘的延時并不重要，不會影響用戶體驗。相反，當發(fā)布一篇文章或微博時，不能夠立即發(fā)布(不滿足可用性)，用戶對此肯定不爽。所以呢，對于WEB2.0的網(wǎng)站而言，可用性和分區(qū)容錯性的優(yōu)先級要高于數(shù)據(jù)一致性，當然，并沒有完全放棄一致性，而是最終的一致性(有延時)。如Dynamo、Cassandra、CouchDB等NoSQL數(shù)據(jù)庫采用了此原則。
滿足CP，不滿足A。強調(diào)一致性性(C)和分區(qū)容錯性(P)，放棄可用性性(A)。當出現(xiàn)網(wǎng)絡(luò)分區(qū)時，受影響的服務(wù)需要等待數(shù)據(jù)一致，在等待期間無法對外提供服務(wù)。如Neo4J、HBase 、MongoDB、Redis等采用了此種設(shè)計原則。

數(shù)據(jù)倉庫

什么是數(shù)據(jù)倉庫

數(shù)據(jù)倉庫（Data Warehouse）是一個面向主題的（Subject Oriented）、集成的（Integrated）、相對穩(wěn)定的（Non-Volatile）、反映歷史變化（Time Variant）的數(shù)據(jù)集合，用于支持管理決策(Decision Making Support)。

面向主題的：根據(jù)使用者的需求，將來自不同數(shù)據(jù)源的數(shù)據(jù)圍繞著各種主題進行分類整合。
集成的：來自各種數(shù)據(jù)源的數(shù)據(jù)按照統(tǒng)一的標準集成于數(shù)據(jù)倉庫中。
相對穩(wěn)定的：數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列的歷史快照，不允許修改或刪除，只涉及數(shù)據(jù)查詢。
反映歷史變化的：數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù)，從而反映出最新的數(shù)據(jù)變化。

數(shù)據(jù)庫與數(shù)據(jù)倉庫有什么區(qū)別

嚴格來講數(shù)據(jù)倉庫不是一門技術(shù)，也不是一個產(chǎn)品。像前文提到的關(guān)系型數(shù)據(jù)庫MySQL和Oracle都屬于一種產(chǎn)品。那么是什么數(shù)據(jù)倉庫的，見名知意，其實就是存儲數(shù)據(jù)的倉庫，數(shù)據(jù)的來源有很多種，可以統(tǒng)一在數(shù)據(jù)倉庫中進行匯合，然后通過統(tǒng)一的建模，加工成服務(wù)與數(shù)據(jù)分析的數(shù)據(jù)模型，輔助企業(yè)分析決策。

那么，數(shù)據(jù)倉庫該怎么構(gòu)建呢，目前使用Hive構(gòu)建數(shù)據(jù)倉庫的比較多，本文不會過多分析這些大數(shù)據(jù)技術(shù)?？傊痪湓?，數(shù)據(jù)倉庫涉及數(shù)據(jù)建模，數(shù)據(jù)抽取ETL，數(shù)據(jù)可視化等一系列的流程，是一種數(shù)據(jù)解決方案，通常需要多種技術(shù)進行組合使用。

數(shù)據(jù)倉庫的本質(zhì)是OLAP，即是做在線分析處理，這是與數(shù)據(jù)庫的本質(zhì)區(qū)別。還有一點既然是數(shù)據(jù)倉庫，肯定是要加工數(shù)據(jù)，那么加工數(shù)據(jù)肯定耗時間，所以加工數(shù)據(jù)在實際的應(yīng)用中又分為批處理和實時處理。

數(shù)據(jù)庫是為了解決OLTP而存在的，而數(shù)據(jù)倉庫是為了分析數(shù)據(jù)而存在的。數(shù)據(jù)庫的數(shù)據(jù)是數(shù)據(jù)倉庫的數(shù)據(jù)源，即將數(shù)據(jù)庫的數(shù)據(jù)加載至數(shù)據(jù)倉庫，所以說，數(shù)據(jù)倉庫不生產(chǎn)數(shù)據(jù)，只做數(shù)據(jù)的搬運工。

還有一點就是，數(shù)據(jù)倉庫并不是必須的，但是對于一個業(yè)務(wù)系統(tǒng)而言，數(shù)據(jù)庫是必須的。只有在業(yè)務(wù)穩(wěn)定運轉(zhuǎn)的情況下，才會去構(gòu)建企業(yè)級數(shù)據(jù)倉庫，通過數(shù)據(jù)分析，數(shù)據(jù)挖掘來輔助業(yè)務(wù)決策，實現(xiàn)錦上添花。

	數(shù)據(jù)庫	數(shù)據(jù)倉庫
數(shù)據(jù)處理類型	OLTP	OLAP
使用人員	業(yè)務(wù)開發(fā)人員	分析決策人員
核心功能	日常事務(wù)處理	面向分析決策
數(shù)據(jù)模型	關(guān)系模型（ER）	多維模型（雪花、星型）
數(shù)據(jù)量	相對較小	相對較大
存儲內(nèi)容	存儲當前數(shù)據(jù)	存儲歷史數(shù)據(jù)
操作類型	查詢、插入、更新、刪除	查詢?yōu)橹鳎褐蛔x操作、復(fù)雜查詢

什么是數(shù)據(jù)集市

數(shù)據(jù)集市（Data Mart），也叫數(shù)據(jù)市場，就是滿足特定的部門或者用戶的需求，按照多維的方式進行存儲，包括定義維度、需要計算的指標、維度的層次等，生成面向決策分析需求的數(shù)據(jù)立方體。

從范圍上來說，數(shù)據(jù)集市的數(shù)據(jù)是從數(shù)據(jù)庫，或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)集市分為從屬的數(shù)據(jù)集市與獨立的數(shù)據(jù)集市：

獨立型數(shù)據(jù)集市的數(shù)據(jù)來自于操作型數(shù)據(jù)庫，是為了滿足特殊用戶而建立的一種分析型環(huán)境。這種數(shù)據(jù)集市的開發(fā)周期一般較短，具有靈活性，但是因為脫離了數(shù)據(jù)倉庫，獨立建立的數(shù)據(jù)集市可能會導(dǎo)致信息孤島的存在，不能以全局的視角去分析數(shù)據(jù)。
從屬型數(shù)據(jù)集市的數(shù)據(jù)來自于企業(yè)的數(shù)據(jù)倉庫，這樣會導(dǎo)致開發(fā)周期的延長，但是從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)定，可以提高數(shù)據(jù)分析的質(zhì)量，保證數(shù)據(jù)的一致性。

指標	數(shù)據(jù)倉庫	數(shù)據(jù)集市
數(shù)據(jù)來源	OLTP系統(tǒng)、外部數(shù)據(jù)	數(shù)據(jù)倉庫
范圍	企業(yè)級	部門級或工作組級
主題	企業(yè)主題	部門或特殊的分析主題
數(shù)據(jù)粒度	最細的粒度	較粗的粒度
歷史數(shù)據(jù)	大量的歷史數(shù)據(jù)	適度的歷史數(shù)據(jù)
目的	處理海量數(shù)據(jù)，數(shù)據(jù)探索	便于某個維度數(shù)據(jù)訪問和分析，快速查詢

大數(shù)據(jù)平臺

什么是大數(shù)據(jù)平臺

大數(shù)據(jù)平臺是一個集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、查詢檢索、分析挖掘等、應(yīng)用接口等功能為一體的平臺。通俗的理解包括Hadoop生態(tài)的相關(guān)產(chǎn)品，比如Spark、Flink、Flume、Kafka、Hive、HBase等等等經(jīng)典開源產(chǎn)品。

提到Hadoop生態(tài)技術(shù)，不得不提的是Apache和Cloudera。國內(nèi)絕大部分公司的大數(shù)據(jù)平臺都是基于這兩個分支的產(chǎn)品進行商業(yè)化包裝和改進。例如：阿里云EMR、騰訊TBDS、華為FusionInsight、新華三DataEngine、浪潮Insight HD、中興DAP等產(chǎn)品。

其實，對于大數(shù)據(jù)平臺，業(yè)內(nèi)并無一個固定的能力范圍。當前比較權(quán)威的是全國信標委今年發(fā)布了大數(shù)據(jù)平臺的國標《GB/T 38673-2020 信息技術(shù) 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng)基本要求》，將大數(shù)據(jù)系統(tǒng)劃分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)訪問、資源管理、系統(tǒng)管理8個部分，分別對各部分提出技術(shù)要求。所以會發(fā)現(xiàn)每個廠家推出的大數(shù)據(jù)平臺都包含很多功能、甚至組合的產(chǎn)品，屬于大數(shù)據(jù)的產(chǎn)品種類非常多。

什么是大數(shù)據(jù)開發(fā)平臺

由于大數(shù)據(jù)技術(shù)很多，單獨使用的學(xué)習(xí)成本很高，為了提升數(shù)據(jù)開發(fā)的效率，也就出現(xiàn)了大數(shù)據(jù)開發(fā)平臺。簡單講，數(shù)據(jù)開發(fā)平臺就是集成了大數(shù)據(jù)平臺的一個開發(fā)套件，比如阿里云的DataWorks就是一個代表，DataWorks（數(shù)據(jù)工場，原大數(shù)據(jù)開發(fā)套件）是阿里云重要的PaaS（Platform-as-a-Service）平臺產(chǎn)品，提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù)，一站式開發(fā)管理的界面，幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。

數(shù)據(jù)中臺

什么是數(shù)據(jù)中臺

阿里巴巴于2017年云棲大會正式對外提出數(shù)據(jù)中臺概念，數(shù)據(jù)中臺的出現(xiàn)，就是為了彌補數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)之間，由于開發(fā)速度不匹配，出現(xiàn)的響應(yīng)力跟不上的問題。中臺不是一個產(chǎn)品！與業(yè)務(wù)強相關(guān)。

數(shù)據(jù)中臺的一些定義：

序號	定義	定義出處
1	中臺就是“企業(yè)級能力復(fù)用平臺”。	《白話中臺戰(zhàn)略-3：中臺的定義》
2	中臺通過集合整個集團的運營數(shù)據(jù)能力、產(chǎn)品技術(shù)能力，來對各前臺業(yè)務(wù)形成強力支撐。	《大型集團性企業(yè)的中臺戰(zhàn)略—阿里的中臺戰(zhàn)略其實是個偽命題》
3	中臺是一種需求分析的方法論，一套能力接入標準，一套運作機制，集中配置、分布執(zhí)行的控制臺。	《中臺如何助力標準化業(yè)務(wù)？中臺關(guān)鍵要快！》
4	“中臺”是強調(diào)資源整合、能力沉淀的平臺體系，為“前臺”的業(yè)務(wù)開展提供底層的技術(shù)、數(shù)據(jù)等資源和能力的支持。	《大中臺小前臺》
5	中臺是居于前臺和后臺之間、位于基礎(chǔ)架構(gòu)和各產(chǎn)品線間的業(yè)務(wù)架構(gòu)。	《關(guān)于架構(gòu)的思考-評《阿里巴巴中臺戰(zhàn)略思想與架構(gòu)實踐》》
6	數(shù)據(jù)中臺是將各個業(yè)務(wù)板塊多年來積累的數(shù)據(jù)，按業(yè)務(wù)特征進行橫向關(guān)聯(lián)和統(tǒng)一，按數(shù)據(jù)用途進行縱向分層，最終沉淀為公共的數(shù)據(jù)服務(wù)能力。	《傳統(tǒng)企業(yè)數(shù)據(jù)中臺的建設(shè)與思考》
7	數(shù)據(jù)中臺的實質(zhì)還是組件化，模塊化，是設(shè)計模式與業(yè)務(wù)端的應(yīng)用。	袋鼠云數(shù)據(jù)中臺專欄（一）：淺析數(shù)據(jù)中臺策略與建設(shè)實踐
8	中臺是一個用技術(shù)鏈接大數(shù)據(jù)技術(shù)能力，用業(yè)務(wù)鏈接數(shù)據(jù)應(yīng)用場景的能力平臺。	《阿里中臺建設(shè)全解密：包含哪些內(nèi)容？如何發(fā)揮作用？》

數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別與聯(lián)系

序號	數(shù)據(jù)倉庫	數(shù)據(jù)中臺
計算存儲	基于OLAP類型的數(shù)據(jù)庫構(gòu)建一套數(shù)據(jù)存儲體系	混合架構(gòu)，隨需搭配，滿足各類數(shù)據(jù) 的計算要求
技術(shù)體系	傳統(tǒng)的ETL開發(fā)和報表開發(fā)為主	數(shù)倉建設(shè)、數(shù)據(jù)開發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)集成、數(shù)據(jù)治理、統(tǒng)一數(shù)據(jù)服務(wù)、數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、流批計算、敏捷BI報表開發(fā)等多個功能
應(yīng)用場景	報表為主	多元化場景：除了傳統(tǒng)報表，還支持商品推薦、精準推送、客滿評價等非確定場景的業(yè)務(wù)，數(shù)據(jù)服務(wù)業(yè)務(wù)、業(yè)務(wù)與數(shù)據(jù)互補，形成閉環(huán)
價值體現(xiàn)	面向管理層和業(yè)務(wù)人員的輔助決策	除了完成傳統(tǒng)的業(yè)務(wù)人員輔助決策，還能面向業(yè)務(wù)系統(tǒng)推動優(yōu)化升級、數(shù)據(jù)變現(xiàn)等，把數(shù)據(jù)資產(chǎn)變成數(shù)據(jù)服務(wù)能力。

數(shù)據(jù)湖

什么是數(shù)據(jù)湖

Pentaho的CTO James Dixon 在2011年提出了“Data Lake”的概念。在面對大數(shù)據(jù)挑戰(zhàn)時，他聲稱：不要想著數(shù)據(jù)的“倉庫”概念，想想數(shù)據(jù) 的“湖”概念。數(shù)據(jù)“倉庫”概念和數(shù)據(jù)湖概念的重大區(qū)別是：數(shù)據(jù)倉庫中數(shù)據(jù)在進入倉庫之前需要是事先歸類，以便于未來的分析。這在OLAP時代很常見，但是對于離線分析卻沒有任何意義，不如把大量的原始數(shù)據(jù)保存下來，而現(xiàn)在廉價的存儲提供了這個可能。

數(shù)據(jù)倉庫是高度結(jié)構(gòu)化的架構(gòu)，數(shù)據(jù)在轉(zhuǎn)換之前是無法加載到數(shù)據(jù)倉庫的，用戶可以直接獲得分析數(shù)據(jù)。
數(shù)據(jù)湖中，數(shù)據(jù)直接加載到數(shù)據(jù)湖中，然后根據(jù)分析的需要再轉(zhuǎn)換數(shù)據(jù)

數(shù)據(jù)湖產(chǎn)品—是一套產(chǎn)品組合的解決方案

數(shù)據(jù)倉庫與數(shù)據(jù)湖有什么區(qū)別與聯(lián)系

特性	數(shù)據(jù)倉庫	數(shù)據(jù)湖
數(shù)據(jù)	來自事務(wù)系統(tǒng)、運營數(shù)據(jù)庫和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)	來自 IoT 設(shè)備、網(wǎng)站、移動應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系和關(guān)系數(shù)據(jù)
Schema	寫入型 Schema，數(shù)據(jù)存儲之前需要定義Schema，數(shù)據(jù)集成之前需要完成大量清洗工作，數(shù)據(jù)的價值需要提前明確	讀取型 Schema，數(shù)據(jù)存儲之后才需要定義Schema 提供敏捷、簡單的數(shù)據(jù)集成，數(shù)據(jù)的價值尚未明確
擴展性	中等開銷獲得較大的容量擴展	低成本開銷獲得極大容量擴展
性價比	更快查詢結(jié)果會帶來較高存儲成本	更快查詢結(jié)果只需較低存儲成本
連接方式	標準的SQL接口或者BI接口、ANSI SQL	應(yīng)用程序、類SQL程序、其它方法
數(shù)據(jù)質(zhì)量	可作為重要事實依據(jù)的高度監(jiān)管數(shù)據(jù)	任何可以或無法進行監(jiān)管的數(shù)據(jù)（例如原始數(shù)據(jù)）
復(fù)雜性	復(fù)雜的SQL鏈接	復(fù)雜的大數(shù)據(jù)處理
用戶	業(yè)務(wù)分析師	數(shù)據(jù)科學(xué)家、數(shù)據(jù)開發(fā)人員和業(yè)務(wù)分析師（使用監(jiān)管數(shù)據(jù)）
分析	批處理報告、BI 和可視化	機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)發(fā)現(xiàn)和分析
優(yōu)勢	高并發(fā)、快速響應(yīng)、干凈安全的數(shù)據(jù)、數(shù)據(jù)一次轉(zhuǎn)換多次使用	無限擴展性、支持編程框架、數(shù)據(jù)存儲成本低

·················END·················

數(shù)據(jù)庫、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖對比分析

寫在前面