為什么云原生數(shù)據(jù)湖值得關(guān)注?

數(shù)據(jù)湖的崛起
2010年P(guān)entaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念。詹姆斯·狄克遜把數(shù)據(jù)湖中的數(shù)據(jù)比作原生態(tài)的水——它是未經(jīng)處理的,保留原始結(jié)構(gòu)的。
數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來(lái)湖里獲取、蒸餾提純這些水(數(shù)據(jù))。于是,早期業(yè)界和用戶多把數(shù)據(jù)湖定義為一個(gè)集中式的儲(chǔ)存原始格式數(shù)據(jù)的系統(tǒng),可存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制的數(shù)據(jù)。
隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴(kuò)展,內(nèi)涵不斷變化,逐步演變成為集多源異構(gòu)數(shù)據(jù)統(tǒng)一儲(chǔ)存、多范式計(jì)算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。
這就讓數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)有了很大的不同。
數(shù)據(jù)倉(cāng)庫(kù)誕生于數(shù)據(jù)庫(kù)時(shí)代,它的核心思路是把數(shù)據(jù)庫(kù)眾多數(shù)據(jù)進(jìn)行一定格式轉(zhuǎn)換后,定時(shí)地復(fù)制到另一個(gè)庫(kù)里做列式存儲(chǔ),從而滿足企業(yè)查詢和數(shù)據(jù)分析的需求。
在過(guò)去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級(jí),企業(yè)通常在本地采用數(shù)據(jù)倉(cāng)庫(kù)解決方案來(lái)存儲(chǔ)和分析數(shù)據(jù)。但數(shù)據(jù)倉(cāng)庫(kù)這種方式模型范式固定,底層數(shù)據(jù)無(wú)法做到多樣變化。
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,企業(yè)業(yè)務(wù)變化越來(lái)越快,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點(diǎn),數(shù)據(jù)需要更深度的價(jià)值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應(yīng)對(duì)未來(lái)不斷變化的需求。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無(wú)法滿足大數(shù)據(jù)時(shí)代企業(yè)對(duì)于實(shí)時(shí)、交互式分析等方面的需求,而數(shù)據(jù)湖擇了“前松后緊”的設(shè)計(jì)思路,初始化階段放棄嚴(yán)格的模式,后置schme,從而獲得更強(qiáng)的靈活性,同時(shí)通過(guò)統(tǒng)一存儲(chǔ)和計(jì)算優(yōu)化來(lái)保證數(shù)據(jù)的一致性和性能,這就讓數(shù)據(jù)湖開(kāi)始在大數(shù)據(jù)領(lǐng)域逐漸受到關(guān)注。
發(fā)展至今,數(shù)據(jù)湖已經(jīng)不再局限于某個(gè)技術(shù)、某個(gè)軟件產(chǎn)品,而是涵蓋數(shù)據(jù)湖存儲(chǔ)、數(shù)據(jù)湖計(jì)算、數(shù)據(jù)湖AI的多元化數(shù)據(jù)架構(gòu),滿足企業(yè)級(jí)用戶的生產(chǎn)管理需求。
展望云原生數(shù)據(jù)湖的未來(lái)
如果對(duì)云原生數(shù)據(jù)湖做一個(gè)概括的話,云原生數(shù)據(jù)湖是大數(shù)據(jù)計(jì)算平臺(tái)借助云計(jì)算理論發(fā)展出來(lái)的新技術(shù)產(chǎn)品,其支持異構(gòu)數(shù)據(jù)靈活存儲(chǔ)、計(jì)算資源彈性伸縮,能夠幫助企業(yè)應(yīng)對(duì)當(dāng)前數(shù)據(jù)結(jié)構(gòu)愈發(fā)復(fù)雜、數(shù)據(jù)處理時(shí)效性要求不斷變高的業(yè)務(wù)環(huán)境。
也就是說(shuō),云原生數(shù)據(jù)湖只是一種架構(gòu)原理,其具體實(shí)現(xiàn)的方式多種多樣,基于EMR可以做云原生數(shù)據(jù)湖,基于Flink也可以做云原生數(shù)據(jù)湖。
不過(guò)需要說(shuō)明的是,雖然中國(guó)數(shù)據(jù)湖技術(shù)正在逐年發(fā)展與突破,公有云廠商及其他廠商紛紛在嘗試,但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗(yàn)不足??偟膩?lái)說(shuō),我國(guó)數(shù)據(jù)湖市場(chǎng)整體發(fā)展處于初期階段,技術(shù)路線不統(tǒng)一,業(yè)內(nèi)產(chǎn)品能力良莠不齊。
從應(yīng)用現(xiàn)狀來(lái)看,數(shù)據(jù)湖在國(guó)內(nèi)的落地還存在許多痛點(diǎn)。
產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需要進(jìn)一步加強(qiáng)。
就數(shù)據(jù)治理而言,數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,如果企業(yè)對(duì)于數(shù)據(jù)湖的掌控能力不足,會(huì)導(dǎo)致數(shù)據(jù)湖目錄及整體架構(gòu)設(shè)計(jì)不良,湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護(hù),容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)沼澤無(wú)法進(jìn)行數(shù)據(jù)檢索,致使用戶無(wú)法有效分析和利用數(shù)據(jù)。
就全鏈路能力而言,現(xiàn)階段國(guó)內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務(wù)的供應(yīng)商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購(gòu)多家供應(yīng)商來(lái)滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。
應(yīng)用層面,云原生數(shù)據(jù)湖的行業(yè)認(rèn)知和人才培養(yǎng)較為薄弱。人才方面,目前大數(shù)據(jù)、AI技術(shù)棧的發(fā)展日新月異,企業(yè)缺乏專業(yè)人才。從企業(yè)內(nèi)部來(lái)看,管理者對(duì)數(shù)據(jù)治理一知半解,若在沒(méi)有深入梳理企業(yè)業(yè)務(wù)現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖,追求大而全的概念,可能導(dǎo)致數(shù)據(jù)湖的落地效果不佳。行業(yè)認(rèn)知方面,盡管數(shù)據(jù)的價(jià)值屬性已經(jīng)獲得業(yè)界的廣泛共識(shí),但是選擇觀望的企業(yè)仍舊占絕大多數(shù),數(shù)據(jù)湖在認(rèn)知和推廣上仍面臨多方面的挑戰(zhàn)。
另外,隨著企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)入深水區(qū),數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,而數(shù)據(jù)湖的最大風(fēng)險(xiǎn)之一就是安全性和訪問(wèn)控制。大量數(shù)據(jù)在沒(méi)有任何監(jiān)管的情況下流入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)沒(méi)有的隱私和法規(guī)要求,將可能發(fā)生數(shù)據(jù)泄露和遺失,帶來(lái)不可估量的后果。
當(dāng)然,任何一個(gè)行業(yè)在發(fā)展初期都會(huì)存在這樣那樣的問(wèn)題,有不完善的地方恰恰意味著這個(gè)行業(yè)還有發(fā)展的空間。根據(jù)艾瑞咨詢的分析,由于國(guó)家政策利好,比如國(guó)家接連出臺(tái)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》等文件推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)走向成熟,以及互聯(lián)網(wǎng)技術(shù)高速發(fā)展的驅(qū)動(dòng)、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預(yù)計(jì)中國(guó)云原生數(shù)據(jù)湖市場(chǎng)未來(lái)會(huì)以39.7%的復(fù)合增長(zhǎng)率快速發(fā)展。
所以,云原生數(shù)據(jù)湖未來(lái)的發(fā)展前景值得我們期待和關(guān)注。
(歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。
我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂(lè)部
微信號(hào):zgsjgjjlb
專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。
