1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)湖存儲的現(xiàn)狀和趨勢

        共 2590字,需瀏覽 6分鐘

         ·

        2021-11-14 02:20




        導(dǎo)讀:隨著近幾年數(shù)據(jù)湖概念的興起,業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺,各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。


        近幾年數(shù)據(jù)湖的概念非常火熱,但是數(shù)據(jù)湖的定義并不統(tǒng)一,我們先看下數(shù)據(jù)湖的相關(guān)定義。


        Wikipedia對數(shù)據(jù)湖的定義:

        數(shù)據(jù)湖是指使用大型二進制對象或文件這樣的自然格式儲存數(shù)據(jù)的系統(tǒng)。它通常把所有的企業(yè)數(shù)據(jù)統(tǒng)一存儲,既包括源系統(tǒng)中的原始副本,也包括轉(zhuǎn)換后的數(shù)據(jù),比如那些用于報表, 可視化, 數(shù)據(jù)分析和機器學(xué)習(xí)的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行與列)、半結(jié)構(gòu)化的數(shù)據(jù)(CSV,日志,XML, JSON),非結(jié)構(gòu)化數(shù)據(jù) (電子郵件、文件、PDF)和 二進制數(shù)據(jù)(圖像、音頻、視頻)。儲存數(shù)據(jù)湖的方式包括 Apache Hadoop分布式文件系統(tǒng), Azure 數(shù)據(jù)湖或亞馬遜云 Lake Formation云存儲服務(wù),以及諸如 Alluxio 虛擬數(shù)據(jù)湖之類的解決方案。數(shù)據(jù)沼澤是一個劣化的數(shù)據(jù)湖,用戶無法訪問,或是沒什么價值。


        AWS的定義相對簡潔:

        數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析 – 從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學(xué)習(xí),以指導(dǎo)做出更好的決策。


        Azure等其他云廠商也有各自的定義,本文不再贅述。


        但無論數(shù)據(jù)湖的定義如何不同,數(shù)據(jù)湖的本質(zhì)其實都包含如下四部分:


        1. 統(tǒng)一的存儲系統(tǒng)

        2. 存儲原始數(shù)據(jù)

        3. 豐富的計算模型/范式

        4. 數(shù)據(jù)湖與上云無關(guān)


        從上述四個標準判斷,開源大數(shù)據(jù)的Hadoop HDFS存儲系統(tǒng)就是一個標準的數(shù)據(jù)湖架構(gòu),具備統(tǒng)一的原始數(shù)據(jù)存儲架構(gòu)。而近期被廣泛談到的數(shù)據(jù)湖,其實是一個狹義的概念,特指“基于云上托管存儲系統(tǒng)的數(shù)據(jù)湖系統(tǒng),架構(gòu)上采用存儲計算分離的體系”。例如基于AWS S3系統(tǒng)或者阿里云OSS系統(tǒng)構(gòu)建的數(shù)據(jù)湖。?


        下圖是數(shù)據(jù)湖技術(shù)架構(gòu)的演進過程,整體上可分為三個階段:


        ▲圖3 數(shù)據(jù)湖技術(shù)架構(gòu)演進


        階段一:自建開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。缺點是需要企業(yè)自己運維和管理整套集群,成本高且集群穩(wěn)定性差。


        階段二:云上托管Hadoop數(shù)據(jù)湖架構(gòu)(即EMR開源數(shù)據(jù)湖),底層物理服務(wù)器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。


        這個架構(gòu)通過云上 IaaS 層提升了機器層面的彈性和穩(wěn)定性,使企業(yè)的整體運維成本有所下降,但企業(yè)仍然需要對HDFS系統(tǒng)以及服務(wù)運行狀態(tài)進行管理和治理,即應(yīng)用層的運維工作。同時因為存儲和計算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。


        階段三:云上數(shù)據(jù)湖架構(gòu),即云上純托管的存儲系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲基礎(chǔ)設(shè)施,并且引擎豐富度也不斷擴展。除了Hadoop和Spark的生態(tài)引擎之外,各云廠商還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品。


        如分析類的數(shù)據(jù)湖引擎有AWS Athena和華為DLI,AI類的有AWS Sagemaker。這個架構(gòu)仍然保持了一個存儲和多個引擎的特性,所以統(tǒng)一元數(shù)據(jù)服務(wù)至關(guān)重要,如AWS推出了Glue,阿里云EMR近期也即將發(fā)布數(shù)據(jù)湖統(tǒng)一元數(shù)據(jù)服務(wù)。


        該架構(gòu)相對于原生HDFS的數(shù)據(jù)湖架構(gòu)的優(yōu)勢在于:


        • 幫助用戶擺脫原生HDFS系統(tǒng)運維困難的問題。HDFS系統(tǒng)運維有兩個困難:1)存儲系統(tǒng)相比計算引擎更高的穩(wěn)定性要求和更高的運維風(fēng)險 2)與計算混布在一起,帶來的擴展彈性問題。存儲計算分離架構(gòu)幫助用戶解耦存儲,并交由云廠商統(tǒng)一運維管理,解決了穩(wěn)定性和運維問題。

        • 分離后的存儲系統(tǒng)可以獨立擴展,不再需要與計算耦合,可降低整體成本

        • 當(dāng)用戶采用數(shù)據(jù)湖架構(gòu)之后,客觀上也幫助客戶完成了存儲統(tǒng)一化(解決多個HDFS數(shù)據(jù)孤島的問題)


        下圖是阿里云EMR數(shù)據(jù)湖架構(gòu)圖,它是基于開源生態(tài)的大數(shù)據(jù)平臺,既支持HDFS的開源數(shù)據(jù)湖,也支持OSS的云上數(shù)據(jù)湖。


        ▲圖4 阿里云EMR數(shù)據(jù)湖架構(gòu)


        企業(yè)使用數(shù)據(jù)湖技術(shù)構(gòu)建大數(shù)據(jù)平臺,主要包括數(shù)據(jù)接入、數(shù)據(jù)存儲、計算和分析、數(shù)據(jù)管理、權(quán)限控制等,下圖是Gartner定義的一個參考架構(gòu)。當(dāng)前數(shù)據(jù)湖的技術(shù)因其架構(gòu)的靈活性和開放性,在性能效率、安全控制以及數(shù)據(jù)治理上并不十分成熟,在面向企業(yè)級生產(chǎn)要求時還存在很大挑戰(zhàn)。


        數(shù)據(jù)湖(Data Lake)以集中式存儲各種類型數(shù)據(jù),包括:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖無需事先定義Schema,數(shù)據(jù)可以按照原始形態(tài)直接存儲,覆蓋多種類型的數(shù)據(jù)輸入源。數(shù)據(jù)湖無縫對接多種計算分析平臺,對Hadoop生態(tài)支持良好,存儲在數(shù)據(jù)湖中的數(shù)據(jù)可以直接對其進行數(shù)據(jù)分析、處理、查詢,通過對數(shù)據(jù)深入挖掘與分析,洞察數(shù)據(jù)中蘊含的價值。


        ? 一份存儲、多種引擎:各種類型的數(shù)據(jù)用集中方式統(tǒng)一存儲在OSS,解決數(shù)據(jù)孤島,避免多份數(shù)據(jù)分散在多種不同的系統(tǒng),無縫對接多種計算引擎,對Hadoop生態(tài)體系有良好支持;


        ? 數(shù)據(jù)無需處理、直接存儲:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種類型數(shù)據(jù),數(shù)據(jù)可以按照原始產(chǎn)生的形態(tài)直接存儲,在需要分析階段,再通過數(shù)據(jù)引擎進行處理,對接多種數(shù)據(jù)輸入源,提供便捷的數(shù)據(jù)接入和數(shù)據(jù)消費通道


        ? 計算與存儲解耦合:提供客戶更靈活系統(tǒng)架構(gòu)設(shè)計,讓計算、存儲資源具備更好的擴展性,極大降低運維管理難度、優(yōu)化TCO。


        下載鏈接:

        數(shù)據(jù)湖存儲的現(xiàn)狀和趨勢




        推薦閱讀:

        世界的真實格局分析,地球人類社會底層運行原理

        不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)

        企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案

        論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

        企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

        【中臺實踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf

        華為的數(shù)字化轉(zhuǎn)型方法論

        華為如何實施數(shù)字化轉(zhuǎn)型(附PPT)

        超詳細280頁Docker實戰(zhàn)文檔!開放下載

        華為大數(shù)據(jù)解決方案(PPT)


        瀏覽 40
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            3级片在线| 黄色无码在线视频 | 国产无码福利在线 | 91桃色在线观看视频 | 国产人妖视频一区二区在线 | 操女生屁股 | 伦理片一区二区三区 | 韩国美女裸体视频网站 | 亚洲视频综合 | 男人网站 |