數(shù)據(jù)湖存儲架構(gòu)選型

一、數(shù)據(jù)湖是個潮流

熟悉 Hadoop 整個生態(tài)的話,過去經(jīng)常會談到一個非常大的、非常復(fù)雜的生態(tài)的大圖。那個圖里面涉及到非常多的組件,結(jié)構(gòu)關(guān)系非常復(fù)雜。而基于數(shù)據(jù)湖的架構(gòu),可以得到大大的簡化。
二、湖存儲/加速:挑戰(zhàn)很大



三、完美選項之 checklist
第一, 基于對象存儲,大規(guī)模存儲能力。
第二,大目錄元數(shù)據(jù)操作能力。
第三,策略靈活的緩存加速能力。
第四,和計算打通優(yōu)化的能力。

第五,支持?jǐn)?shù)據(jù)湖新型表格存儲的能力。
第六,歸檔/壓縮/安全存儲的能力。
第七,全面的大數(shù)據(jù)+ AI 生態(tài)支持。
第八,強(qiáng)大遷移能力,甚至是無縫遷移能力。
四、阿里云上的 JindoFS



第一,基于對象存儲,大規(guī)模存儲能力。支持,基于阿里云對象存儲 OSS , OSS 支持 EB 級海量存儲。 第二,大目錄元數(shù)據(jù)操作能力。支持,JindoFS 在超大目錄數(shù)據(jù)加載、檢索、統(tǒng)計、rename 上具有幾倍的性能優(yōu)勢。 第三, 緩存加速的能力。支持,JindoFS 支持在大數(shù)據(jù)分析場景、交互式查詢場、機(jī)器學(xué)習(xí)訓(xùn)練 場景和云原生應(yīng)用場景提供策略靈活的分布式緩存加速能力;緩存加速的性能提升大于 50% 的效果優(yōu)于開源方案。 第四,和計算打通優(yōu)化的能力。支持,和 JindoFS co-design 的 JindoTable 提供對數(shù)倉表的緩存、計算加速、治理優(yōu)化和歸檔存儲支持。

第五,支持?jǐn)?shù)據(jù)湖新型表格存儲的能力。支持,JindoFS 提供 Delta 、Hudi 和 Iceberg 所需要的存儲接口和事務(wù)支持語義,并支持 Flink 實時入湖。 第六,歸檔/壓縮/安全存儲的能力。支持, JindoFS 在目錄、表、分區(qū)級別支持 OSS 歸檔;提供透明壓縮;支持 AK 免密保護(hù),Ranger 授權(quán)和審計擴(kuò)展功能。 第七,全面的大數(shù)據(jù)+ AI 生態(tài)支持。支持,JindoFS 全面兼容和支持開源生態(tài),提供:Hadoop JindoFS SDK;Jindo Job Committer ; POSIX fuse 支持 JindoFuse ;TensorFlow FileSystem ;Flink connector ;Kite SDK 。 第八,強(qiáng)大遷移能力甚至是無縫遷移的能力。部分支持,提供優(yōu)化的 JindoDistCp 工具,支持 Hadoop 數(shù)據(jù)源導(dǎo)入。

評論
圖片
表情
