1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        一文搞懂ETL和ELT的區(qū)別

        共 2052字,需瀏覽 5分鐘

         ·

        2022-01-10 15:38

        在過(guò)去的十年,我們對(duì)存儲(chǔ)和管理數(shù)據(jù)的方式發(fā)生了很大的變化,并從ETL模式逐漸轉(zhuǎn)向ELT,然而,小編認(rèn)為這并不會(huì)是終點(diǎn);未來(lái)極有可能會(huì)向EL(T)發(fā)展,也就是EL和T進(jìn)行完全解耦。當(dāng)然這只是一種猜想。本篇主要對(duì)ETL和ELT兩種模式進(jìn)行展開(kāi)來(lái)說(shuō),如果有朋友對(duì)這兩個(gè)概念有些困惑的話,希望本篇文章能夠幫助你。

        ELT和ETL這兩種模式從字面上來(lái)看就是一個(gè)順序顛倒的問(wèn)題,每個(gè)單詞拆開(kāi)來(lái)看其實(shí)都是一樣的。E代表的是Extract,即抽取,也就是從源端拉取數(shù)據(jù);T代表的是Transform即轉(zhuǎn)換,對(duì)一些結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行一些處理,比如數(shù)據(jù)加密,字段轉(zhuǎn)換映射,拼接等等操作;L代表的是Load即加載,也就是將數(shù)據(jù)寫入到目標(biāo)系統(tǒng)中。

        ETL

        如上圖所示,我們來(lái)回顧一下ETL的流程:1、首先從源端拉取數(shù)據(jù),這個(gè)過(guò)程就是extract。通常我們所熟知的sqoop,datax這些數(shù)據(jù)同步工具就是干這個(gè)事情的。

        2、當(dāng)從源端拉取數(shù)據(jù)后,并沒(méi)有直接灌入到目標(biāo)表,大家可以理解成是先放到一個(gè)緩沖區(qū),在這個(gè)區(qū)域內(nèi)進(jìn)行一些符合目標(biāo)系統(tǒng)標(biāo)準(zhǔn)的預(yù)處理,比如我們建設(shè)數(shù)倉(cāng)的時(shí)候?qū)τ跀?shù)據(jù)同步后會(huì)把一些空值置為一些默認(rèn)值,以此來(lái)保障數(shù)據(jù)完整性,對(duì)于不同源端的同一種含義的字段信息會(huì)進(jìn)行統(tǒng)一格式轉(zhuǎn)換,對(duì)于敏感數(shù)據(jù)會(huì)進(jìn)行加密等等這些操作,一般是在入倉(cāng)之前處理掉的。大家也可以當(dāng)作是在ODS層。

        3、當(dāng)預(yù)處理完之后,將數(shù)據(jù)寫入到目標(biāo)系統(tǒng)中,那么這個(gè)時(shí)候也就是真正的入倉(cāng),也就是說(shuō)倉(cāng)中的數(shù)據(jù)都是要符合數(shù)倉(cāng)標(biāo)準(zhǔn)的。
        那么這種流程有什么好處呢?1、首先入倉(cāng)之后的數(shù)據(jù)肯定是已經(jīng)標(biāo)準(zhǔn)化的了,那么對(duì)于下游的使用方是不是很方便了呢?比如說(shuō)分析師想要統(tǒng)計(jì)一些指標(biāo),直接使用數(shù)倉(cāng)的表是不是可以省略掉復(fù)雜的數(shù)據(jù)規(guī)范處理。

        2、對(duì)于一些敏感數(shù)據(jù),如果在入倉(cāng)之前就進(jìn)行加密處理,這種模式更加符合GDPR、HIPAA 和 CCPA 標(biāo)準(zhǔn)。

        3、目前市面上有很多集成的ETL工具,可以很容易實(shí)施并完成這一整套的流程,而不需要過(guò)于復(fù)雜的操作。

        任何事物都有正反兩面,既然ETL有以上的好處,那么肯定是有一些缺點(diǎn)的。這里以敏感數(shù)據(jù)加密場(chǎng)景為例:比如敏感數(shù)據(jù)12332234在入倉(cāng)之前,要對(duì)敏感數(shù)據(jù)進(jìn)行一些定制的加密算法處理,而這種算法需要調(diào)用三方接口或者外部接口才能夠完成(即要把加密后的結(jié)果Encryt_sdfdsfsfd入倉(cāng)),那么大家思考一下,如果敏感數(shù)據(jù)量達(dá)到上千萬(wàn),那么ETL整個(gè)流程所需的耗時(shí)是不是肯定會(huì)很長(zhǎng)(考慮到外部接口限流的情況)?那么或許有朋友說(shuō)這種可以通過(guò)大數(shù)據(jù)技術(shù)(比如寫MR或者Spark程序)來(lái)解決,也不會(huì)很慢的。但是想一想,這個(gè)時(shí)候數(shù)據(jù)是不是已經(jīng)入倉(cāng)了呢?為什么這樣說(shuō),請(qǐng)問(wèn)數(shù)據(jù)這個(gè)時(shí)候是不是已經(jīng)落到了ODS層了呢?這種模式就是等下介紹的ELT模式。通過(guò)這個(gè)示例也足以看出,ETL模式適用于小數(shù)據(jù)量集

        ELT

        如上圖所示,我們來(lái)介紹下ELT的流程:
        1、和ETL中的E作用一樣,即從源端系統(tǒng)抽取數(shù)據(jù),比如Mysql,Oracle,PG等等。
        2、該步驟的流程就和ETL不一樣了,T和L進(jìn)行了位置置換,這里是先加載到目標(biāo)系統(tǒng),大家也可以理解成是數(shù)據(jù)入了倉(cāng)
        3、當(dāng)數(shù)據(jù)入了倉(cāng)之后,再進(jìn)行T操作,也就是進(jìn)行轉(zhuǎn)換。也就是說(shuō)數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化操作由緩沖區(qū)轉(zhuǎn)移到了倉(cāng)中進(jìn)行。
        那么T和L進(jìn)行置換之后,有什么好處呢?
        1、首先針對(duì)于ETL模式下介紹的敏感數(shù)據(jù)加密的例子就得到了很好的效率提升,借助于我們目前所使用的大數(shù)據(jù)技術(shù),比如定義UDF之類的在倉(cāng)中進(jìn)行加密處理,那么速度肯定會(huì)比在ETL模型下要快。這也就是說(shuō)ELT其實(shí)是適用于大數(shù)據(jù)量集的,但是需要注意安全管控防止出現(xiàn)數(shù)據(jù)泄露問(wèn)題。

        2、站在消費(fèi)方來(lái)說(shuō),當(dāng)要使用數(shù)據(jù)的時(shí)候,無(wú)需等待轉(zhuǎn)換標(biāo)準(zhǔn)化處理完成入倉(cāng)之后才能使用,而是可以直接在倉(cāng)中訪問(wèn)原始數(shù)據(jù),但是這樣一來(lái)會(huì)加重分析師對(duì)數(shù)據(jù)清洗的操作。

        3、目前大多數(shù)公司都有現(xiàn)成的平臺(tái)來(lái)建設(shè)數(shù)倉(cāng),而且隨著云上數(shù)倉(cāng)的模式逐漸成熟,ELT受益于這種平臺(tái)生態(tài)系統(tǒng),這樣一來(lái)轉(zhuǎn)換過(guò)程通常是自動(dòng)化或者說(shuō)是配置化的,所以在維護(hù)方面帶來(lái)了便利。

        ETL vs ELT

        在實(shí)際場(chǎng)景中,小編認(rèn)為這兩種模式普遍是共存的。只是針對(duì)不同的場(chǎng)景選擇不同的模式來(lái)解決而已。對(duì)于小數(shù)據(jù)量集而且轉(zhuǎn)換過(guò)程不會(huì)過(guò)于耗時(shí)的場(chǎng)景可以采取ETL處理,例如使用sqoop同步數(shù)據(jù),日志采集過(guò)程當(dāng)中直接清洗數(shù)據(jù)這類場(chǎng)景;對(duì)于數(shù)據(jù)體量較大而且轉(zhuǎn)換邏輯比較復(fù)雜的場(chǎng)景可以采取ELT處理,例如前面提到的數(shù)據(jù)加密場(chǎng)景。目前比較火的數(shù)據(jù)湖和中臺(tái)的建設(shè)多數(shù)是以ELT模式開(kāi)展的,當(dāng)然這兩種處理模式之間的區(qū)別不僅僅局限于這一點(diǎn),這里做一下匯總便于大家理解:加下方好友,領(lǐng)取670頁(yè)大數(shù)據(jù)技術(shù)架構(gòu)手冊(cè),無(wú)套路!

        瀏覽 38
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日韩精品一区二区三区啊888 | 诱人的乳峰奶水hd | 成人在线A片免费看 | 天堂网亚洲 | 俄罗斯2一3sex性hd | sesese999 | 黄色视频在线观看免费舒服好深的套路 | metart精品嫩模asspics | 夜夜夜夜曰天天天天拍国产 | 国产十无码 |