基于 Flink SQL 構(gòu)建流批一體的 ETL 數(shù)據(jù)集成
數(shù)據(jù)倉庫與數(shù)據(jù)集成
數(shù)據(jù)接入(E)
數(shù)據(jù)入倉/湖(L)
數(shù)據(jù)打?qū)?T)
數(shù)據(jù)倉庫與數(shù)據(jù)集成




Flink SQL 原生支持了 CDC 所以現(xiàn)在可以方便地同步數(shù)據(jù)庫數(shù)據(jù),不管是直連數(shù)據(jù)庫,還是對(duì)接常見的 CDC工具。
Flink SQL 在最近的版本中持續(xù)強(qiáng)化了維表 join 的能力,不僅可以實(shí)時(shí)關(guān)聯(lián)數(shù)據(jù)庫中的維表數(shù)據(jù),現(xiàn)在還能關(guān)聯(lián) Hive 和 Kafka 中的維表數(shù)據(jù),能靈活滿足不同工作負(fù)載和時(shí)效性的需求。
基于 Flink 強(qiáng)大的流式 ETL 的能力,我們可以統(tǒng)一在實(shí)時(shí)層做數(shù)據(jù)接入和數(shù)據(jù)轉(zhuǎn)換,然后將明細(xì)層的數(shù)據(jù)回流到離線數(shù)倉中。
現(xiàn)在 Flink 流式寫入 Hive,已經(jīng)支持了自動(dòng)合并小文件的功能,解決了小文件的痛苦。
統(tǒng)一了基礎(chǔ)公共數(shù)據(jù) 保障了流批結(jié)果的一致性 提升了離線數(shù)倉的時(shí)效性 減少了組件和鏈路的維護(hù)成本
數(shù)據(jù)接入







數(shù)據(jù)入倉湖





數(shù)據(jù)打?qū)?/strong>










Regular Join 的實(shí)效性非常高,吞吐一般,因?yàn)?state 會(huì)保留所有到達(dá)的數(shù)據(jù),適用于雙流關(guān)聯(lián)場(chǎng)景; Interval Jon 的時(shí)效性非常好,吞吐較好,因?yàn)?state 只保留時(shí)間區(qū)間內(nèi)的數(shù)據(jù),適用于有業(yè)務(wù)時(shí)間區(qū)間的雙流關(guān)聯(lián)場(chǎng)景; Temporal Join Lookup DB 的時(shí)效性比較好,吞吐較差,因?yàn)槊織l數(shù)據(jù)都需要查詢外部系統(tǒng),會(huì)有 IO 開銷,適用于維表在數(shù)據(jù)庫中的場(chǎng)景; Temporal Join Changelog 的時(shí)效性很好,吞吐也比較好,因?yàn)樗鼪]有 IO 開銷,適用于需要維表等待,或者關(guān)聯(lián)準(zhǔn)確版本的場(chǎng)景; Temporal Join Hive 的時(shí)效性一般,但吞吐非常好,因?yàn)榫S表的數(shù)據(jù)存放在cache 中,適用于維表緩慢更新的場(chǎng)景,高吞吐的場(chǎng)景。
總結(jié)

全量讀取 流式讀取 CDC 流式讀取
維度關(guān)聯(lián);
流式寫入 CDC 寫入
評(píng)論
圖片
表情
