點(diǎn)擊上方藍(lán)色字體，選擇“設(shè)為星標(biāo)”

回復(fù)”資源“獲取更多資源

點(diǎn)擊右側(cè)關(guān)注，大數(shù)據(jù)開發(fā)領(lǐng)域最強(qiáng)公眾號(hào)！

大數(shù)據(jù)真好玩

點(diǎn)擊右側(cè)關(guān)注，大數(shù)據(jù)真好玩！

CDC簡(jiǎn)介

CDC,Change Data Capture,變更數(shù)據(jù)獲取的簡(jiǎn)稱，使用CDC我們可以從數(shù)據(jù)庫(kù)中獲取已提交的更改并將這些更改發(fā)送到下游，供下游使用。這些變更可以包括INSERT,DELETE,UPDATE等。

用戶可以在以下的場(chǎng)景下使用CDC：

使用flink sql進(jìn)行數(shù)據(jù)同步,可以將數(shù)據(jù)從一個(gè)數(shù)據(jù)同步到其他的地方，比如mysql、elasticsearch等。
可以在源數(shù)據(jù)庫(kù)上實(shí)時(shí)的物化一個(gè)聚合視圖
因?yàn)橹皇窃隽客剑钥梢詫?shí)時(shí)的低延遲的同步數(shù)據(jù)
使用EventTime join 一個(gè)temporal表以便可以獲取準(zhǔn)確的結(jié)果

Flink 1.11 將這些changelog提取并轉(zhuǎn)化為Table API和SQL，目前支持兩種格式：Debezium和Canal，這就意味著源表不僅僅是append操作，而且還有upsert、delete操作。

Flink CDC 功能適用的一些場(chǎng)景：

數(shù)據(jù)庫(kù)之間的增量數(shù)據(jù)同步
審計(jì)日志
數(shù)據(jù)庫(kù)之上的實(shí)時(shí)物化視圖
基于CDC的維表join
…

Flink? CDC使用方式

目前Flink支持兩種內(nèi)置的connector，PostgreSQL和mysql，接下來我們以mysql為例。

Flink 1.11僅支持Kafka作為現(xiàn)成的變更日志源和JSON編碼的變更日志，而Avro（Debezium）和Protobuf（Canal）計(jì)劃在將來的版本中使用。還計(jì)劃支持MySQL二進(jìn)制日志和Kafka壓縮主題作為源，并將擴(kuò)展日志支持?jǐn)U展到批處理執(zhí)行。

Flink?CDC當(dāng)作監(jiān)聽器獲取增量變更

傳統(tǒng)的實(shí)時(shí)鏈路如何實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的同步，我們以canal為例，傳統(tǒng)業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)同步會(huì)涉及到canal處理mysql的binlog然后同步到kafka，在通過計(jì)算引擎spark，flink或storm計(jì)算轉(zhuǎn)化,再結(jié)果數(shù)據(jù)傳輸?shù)降谌酱鎯?chǔ)（hbase，es）如下圖所示主要分為三個(gè)模塊E(Extract) ,T(Transform), L(Load).可以看到涉及的組件很多，鏈路很長(zhǎng)。

我們可以直接Flink CDC消費(fèi)數(shù)據(jù)庫(kù)的增量日志，替代了原來作為數(shù)據(jù)采集層的canal，然后直接進(jìn)行計(jì)算，經(jīng)過計(jì)算之后，將計(jì)算結(jié)果發(fā)送到下游。整體架構(gòu)如下：

使用這種架構(gòu)是好處有：

減少canal和kafka的維護(hù)成本，鏈路更短，延遲更低
flink提供了exactly once語義
可以從指定position讀取
去掉了kafka，減少了消息的存儲(chǔ)成本

我們需要引入相應(yīng)的pom，mysql的pom如下：

<dependency>  <groupId>com.alibaba.ververicagroupId>  <artifactId>flink-connector-mysql-cdcartifactId>  <version>1.1.0version>dependency>

如果是sql客戶端使用，需要下載?flink-sql-connector-mysql-cdc-1.1.0.jar?并且放到/lib/下面

連接mysql數(shù)據(jù)庫(kù)的示例sql如下：

-- creates a mysql cdc table sourceCREATE TABLE mysql_binlog ( id INT NOT NULL, name STRING, description STRING, weight DECIMAL(10,3)) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'localhost', 'port' = '3306', 'username' = 'flinkuser', 'password' = 'flinkpw', 'database-name' = 'inventory', 'table-name' = 'products');

使用API的方式：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.streaming.api.functions.source.SourceFunction;import com.alibaba.ververica.cdc.debezium.StringDebeziumDeserializationSchema;import com.alibaba.ververica.cdc.connectors.mysql.MySQLSource; public class MySqlBinlogSourceExample {  public static void main(String[] args) throws Exception {    SourceFunction<String> sourceFunction = MySQLSource.<String>builder()      .hostname("localhost")      .port(3306)      .databaseList("inventory") // monitor all tables under inventory database      .username("flinkuser")      .password("flinkpw")      .deserializer(new StringDebeziumDeserializationSchema()) // converts SourceRecord to String      .build();    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    env      .addSource(sourceFunction)      .print().setParallelism(1); // use parallelism 1 for sink to keep message ordering    env.execute();  }}

Flink CDC 當(dāng)作轉(zhuǎn)換工具

如果需要Flink承擔(dān)的角色是計(jì)算層，那么目前Flink提供的format有兩種格式：canal-json和debezium-json，下面我們簡(jiǎn)單的介紹下。

如果要使用Kafka的canal-json，對(duì)于程序而言，需要添加如下依賴:

<dependency>    <groupId>org.apache.flinkgroupId>    <artifactId>flink-connector-kafka_2.11artifactId>    <version>1.11.0version>dependency>

我們可以直接消費(fèi)canal-json數(shù)據(jù)：

CREATE TABLE topic_products (  id BIGINT,  name STRING,  description STRING,  weight DECIMAL(10, 2)) WITH ( 'connector' = 'kafka', 'topic' = 'products_binlog', 'properties.bootstrap.servers' = 'localhost:9092', 'properties.group.id' = 'testGroup', 'format' = 'canal-json'  -- using canal-json as the format)

changelog?format

如果要使用Kafka的changelog-json Format，對(duì)于程序而言，需要添加如下依賴:

<dependency>  <groupId>com.alibaba.ververicagroupId>  <artifactId>flink-format-changelog-jsonartifactId>  <version>1.0.0version>dependency>

如果要使用Flink SQL Client，需要添加如下jar包：flink-format-changelog-json-1.0.0.jar，將該jar包放在Flink安裝目錄的lib文件夾下即可。

-- assuming we have a user_behavior logsCREATE TABLE user_behavior (    user_id BIGINT,    item_id BIGINT,    category_id BIGINT,    behavior STRING,    ts TIMESTAMP(3)) WITH (    'connector' = 'kafka',  -- using kafka connector    'topic' = 'user_behavior',  -- kafka topic    'scan.startup.mode' = 'earliest-offset',  -- reading from the beginning    'properties.bootstrap.servers' = 'localhost:9092',  -- kafka broker address    'format' = 'json'  -- the data format is json);
-- we want to store the the UV aggregation result in kafka using changelog-json formatcreate table day_uv (    day_str STRING,    uv BIGINT) WITH (    'connector' = 'kafka',    'topic' = 'day_uv',    'scan.startup.mode' = 'earliest-offset',  -- reading from the beginning    'properties.bootstrap.servers' = 'localhost:9092',  -- kafka broker address    'format' = 'changelog-json'  -- the data format is json);
-- write the UV results into kafka using changelog-json formatINSERT INTO day_uvSELECT DATE_FORMAT(ts, 'yyyy-MM-dd') as date_str, count(distinct user_id) as uvFROM user_behaviorGROUP BY DATE_FORMAT(ts, 'yyyy-MM-dd');
-- reading the changelog back againSELECT * FROM day_uv;

版權(quán)聲明：

本文為大數(shù)據(jù)技術(shù)與架構(gòu)整理，原作者獨(dú)家授權(quán)。未經(jīng)原作者允許轉(zhuǎn)載追究侵權(quán)責(zé)任。

編輯｜冷眼丶

微信公眾號(hào)｜import_bigdata

歡迎點(diǎn)贊+收藏+轉(zhuǎn)發(fā)朋友圈素質(zhì)三連

文章不錯(cuò)？點(diǎn)個(gè)【在看】吧！??

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

Flink新增特性 | CDC(Change Data Capture) 原理和實(shí)踐應(yīng)用

Flink? CDC使用方式