Apache SeaTunnel高性能分布式數(shù)據(jù)集成平臺
SeaTunnel 是下一代超高性能的支持海量數(shù)據(jù)快速同步與集成的云原生數(shù)據(jù)集成工具,每天可以穩(wěn)定高效同步萬億級數(shù)據(jù),已在字節(jié)、B站、微博、騰訊云及印度電信等數(shù)百家公司生產(chǎn)上使用,目前也已經(jīng)支持過百種數(shù)據(jù)源。
為什么我們需要 SeaTunnel
SeaTunnel 盡所能為您解決海量數(shù)據(jù)同步中可能遇到的問題:
- 數(shù)據(jù)丟失與重復(fù)
- 任務(wù)堆積與延遲
- 吞吐量低
- 缺少應(yīng)用運(yùn)行狀態(tài)監(jiān)控
SeaTunnel使用場景
- 海量數(shù)據(jù)同步
- 海量數(shù)據(jù)集成
- 海量數(shù)據(jù)的 ELT/ETL
- 海量數(shù)據(jù)聚合
- 多源數(shù)據(jù)處理
SeaTunnel 特性
- 簡單易用,靈活配置,無需開發(fā)
- 支持 CDC
- 離線多源數(shù)據(jù)全量和增量同步
- 超高性能、海量數(shù)據(jù)處理能力
- 模塊化和插件化,易于擴(kuò)展
SeaTunnel 支持的 Connector
- Source
Fake, File, Hdfs, Kafka, S3, Socket, Cassandra, Clickhouse,Elasticsearch,FTP,Hive,Hudi,Iceberg,JDBC,Kudu,MongoDB,OSS, Pulsar, Redis,S3,Kafka 等眾多數(shù)據(jù)源,也支持自行開發(fā) Source plugin
- Transform
Copy, FieldMapper, FilterRowKind, Filter, Replace, Split, SQL Functions, SQL UDF, SQL及自行開發(fā)的 Transform plugin
- Sink
DynamoDB, Assert, Cassandra, Clickhouse, ClickhouseFile, Console, DataHub, DingTalk, Doris, Elasticsearch, Email, Enterprise WeChat, Feishu, FtpFile, GoogleFirestore, Greenplum, Hbase, HdfsFile, Hive, Http, InfluxDB, IoTDB, JDBC, Kafka, Kudu, LocalFile, Maxcompute, MongoDB, MySQL, Neo4j, OssFile, OssJindoFile, Paimon, Phoenix, Rabbitmq, Redis, RocketMQ, S3Redshift, S3File, SelectDB Cloud, Sentry, SftpFile, Slack, Snowflake, Socket, StarRocks, TDengine, Tablestore 等,也支持自行開發(fā)的 Sink plugin
環(huán)境依賴
-
java 運(yùn)行環(huán)境,java >= 8
-
如果您要在集群環(huán)境中運(yùn)行 SeaTunnel,那么需要以下環(huán)境的任意一種:
- SeaTunnel Zeta
- Spark
- Flink
如果您的數(shù)據(jù)量較小或者只是做功能驗(yàn)證,也可以僅使用 local 模式啟動,無需集群環(huán)境,SeaTunnel 支持單機(jī)運(yùn)行。
下載
可以直接運(yùn)行的軟件包下載地址:https://seatunnel.apache.org/download
快速入門
快速入門:https://seatunnel.apache.org/docs/2.3.2/start-v2/locally/quick-start-seatunnel-engine
關(guān)于 SeaTunnel 的詳細(xì)文檔
生產(chǎn)應(yīng)用案例
-
微博, 增值業(yè)務(wù)部數(shù)據(jù)平臺 微博某業(yè)務(wù)有數(shù)百個實(shí)時流式計算任務(wù)使用內(nèi)部定制版 seatunnel,以及其子項目Guardian做 seatunnel On Yarn 的任務(wù)監(jiān)控。
-
新浪, 大數(shù)據(jù)運(yùn)維分析平臺 新浪運(yùn)維數(shù)據(jù)分析平臺使用 seatunnel 為新浪新聞,CDN 等服務(wù)做運(yùn)維大數(shù)據(jù)的實(shí)時和離線分析,并寫入 Clickhouse。
-
搜狗,搜狗奇點(diǎn)系統(tǒng) 搜狗奇點(diǎn)系統(tǒng)使用 seatunnel 作為 ETL 工具, 幫助建立實(shí)時數(shù)倉體系
更多案例參見: https://seatunnel.apache.org/user
