点击蓝字
关注我们
1
全量与增量同步支持
实现方式:通过 SeaTunnel 的批处理模式(job.mode = "BATCH"),将 MySQL 的历史数据一次性导入 Doris。支持分片读取(如按主键分片)以提升效率,并可通过配置参数优化并行度、批量写入大小等。
source { Jdbc { query = "SELECT * FROM orders" -- 全量数据读取 partition_column = "id" -- 分片字段 split.size = 5000 -- 每分片读取行数 }}基于时间戳字段:
WHERE update_time >= '${last_update_time}'动态参数筛选增量数据,需外部系统记录时间点并触发定期任务。基于 CDC(变更数据捕获):
source { MySQL-CDC { startup.mode = "latest" -- 从最新位点开始同步 table-names = ["db.table"] }}2
SQL级数据过滤支持
source { Jdbc { query = """ SELECT * FROM orders WHERE status = 1 AND create_time > '2025-01-01' """ }}transform { Sql { query = "SELECT id, name FROM source WHERE amount > 1000" -- 过滤金额小于1000的数据 }}3
关键配置与注意事项
需配置 Doris FE 节点地址、批量写入参数(batch_size)、数据合并策略(merge_type)等。
sink { Doris { fenodes = "doris_fe:8030" batch_size = 10000 stream_load_properties = { "merge_type" = "MERGE" } }}MySQL 需开启 Binlog 并配置ROW模式,用户需具备SELECT, REPLICATION SLAVE权限。
全量同步建议分片读取避免单节点压力;增量同步可调整 Flink 或 Zeta 引擎的并行度以提升吞吐量。
4
与其他工具的对比
原文链接:https://blog.csdn.net/a772304419/article/details/146341445
Apache SeaTunnel是一个云原生的多模态、高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会ApacheSoftware Foundation正式宣布Apache SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达8k+,社区达到6000+人规模。SeaTunnel支持在云数据库、本地数据源、SaaS、大模型等170多种数据源之间进行数据实时和批量同步,支持CDC、DDL变更、整库同步等功能,更是可以和大模型打通,让大模型链接企业内部的数据。
同步Demo
新手入门

最佳实践

测试报告

源码解析



