Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备 、 新连接器接入 、 Zeta 引擎稳定性增强 以及 JDBC/CDC 连接器的深度优化 上。
以下是近期 Top PR 的详细盘点与分析:
社区正在不断扩展 SeaTunnel 的数据集成边界,不仅关注传统的数据库,也开始接入 SaaS 和云原生服务。
Airtable Source & Sink 这是一个重磅的新增连接器,支持从在线表格工具 Airtable 读取和写入数据,极大方便了业务数据与数仓的打通。 HubSpot Source 针对 CRM 领域的扩展,增加了 HubSpot 数据源的接入结构。 AWS Glue Catalog 增加了对 Glue Catalog 的支持,特别是在 S3 环境下凭证管理的灵活性。 Gravitino Integration 引入 Gravitino 作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。
这是 PR 最密集的区域,尤其是 JDBC 和 CDC 相关组件,开发者们正在抠细节、补短板。
JDBC 连接器: PostgreSQL COPY 支持 (#10406): 为 PG 增加了 COPY 命令支持,这将显著提升大批量数据写入的性能。 SapHana CHAR 类型 (#10472): 完善了对 SapHana 数据库 CHAR 类型的支持。 Oracle 单元测试(#10435): 为Oracle JDBC 增加了基于 Testcontainers 的单元测试。 CDC (Change Data Capture): MySQL & Postgres: 修复了 MySQL 无符号类型转换 ( MYSQL_SET_UNSIGNED ) 和 Postgres 复制槽 ( replication slot ) 的创建逻辑 (#10453, #10416)。 Oracle & SQLServer: 增加了对 CDC 时间戳 ( timestamp ) 类型的支持 (#10428)。 Elasticsearch: 增加了切片 ( slicing ) 支持,这意味着在处理大规模 ES 数据读取时并行度将得到大幅提升 (#10454)。 S3 File Source: 启用了文件切分 ( file split ) 功能,优化了大文件读取的性能 (#10450)。
作为 SeaTunnel 的自研引擎,Zeta 的稳定性是重中之重。
Checkpoint 机制 (#10448): 修复了当 Checkpoint 触发失败时任务状态未正确置为失败的问题,保证了数据一致性的严谨性。 任务调度( #10430 ): 优化了 WAIT 策略下的队列重调度逻辑,并修复了查询挂起任务信息时的 NPE ( #10456 )。 内存管理( #10418 ): 修复了一处核心模块的内存泄漏 ( Memory leak ) 问题。 架构文档 ( #10429 ): 社区正在补充架构设计文档,帮助新贡献者更好地理解系统全貌。 版本发布: Release Manager 正在紧锣密鼓地准备2.3.13 版本( #10466 )。
感谢以下开发者(按 GitHub ID 字母顺序)为 Apache SeaTunnel 社区做出的卓越贡献(基于最近 30 个 PR):
AshharAhmadKhan
(Socket Sink 多表支持)
chl-wxp CNF96 corgy-w (Zeta 调度优化 & LLM 指南 & 连接验证优化) CosmosNi (Elasticsearch Slicing & Checkpoint 优化) davidzollo (架构文档 & Data Lineage Stain Trace) dik111 dybyte krutoileshii kuleat LeonYoah (Kingbase Catalog & CDC Timestamp 支持) LiJie20190102 (Flink Yarn 打包优化 & 客户端解耦) misi1987107 MukjepScarlet Ruiii-w Sephiroth1024 Suresh-Krishna-Kusuma wgzhao (MySQL CDC Unsigned 类型支持) xiaochen-zhou yzeng1618 (JDBC XA 事务修复 & S3 File Split) zhangshenghang (Core 内存泄漏修复 & File System 错误处理) zooo-code Apache SeaTunnel Apache SeaTunnel是一个云原生的多模态、高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会ApacheSoftware Foundation正式宣布SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达9.1k+,社区达到7000+人规模。SeaTunnel支持在云数据库、本地数据源、SaaS、大模型等170多种数据源之间进行数据实时和批量同步,支持CDC、DDL变更、整库同步等功能,更是可以和大模型打通,让大模型链接企业内部的数据。
https://github.com/apache/seatunnel https://seatunnel.apache.org/ https://seatunnel.apache.org/download 我们相信,在 「 Community Over Code 」 (社区大于代码)、 「Open and Cooperation」 (开放协作)、 「Meritocracy」 (精英管理)、以及「 多样性与共识决策」 等 The Apache Way 的指引下,我们将迎来更加多元化和包容的社区生态,共建开源精神带来的技术进步! 我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭,一起共建开源! https://github.com/apache/seatunnel/issues https://github.com/apache/seatunnel/pulls dev-subscribe@seatunnel.apache.org https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1kcxzyrxz-lKcF3BAyzHEmpcc4OSaCjQ https://x.com/ASFSeaTunnel