各位热爱 Apache SeaTunnel 的小伙伴们,社区 9 月份月报来啦!
本月,社区 21 位贡献者共同参与了 Apache SeaTunnel 的修复与功能升级,助力数据同步能力提升。
核心功能持续丰富:新增正则提取转换、多模态嵌入、向量降维等Transform-V2能力;支持HDFS文件多表源读取、Databend CDC模式接收,拓展数据处理场景。 多模块问题修复: 完成UI细节与包优化、Excel/DB2/Hive等连接器异常修复、Zeta引擎命令失效及资源泄漏修复,保障系统稳定运行。 性能与兼容性优化: 优化ClickHouse批量并行读取性能,改进Zeta引擎作业指标处理;升级maxwell_json等格式,支持合并数据更新前后状态。 文档与生态完善: 更新官网部署文档、修复连接器配置项错误,同步推进2.3.12版本文档迭代,提升用户使用体验。 感谢以下小伙伴上个月为 Apache SeaTunnel 做的精彩贡献(排名不分先后):
修复 [Fix][UI]优化细节和收尾部件 @hawk9821 [Fix][Connector-V2]解决特殊Excel的阅读问题 @corgy-w [Fix][Doc]修复 file_filter_modified_start 和 file_filter_modified_end 的格式 @Hisoka-X [Fix][doc]根据官方文档修复 ./mvnw install 错误 @Adamyuanyuan [Fix][Zeta]修复 JobStateEventTest 以使用 await 条件进行 accessCounter 断言 @dybyte [Fix][Zeta]修复 isPhysicalDAGInfo 中的拼写错误 @dybyte [Fix][Flink]删除重复代码 @zhangshenghang [Fix][Zeta]修复 seatunnel.sh -j 命令无法使用的问题 @lm-ylj [Fix][connector-hive]修复 file_name_expression 在 Hive sink 中未生效的问题。 @Adamyuanyuan [Fix][Connectors-v2]修复 connector-http 的单元测试 @hawk9821 [Fix][Connector-xugu]修复 xugu 连接器中的几个错误 @LeonYoah [Fix][Zeta]处理 BaseService 中的 null startTimestamp 以修复不稳定的 MysqlCDCWithBinlogDeleteIT 测试 @dybyte [Fix][POM]修复转换 UDF 依赖版本 @Hisoka-X [Fix][Core]修复使用复杂配置时占位符无法传递参数的问题 @LeonYoah [Fix][engine-server]清理 BaseServletTest 单元测试日志目录 @liucongjy [Fix][Zeta]修复 pendingJobMasterMap 资源泄漏 @hawk9821 [Fix][Connector-V2]修复 db2 表小写错误 @chl-wxp 优化 [Improve][CI]将 kafka-connector-it 的超时时间从 120 分钟增加到 140 分钟 @dybyte [Improve][Connector-V2]MongodbSinkFactory 实现 TableSinkFactory @chl-wxp [Improve]将快照版本更新为 2.3.13 @Hisoka-X [Feature][File]添加 markdown 解析器文档 @joonseolee [Improve][Zeta]通过分区支持改进作业指标处理 @dybyte [Feature][Transform-V2]支持正则提取转换 @xiaochen-zhou [Feature][Connectors-v2]清理 Paimon 接收器的临时文件 @hawk9821 [Feature][Connector-V2]支持HDFS文件多表源读取 @JeremyXin [Feature][Format]改进 maxwell_json、canal_json、debezium_json 格式支持合并 update_before 和 update_after @dyp12 [Feature][Zeta]支持检查点的最小暂停配置 @xiaochen-zhou [Improve][Connector-Clickhouse]通过使用最后一个批次的行排序值方法,而不是使用 LIMIT OFFSET 来改进 CK 的批量并行读取。 @JeremyXin [Feature][Transform-V2]支持SQL转换中的 AT TIME ZONE 语句 @Hisoka-X [Feature][Transform V2]添加向量降维Transform @CosmosNi [Feature][File]为RAG支持添加Markdown解析器 #9714 @joonseolee [Feature][Engine]对数据源信息存储和管理的支持 @wtybxqm [Feature][Transform-V2]支持多模态嵌入 @xiaochen-zhou [Feature][Connector-V2]支持Databend接收连接器的CDC模式 @hantmac 其他 [Docs][Connector-V2][S3File]修复连接器 s3file 的选项名称(access_secret -> secret_key) @loupipalien [Chore]修复拼写错误:coolumn ---> column @xiaochen-zhou apache/seatunnel-website仓库
其他 [Release][2.3.12]更新Seatunnel网站文档 @Hisoka-X 更新 hybrid-cluster-deployment.md @gbyangg Apache SeaTunnel Apache SeaTunnel是一个云原生的多模态、高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会ApacheSoftware Foundation正式宣布Apache SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达8k+,社区达到6000+人规模。SeaTunnel支持在云数据库、本地数据源、SaaS、大模型等170多种数据源之间进行数据实时和批量同步,支持CDC、DDL变更、整库同步等功能,更是可以和大模型打通,让大模型链接企业内部的数据。
https://github.com/apache/seatunnel https://seatunnel.apache.org/ https://seatunnel.apache.org/download 我们相信,在 「 Community Over Code 」 (社区大于代码)、 「Open and Cooperation」 (开放协作)、 「Meritocracy」 (精英管理)、以及「 多样性与共识决策」 等 The Apache Way 的指引下,我们将迎来更加多元化和包容的社区生态,共建开源精神带来的技术进步! 我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭,一起共建开源! https://github.com/apache/seatunnel/issues https://github.com/apache/seatunnel/pulls dev-subscribe@seatunnel.apache.org https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1kcxzyrxz-lKcF3BAyzHEmpcc4OSaCjQ https://x.com/ASFSeaTunnel