SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目
从2018年写下第一行代码,到2021年加入Apache孵化器,再到今天成为顶级项目,SeaTunnel在开源的世界里如鱼得水,迎来了更多的贡献者更多的用户,期待SeaTunnel未来能够真正实现连接万库,同步如飞,也将自身的经验分享给更多的开发者,让中国更多的开源项目开源开发者走向并活跃于国际舞台
北京时间 2023 年 6 月 1 日,全球最大的开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache 毕业成为 Apache 顶级项目(TLP, Top Level Project)。这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。
Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。目前 Apache SeaTunnel 已发布 40+个版本,并在大量企业生产实践中使用,包括 J.P.Morgan、字节跳动、Stey、中国移动、富士康、腾讯云、国双、中科大数据研究院、360、Shoppe、Bilibili、新浪、搜狗、唯品会等企业,广泛应用于海量异构数据集成、CDC 数据同步,SaaS 数据集成以及多源数据处理等场景中。2021 年 12 月 9 日, Apache SeaTunnel 以全票通过的优秀表现正式成为 Apache 孵化器项目。之后在导师 Jean-Baptiste Onofré、Kevin Ratnasekera、Willem Ning Jiang、 Ted Liu、Guo William、Zhenxu Ke、Lidong Dai 的指导下,由孵化器管理委员会成员进行辅导和孵化。2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目。Apache 官方博客发布了 Apache SeaTunnel 毕业的消息:Apache SeaTunnel 是新一代高性能、分布式、海量数据集成工具,支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据。
图2:Apache SeaTunnel 技术架构图
作为超高性能分布式数据集成工具,Apache SeaTunnel 整体的特征和优势包括:- 降低复杂性,基于 API 开发的连接器能兼容离线同步、实时同步、全量同步、增量同步、CDC 实时同步等多种场景;
- 简单易用,提供可拖拽和类 SQL 语言界面,节省开发者更多时间 ,提供了作业可视化管理、调度、运行和监控能力。加速低代码和无代码工具的集成 ;
- 简单易维护,支持单机 & 集群部署,如果选择 SeaTunnel Zeta 引擎部署,无需依赖 Spark、Flink 等大数据组件。
在社区发展方面,Apache SeaTunnel 在 ASF 孵化期间,从最开始的几万行代码发展到现在 25 万行代码,共计创建了 2920+ 个 PR,合并 2850+ 个 PR。目前,SeaTunnel 在 GitHub 上 Star 数达 5.1 k+,社区达到 5000+ 人规模,贡献者 180+ 人。在用户方面,Apache SeaTunnel 现已广泛应用于互联网、金融、零售、出行、智能家居、云服务等各行各业中,在海量数据集成、实时异构数据同步、数据聚合以及多源数据聚集等场景中,可高效地处理数万亿条规模以上的数据。图3:Apache SeaTunnel 用户(部分)从刚开始寥寥无几的贡献者,到如今拥有庞大的用户群体和蓬勃发展的社区,Apache SeaTunnel 和其他从零开始的项目一样,经历的挑战和压力来自方方面面,包括技术架构重构 、开源社区协作等,正是在众多 SeaTunnel 贡献者日日夜夜的坚持和努力之下,Apache SeaTunnel 才得以顺利从 Apache 孵化器毕业,成为 Apache顶级项目(Top Level Project)。
SeaTunnel使命就是连通全球的各种数据源,让简单易用的海量数据同步的能力传播到全世界。为了完成这个使命,在社区的共同努力之下,项目已经创下了许多重要里程碑,不仅获得了数百家企业用户的支持,在数据集成领域也广受认可。图4:Apache SeaTunnel 发展里程碑- 2017 年开源,项目开源,当时名为 Waterdrop,在腾讯、新浪等企业生产中使用;
- 2021 年 12 月,进入 Apache 孵化器,并更名为 Apache SeaTunnel;
- 2022 年 3 月,发布首个 Apache 版本,受到用户的热烈反响;
- 2022 年 10 月,发布第一个重大版本 2.2.0,实现了 SeaTunnel Zeta 引擎,并完成跨引擎的连接器支持;
- 2022 年 12 月支持重要功能 CDC 同步,连接器个数突破 100+;
- 2023 年,实现支持 Flink 1.15 和 Spark 3,Zeta 引擎支持 CDC 整库同步和多表同步,以及 Schema Evolution 和自动建表等;
- 2023 年 6 月 1 日,ASF 正式宣布 Apache SeaTunnel 毕业;
未来,Apache SeaTunnel 还有更多目标等待实现......18 个月的孵化中,Apache SeaTunnel 取得的进步肉眼可见,不断扩大的社区群体,不断提升的社群活跃度,来自老用户和新用户的信赖和认可,多次登上 GitHub Trending 榜单、引起 InfoQ、HackerNews 等技术媒体平台和媒体的热烈讨论和报道,都在见证着这个项目从小到大的发展。在孵化期间,Apache SeaTunnel 也获得了诸多荣誉:- 2022 年度 OSC 中国开源项目评选中被选为「中国开源社区健康案例」
在 ASF 的支持下,Apache SeaTunnel 团队通过开放协作和社区贡献,不断完善项目的技术和功能。在 7 位 Mentor 的帮助下,Apache SeaTunnel 社区共加入了 28 位 Commiter、18 位 PMC,也在社区的共同努力下发布了 8 个 Apache Releases。通过透明的开发过程和开源的代码管理,Apache SeaTunnel 项目在社区中获得了广泛的参与,共同克服了社区的建立和本土化、精力分配、团队协作和社区成长等重重困难和挑战,优化迭代项目自身的同时,也壮大了了社群的力量。感谢给予无私支持和帮助的各位导师、贡献者、用户以及 Apache 孵化器的支持。成为 Apache 顶级项目对于 Apache SeaTunnel 来说意义重大。首先,ASF 的顶级项目是在社区共识和专家评审的基础上评定的,代表着项目在技术质量、社区治理和可持续性方面的卓越表现。Apache SeaTunnel 的成功毕业是对其社区不懈努力和创新精神的认可。其次,成为 ASF 顶级项目将为 Apache SeaTunnel 带来更多的资源和支持。ASF 的全球社区将为 Apache SeaTunnel 项目提供开发者、用户和贡献者的广泛网络,促进项目的快速增长和可持续发展。Apache SeaTunnel 将获得 ASF 的品牌背书,进一步增强其在行业中的声誉和影响力。最重要的是,Apache SeaTunnel 成为 ASF 顶级项目将进一步推动开源创新在数据集成领域的发展。SeaTunnel 项目通过开放的合作和共享知识,为数据集成解决方案提供了有价值的参考,其开源的代码和先进的技术将激发更多创新,并有望为全球数据集成技术带来积极变革。然而,这也仅是 Apache SeaTunnel 新的起点,我们的征途是星辰大海!在此呼吁热衷于开源和致力于中国开源项目走向世界的同侪,让我们共同努力,把 Apache SeaTunnel 这样具有代表性的诞生于中国的优秀开源项目推向更广阔的国际舞台,让中国开源力量形成合力,让中国开源发扬光大!