对话 SQL Transform 功能贡献者马骋原

目前有计划对SeaTunnel进行二次开发,移除部分连接器插件,适配内部相关数据源的连接器,扩展Transform的能力
马骋原

  //  

《对话社区》系列专栏会定期发掘社区贡献突出的 Contributor,将他们与 SeaTunnel 项目的故事和贡献经历说给社区听,互相学习,分享参与开源的心得与经验教训。


本期,我们挖掘到的同样是一位“宝藏”开发者,他参与了 SeaTunnel 最新版本的发布,贡献了项目重要功能 SQL Transform。他和社区有着怎样的故事呢?我们通过一段简单的对话来了解。


个人画像

姓名:马骋原

公司:恒生电子

GitHub ID:rewerma

个人擅长研究领域:java中间件、微服务、大数据等


您参加开源多长时间了?开源为什么吸引你?

我参与开源大约有7年时间,看到自己的RP被广大开发者认可并使用有一定的成就感。

您为社区提交了什么贡献?具体方案可以描述一下吗?

为SeaTunnel提交了SQL Transform plugin的PR,通过SQL解析器生成物理执行计划,自建函数库执行数据转换逻辑。SQL Transform 是不依赖任务特定的执行引擎的 API,可以完美运行在 Flink/Spark/Zeta 三种不同的引擎上。

您之前是否做过数据集成系统调研?有做过SeaTunnel与其他竞品的对比分析吗?

有对Canal、DataX等组件有深入的理解。本身也是Canal的Commitor。

您所在公司是否使用过SeaTunnel?使用场景是什么?

公司目前征准备引入SeaTunnel以替换DataX,主要是面向数据采集和转换的场景。SeaTunnel主要可以解决DataX单进程、无法灵活扩展Transform、无法直接对接实时同步等问题,而公司在采集和转换的场景都有相关的需求。

您是否基于SeaTunnel进行过二次开发?开发方案是否可以介绍一下?

目前有计划对SeaTunnel进行二次开发,移除部分连接器插件,适配内部相关数据源的连接器,扩展Transform的能力。

SeaTunnel社区贡献给您的第一印象是怎样的?您希望在这里有何收获?

社区比较活跃,经常能看到很多比较好的idea和PR。

您认为数据集成系统最关键的需求是什么?SeaTunnel是否能按足这些关键需求?以后期待SeaTunnel做出哪些新的优化和改进?

希望SeaTunnel在数据采集性能上有更大的提升;Transform计算能力也希望有所扩展。

您还希望参与SeaTunnel社区能对您的个人成长提供什么样的支持?

学习到更多新技术。