
https://github.com/apache/
点击蓝字
关注我们
围绕 Apache SeaTunnel Discussion #10651 的一些思考:AI 写配置,难的从来不是“写出来”,而是“写出来以后真能用。”
这两年,几乎所有数据工具都会被问到一个问题:配置,能不能别再手写了?
放到 SeaTunnel 里,这个问题会更具体一点:
一句“我要做什么”,能不能直接变成一份配置?
再进一步,这份配置能不能不是“看起来差不多”,而是真的能跑、能审、能改?
手写 SeaTunnel 配置这件事,很多人都不陌生。真正麻烦的,往往不是“把配置写出来”,而是下面这些事:
AI 当然可以帮忙。但如果目标只是“生成一段 HOCON”,价值其实没那么大。因为真正麻烦的,从来不是把字敲出来,而是写完以后别坑自己,也别坑下一个接手的人。
所以更值得做的,不是“AI 帮我写配置”这件事本身,而是把自然语言里的“我要做什么”,稳定地翻成一份能跑、可审、可迭代的 SeaTunnel 配置。
这篇文章主要想讲三件事:
1. AI 写配置这件事,
真正的需求在哪里
SeaTunnel 的任务配置本质上是一门 DSL(常见为 HOCON,也支持 JSON/SQL),由 env / source / transform / sink 四段拼成一条可执行的数据管道。它的表达力很强,但也正因为表达力强,配置编写天然带有“工程门槛”。当团队规模、数据源种类、任务数量一起上来后,手写配置几乎一定会稳定地产生四类成本:
plugin_output/plugin_input)、连接器能力边界、以及引擎差异。SeaTunnel 官方对配置文件结构与变量替换的说明见:
https://seatunnel.apache.org/docs/2.3.8/concept/config/
Discussion #10651 里提到的问题,我理解核心是这一类工程诉求:
我不想再从 0 开始写 DSL;我希望输入“我要做什么 + 我有什么数据源 + 我有哪些约束”,系统就能生成一份能跑、可审、可迭代的 SeaTunnel 配置,并在失败时给出可操作的修复建议。
讨论入口:
https://github.com/apache/seatunnel/discussions/10651
我不太关心“AI 能不能直接写一段 HOCON”。这个问题演示起来不难,难的是生成结果能不能进入日常使用。我的判断是,这件事要走一条更工程化的路:先把自然语言变成结构化 IR,再渲染成 SeaTunnel HOCON,最后补上可机器检查的校验报告。这样做,至少有三个直接好处:
有了这个判断,下面的问题就比较清楚了:这条链路到底该怎么搭。
2. 真要做,这条链路该怎么搭
直接让模型吐一段 HOCON,演示效果通常会不错,但工程上不太够。更稳的做法,是把配置生成拆成几个明确阶段,每个阶段都能检查。一个最小闭环大概是这样:
模型负责先给方案,系统负责兜底和校验。
从结构上看,这套方案可以拆成两条链路:控制链(意图→计划)和产物链(计划→配置→执行)。这么拆,读起来和实现起来都会更清楚。
IntentSpec(结构化 JSON)JobPlanIR(强类型 IR,类似 AST)JobPlanIR → HOCON/JSON(默认 HOCON)IntentSpecJobPlanIRseatunnel.confvalidation_report(通过/失败 + 修复建议)执行端这块其实不用从零开始。SeaTunnel MCP server 已经演示了 LLM 如何通过工具提交和管理 SeaTunnel 任务,做 MVP 时可以直接参考:
https://github.com/apache/seatunnel-tools
PR #10789 做了一个独立的 seatunnel-cli 原型,用 Python CLI 把“自然语言 → 配置生成 → 校验 → 执行”串了起来。对我来说,它的意义很直接:这件事已经不是停留在想法上了,社区里已经有人开始把它做成工具。
这个 PR 对本文方案有几个很强的印证:
--check 和 REST API 校验串起来,这比“只生成不校验”更接近真实使用场景。/check、/run、自动修复、自动保存这些也得一起补上。这个 PR 还顺手提醒了另一件事:一旦系统支持会话记忆、连接信息记忆,安全约束必须一起跟上。默认脱敏、默认变量化、外部密钥管理,这些不能往后放。
方向说清楚了,再往下就不是“能不能做”,而是“先怎么落地”。
3. 如果做一个MVP,
第一版应该长什么样
MVP 最怕的是输出一会儿一个样,字段今天这么叫、明天那么叫,出了问题也没法回放。最省事的办法,还是先把 I/O 协议定下来。
{ "intent": "把 mysql.shop.orders 全量同步到 Doris ods.orders,每天跑一次", "engine": "zeta", "mode": "BATCH", "source": { "type": "mysql", "jdbc_url": "${MYSQL_URL}", "username": "${MYSQL_USERNAME}", "password": "${MYSQL_PASSWORD}", "database": "shop", "table": "orders" }, "sink": { "type": "doris", "fenodes": "${DORIS_FENODES}", "username": "${DORIS_USERNAME}", "password": "${DORIS_PASSWORD}", "database": "ods", "table": "orders" }, "constraints": { "parallelism": 4, "no_plaintext_secret": true, "target_ddl_policy": "validate_only" }}seatunnel.conf:
${...}validation_report.json:
这里没必要把提示词讲得太玄。重点只有一个:把不确定性关进可验证的范围里。MVP 用“三段式 Prompt”就够了:
目标:输出 JobPlanIR(JSON),固定字段、固定枚举、禁止自然语言解释。
关键约束:
job.mode、引擎、source/sink plugin_nameplugin_output/plugin_input 引用关系;旧版 result_table_name/source_table_name 只作为兼容输入处理todo_items[]目标:只输出 HOCON,并严格限制段落为 env/source/transform/sink。
关键约束:
${VAR} 或 ${VAR:default}目标:输出结构化的 validation_report.json:
{ "errors": [], "warnings": [], "todo_items": [], "patch_suggestion": ""}
MVP 阶段一般还是先用云端把“生成 → 校验 → 提交 → 回滚”这条链路跑通,再根据企业合规和成本情况,往本地或混合部署迁。
兼容规则如果不提前写清楚,后面会很乱。下面这些我更倾向于直接当成硬约束:
.json)env → source → transform → sinkplugin_output/plugin_input
${var}、${var:default},并统一由运行注入(不写死环境差异)这些边界先定住以后,下面一个更现实的问题就是:连接器规则到底从哪儿来。
PR #10789 有个点我觉得挺实用:它没有把连接器规则全压在人工维护上,而是去扫 SeaTunnel Java 源码里的 *Factory.java 和 *Options.java,自动生成 connector catalog,再去处理 option inheritance chain。这对规则库设计很有帮助。
更实际的做法,不是全靠手写 rules,而是分两层:
OptionRule、默认值、必填参数、参数别名。如果运行中的 SeaTunnel 集群还能暴露 /option-rules 这类接口,那么知识获取链路可以进一步升级为:
所以这里的 rules/connectors.yaml,更像是自动生成规则之上的人工校正层,不太像一份从头到尾手写维护的“参数大全”。
说到这里,抽象的东西已经差不多了。下面直接看一个完整例子。
4. 看一个完整例子:
从“我要做什么”到配置真跑起来
下面直接看一个完整样例,把“自然语言 → IR → HOCON → 校验报告”串起来。
把
mysql.shop.orders全量同步到 Dorisods.orders,每天跑一次,使用 zeta 引擎,并行度 4。
生成器不应该只输出一段 HOCON,而应该同时输出 JobPlanIR、seatunnel.conf 和 validation_report。IR 用来审查意图,HOCON 用来执行,校验报告用来暴露风险和待确认项。
这里顺手解释一个读者很容易疑惑的点:示例里 source 的业务类型写的是 mysql,但真正渲染出来的 plugin_name 是 Jdbc。原因不是写错了,而是这个例子描述的是“全量读取 MySQL 单表”,在 SeaTunnel 里更贴近 JDBC Source 的使用场景;如果目标是 MySQL CDC,同一类意图最后落出来的 source plugin 往往会变成 MySQL-CDC。
可以把 JobPlanIR 理解成生成器内部的一层中间表示,作用有点像 AST。它不直接执行,主要用来做连接器匹配、参数检查和后续渲染。
{ "job_mode": "BATCH", "engine": "zeta", "source": { "type": "mysql", "plugin_name": "Jdbc", "sync_mode": "full", "jdbc_url": "${MYSQL_JDBC_URL}", "driver": "com.mysql.cj.jdbc.Driver", "username": "${MYSQL_USERNAME}", "password": "${MYSQL_PASSWORD}", "database": "shop", "table": "orders", "table_path": "shop.orders" }, "sink": { "type": "doris", "plugin_name": "Doris", "fenodes": "${DORIS_FENODES}", "username": "${DORIS_USERNAME}", "password": "${DORIS_PASSWORD}", "database": "ods", "table": "orders", "data_save_mode": "${DORIS_DATA_SAVE_MODE:APPEND_DATA}", "schema_save_mode": "${DORIS_SCHEMA_SAVE_MODE:CREATE_SCHEMA_WHEN_NOT_EXIST}", "sink_label_prefix": "${DORIS_LABEL_PREFIX:orders_full_sync}", "doris_config": { "format": "json", "read_json_by_line": "true" } }, "transform": [], "constraints": { "parallelism": 4, "schedule": "daily_external", "no_plaintext_secret": true, "engine_compatibility": "Jdbc source + Doris sink are supported on SeaTunnel Zeta", "secret_placeholders": [ "MYSQL_JDBC_URL", "MYSQL_USERNAME", "MYSQL_PASSWORD", "DORIS_FENODES", "DORIS_USERNAME", "DORIS_PASSWORD" ] }, "todo_items": [ "确认每日调度方式;SeaTunnel HOCON 本身不内置 cron,需由外部调度器每天触发一次", "确认 Doris 写入语义;当前为可运行兜底 APPEND_DATA,若需要覆盖式全量请改为 DROP_DATA", "确认 mysql.shop.orders 存在主键或可切分列;否则 Jdbc Source 可能退化为单并发读取" ]}这一层尽量短一点,只保留运行必需参数。连接信息和密码都用变量占位,不写死。因为这是单链路任务,没有 transform,所以也不用额外声明 plugin_output/plugin_input。这里保留空的 transform {},只是为了让例子和 SeaTunnel 常见的 env → source → transform → sink 结构保持一致;真实生成时,如果没有 transform,也可以按团队习惯省略。
env { parallelism = 4 job.mode = "BATCH"}source { Jdbc { url = ${MYSQL_JDBC_URL} driver = "com.mysql.cj.jdbc.Driver" username = ${MYSQL_USERNAME} password = ${MYSQL_PASSWORD} table_path = "shop.orders" }}transform {}sink { Doris { fenodes = ${DORIS_FENODES} username = ${DORIS_USERNAME} password = ${DORIS_PASSWORD} database = "ods" table = "orders" sink.label-prefix = "${DORIS_LABEL_PREFIX:orders_full_sync}" schema_save_mode = "${DORIS_SCHEMA_SAVE_MODE:CREATE_SCHEMA_WHEN_NOT_EXIST}" data_save_mode = "${DORIS_DATA_SAVE_MODE:APPEND_DATA}" doris.config { format = "json" read_json_by_line = "true" } }}校验报告不是点缀,它主要回答两件事:哪里已经能跑,哪里还要人确认。
{ "errors": [], "warnings": [ "按示例意图生成:mysql.shop.orders 全量同步到 Doris ods.orders,每天跑一次,使用 zeta 引擎,并行度 4", "为保证配置可运行,Doris data_save_mode 使用兜底默认值 APPEND_DATA;若目标是覆盖式全量,请改为 DROP_DATA", "当前任务调度频率未编码在 SeaTunnel 配置中,需由外部调度系统实现每天一次触发", "未显式设置 Jdbc 分片参数;若源表缺少主键或唯一索引,实际读取并发可能低于 env.parallelism=4" ], "todo_items": [ "补充外部调度器配置(如 cron、、)", "确认 DORIS_DATA_SAVE_MODE 取值是否应为 DROP_DATA", "确认 orders 表的主键/唯一键或 partition_column" ], "patch_suggestion": ""}这个例子里我最想强调的是三点:敏感信息不落盘,连接器参数有来源,不确定项不硬猜。
讲到这里,方案、协议和例子都已经看过了。最后回到一个更现实的问题:这样做,到底值不值。
5. 这样做,最后能省下什么
下面这些数值更多是经验估计,主要是为了给读者一个量级感,不是严格实验数据。具体收益还是要看团队对 SeaTunnel 的熟悉程度、元数据接入情况和连接器复杂度。

6. 这件事接下来还能怎么往前推
seatunnel-cli/ 作为独立工具演进,还是沉淀成“生成器内核 + CLI/API 前端”的两层架构7. 最后留几个问题,继续聊
写到这里,我自己最关心的点还是没变:AI 会不会写配置,其实不是最难的部分。更难的是,怎么把“生成 → 校验 → 修复 → 执行”这一整套链路做稳。
如果这件事只是偶尔演示一下,能生成就够了;但如果真想让它进入团队日常流程,就得把后面的兜底、审查和修复一起补齐。
如果你也在关注这个方向,欢迎继续讨论下面几个问题。
seatunnel-cli 原型Apache SeaTunnel是一个云原生的多模态、高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会ApacheSoftware Foundation正式宣布SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达9k+,社区达到7000+人规模。SeaTunnel支持在云数据库、本地数据源、SaaS、大模型等170多种数据源之间进行数据实时和批量同步,支持CDC、DDL变更、整库同步等功能,更是可以和大模型打通,让大模型链接企业内部的数据。
同步Demo
新手入门

最佳实践

测试报告

源码解析



