
点亮⭐️
https://github.com/apache/
点击蓝字 关注我们
在 2026 Apache DolphinScheduler Meetup 技术分享中,由刘小东带来的 DolphinScheduler Agent 解决方案一经亮相,便成为社区焦点。这套打通「群聊告警→智能诊断→自动恢复→报告闭环」的全链路系统,可以很好地解决传统运维碎片化、高耗时、反复跨系统跳转的痛点,让大数据任务故障处理从“人肉奔波”迈入“智能自治”时代。
目前,项目核心支撑工具 dolphinscheduler-cli(dsctl)已正式在 GitHub 开源,面向所有开发者免费使用!
故障恢复慢,
不是命令难,是跳转太碎
日常使用 DolphinScheduler 时,任务失败处理一直给运维带来不小的压力。
你一定熟悉这样的流程:飞书群弹出告警 → 打开 DS UI 查实例状态 → 翻日志定位失败原因 → 对照 Runbook 判断风险 → 人工决策操作 → 再回到群里回复结果……

真正拖慢效率的,从来不是执行某条命令,而是上下文在多个系统间反复断裂。事实、证据、风险分散在不同工具里,运维人员把大量时间浪费在“找信息、拼逻辑、补上下文”上,协作断点多、排查成本高、故障恢复周期被无限拉长。
而这一切,在 DolphinScheduler Agent 面前,将成为历史。
从碎片化人肉协作,
到全链路智能闭环
针对上述断点,DolphinScheduler Agent 方案的目标非常清晰:把一次失败告警,变成一条连续、可追踪、可沉淀的处理链路。旧方式是告警、UI、日志、群聊、复盘各自独立,全程依赖人肉协作;新方式则以飞书告警为起点,经由 Channel 会话、智能编排、执行控制、验证回复,最终沉淀为报告,让故障从触发到闭环一气呵成,不再需要人工在多系统间反复跳转。

简单来说,就是告警发出来,Agent 自动接手;处理完成,自动在群内回复结果,并输出完整事故报告。运维人员只需要看结论,不再需要“跑断腿”。
五层硬核架构:不是简单脚本,
是安全可控的智能控制链
很多人会误以为,自动化运维就是“机器人+脚本”。
但 DolphinScheduler Agent 走了一条更稳健、更工程化的路——五层解耦控制链,每一层各司其职,层层递进,既保证执行能力,又牢牢守住安全边界。

这样的设计切中运维人员的需求,架构解耦,能力才能稳定扩展;边界清晰,自动化才敢上线生产。
四大核心模块:端到端支撑,
故障自愈真正落地
在五层架构之上,四大模块紧密配合,让整套系统“能用、好用、敢用”。
飞书群既是告警入口、协作界面,也是结果回执页。Agent、人工、值班流程在同一线程内协同,群内只展示精简结论,详细证据沉淀至报告,沟通高效、证据可查。

Claude Code 负责会话逻辑编排,Skill 承载故障响应、工作流设计、数据质量等专业规则。
编排、规则、执行三层解耦,系统可稳定扩展,持续迭代升级。

dsctl 是整个 Agent 的能力核心,提供标准化、可被自动化调用的 CLI 能力:

正是有了 dsctl,手动命令才能变成稳定的自动化能力。
从告警触发到复盘沉淀,Agent 严格遵循 7 步标准状态机:告警解析 → 诊断 → 决策 → 执行 → 验证 → 回复 → 沉淀

全程可追溯、可审计、可复盘,真正做到放心上线、稳定运行。
生产环境的自动化,安全永远比速度更重要。
系统按风险等级设置边界,将操作分为四类:

这样就明确了系统的核心安全主张:Agent 的强大,不在于“敢跑”,而在于知道“什么时候不跑”。
逐步放权,走向自治运维

为了保证在生产环境安全落地,Agent 采用分步放权、小步迭代的路线,以确保生产稳定:
这套方案最有价值的,不是某个提示词,而是 Channel + Skill + CLI + Report + Safety 一整套可复制、可迁移的工程化边界。
Demo演示
为了大家能对 DolphinScheduler Agent 的能力有直观的理解,刘小东还在现场进行了 Demo 演示,详见文首视频 57:10 及以后内容。⬆️

正式开源,dsctl已上线
好消息是,支撑 DolphinScheduler Agent 实现全能力的核心项目 dolphinscheduler-cli(dsctl)已正式开源!
GitHub 地址:https://github.com/sketchmind/dolphinscheduler-cli
项目提供完整命令行工具,支持:
项目采用 Apache-2.0 开源协议,支持 pip 一键安装,兼容 DolphinScheduler 3.3.2 / 3.4.0 / 3.4.1 等主流版本,开箱即用。
写在
最后
DolphinScheduler Agent 的出现,重新定义了大数据任务运维范式:把人从重复、琐碎、跨系统跳转中解放出来,让系统负责处理故障,让人专注决策与治理。
从告警弹出,到自动恢复、自动回帖、自动沉淀报告,一键闭环,全程无忧。如果运行顺利,运维真的可以说是 “躺着把活干了”。
欢迎所有 DolphinScheduler 用户、运维开发者、大数据工程师前往 GitHub 体验 dsctl,一起参与社区共建,让运维更简单、更智能、更高效!
END

用户案例

迁移实战

最新发版消息

加入社区
关注社区的方式有很多:
同样地,参与Apache DolphinScheduler 有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。
非代码方式包括:
完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。
代码方式包括:
查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。


你的好友小海豚拍了拍你
并请你帮她点一下“分享”
