如何使用 Apache DolphinScheduler 调度执行 Flume 数据采集任务？

时间：2026-05-20 作者：来源：微信公众号文章浏览：分类：SeaTunnel

测试目的数仓的数据源是Kafka，因此离线数仓需要用Flume采集Kafka中的数据到HDFS中！

点亮⭐️

https://github.com/apache/

点击蓝字关注我们

测试目的

数仓的数据源是Kafka，因此离线数仓需要用Flume采集Kafka中的数据到HDFS中！

在实际项目中，不可能一直在Xshell中启动Flume任务，一是项目的Flume任务很多，二是一旦Xshell页面关闭，Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。

所以经过测试后，发现海豚调度器也可以启动Flume任务！

解决方案

Flume在Linux中的路径

Flume任务文件在Linux中的位置以及任务文件名

在海豚中配置运行脚本

#!/bin/bashsource /etc/profile/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意：/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装，根据自己安装路径进行调整

海豚任务配置好后就可以启动海豚任务

在HDFS对应文件夹中验证是否采集到数据

Flume采集Kafka数据成功写入到HDFS中，成功实现用海豚执行Flume任务的目的！

原文链接：https://blog.csdn.net/tiantang2renjian/article/details/136399112

END

用户案例

DolphinScheduler Agent开源上线Cisco Webex天翼云 Zoom 网易邮箱每日互动惠生工程作业帮博世智驾蔚来汽车长城汽车集度长安汽车思科网讯食行生鲜联通医疗联想新网银行兴业证券唯品富邦消费金融自如有赞伊利当贝大数据珍岛集团传智教育Bigo YY直播拈花云科太美医疗深圳某智能制造企业

迁移实战

Azkaban Ooize（当贝迁移案例）（有赞迁移案例）Air2phin（迁移工具）Airflow

最新发版消息

Apache DolphinScheduler 3.4.1 发布，新增任务分发超时检测

加入社区

关注社区的方式有很多：

GitHub: https://github.com/apache/dolphinscheduler
官网：https://dolphinscheduler.apache.org/en-us
订阅开发者邮件：dev@dolphinscheduler@apache.org（向邮箱发送任意内容，收到邮件后回复同意订阅即可）
X.com：@DolphinSchedule
YouTube：https://www.youtube.com/@apachedolphinscheduler
Slack：https://join.slack.com/t/asf-dolphinscheduler/shared_invite/zt-1cmrxsio1-nJHxRJa44jfkrNL_Nsy9Qg