Apache DolphinScheduler基于Apache开源社区理念打造,是一个云原生分布式去中心化,易扩展的可视化DAG工作流任务调度平台,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。项目采用Apache-2.0 license许可证,是全球知名的领域开源项目。Apache DolphinScheduler社区在开源力量的推动下发展迅速,在世界各地已有600+ Contributors 积极参与到社区的共建中,GitHub Star 已达13K+,以开源社区的模式集合全球顶尖高科技公司的共同贡献,打造全球极致简单易用、稳定可扩展的DataOps平台。已累计在3000多家公司生产环境中作为企业的核心调度系统,包括IBM、腾讯、科大讯飞、美团、360、联通、顺丰等,覆盖金融、电信、零售、云计算、数据处理等广泛领域。
官网:https://github.com/apache/dolphinscheduler
GitHub:dolphinscheduler.apache.org/
项目亮点:信号采集时间降至秒级、毫秒级 单车数据量指数级增长
背景需求
随着国家“双碳”战略的推进,新能源汽车产业低碳发展也成为经济社会全面绿色低碳转型的重要方面。新形势下,长安汽车向智能低碳出行科技公司的转型,智能网联车数据规模变得越来越庞大。同时,新能源车型的逐步接入为TSP平台的数据接入和分析能力带来了新的挑战。这种变化的显著特征是常规信号采集时间从30秒降至秒级甚至毫秒级,单车数据量也呈现出指数级增长。因此,为了解决这一业务挑战,长安汽车需要采取一系列措施来优化数据采集系统,提高数据处理能力,确保长安汽车能够顺利实现转型目标。
解决方案
为应对百万级车辆海量车况数据、埋点数据的高效传输、存储、处理,长安汽车软件科技公司引入了开源项目Apache DolphinScheduler作为智能网联业务的核心调度引擎,实现数据任务的灵活编排、调度,赋能智能汽车产品研发、故障诊断等业务。
1. 跨集群网关机管理云上云下两套集群
长安汽车目前采用混合云架构,公有云存储近期热数据,私有云存储全量数据。私有云需周期性拉取公有云热数据,进行增量存储与数据分析。公有云业务集群需定期获取私有云分析数据,提供业务数据支撑。在混合云架构下,在如何保证数据稳定流转、数据周期性双向传输这一问题上,长安汽车采用DolphinScheduler通过跨集群网关机的方式,管理云上云下两套集群。
通过一套Web端的调度实例构建,实现私有云分析集群周期调度从公有云Hbase、Hive、HDFS及时拉取增量热数据,公有云集群针对依赖数据及时获取私有云分析数据。
图1 混合云架构数据流转
2. 分析数据与开发代码统一管理调度
长安汽车目前采用Doris实现BI报表、多维分析等业务场景,主要数据来源为当前私有云分析集群的离线ETL任务结果,中间数据或结果数据需定期调度导入MPP分析型数据库,分析SQL、Py代码统一由Dolphinscheduler资源中心管理,资源文件访问权限划分给不同业务团队,实现分析数据与开发代码统一管理调度。
图2 分析数据统一调度
3. 管理AI预测模型
长安汽车利用Dolphinscheduler管理预测模型,构建定时任务工作流,从集群抽取模型预测所需信号数据,构建数据任务依赖管理,保障预测数据为已预处理数据,到多子模型串联调度预测,再到预测结果整体汇总输出,形成从源头数据输入到最后预测结果输出的周期性运行,赋能车联网智能维保、亏电预测等业务。
图3 AI赋能模型预测
4. 多源数据集成
通过Dolphinscheduler配搭数据集成工具和Sqoop实现多源数据集成,构建统一数据平台,实现对各大事业部同步基础数据、分析数据,监控数据流向,保障数据安全,实现调度平台管理数据定期流入抽取,对统一外数据同步的数据管理,以及定时数据转发,形成数据流转。
图4 数据集成对外同步
客户收益
安汽车在采用了Apache DolphinScheduler作为核心调度系统之后,实现了在混合云架构、私有云与公有云跨集群条件下,进行数据双向传输,支撑数据业务、数据分析、全量数据存储;统一了资源文件管理,实现SQL文件、Python代码、预测模型等资源分团队管理;并构建了统一数据平台,保障数据流入与转发的安全与和可追溯性。
项目亮点:简单易用 丰富的功能设计 高效的数据同步效率
背景需求
某企业深耕于新能源制造行业,随着业务的不断发展,日益增长的跨基地生产数据同步及计算对该企业的整体数据架构带来了极大的挑战。其数据架构最大的特点为跨基地的多机房设计,运维难度高,资源需求量大,而传统意义上的多机房数据架构的主要矛盾是跨机房网络带宽不足、稳定性差与离线海量数据处理任务高效产出之间的矛盾。