数据编排调度就是DataOps?错了!真正的DataOps应该是这样的

使用WhaleStudio的DataOps具有以下几个重要优势快速实验和创新,以最快的速度向客户提供新的见解缩短部署分析解决方案的周期时间在复杂的人员流程技术和环境下进行协作清晰精确的测量和结果监控,降低数据缺陷最大限度地提高数据开发产生价值的能力WhaleStudio通过全面覆盖端到端的数据生命周期来实现这些目标,为企业提供了一种处理大量数据实时应用程序需求和组织工作流复杂性的方法

摘要


我们经常听到人们说dataops只是自动化数据管道 — 使用业务流程来执行有向无环图 (DAG)。很多企业可能已经在使用编排工具如DolphinSchedulerairflow等,并认为他们已经涵盖了DataOps。虽然自动化编排和调度确实是 DataOps 中至关重要的元素,但DataOps的意义远不止数据编排调度。

什么是编排调度?

我们可以看到,许多工程师将大部分时间花在低效的手动流程改动和故障处理上,而数据科学家正在手工编辑CSV文件。数据团队可以使用调度编排的自动化技术将自己从数据作业的低效和单调(尽管必要)的部分中解放出来。

将分析开发和数据操作工作流视为一系列步骤,这些步骤可由一组有向无环图(DAG)表示。DAG中的每个节点都表示流程中的一个步骤。例如,数据清理、ETL、运行模型等等。业务流程工具在自动控制下运行一系列步骤,这些步骤可以串行、并行或有条件地运行。
1_202303010_182127575

有许多数据管道编排工具可以管理引入、清理、ETL 和发布数据等流程。还有一些DevOps工具专注于协调开发活动,例如协同开发环境等等。大部分企业使用众多的数据平台、工具、语言和工作流来部署数据处理和分析。DataOps 将这种繁杂的系统、数据、流程统一到连贯的管道中,在DataOps 中,编排调度会自动执行数据处理管道(“数据价值管道”)和模型开发管道(“业务创新管道”)中的任务。虽然实际情况下,这两个主要管道因为不同的工作流、人员角色和工作内容,会由无数个小型管道组成。但为了简单起见,我们将广义地讨论抽象版的价值和创新管道。
2_202303010_182127586

数据价值管道编排

数据价值管道从数据中提取价值。数据进入管道并经过一系列阶段 – 获取、转换、处理、分析并形成可视化和报告。当数据以有用的分析形式离开管道时,将为组织创造价值。

在大多数企业中,数据价值管道不是一个DAG-它实际上是DAG的DAG。下图显示了典型的组织内为数据消费者提供数据价值的各个组。每个组都使用不同的工具。工具链可能包括一个或多个编排工具。DataOps通过基于元数据的流程来编排和调度这些底层工具,即编排 DAG 的 DAG。


3_202303010_182127578

业务创新管道编排

仅仅将业务流程应用于数据操作管道是不够的。DataOps还需要管理业务创新管道,这个管道通过实施产生分析见解的新想法来增强和扩展分析,它本质上是新的分析开发流程和工作流程。DataOps基于持续部署的DevOps模型来编排业务创新管道。如下图所示,数据组织中进行分析和创新的每个团队都有自己的工作流流程,这些流程反映了其独特的结构。这包括既是分析的使用者又是分析生产者的自助服务用户。与数据价值管道一样,业务创新管道也不是一个DAG -它也是DAG的DAG。

4

DataOps仅靠编排调度是不够的

自动化编排和调度是整个DataOps实行的关键部分,但就其本身而言,是无法提供DataOps 的全部能力的。例如:数据操作可以完全自动化,但如果没有测试和流程控制,数据和代码错误可能会传播到分析中,造成严重后果。不断四处救火的数据团队无法实现最大生产力。因此,全面的 DataOps 除了数据处理流程之外,还需要几种关键方法和流程。

DataOps运营端到端的数据

在我们构建企业数据编排的独特需求时,要时刻记着DataOps的存在价值,即运营和控制端到端的数据并最大化数据价值。根据Gartner®的总结,我们来看一下数据运营有哪些关键要素:
  • 流程控制 – 在 DataOps中,自动化测试和统计流程控制在数据管道的每一步运行,过滤和消除数据错误,这些数据错误会破坏分析,并产生大量计划外工作影响生产效率。
  • 变更管理 – DataOps关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。
  • 并行开发 – DataOps组织并划分数据开发各个阶段,以便团队成员可以高效地协同工作,而不会发生资源冲突。
  • 虚拟化技术环境 – DataOps会虚拟化技术环境,以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程,并快速流向生产环境。当需要时,数据分析师可以快速启动一个开发环境,其中包括所需的工具、安全访问、数据、代码。
  • 复用 – DataOps支持复用模型,标准化被广泛使用的功能和分析组件,并简化虚拟环境之间的迁移。
  • 响应能力和灵活性 – DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。
  • 快速变化 – DataOps 将构建技术环境,以实现尽可能短的开发周期时间,同时满足数据使用者的要求。DataOps的设计理念就是基于变革,DataOps 体系结构将动态数据处理能力视为“核心思想”,而不是“亡羊补牢”,做事后的更改。
  • 团队协调 – DataOps 协调任务、角色和工作流,以打破不同数据团队和业务团队之间的障碍,以便他们更好地协同工作。

白鲸开源WhaleStudio

总结一下,DataOps不是一个独立的工具,它是一组工具套件和方法论,是帮助用户控制数据处理和运营的规划、开发、测试、部署和维护的体系架构。DataOps可以改进使用现有工具的方式并提高协同效率。我们将前述的许多DataOps功能、流程和方法都本地化在一个新的整体平台中,称之为“Studio”。在推行DataOps的组织中,白鲸开源的WhaleStudio是数据专业人员工作所需的受控的且可灵活使用的环境,为企业更好的实现数据价值和业务创新能力提供强大支撑。

WhaleStudio实时反映了生产技术环境,并集成了协同开发和持续调试、上线能力,支持数据测试、数据质量控制、流程控制、版本控制、环境、工具链、组件重用、容器、条件执行、数据安全性、工作流管理等等功能。WhaleStudio是一个覆盖端到端数据生命周期的技术平台,可促进不同团队成员之间的共享与合作。当数据团队致力于在紧迫的时间要求内生成创新数据分析时,WhaleStudio是最值得依赖的技术套件。

5

不论是数据工程师还是数据科学家,可以通过WhaleStudio中的IDE组件,编辑复杂HSQL,SQL或者Python任务组件,并且可以在编辑的同时,直接进行调试脚本,让用户直接在IDE当中完成对Hadoop集群、Spark集群、关系型数据库、数据仓库、数据湖和AI/ML等环境的开发和调试,极大提高了整体开发效率和协同效率。
6

同时,WhaleStudio还支持持续的集成和部署(CI/CD),因为不论是在做数据开发还是业务创新,CI/CD和编排调度都是实现数据价值的关键环节。WhaleStudio实现了与Git、Github、Bitbucket打通,同时也支持一键导入导出DAG与相关的资源文件。这样,用户可以直接实现代码的提交、合并,并可以依赖Git自动化打包流程以及CI/CD流程实现上线流程,而不依赖企业运维人员手工执行相关代码。运维人员可以通过监控大屏或者在CI流程中通过审批来自动化实现自动化大数据/数据脚本上线部署工作。
7

WhaleStudio全面支撑数据运营体系

WhaleStudio使DataOps能够协调团队之间和团队内部的任务。WhaleStudio是将所有数据操作功能组合在一起的虚拟环境。使用WhaleStudio的DataOps 具有以下几个重要优势:
  • 快速实验和创新,以最快的速度向客户提供新的见解
  • 缩短部署分析解决方案的周期时间
  • 在复杂的人员、流程、技术和环境下进行协作
  • 清晰精确的测量和结果监控,降低数据缺陷
  • 最大限度地提高数据开发产生价值的能力

    8


WhaleStudio通过全面覆盖端到端的数据生命周期来实现这些目标,为企业提供了一种处理大量数据、实时应用程序需求和组织/工作流复杂性的方法。常见的编排调度工具确实在DataOps中起着关键作用,但这些只是DataOps中众多可用工具中的一个。WhaleStudio则为数据组织提供了完整的DataOps平台,帮助企业优化内部数据组织、流程、工具和方法,使企业在日益复杂和竞争激烈的市场中获取更大的优势。

白鲸开源
白鲸开源由Apache DolphinScheduler开源项目核心团队和来自全球范围内的数据领域专家组建。该公司致力于打造下一代云原生DataOps平台,助力企业在大数据和云时代,智能化地完成自身数据的处理、调度、治理和数据资产的管理。
20篇原创内容
公众号


白鲸开源


白鲸开源科技是由 Apache DolphinScheduler 和 Apache SeaTunnel(Incubating)开源项目核心团队和来自全球范围内的数据领域专家组建。我们致力于打造下一代云原生 DataOps 平台,助力企业在大数据和云时代,智能化地完成海量数据的处理、调度和治理。


业务咨询:

Email: service@whaleops.com

微信:leonard-ds


运营项目


目前,白鲸开源科技运营维护着已经从 Apache 基金会毕业的大数据工作流调度平台 Apache DolphinScheduler,以及正在孵化中的数据集成平台 Apache SeaTunnel,诚邀全球伙伴加入开源共建!


Apache DolphinScheduler:
https://dolphinscheduler.apache.org/
仓库地址:https://github.com/apache/dolphinscheduler
官网:https://dolphinscheduler.apache.org/
Apache SeaTunnel:
仓库:https://github.com/apache/incubator-seatunnel
官网:https://seatunnel.apache.org/