AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要

正如马克·吐温曾经说过的:“当每个人都在寻找黄金时,是从事镐和铲子生意的好时机。”

172345524555035e9ff52ea711b1c4c29468cd8538d6c

在 AI 时代,dataops 2.0 代表了一种全新的数据管理和操作模式,通过自动化数据管道、实时数据处理和跨团队协作,DataOps 2.0 能够加速数据分析和决策过程。它融合了人工智能和机器学习技术,使得数据的获取、清洗和分析更加高效,推动企业在快速变化的市场中保持竞争优势。
另一方面,在 AI 时代,调度编排技术正变得愈发重要,成为高效资源管理和任务自动化的核心。通过智能算法和机器学习,调度编排能够实时分析系统负载、优化资源分配,并根据需求动态调整任务执行顺序。这不仅提高了系统的运行效率,还降低了人力干预的需求,提升了响应速度和灵活性。
Bessemer Venture Partners 在基础设施投资方面有着悠久的历史。经过这家公司的长期观察,他们发现在 AI 时代,为 AI 量身定制的新型基础设施范式正在兴起,以增强 AI 时代下一波企业数据软件的发展。其中,DataOps 2.0 和调度编排技术和产业的发展也成为焦点。
以下为Bessemer Venture Partners 关于 AI 时代下新型基础设施的发展状况的观察和预测,仅供参考:


目录:

一、AI 革命正在催生数据堆栈的演变

二、为 AI 量身打造的新兴基础设施堆栈

1、在扩展、创新模型架构和专用基础模型方面的创新

2、模型部署和推理的创新

3、前沿模型训练和开发技术

4、AI 时代的 DataOps 2.0

5、下一代可观测性

6、编排


三、AI 基础设施业务存在巨大机遇



AI 革命正在催生数据堆栈的演变





近年来,机器学习取得显著进展——自 2017 年突破性论文《Attention is all you need》(https://arxiv.org/abs/1706.03762)奠定了 transformer 深度学习架构的基础以来,我们迎来了 AI 研究的“寒武纪大爆发”,每天都有新的论文发表,并以惊人的速度不断积累。

1723455245543b3eec430da84546465d50dbf2cec1a8d

AI 基础设施 arXiv 论文图表
AI 创新的这种结构性转变正在催化数据基础设施在许多方面的演变。

  • 首先,AI 正在推动现代数据堆栈的发展,现有的数据基础设施公司已经开始将 AI 功能整合到数据管理中的合成、检索和丰富等环节。

此外,认识到 AI 浪潮作为商业机会的战略重要性,一些现有公司甚至发布了全新的产品,以支持 AI 工作负载和 AI 优先用户。
例如,许多数据库公司现在将嵌入作为一种数据类型支持,要么作为新功能,要么作为独立产品提供。

  • 其次,数据和 AI 密不可分。数据的增长速度异常惊人,正在推动当前基础设施工具的极限。

特别是非结构化数据的生成量预计到 2030 年将飙升至 612 泽字节(一泽字节等于一万亿千兆字节或十亿兆字节。);
这一增长是由机器学习/AI 的热潮和生成模型在各类模式下产生的合成数据所驱动的;除了数据量外,数据类型和来源的复杂性和多样性也在不断增加。
公司正在通过开发新硬件来应对这些挑战,包括更强大的处理器(如 GPU、TPU)、更好的网络硬件以促进高效的数据传输,以及下一代存储设备。

  • 最后,基于最近在机器学习和硬件方面的进展,一波新的 AI 原生和 AI 嵌入的初创公司正在涌现——这些公司要么从一开始就利用 AI/ML,要么用其增强现有能力。

不幸的是,目前的许多数据基础设施和工具仍未针对 AI 用例进行优化。就像将方钉强行塞进圆孔一样,AI 工程师不得不在现有基础设施中创造变通的方法或技巧。



为AI量身打造的新兴基础设施堆栈





随着近年来多个“why now”的推动因素积累,缺乏原生和专门设计的工具,促成了为 AI 原生和嵌入式 AI 公司构建的新 AI 基础设施堆栈。

1723455245556056a8116f51a8fe016564cf25eff52c3

我们正处于一场大规模技术变革的中期——这一新兴的 AI 基础设施堆栈内的创新正以前所未有的速度推进。
即使在我们编写这份路线图和发展我们的观点时,研究人员每天都在发布新的论文,使之前的观点变得过时。
瞬息万变的环境令人生畏,但尽管存在未知的变数,但初创企业的潜力和机会却是广阔的。
伴随着 AI 的革新,我们展开投资。随着每日发布的新前沿研究,有时感觉脚下的地面都在变化。我们不断将最新的发展纳入我们的理论。以下是我们感兴趣的几个主题:

1、在扩展、创新模型架构和专用基础模型方面的创新

模型层正成为 AI 基础设施堆栈中最具动态性和竞争激烈的层。
基础模型是新的“石油”,鉴于这一部分堆栈的战略重要性,随着越来越多的公司基于它们的启发式方法构建应用,这里的赢家可能在未来多年内定义下游应用的未来。
我们看到模型层的活动激增——从开源模型到小语言模型。大量的活动和资本集中在扩展基于 transformer 模型(如通过数据、模型并行、混合模态等)或试图推动这些模型在各种性能属性上的发展(如成本、延迟、部署、内存占用、上下文窗口等)。
例如,几支团队正在改进生成模型的构建块(primitives),如注意力机制和卷积机制,以创造更强大、更高效的 AI 技术。
由于模型训练需要大量的资金,许多这些需要风险投资资助。除了训练成本之外,还需要具备科研人才、工程化人才和专门资源来在这一层进行创新。
但是“attention is not all you need”——研究人员也在开发非 transformer 架构,并不断推动基础模型的可能性。
例如,状态空间模型(SSM),如 Mamba,以及各种递归架构,正在拓展基础模型的前沿,这些模型计算密集度较低,延迟较低,可能为传统 transformer 提供更便宜、更快的训练和推理替代方案。
自 20 世纪 60 年代以来,专注于动态、连续系统的 SSM 已经存在,但最近才应用于离散的端到端序列建模。
线性复杂性也使得 SSM 成为长上下文建模的绝佳选择,我们看到几家公司在这方面蓬勃发展。
尽管早期结果显示在各种属性上具有令人印象深刻的效率,研究人员还需要证明现在在 transformer 生态系统中视为理所当然的各种属性(如控制、对齐、推理)。
此外,几何深度学习领域的突破性研究,包括类别深度学习和图神经网络,正在为研究人员提供结构化推理的方法。
尽管这一领域已经存在了相当一段时间,但在这一波新的 AI 浪潮中,它重新引起了兴趣,因为几何方法通常使深度学习算法能够考虑嵌入在现实世界数据中的几何结构(如代码中的抽象语法树、生物通路等),并可应用于各种领域。
此外,除了通用模型,目前还有许多团队在训练特定用途的模型,如代码生成、生物学、视频、图像、语音、机器人技术、音乐、物理、脑电波等,这为模型层增加了另一个多样性和灵活性的向量。

2、模型部署和推理的创新

计算层是 AI 基础设施堆栈中最复杂的层之一, 大型企业和初创企业都在计算层领域创新,加剧了其复杂性。计算层的复杂不仅因为它是一个核心层,也是由于它为堆栈的其他部分提供动力:
它融合了硬件(例如 GPU 和定制的硬件)、软件(例如操作系统、驱动程序、配置工具、框架、编译器以及监控和管理软件)以及商业模型之间的创新和交互。
在硬件层面,随着供应链短缺的缓解,GPU 成本正在下降。下一代 GPU,如 NVIDIA 的 H100 和 B100 系列,结合互连技术的进步,在模型层面扩展了数据和 GPU 并行性。
除了硬件,各种算法和基础设施创新也在实现新的 AI 能力。例如,transformer 架构中的自注意力机制由于其高计算需求,尤其是二次时间和空间复杂性,已成为一个关键瓶颈。
为了解决这些挑战,机器学习系统社区已经发布了各种模型和基础设施层的研究:自注意力机制的演变(如Ring Attention)、KV Cache 优化(如通道量化、剪枝、近似)等。
这些创新减少了 LLM 解码步骤的内存占用,实现了更快的推理、更长的上下文和成本效益。
在我们向个性化、更便宜的微调方法迈进的过程中,仍有许多问题有待解决。
LoRA 等方法释放了内存,实现了经济高效的微调,但事实证明很难对 GPU 资源进行可扩展的管理,以便为微调模型提供服务(GPU 的利用率往往很低,将权重复制进内存和从内存复制出会降低算术强度)。
虽然在批处理、量化和无服务器信息堆栈的更高层次上进行了改进,使基础架构变得更加简便易行,但仍有许多 "悬而未决 "的问题。
Skypilot 和 vLLM 等项目,以及 Modal、Together AI、Fireworks 和 Databricks 等公司,都在推动这方面的发展。
在这一层的供应商对利用其服务的 AI 应用公司的单位经济(尤其是毛利率)产生了巨大影响,我们预计这些动态将继续推动基于下游应用需求的创新。

3、前沿模型训练和开发技术

如前所述,AI 研究正以惊人的速度推进,特别是我们正处于一个令人兴奋的时期,新 AI 方法和技术在预训练、训练和开发方面都在蓬勃发展。
新方法每天都在被开发,与现有方法的演变并行,这意味着 AI 基础设施堆栈正在动态定义和重新定义。
我们看到这些技术在各个方面的扩散,推进 LLM 和扩散模型在基础性能参数(如准确性和延迟)方面的输出,直至推动新前沿的极限(如推理、多模态、垂直特定知识,甚至代理 AI 或新兴能力)。
我们在第一节中强调了一些架构范式,但其他技术示例如下:

  • 微调和对齐:监督反馈、专门的训练数据或精炼权重以适应特定任务(如 RLHF、constitutional AI、PEFT)
  • 检索增强生成(RAG):通过检索机制将 LLM 连接到外部知识源,结合生成功能与搜索和/或整合相关知识库数据的能力
  • 提示范式:一种互动过程,其中 LLM 被指示和引导达到期望的结果(如少样本学习、多样本上下文学习、退后提示、CoT、ToT)
  • 模型混合和合并:混合单独的 AI 模型子网络共同执行任务的机器学习方法(如 MoE、SLERP、DARE、TIES、frankenmerging)
  • 训练稳定性:关于归一化方法(如 LayerNorm vs。RMSNorm)、归一化、激活和其他属性的决策会影响训练稳定性和性能
  • 参数效率: 影响模型能力和效率的各种方法,如高效的持续预训练

尽管这些方法在实验简便性与效果之间存在权衡,但我们预测这些技术将激发新的发展,随着研究人员更快迭代并解决现实世界的可扩展性和适用性问题。
此外,在应用 AI 中常见的是部署混合或组合技术,但最终,能带来最大效益的方法可能会主导应用 AI 领域。
此外,随着基础模型的不断改进以及更多 AI 驱动解决方案在生产中和现实世界约束下的部署,形势正在动态演变。
最终,我们认为现在仍处于早期阶段,尚未真正建立起霸权,特别是在企业 AI 领域。
因此,我们非常高兴能与开发、启用或商业化这些技术的公司合作,因为这些公司将重塑和重新构想我们如何在现实中构建、开发、操作和部署 AI 模型和应用,并为 AI 公司形成关键的工具层。

4、AI 时代的 DataOps 2.0

我们在文章开头提到,数据和 AI 输出是密不可分的。
我们看到这一点在许多方面得到了体现,从数据质量影响 AI 输出(垃圾进垃圾出),到最近的 AI 创新从以前未开发的数据源(如非结构化数据)中释放洞察力,再到专有数据作为 AI 原生公司的竞争优势和护城河。
在我们的《Data Shift Right》文章中探讨了这种关系,并在最近的《数据指南》中强调了公司利用的新数据策略,以优化 AI 的竞争优势。
鉴于这些催化剂,数据运维面临新的需求,导致存储、标注、流水线、准备和转换的新方法和框架的出现。一些令人兴奋的例子包括:

  • 在预处理阶段,我们看到专为操作 LLM 数据而设计的数据管理和 ETL 解决方案的兴起。
  • 新数据类型(如Embedding)的出现激发了全新的数据运维类别,如向量数据库。
  • 数据标注在 AI 时代不断发展,融合了先进的以数据为中心的方法,这加快了之前的手动或弱监督方法的速度,并吸引了更多非技术最终用户。
  • AI 革命推动了处理各种数据模态(特别是非结构化数据,如视频和图像)的工具的主流应用。许多最先进的工具现在已集成到日常工作流程中。以前处理这些模态是具有挑战性且通常是定制的,导致组织无法完全从这些丰富的数据源中获得价值。
  • 随着组织利用模型训练和推理技术的创新(参见第三节),新的企业工具链和数据工作流程(例如 RAG 堆栈)正在出现。

正如现代数据堆栈推动了数据运维领域标志性十角兽(指成立不到10年但市值超过100亿美元的公司)的崛起,我们相信,专注于 AI 工作流程的新一代数据运维巨头将会出现。

5、下一代可观测性

随着每一波新技术的浪潮,可观察性也随之采取了各种形式(例如,现代数据堆栈中的数据可观察性、用于云应用程序开发的 APM)。
同样,我们看到可观察性在 AI 时代不断发展——一系列新的供应商正在出现,帮助公司监控模型和人工智能应用程序的性能。
虽然我们已经看到许多公司进入市场解决一个关键问题,无论是在前期制作(例如,LLM 评估、测试)、后期制作(例如,监控、捕捉偏差和偏差、可解释性),甚至延伸到相邻的功能,例如模型安全性和合规性、智能路由和缓存;
我们预计(并且已经看到)这些公司的长期路线图将汇聚到创建端到端可观察性平台,创建单一事实来源用于在制作前和制作后环境中的模型性能。
我们对在 AI 可观测性领域出现类似 Datadog 的结果感到兴奋——然而,鉴于环境不断变化,新的模型、新的训练/微调技术和新型应用的出现,在可观测性领域获胜可能需要一支能够快速提供高产品速度的团队,可能比其他领域更甚。
正如我们从 Datadog 的崛起中了解到的那样,该公司能够在十几个(类似的)竞争对手中脱颖而出,因为他们专注于:

  • 快速执行广泛的产品和能力集;
  • 构建 Datadog 可以监控的深度覆盖;
  • 提供广泛的集成支持,以便将尽可能多的邻近系统带入其生态系统。

我们很高兴能与这代初创公司合作,他们在 AI 堆栈中承担这样的任务。

6、编排

随着新兴的 LLM 和生成 AI 应用公司不断增长,我们看到编排层的公司有重大机会成为 AI 开发的支柱。
作为 AI 开发生命周期中的“乐队指挥”,并负责确保和协调 AI 应用的开发、部署、集成和一般管理,编排供应商是一个关键(并且重要的是,保证供应商中立,即所有信息在中立仿真平台上都绝对安全可靠,合作项目中的任何一方都只能访问到跟他们相关的信息。)的集中枢纽,协调开发者遇到的各种 AI 工具的扩展。
Langchain 和 LlamaIndex 等公司在 LLM 领域早期崭露头角,强大的开源生态系统推动了这些公司的采用。
他们创建了框架,为开发人员提供了一套最佳实践和工具包,用于开发自己的 LLM 应用,抽象了连接正确的数据源到模型、实施检索方法等方面的复杂性。
除了 LLM,我们还看到一个供应商生态系统为基于代理的应用创建编排解决方案,进一步简化了新型创新代理 AI 应用的开发过程。
类似于 ReAct 简化 Web 开发的成功,我们预期 AI 编排供应商有类似的机会简化开发,并赋予大众开发各种 AI 应用(如 LLM、代理、计算机视觉等)的能力。



AI基础设施业务存在巨大机遇





正如马克·吐温曾经说过的:“当每个人都在寻找黄金时,是从事镐和铲子生意的好时机。”
我们相信,为机器学习构建“镐和铲子”有着巨大的机会,这将会催生一大批价值数十亿美元的公司来为企业提供实现 AI 运营化的工具和基础设施。