点击蓝字,关注我们

为什么DWS必须“足够厚”
在很多团队的数据体系中,DWS 层往往被低估,甚至被直接弱化,结果就是所有需求都堆到了 ADS 层去解决。短期看似灵活,长期却会迅速失控。

DWS 的本质定位,是公共汇总层与复用层。它不是为某一个报表服务,而是为“多个应用共享”提供统一的数据基础。如果这一层建设不足,每一个新需求都会重新计算、重新定义口径,最终形成一堆互不兼容的结果。
实践中,一个健康的状态是:大约 70% 的分析需求可以直接通过 DWS 组合完成。这意味着,大部分场景不需要重新建表,而是在已有公共能力上进行组合。这种“拿来即用”的能力,是复用价值的核心体现。
反过来看,如果每个部门都有一套自己的 ADS 表,每个报表都有自己的指标口径,就会出现典型的烟囱化问题:同名指标对不上、重复计算、数据无法对齐。团队的大量时间会消耗在对口径,而不是分析业务。
DWS 的价值,恰恰在于解决这些共性问题。它通过沉淀高频维度组合的聚合结果、构建面向主题的宽表,以及统一输出公共指标口径,把原本分散的计算前置到离线层。这样一来,线上查询不再依赖临时大规模 join 或全表扫描,整体性能和成本都会更加可控。
更重要的是,它改变了团队协作方式。指标不再依赖口头约定,而是以数据资产的形式存在:有 owner、有定义、有血缘、有质量规则。所谓“口径争议”,本质上被转化成“资产治理问题”。
但这里有一个前提:DWS 必须是可治理的。如果字段没有解释、指标没有定义、更新频率不清晰、质量规则缺失,那么这一层只会变成“没人敢用的宽表集合”,反而降低复用率。
公共汇总与主题宽表:
复用与性能的平衡
DWS 的设计,核心围绕两类表展开:公共汇总表与主题宽表。
公共汇总表的关键在于“清晰”。它必须明确聚合粒度(例如日、周、月或累计)、明确维度组合(如时间、组织、渠道、品类等),以及明确度量口径(金额、数量或次数的统计范围)。如果这些边界不清晰,后续所有复用都会变得不可靠。
主题宽表则更偏向“易用性”。它通常围绕某一业务域展开,例如用户、交易或商品,把高频 join 的维度属性提前拉平,减少查询时的复杂度。但需要强调的是,宽表是服务分析的结果形态,而不是事实表的替代,它必须能够追溯回底层模型。
在实践中,一个常见问题是宽表不断膨胀。为了解决这个问题,可以基于字段使用频率进行治理,将高频字段保留在主宽表中,低频字段拆分或按需关联,并定期根据使用情况进行瘦身。
另外一个容易踩的坑,是在同一张表中混合不同聚合层级,例如同时存在日级和月级数据。这种设计会极大增加误用风险,也会让维护变得复杂。更合理的方式,是按层级拆分表,或至少在命名上做强约束。
所有这些设计的前提,是一致性维度的存在。用户、组织、渠道、时间等核心维度必须统一编码和口径,否则任何跨表复用都会失效。
从性能角度看,DWS 的核心策略始终是“预聚合优先”。先通过离线计算减少数据扫描规模,再去考虑索引、分区或物化视图等查询优化手段。否则,所有优化都会变成补救措施。
指标体系:从原子到复合
的分层设计
如果说 DWS 解决的是“数据复用”,那么指标体系解决的就是“口径统一”。
一个可治理的指标体系,通常分为三个层级:原子指标、派生指标和复合指标。
原子指标是最基础的度量单元,它必须清晰定义统计对象、统计范围、过滤条件以及时间口径。例如“支付成功金额”,必须明确只统计成功状态,并基于支付完成时间。
派生指标是在原子指标之上进行计算,例如客单价可以由“支付成功金额 / 支付成功订单数”得到。这里的关键在于,派生指标必须继承原子指标的口径,否则会产生偏差。
复合指标则跨越多个过程或业务域,例如转化率、留存或复购。这类指标更依赖一致的维度体系和事件定义,是最容易产生歧义的部分。
为了避免混乱,每一个指标都必须具备完整的“四要素”:业务定义、计算公式、统计范围和时间口径。这不仅是文档要求,更是可追溯和可审计的基础。
同时,指标必须具备版本管理能力。口径的变化不能直接覆盖历史结果,而应该通过版本或生效时间进行管理,否则报表会出现“历史数据被改写”的问题。
在分层上,原子指标应尽量沉淀在 DWS(或可追溯到 DWD),而 ADS 层只负责轻量组合与展示。如果让 ADS 承担口径定义职责,它很快就会变成新的“口径制造层”。
ADS与数据集市:
面向消费的交付设计
如果说 DWS 是“沉淀”,那么 ADS 层就是“交付”。
ADS(或 DM,数据集市)的核心目标,是面向具体消费场景提供数据产品,例如 BI 报表、接口服务或专题分析数据集。这个层级的数据结构,更强调“好用”,而不是“通用”。
因此,交付表的设计应遵循“一表一场景”的原则。字段命名可以更贴近业务语义,也可以增加展示字段、排序字段或状态解释字段,以提升使用体验。
但有一条底线必须坚持:交付层不应该发明口径。所有核心指标都必须来源于 DWS 或指标体系,ADS 只负责组合、格式化和轻量计算。如果这一原则被打破,很快就会回到“每个报表一套口径”的老路。
在更新频率上,需要根据业务 SLA 做明确约束。日更、小时更甚至分钟级更新,都会直接影响计算链路和资源成本。频率越高,越需要控制字段规模和计算复杂度。
数据集市的治理同样关键。虽然可以按部门或场景划分,但必须基于统一的维度与指标体系构建。允许通过视图或语义层满足差异需求,但不应该复制一套底层逻辑。
从“快速交付”到“可持续演进”
很多团队在早期都会经历一个阶段:为了快速交付,不断在 ADS 层堆表。短期来看,响应速度很快,但随着时间推移,问题会逐渐显现——交付层膨胀,公共层空心化,维护成本急剧上升。
一个更健康的模式是:公共层逐步变厚,交付层保持轻量,并持续把通用能力回收沉淀到 DWS。
这也意味着,交付表必须具备生命周期管理能力。通过统计使用频率,及时下线低价值表,或将通用字段与指标回收至公共层,避免重复建设。
最终,一个成熟的数据体系,不是“建得快”,而是“用得久”。而 DWS 与 ADS 的分层设计,正是支撑这种长期演进能力的关键。
前文回顾:
下文预告:
(五)数据仓库建设规范与命名体系

·END·
白鲸开源是一家开源原生的商业公司,是国家高新技术企业,由多个Apache Foundation Member成立,80%员工都是 Apache Committer,运营2个全球Apache开源项目(, )。白鲸开源已根据全球最佳实践发布商业版产品WhaleStudio(含白鲸数据调度平台和白鲸数据集成平台)。我们致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。
了解更多

国内某头部理财服务提供商基于白鲸调度系统建立统一调度和监控运维
白鲸调度系统助力国内头部券商打造国产信创化 DataOps 平台
白鲸开源 DataOps 平台助力证券行业实现信创数字化转型
最佳实践 | 从迁移到Apache DolphinScheduler
Apache DolphinScheduler VS WhaleScheduler
代立冬:基于Apache Doris+WhaleTunnel 实现多源实时数据仓库解决方案探索实践
驾驭数据的未来:WhaleStudio与DataOps的完美结合
运营开源项目

点个在看你最好看
