【大数据】数据仓库的分层

大数据的分层

数据仓库的分层模型是一种组织数据结构的方法,以支持数据的高效管理和分析。它通常包括以下几个层次:

  1. 源系统层(Source Layer)

    • 这是数据仓库体系结构中的最底层,包含了原始数据。这些数据通常来自多个源系统,如ERP系统、CRM系统等。
  2. 数据抽取层(Staging Layer)

    • 在这一层,数据从源系统中抽取出来,并进行初步的清洗和转换。这一步骤是为了准备数据进入下一阶段的处理。
  3. 数据集成层(Integration Layer)或ODS(Operational Data Store)

    • 在这一层,经过清洗和转换的数据被集成在一起。这里的数据已经被处理成一种更适合分析和报告的格式。
  4. 数据仓库层(Data Warehouse Layer)

    • 这一层是数据仓库的核心,通常包括历史数据的详细记录。数据在这里被进一步整合和汇总,形成多维数据模型,如星型模型或雪花模型,以支持复杂的分析和商业智能应用。
  5. 数据集市层(Data Mart Layer)

    • 数据集市是针对特定业务部门或需求定制的数据仓库。它通常包含了数据仓库层中的一部分数据,专门为某个特定的用户群或业务功能设计。
  6. 展示层(Presentation Layer)

    • 在最顶层,数据被进一步加工成报表、图表和仪表板,供业务用户进行查询和分析。这一层的目的是提供直观、易于理解的数据视图,帮助用户做出决策。

这种分层架构有助于提高数据处理的效率,确保数据质量,同时也便于管理和维护数据仓库。每一层都扮演着独特的角色,协同工作以支持整个组织的数据分析需求。

数据暂存层 Staging Layer

数据抽取层(Staging Layer),也称为暂存层,是数据仓库架构中的一个关键组成部分。它主要用于执行以下几个功能:

  1. 数据抽取

    • 从各种源系统(如ERP、CRM、财务系统等)中抽取数据。这些数据通常是非结构化或半结构化的,并且格式不统一。
  2. 数据清洗和预处理

    • 在暂存层中,原始数据会经过初步的清洗,包括校正数据错误、填补缺失值、格式标准化等。这一步骤是为了确保数据在进入数据仓库之前是准确和一致的。
  3. 数据转换

    • 数据在暂存层会被转换为数据仓库要求的格式。这包括数据类型的转换、计算新的数据字段(如计算销售总额等)、重新组织数据结构等。
  4. 临时存储

    • 暂存层通常也用作临时存储数据的地方。这允许对数据进行多步骤的处理,每个步骤可以独立于其他步骤进行,从而降低处理的复杂性和错误率。
  5. 性能优化

    • 通过将数据处理任务分散到暂存层,可以减少对源系统的负载,同时提高数据处理的效率和速度。
  6. 数据整合

    • 在暂存层,可以从不同的源系统中抽取的数据进行比较和整合,解决数据源之间的不一致问题。

总之,数据抽取层作为数据仓库的一个临时工作区,它为数据在源系统与数据仓库之间的转移和转换提供了一个控制点。这不仅有助于保证数据质量,也为数据仓库的构建和维护提供了灵活性和扩展性。

数据集市层和数据仓库层的区别

数据集市层(Data Mart Layer)和数据仓库层(Data Warehouse Layer)是数据仓库架构中的两个关键层面,它们在目的、设计和使用方式上有一些显著的区别:

1. 目的和焦点

  • 数据仓库层:旨在为整个组织提供一个统一、集中的数据存储环境,支持广泛的查询和分析需求。它包含来自整个组织各个方面的详尽数据,用以支持高层决策和数据分析。
  • 数据集市层:设计为特定部门或业务需求服务,关注特定主题或功能区域。例如,一个财务数据集市可能仅包含财务相关的数据,便于财务部门进行专业分析和报告。

2. 数据范围和粒度

  • 数据仓库层:通常包含大量的详细数据,以及历史数据,可能覆盖多年的信息。这些数据以高粒度保存,以支持多种不同的分析。
  • 数据集市层:数据范围较小,粒度可能更粗或更细,具体取决于特定的业务需求。数据集市通常包含为特定目的优化的数据视图和汇总信息。

3. 设计和维护

  • 数据仓库层:设计复杂,需要考虑组织内所有数据源的集成和数据一致性。维护这样一个庞大的系统需要大量的资源和技术支持。
  • 数据集市层:由于其服务的是特定的用户群和需求,设计通常更简单,更易于管理。数据集市可以独立于数据仓库单独维护,也可以作为数据仓库的一个组成部分。

4. 用户和使用案例

  • 数据仓库层:面向的是整个组织的高级管理人员和数据分析师,他们需要从组织的宏观视角进行分析。
  • 数据集市层:主要服务于特定部门的用户,如销售、财务或市场部门。这些用户通常对他们的特定业务领域有深入的了解,并利用数据集市进行日常的业务分析和决策支持。

总的来说,数据集市和数据仓库虽然在技术上有所重叠,但在应用、设计和目标用户方面各有侧重。数据仓库提供全面的数据视角,而数据集市则提供针对特定业务问题的专门数据和分析工具。

资料图

https://datawarehouseinfo.com/data-warehouse-architecture/

file

https://campus.datacamp.com/courses/introduction-to-data-warehousing/warehouse-architectures-and-properties?ex=1

file

https://acuto.io/blog/data-warehouse-architecture-types/

file

https://www.altexsoft.com/blog/enterprise-data-warehouse-concepts/

file

Leave a Comment