数据仓库是由分层架构组成的,用于收集、存储和管理与业务相关的数据。数据仓库架构的形状和大小取决于业务需求和数据量大小。在此文章中,我们将从多个角度来分析数据仓库架构分为什么。
1.逻辑分层
数据仓库架构通常包括三个逻辑分层:数据存储层、数据访问层和数据应用程序层。数据存储层是物理存储数据库的地方。通常,这个层级会分为多个数据存储模式,包括星型模式、雪花模式和基于事实表的模式。数据访问层提供用户对数据仓库的访问,使用各种报告工具、OLAP分析工具以及数据挖掘工具。数据应用软件层是指包含与业务无关的数据管理功能的应用程序,如数据源结构设计、数据清理和ETL功能等。
2.物理分层
数据仓库架构通常具有两个或更多个物理分层:存储层和处理层。存储层通常包括三个层级:原始数据存储、清理数据存储和集成数据存储。原始数据存储用于存储原始事务数据,该数据通常来自多个异构数据源。清理数据存储用于存储已清理过、格式化过的数据,以便进行后续处理。集成数据存储通常是规范化的、整合的数据,已经准备好用于用户分析。处理层包含了数据仓库的处理和分析功能,包括查询、报告、OLAP和数据挖掘。
3.客户需求
数据仓库架构也根据客户需求来定制。这实际上是一个重要的考虑因素,要考虑到客户的需求和特定行业的需求。例如,在金融行业,需要多个分析维度、快速查询和可扩展性,以及高度平均化的数据质量,因此该行业的数据仓库架构应该适应这些要求。
4.实时或批处理
数据仓库架构也能够根据实时和批处理操作进行分层。如果数据仓库需要即时入库,那么实时数据流可以进入内存,在线分析处理引擎实时处理,然后进入仓储部分。然而,批处理一般是在晚些时候执行。
总的来说,数据仓库架构的设计应该是一个协调所有因素的过程。需要根据不同角度来考虑,包括逻辑分层、物理分层、客户需求以及实时或批处理操作等多个方面进行分析和引导。
扫码咨询 领取资料