数据仓库 - 术语
在本章中,我们将讨论数据仓库中一些最常用的术语。
元数据
元数据简单地定义为关于数据的数据。 用于表示其他数据的数据称为元数据。 例如,一本书的索引充当书中内容的元数据。 换句话说,我们可以说元数据是引导我们获得详细数据的汇总数据。
就数据仓库而言,我们可以将元数据定义如下 −
元数据是数据仓库的路线图。
数据仓库中的元数据定义了仓库对象。
元数据充当目录。 该目录帮助决策支持系统定位数据仓库的内容。
元数据存储库
元数据存储库是数据仓库系统的组成部分。 它包含以下元数据 −
业务元数据 − 它包含数据所有权信息、业务定义和更改策略。
操作元数据 − 它包括数据流通和数据沿袭。 数据的流通性是指处于活动、存档或清除状态的数据。 数据沿袭是指数据迁移和转换的历史记录。
用于从操作环境映射到数据仓库的数据 − 它的元数据包括源数据库及其内容、数据提取、数据分区、清洗、转换规则、数据刷新和清除规则。
摘要算法 − 包括维度算法、数据粒度、聚合、汇总等。
数据立方体
数据立方体帮助我们以多个维度表示数据。 它是由维度和事实定义的。 维度是企业保存记录的实体。
数据立方体图示
假设一家公司希望借助销售数据仓库来跟踪有关时间、项目、分支机构和位置的销售记录。 这些维度允许跟踪每月销售额以及在哪个分店销售商品。 每个维度都有一个关联的表。 该表称为维度表。 例如,"item"维度表可能具有 item_name、item_type 和 item_brand 等属性。
下表展示了公司销售数据在时间、商品和位置维度方面的二维视图。
但在这个二维表中,我们仅记录了时间和项目。某地区的销售额按照时间和商品尺寸(根据所售商品类型)显示。 如果我们想要以多一个维度(例如位置维度)查看销售数据,那么 3D 视图将会很有用。 下表显示了有关时间、商品和地点的销售数据的 3D 视图−
上面的3维表可以表示为3维数据立方体,如下图所示 −
数据集市
数据集市包含组织范围数据的子集,这些数据对组织中的特定人员群体有价值。 换句话说,数据集市仅包含特定于特定组的数据。 例如,营销数据集市可能仅包含与商品、客户和销售相关的数据。 数据集市仅限于主题。
关于数据集市需要记住的要点
基于Windows或基于Unix/Linux的服务器用于实现数据集市。 它们是在低成本服务器上实现的。
数据集市的实施周期是在短时间内衡量的,即以周为单位,而不是以月或年为单位。
如果数据集市的规划和设计不是在整个组织范围内进行,那么从长远来看,数据集市的生命周期可能会很复杂。
数据集市规模较小。
数据集市按部门定制。
数据集市的来源是部门结构的数据仓库。
数据集市非常灵活。
下图显示了数据集市的图形表示。
虚拟仓库
操作数据仓库的视图称为虚拟仓库。 建立虚拟仓库很容易。 构建虚拟仓库需要运营数据库服务器上有多余的容量。