数据仓库 - 元数据概念

什么是元数据?

元数据简单地定义为关于数据的数据。 用于表示其他数据的数据称为元数据。 例如,一本书的索引充当书中内容的元数据。 换句话说,我们可以说元数据是引导我们获得详细数据的汇总数据。 就数据仓库而言,我们可以如下定义元数据。

  • 元数据是数据仓库的路线图。

  • 数据仓库中的元数据定义仓库对象。

  • 元数据充当目录。 该目录帮助决策支持系统定位数据仓库的内容。

注意 − 在数据仓库中,我们为给定数据仓库的数据名称和定义创建元数据。 除了这些元数据之外,还创建了其他元数据,用于对任何提取的数据(提取数据的来源)进行时间戳标记。

元数据类别

元数据可大致分为三类 −

  • 业务元数据 − 它具有数据所有权信息、业务定义和更改策略。

  • 技术元数据 − 它包括数据库系统名称、表和列名称和大小、数据类型和允许的值。 技术元数据还包括结构信息,例如主键和外键属性和索引。

  • 操作元数据 − 它包括数据流通和数据沿袭。 数据的流通性是指数据是活动的、存档的还是已清除的。 数据沿袭是指数据迁移和转换的历史记录。

元数据类别

元数据的作用

元数据在数据仓库中起着非常重要的作用。 元数据在仓库中的作用与仓库数据不同,但它起着重要的作用。 下面解释了元数据的各种作用。

  • 元数据充当目录。

  • 该目录帮助决策支持系统定位数据仓库的内容。

  • 当数据从运营环境转换到数据仓库环境时,元数据有助于决策支持系统进行数据映射。

  • 元数据有助于汇总当前详细数据和高度汇总的数据。

  • 元数据还有助于在不太详细的数据和高度概括的数据之间进行汇总。

  • 元数据用于查询工具。

  • 元数据用于提取和清理工具。

  • 元数据用于报告工具。

  • 元数据用于转换工具。

  • 元数据在加载函数中发挥着重要作用。

下图显示了元数据的作用。

元数据的作用

元数据存储库

元数据存储库是数据仓库系统的组成部分。 它具有以下元数据 −

  • 数据仓库的定义 − 它包括数据仓库结构的描述。 描述由架构、视图、层次结构、派生数据定义以及数据集市位置和内容定义。

  • 业务元数据 − 它包含数据所有权信息、业务定义和更改策略。

  • 操作元数据 − 它包括数据流通和数据沿袭。 数据的流通性是指数据是活动的、存档的还是已清除的。 数据沿袭是指数据迁移和转换的历史记录。

  • 用于从操作环境映射到数据仓库的数据 − 它包括源数据库及其内容、数据提取、数据分区清理、 转换规则、数据刷新和清除规则。

  • 摘要算法 − 包括维度算法、数据粒度、聚合、汇总等。

元数据管理的挑战

元数据的重要性怎么强调都不为过。 元数据有助于提高报告的准确性、验证数据转换并确保计算的准确性。 元数据还向业务最终用户强制执行业务术语的定义。 在元数据的所有这些用途中,它也面临着挑战。 下面讨论一些挑战。

  • 大型组织中的元数据分散在整个组织中。 这些元数据分布在电子表格、数据库和应用程序中。

  • 元数据可以存在于文本文件或多媒体文件中。 要将这些数据用于信息管理解决方案,必须正确定义它。

  • 没有行业范围内接受的标准。 数据管理解决方案供应商的关注点很窄。

  • 没有简单且可接受的元数据传递方法。