数据仓库 - 数据集市

为什么我们需要数据集市?

下面列出了创建数据集市的原因 −

  • 对数据进行分区以实施访问控制策略。

  • 通过减少要扫描的数据量来加快查询速度。

  • 将数据分段到不同的硬件平台。

  • 以适合用户访问工具的形式构建数据。

注意 − 不要出于任何其他原因进行数据集市,因为数据集市的运营成本可能非常高。 在数据集市之前,请确保数据集市策略适合您的特定解决方案。

经济高效的数据集市

按照下面给出的步骤使数据集市具有成本效益 −

  • 确定职能划分
  • 确定用户访问工具要求
  • 识别访问控制问题

确定功能划分

在此步骤中,我们确定组织是否存在自然的职能划分。 我们寻找部门划分,并确定部门使用信息的方式是否倾向于与组织的其他部门隔离。 让我们举个例子。

考虑一个零售组织,其中每个商家都有责任最大化一组产品的销量。 为此,以下是有价值的信息 −

  • 每日销售交易
  • 每周销售预测
  • 每日股票头寸
  • 每日库存变动

由于商家对他们不处理的产品不感兴趣,因此数据集市是处理感兴趣的产品组的数据的子集。 下图显示了不同用户的数据集市。

数据集市

以下是确定职能划分时应考虑的问题 −

  • 部门结构可能会发生变化。

  • 产品可能会从一个部门切换到另一个部门。

  • 商家可以查询其他产品的销售趋势来分析发生了什么 销售。

注意 − 我们需要确定使用数据集市的商业利益和技术可行性。

确定用户访问工具要求

我们需要数据集市来支持需要内部数据结构的用户访问工具。 这种结构中的数据不受数据仓库的控制,但需要定期填充和更新。

有些工具可以直接从源系统填充,但有些则不能。 因此,未来需要确定该工具范围之外的其他要求。

注意 − 为了保证所有访问工具之间数据的一致性,数据不应该直接从数据仓库填充,而是每个工具必须有自己的数据集市。

识别访问控制问题

应该有隐私规则来确保数据只能由授权用户访问。 例如,零售银行机构的数据仓库可确保所有账户属于同一法人实体。 隐私法可以强制您完全阻止访问不属于特定银行的信息。

数据集市允许我们通过物理分隔数据仓库内的数据段来构建完整的墙。 为了避免可能的隐私问题,可以从数据仓库中删除详细数据。 我们可以为每个法人实体创建数据集市,并通过数据仓库加载它,其中包含详细的帐户数据。

设计数据集市

数据集市应设计为数据仓库内星片模式的较小版本,并应与数据仓库的数据库设计相匹配。 它有助于保持对数据库实例的控制。

设计数据集市

摘要的数据集市方式与数据仓库中的设计方式相同。 汇总表有助于利用星片架构中的所有维度数据。

数据M集市成本

数据集市的成本衡量标准如下 −

  • 硬件和软件成本
  • 网络访问
  • 时间窗口限制

硬件和软件成本

虽然数据集市是在相同的硬件上创建的,但它们需要一些额外的硬件和软件。 为了处理用户查询,它需要额外的处理能力和磁盘存储。 如果数据仓库中存在详细数据和数据集市,那么我们将面临存储和管理复制数据的额外成本。

注意 − 数据集市比聚合更昂贵,因此应将其用作附加策略而不是替代策略。

网络访问

数据集市可能位于与数据仓库不同的位置,因此我们应确保 LAN 或 WAN 有能力处理数据集市加载过程中传输的数据量。

时间窗口约束

数据集市加载过程占用可用时间窗口的程度取决于转换的复杂性和正在传输的数据量。 确定可能有多少个数据集市取决于 −

  • 网络容量。
  • 可用的时间窗口
  • 正在传输的数据量
  • 用于将数据插入数据集市的机制