数据仓库 - 概念

什么是数据仓库?

数据仓库是构建和使用数据仓库的过程。 数据仓库是通过集成来自多个异构源的数据来构建的,这些数据支持分析报告、结构化和/或即席查询以及决策。 数据仓库涉及数据清理、数据集成和数据整合。

使用数据仓库信息

有一些决策支持技术可以帮助利用数据仓库中的可用数据。 这些技术可帮助管理人员快速有效地使用仓库。 他们可以收集数据、分析数据,并根据仓库中的信息做出决策。 仓库中收集的信息可用于以下任何领域 −

  • 调整生产策略 − 通过重新定位产品,通过季度或年度销售比较来管理产品组合,可以很好地调整产品策略。

  • 客户分析 − 客户分析是通过分析客户的购买偏好、购买时间、预算周期等来完成的。

  • 运营分析 − 数据仓库还有助于客户关系管理和环境纠正。 这些信息还使我们能够分析业务运营。

集成异构数据库

为了集成异构数据库,我们有两种方法 −

  • 查询驱动方法
  • 更新驱动的方法

查询驱动方法

这是集成异构数据库的传统方法。 这种方法用于在多个异构数据库之上构建包装器和集成器。 这些集成器也称为中介器。

查询驱动方法的流程

  • 当向客户端发出查询时,元数据字典会将查询转换为适合所涉及的各个异构站点的适当形式。

  • 现在这些查询已映射并发送到本地查询处理器。

  • 来自异构站点的结果被集成到全局答案集中。

缺点

  • 查询驱动的方法需要复杂的集成和过滤过程。

  • 这种方法效率非常低。

  • 频繁查询的成本非常高。

  • 这种方法对于需要聚合的查询来说也非常昂贵。

更新驱动方法

这是传统方法的替代方法。 今天的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。 在更新驱动方法中,来自多个异构源的信息被预先集成并存储在仓库中。 这些信息可以直接查询和分析。

优点

这种方法有以下优点 −

  • 这种方法提供了高性能。

  • 数据预先在语义数据存储中进行复制、处理、集成、注释、汇总和重组。

  • 查询处理不需要接口来处理本地源的数据。

数据仓库工具和实用程序的功能

以下是数据仓库工具和实用程序的功能 −

  • 数据提取 − 涉及从多个异构源收集数据。

  • 数据清理 − 涉及查找并纠正数据中的错误。

  • 数据转换 − 涉及将数据从旧格式转换为仓库格式。

  • 数据加载 − 涉及排序、汇总、合并、检查完整性以及构建索引和分区。

  • 数据刷新 − 涉及从数据源到仓库的更新。

注意 − 数据清洗和数据转换是提高数据和数据挖掘结果质量的重要步骤。